當前位置:
首頁 > 科技 > 宕機的阿里雲們正在殺死運維行業嗎?

宕機的阿里雲們正在殺死運維行業嗎?

作者 | Lisa、小智

當運維的工作都能託管在雲平台上解決時,運維還有以後嗎?

1

雲計算正在殺死運維嗎?

近年來,「去運維」的相關討論甚囂塵上,但似乎沒有引起程序員的過多關注或者大範圍討論。近日,程序員論壇 V2EX 上出現一個熱議話題「阿里雲正在緩慢而穩步地殺死運維行業」,這似乎表明運維人員最終還是感受到了來自雲計算髮展帶來的巨大壓力。發帖者認為,「當容器服務集群、跨地域監控與容災 / 保活、DBA、代碼託管與 CI/CD 都能全部依託阿里雲產品時,運維已經被踢出 IT 行業」。

一石激起千層浪,有人認為這只是杞人憂天,並反問「阿里雲自己都剛宕機,還想說不需要運維嗎?」,有人則認為英雄所見略同,還有人進一步將未來的運維闡述成「雲維」。

技術的發展不能缺少埋頭苦幹的人,但也少不了抬頭看路的人。針對這個問題,我們想跟大家聊聊,究竟雲計算的發展,是否會造成運維崗位的消亡?

2

沒有運維的 Netflix 和運維轉研發的阿里巴巴

Netflix 的運維模式

Netflix 從一開始就強調開發人員進行自助化運維,他們的理念是:誰構建,誰運維。其運維工作全部由開發人員完成,只保留極少的 Core SRE 角色專門響應和處理嚴重等級的故障。

類似的還有亞馬遜,無論是電商業務還是 AWS 公有雲業務,都由開發負責。

在 Netflix 看來,建立起獨立運維團隊的主要助益,在於當一切進展順利時,開發人員不致因運維任務的介入而分神。然而,當工作進展遭遇阻礙時,成本就會快速疊加起來。開發人員與 SRE 之間的溝通與知識轉移往往存在嚴重損耗,且需要額外的往來以實現問題調試或解答合作夥伴的疑問。

由於運維團隊對需要部署的變更本身缺少直接了解,因此問題部署通過會帶來更長的檢測與解決周期。當時在代碼完成到部署之間的時間斷檔要遠遠長於當前,發布時長往往需要數周而非數天。這方面反饋主要來源運維人員,他們大多親身經歷過諸如警報 / 監控缺失或者性能問題以及延遲增加等挑戰,而這些問題最終又會被轉移至開發人員手中。

為此,Netflix 從 DevOps 運動的基本原則中汲取靈感,提出了「誰構建,誰運維」這一理念,旨在鼓勵系統開發團隊同時負責系統的運維與支持工作,從而真正將 DevOps 引入實踐。

阿里巴巴的運維模式

阿里技術團隊在 2016 年左右開始了一次大的組織架構調整,即把日常的運維工作交給研發做。原來的 PE(Production Engineer)要麼轉崗去做工具平台開發,要麼作為運維專家做產品規劃和設計,還有一部分無法適應的只能黯然離開。

這是阿里運維從工具化到自動化最重要的一個過程。集團性公司支撐的 BU 一般非常多,導致運維團隊基本都是在干臟活、雜活。從組織層面上做出這樣的調整後,運維團隊的大多數人更多的時間是投入在研發工作上,而不是投入在日常的雜事上。這是 DevOps 真正意義上被徹底執行。

隨著公司規模的逐漸擴大,從人肉運維到工具化運維再到自動化運維乃至 AI 時代的智能化運維,對於運維能力的要求是越來越高,對於運維人手的要求卻越來越小。無怪乎有人發出這種論斷:雲計算(AI)正在殺死運維!

3

所以,運維如何逃過這場「追殺」?

隨著自動化的逐步完善,單個 PE 能夠支持的業務變得越來越多,很多事情似乎都可以通過自助完成,很多公司可能在潛移默化中就降低了對應用運維崗位的需求,逐漸以一種類似阿里的發展方式運行,似乎用不了多久,運維崗位就會被普遍「殺死」,運維人員應該如何做好轉型和過渡呢?

運維人員如何做好轉型?

根據科技發展的歷史,每次技術革新都會丟掉一部分舊工作,並帶來更多更有價值的新職位,某位圈內雲計算專家在接受 InfoQ 採訪時表示:

雲廠商確實在運維層面做了很多工作,但這部分工作並不是運維最看重的。換句話說,這些工作都不能體現運維人員的核心競爭力。過去,運維相當於黃包車車夫,累死累活半天可能也就繞著二環跑了兩圈;現在,雲平台可以免押金租給他們一輛汽車,輕鬆一天往返五次機場,你覺得哪種司機掙得多呢?

在雲時代,運維人員並不是沒有價值,而是會變得更加重要。雲計算承諾高彈性、高可用、高性能、智能化,但公有雲的 SLA 真不是目前的 AIOps 和運維自動化工具可以獨立承擔的。

專家認為,運維團隊的實力也是雲計算服務商的核心競爭力,雲計算要求更高的運維能力,能夠保障大規模基礎設施和業務穩定運行。對於企業用戶而言,底層基礎設施的運維工作確實可以甩給第三方公有雲服務商統一負責,但上層應用的運維工作還需要企業自己來承擔,比如環境配置,不過更多的是 DevOps。

因此,運維人員必須學會適當的角色轉變。今後,運維領域的發展傾向於具備開發能力,尤其是產品能力,足以設計好的運維工具和平台的技術人才,這種觀點也基本得到運維領域技術專家的認可。

採訪中,某一線互聯網公司運維負責人表示:

未來,運維崗位不會被淡化,相反會發展的越來越好。現在,之所以會有很多人擔憂運維的未來,是因為如今大多數公司的運維其實就是打雜的,這主要歸因於基礎設施不夠完善,需要運維手工補齊短板,所以運維需要承擔很多臟活、累活。當基礎設施短板補齊,運維可以在上面做更多業務側的工作。從大公司和公有雲角度來看,他們確實不需要這麼多運維,但是市場體量將會變大,運維人員的需求也會隨之增加。

當企業逐漸雲化,運維崗位可能會適當精簡,但是不會被完全取代,企業仍然需要人員負責資源管理、應用部署升級、監控和故障處理。按照 DevOps 理論來說,可能所有這些都可以由開發人員完成。當然,最理想的情況可能就是運維團隊開發工具和平台,開發人員自己運維。

無論如何,應用運維可能都需要適當轉型,極客時間《趙成的運維體系管理課》的專欄作者趙成曾在文章中提及:

無論是做運維轉型還是做其他技術轉型,具備代碼開發能力都已經成為一項必備技能。

他建議:

如果對開發工作缺乏自信,可以先從 Python、PHP 和 Go 這些上手比較簡單的語言開始,這不是指寫腳本,而是一定要能夠實現完整的業務功能或流程

其次,需要提升產品意識,這並不是要求所有運維同事都成為優秀的產品經理,或者具備很強的產品設計能力,而是一定要有產品意識,這一點小轉變就可能帶來很大不同;

最後,提升技術運營意識,簡單來說就是可以根據需求把承載標準化和規範體系的工具平台真正落地應用。在這個過程中,通過問題收集和一定數據分析,再回到產品設計和需求流程中進行改進,從而形成良性閉環。

留給運維人員的時間還有多少?

好在,目前這項進程的轉變步伐不算很快。一位與傳統大型企業打了十多年交道的技術專家認為:

雖然雲計算以及人工智慧吸引了很多企業嘗鮮,但目前並沒有看到這些新服務真正落地並為傳統企業帶來很大價值,大部分應用還停留在表層,這項技術所能帶來的潛力還沒有被最大化挖掘。就實際應用而言,目前市場上的公有雲服務成本依舊普遍偏高,易用性也不足以達到單憑傳統企業的技術能力就可以短時間內學會的程度。

因此,雖然雲計算和人工智慧是未來的重要發展趨勢,但短期內還存在很多問題需要解決,企業需要具備專業的技術團隊來更好得將雲服務落地,並保證服務的可用性和可靠性。目前,很多企業尚處於混合雲階段,數據的流轉、計算等環節都需要技術和運維人員的存在。短期內,運維人員仍然在公司中具有重要地位

另一方面,我們必須承認雲計算和人工智慧所帶來的挑戰。如今,企業已經從單純選用 IaaS 服務向 PaaS 和 SaaS 層過渡,這些產品基本都在公有雲平台內部經歷了長時間的磨練和運行,這讓不少新興企業只需要專註業務邏輯,而無需自研純技術產品。這種情況下,企業非但不需要應用運維這些基礎崗位,就連門檻較高的分散式中間件研發崗位可能也會大量縮減

面對這些改變,運維人員唯一的辦法就是不斷學習和提升自己的技能,保持自身的與時俱進,及時做出相應調整和改變,這才是應萬變的根本之道。

回到最初的問題,你覺得阿里雲們正在殺死運維行業嗎?歡迎在評論區分享你的看法。

(小彩蛋:流浪地球里的運維工程師犧牲了,開發活了下來……)

如果你想成體系地學習提升程序員的各種軟、硬技能,推薦「極客時間 VIP 年卡」,365 天暢看極客時間全部課程,內容覆蓋架構、人工智慧、前端、產品實戰、技術領導力等 12 大技術領域知識。最後 6 天優惠倒計時,價格即將上漲 50%。

點個好看少個 bug


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

使用Flutter之後,我們的CPU佔用率降了50%
從初創公司的角度來看微服務

TAG:InfoQ |