當前位置:
首頁 > 知識 > 沉澱|訪談阿里孫偉光:多行善事莫問前程的他,將計算集群的CPU利用率從30%提升到70%+

沉澱|訪談阿里孫偉光:多行善事莫問前程的他,將計算集群的CPU利用率從30%提升到70%+

《沉澱》是雲棲社區展示專家風采的人物欄目。它呈現每個專家獨一無二的人生經歷、認識和感悟的同時,也能幫助你沉澱技術,收穫對技術和人生的判斷。我們的想法是:「若你想精進為一個很厲害的人,不妨細細品味這些技術牛人背後的沉澱。」如果你想了解這些雲棲專家更多分享時,請點擊雲棲專家頻道,當然我們也歡迎你往前走一步,成為我們的雲棲專家(https://yq.aliyun.com/expert),與技術大牛一起「煮酒論英雄」。



提到程序員三個字,有些人的固有印象里會立馬冒出如下標籤:屌(碼)絲(農)、不修邊幅、沒情調……

而光哥,哦,不好意思——應該是「光戈」,在內網的18個標籤中,被以下三大類佔據:

  1. 富二代她父親…

  2. 身材非常棒…

  3. 會做肉鬆,有點2的光光…

在技術上,2014年轉型做大數據,他研發的產品,在不增加任何投入的情況,將計算集群的CPU利用率從30%多提升到70%以上,極大地提高了伺服器的利用率;與此同時,他在內網的技術社區上(ATA),活躍度在全集團前十。

是的,這是一位事業有成,生活有質量,也有品位的技術人。如果把時鐘往前撥,回顧他的整個技術生涯,你會發現,今天處之泰然的背後,也有艱辛:

1.因為工作,三年間幾乎跑遍整個河北省和河南省;

2.因為想成為一名DBA,於是他把市面上的相關書籍都看了,並且寫了幾百篇Oracle的文章;

……

光戈是誰?做什麼工作?究竟是怎麼樣的一個人?他的人生經歷和技術思考能給大家帶來什麼樣的啟發?第13期《沉澱》人物欄目專訪了這位阿里專家。

三年時間,跑遍了整個河北和河南省

沉澱|訪談阿里孫偉光:多行善事莫問前程的他,將計算集群的CPU利用率從30%提升到70%+

照片背後的故事:「這種(照片)行么?」如果你是最想放這種照片,是可以的。「好,就這個!」

光戈,真名孫偉光,他是阿里數加平台數據集成產品的負責人,工作內容是領導阿里集團內專有雲、公有雲環境的數據採集,以及傳輸和分發。目前經他保障集團和公有雲的實例每天有數十萬,數據同步將近千TB。

孫偉光2004年畢業於瀋陽工業大學,畢業後就加入了東軟,負責社保軟體的開發。這是一份負責醫療保險軟體的開發和實施的工作,包括社保中心端和醫院(藥店)醫保系統。看似是份普通的開發工作,然而工作內容很雜,他要負責包括開發、部署、維護、簽合同以及收合同款……等等的工作。這樣的工作,他硬生生地做了三年,而與之伴隨的則是三年的時間,他也幾乎跑遍了整個河北和河南省。

對於這段經歷,孫偉光最難忘的是在邢台。在那,他差不多待了將近一年的時間。這一年,他與同事承擔起整個邢台醫保中心軟體的開發和實施,以及全市上百個醫院和藥店的維護工作。在他人看來,這段瘋狂的出差經歷,是十足的苦差事,但在孫偉光眼中,他卻看到了「收穫」二字。「這段經歷讓我學會如何與人溝通,推進事情;也學會如何承擔責任。」在採訪中,他澄沙汰礫地回復雲棲社區。

2007年,孫偉光加入阿里巴巴B2B。之所以選擇阿里B2B,是因為他想成為一名DBA,而當時的B2B在整個中國DBA領域有著巨大的影響力。

為了實現這個夢想,他開始每天泡ITPUB,並把市面上所有關於Oracle的書籍都刷了一遍。對於當時的瘋狂,他回憶:「每天都在電腦上做測試,為了沉澱所學,甚至還寫了幾百篇有關Oracle的文章。」

理想和現實總是會有些許差距的,有的人會嘆不如意,就此自怨自艾;而有的人則視為是一個新的起點,不斷上進。孫偉光是加入了阿里,並且部門也是B2B,然而崗位卻是數據倉庫。但這位樂天派的技術人顯然是後者,絲毫不以為意,他覺得崗位跟DBA是有些區別,但好在總是跟數據相關。

從開發轉做數據倉庫,頗有些挑戰。一個挑戰是工作環境,東軟基本都是Windows開發,而阿里則是Linux……總體來說,這個挑戰還好,只要稍微用點時間就能適應。最大的挑戰是數據倉庫的工作一半是技術,一半業務,需要投入很大的精力來理解業務,並且要思考如何通過數據來提升業務。

「一半是技術,一半是業務,你是如何應對這個挑戰的?」

「經常到財務那邊,與業務同學『親密』接觸。」他很認真的說到。

將計算集群的CPU利用率從30%多提升到70%以上

2014年,孫偉光加入阿里雲ODPS團隊,開始做HBO。

HBO(History-Based Optimization)是基於任務執行歷史的優化,通過對任務歷史執行情況的分析,根據優化規則生成更加高效的執行方式。簡單點,則可以理解為:任務執行歷史+集群狀態信息+優化規則→更優的執行配置。

為什麼要做HBO,孫偉光說:「當時開發的背景是整個ODPS的集群利用率比較低,而ODPS的任務優化又是專業度比較高的事情,用戶很難自己進行優化。」因此,孫偉光被委以重任,負責開發這樣的一款產品。

實際上,在HBO開發之前,是沒有可以參照、對比的競品。在獨自摸索的情況下,孫偉光終於把HBO開發成功,不僅成功,而且成績斐然——HBO在不增加任何投入的情況,將計算集群的CPU利用率從30%多提升到70%以上,極大地提高了伺服器的利用率。

將計算集群的CPU利用率從30%多提升到70%以上——這是如何做到的?孫偉光在訪談中剖析:「簡單來說,問題的根本是ODPS默認的資源分配規則並不適合集群的現狀,而HBO除了會分配更多的資源給大任務,加速其運行;也會分配較少的資源給小任務,在保證其執行效率的前提下節省更多的資源。」

輕描淡寫的背後,則埋藏著一個又一個的難解問題。其中一個難題是:每次HBO的規則變化都需要在線上和生產環境中驗證。那如何減少對線上任務產生不良影響的前提下,推動規則的優化和發展?

「我的解決方法是:與當時公共層的ETL開發任務一起合作;其次對每次的規則優化採取漸進式的手段,控制影響範圍,並詳細記錄優化前後的數據變化,及時對優化前後的效果做回收。」正如他回答中一貫的幹練形象,對於難題的解決究竟都經歷了啥,孫偉光並沒有鋪墊其他東西,而是說出答案直指問題。

針對產品本身數據的分析和挖掘,往往能帶來意想不到的提升

在ODPS,孫偉光雖然只工作了三年,但他一直在做數據相關的工作,並經歷了一些部門和崗位。

因此,這位和數據打交道的技術人沉澱了不少心得,他和雲棲社區提到其中一點:「雖然周圍人都是做數據的,但是大家其實對本身產品的一些數據並不那麼在意。然而針對產品本身數據的分析和挖掘,往往能帶來意想不到的提升。」

他怕筆者不理解,就舉了一個例子:「拿阿里集團內部的數據集成產品來說,印象中離線的數據集成任務都是同步數據量相對比較大,同步時間比較長。」

孫偉光進一步敘述他的發現——通過對歷史數據的分析發現,大部分離線的任務也是執行時間比較短的任務,所以對整個傳輸流程中的優化是比較重要的,這樣能極大的提高同步外的時間消耗,提高同步效率。

「在設備非常多的今天,數據越來越大,也越來越雜,在如何保障數據採集、傳輸和分發更加高效、穩定上,你是否有一些心得?」雲棲社區追問。

孫偉光的回答一如既往的幹練,他認為想要保證數據採集,傳輸和分發更加高效,穩定,一定要對整個數據集成的過程都有深刻的理解。他接著進一步闡述該如何去做:「你需要了解每種數據源的特性,需要了解網路傳輸的底層原理,只有這樣才能做更有針對性的優化和提升。」

最後,我們也聊到數據採集、傳輸和分發的未來趨勢,雲棲社區總結了他回答中的兩個關鍵詞:「成本低」和「智能」。具體來看則是,未來用戶使用成本會越來越低,對他們而言未來只需要關注任務配置,而其他的事情全部交給產品本身;同時,產品會越來越智能,通過對執行歷史的學習,根據優化規則,自動的對整個數據傳輸過程做智能的優化。

結束語:多行善事,莫問前程

回顧自己整個技術生涯,孫偉光覺得自己最重要的是技能是,通過對產品相關數據的學習和分析,快速理解一款產品在各個方面的狀態。對於即將畢業的計算機系同學,他給了一些技術發展建議:思路要儘可能的開闊,提高技術的廣度。

這位喜歡舉鐵的技術人,每周都會堅持健身,他說健身的時候比較放鬆,一些工作上的思考放在這個時間,往往能有意想不到的收穫。

他最喜歡的一句話是——多行善事,莫問前程。

「能說說你的進一步理解嗎?」雲棲社區想挖一挖背後的緣由。

「做事情不能單單盯著KPI,不是KPI的事情不做。」他的簡潔和直指問題本質的能力又出來了。他知道當下各大互聯網公司KPI的管理弊端,以及互聯網人的本位主義、急功近利和本末倒置。

隔了一會,他復又在回復中敲了如下幾個字:「多做些有意義的事情,別太在乎得失。」

想起他為什麼能將計算集群的CPU利用率從30%多提升到70%以上,也想起他為什麼能發現——「針對產品本身數據的分析和挖掘,往往能帶來意想不到的提升。」

至此,一切都明了(文/我是主題曲哥哥;本期接受訪談的雲棲專家/光戈)。



  • 《沉澱》第十二期:【[沉澱]從網路中間件到搜索,從移動開發到分散式計算平台,阿里高級專家李睿博談自己的折騰路】整個過程我覺得還是愛最重要。有愛才有勇氣才有希望。我是真的愛寫代碼。從小學就開始愛,到現在快三十年了也還愛。

  • 《沉澱》第十一期:【[沉澱]阿里高級專家應答:各種數據在一個統一計算平台上的融合,才能產生更大的價值】阿里巴巴這種超大數據體量上才會遇到的獨特挑戰,讓應答在技術上有了更清晰的認識,一定要夯實分散式系統的基礎。「只有把基礎夯實了,才能支持上層各種計算場景在大體量上的實現,讓各種新的演算法在『阿里體量』上真正發揮潛力。」

  • 《沉澱》第十期:【[沉澱]雲架構師前(錢)景這麼好,我們該如何轉型?這有兩位阿里云云架構總監多年心得】雲架構師任職都有什麼要求?他們的日常是什麼樣的?相關人員如何向雲架構轉型?就此,雲棲社區就此採訪了阿里雲兩位資深專家:阿里云云架構總監Danny Liu和阿里雲國際業務部雲架構總監王宇德。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

金融安全資訊精選 2017年第一期:雲戰略下的安全思維轉型與新認知
如何使用(opencv/python)來實現OCR處理銀行票據?
私人定製——使用深度學習Keras和TensorFlow打造一款音樂推薦系統

TAG:雲棲社區 |

您可能感興趣

耐威科技2018上半年MEMS產能利用率高達98.52%,看好GaN市場
30款溫馨實用的小廚房設計,空間利用率200%提升
傳三星OLED面板產能利用率降到50%至60%
台積電突遭砍單:7nm利用率下降到80 90%
總體產能利用率達101%!先進半導體上半年凈利同比增20.21%
日本ANA公司2017年國際線利用率、旅客數連續3年超過JAL
90平米清新簡美三居,空間利用率真高看上去就像100多平米
30 分鐘完成構件更換、粉末利用率提高至 95%,「蘇州倍豐」將金屬 3D 印表機提供至莫納什大學
華為Mate 10優化4GB內存利用率超友商8GB機型,可以再戰兩年?
提升飛機運載利用率:客貨混裝波音747-400combi
科學家:人類大腦的利用率只有5%,剩下的95%被限制了?
憂美國禁售令華為積極拉貨,台積電 7nm產能利用率拉升20%
90平米清新簡美風格三居,空間利用率真高看上去就像100多平米
聽說,你大腦的利用率只有 10%?
價格連跌9個月 Q1面板廠產能利用率微降5%
86平兩居室,把客餐廳對調下位置,空間利用率提高60%!太實用了
產能利用率僅25.37 % 內蒙古水泥將如何去產能?
晒晒我家98平漂亮有品位的新房,花20萬,大陽台的利用率很高
華虹半導體整體產能利用率達90% 無錫廠Q4試生產12英寸晶圓
iPhone XR銷量有多差?產線利用率大幅下降,停工10天