王詠剛：為什麼 AI 工程師都要懂些架構？

知識 08-13

導讀：

如今的AI工程師熾手可熱，剛入行的同學AI年薪在30-45萬左右，可見其多金程度。人工智慧工程師大多數以演算法為主，這樣會存在一些小問題。本文王詠剛先生就闡述AI工程師如何懂得一些架構，會更有價值。

AI 時代，我們總說做科研的 AI 科學家、研究員、演算法工程師離產業應用太遠，這其中的一個含義是說，搞機器學習演算法的人，有時候會因為缺乏架構（Infrastructure）方面的知識、能力而難以將一個好的演算法落地。

我們招的演算法工程師里，也有同學說，我發的頂會 paper 一級棒，或者我做 Kaggle 競賽一級棒，拿了不少第一名的，不懂架構就不懂唄，我做出一流演算法，自然有其他工程師幫我上線、運行、維護的。

為什麼我要說，AI 工程師都要懂一點架構呢？大概有四個原因吧：

原因一：演算法實現 ≠ 問題解決

學生、研究員、科學家關心的大多是學術和實驗性問題，但進入產業界，工程師關心的就是具體的業務問題。

簡單來說，AI 工程師扮演的角色是一個問題的解決者，你的最重要任務是在實際環境中、有資源限制的條件下，用最有效的方法解決問題。只給出結果特別好的演算法，是遠遠不夠的。

比如一些演算法做得特別好，得過 ACM 獎項或者 Kaggle 前幾名的學生到了產業界，會驚奇地發現，原來自己的動手能力還差得這麼遠。

做深度學習的，不會裝顯卡驅動，不會修復 CUDA 安裝錯誤；搞機器視覺的，沒能力對網上爬來的大規模訓練圖片、視頻做預處理或者格式轉換；精通自然語言處理的，不知道該怎麼把自己的語言模型集成在手機聊天 APP 里供大家試用……

當然可以說，做演算法的專註做演算法，其他做架構、應用的幫演算法工程師做封裝、發布和維護工作。但這裡的問題不僅僅是分工這麼簡單，如果演算法工程師完全不懂架構，其實，他根本上就很難在一個團隊里協同工作，很難理解架構、應用層面對自己的演算法所提出的需求。

原因二：問題解決 ≠ 現場問題解決

有的演算法工程師疏於考慮自己的演算法在實際環境中的部署和維護問題，這個是很讓人頭疼的一件事。

面向 C 端用戶的解決方案，部署的時候要考慮 serving 系統的架構，考慮自己演算法所佔用的資源、運行的效率、如何升級等實際問題；

面向 B 端用戶的解決方案要考慮的因素就更多，因為客戶的現場環境，哪怕是客戶的私有雲環境，都會對你的解決方案有具體的介面、格式、操作系統、依賴關係等需求。

有人用 Python 3 做了演算法，沒法在客戶的 Python 2 的環境中做測試；有人的演算法只支持特定格式的數據輸入，到了客戶現場，還得手忙腳亂地寫數據格式轉換器、適配器；有人做了支持實時更新、自動迭代的機器學習模型，放到客戶現場，卻發現實時接收 feature 的介面與邏輯，跟客戶內部的大數據流程根本不相容……

部署和維護工程師會負責這些麻煩事，但演算法工程師如果完全不懂得或不考慮這些邏輯，那隻會讓團隊內部合作越來越累。

原因三：工程師需要最快、最好、最有可擴展性地解決問題

AI 工程師的首要目的是解決問題，而不是顯擺演算法有多先進。

很多情況下，AI 工程師起碼要了解一個演算法跑在實際環境中的時候，有哪些可能影響演算法效率、可用性、可擴展性的因素。

比如做機器視覺的都應該了解，一個包含大量小圖片（比如每個圖片 4KB，一共 1000 萬張圖片）的數據集，用傳統文件形式放在硬碟上是個怎樣的麻煩事，有哪些更高效的可替代存儲方案。

做深度學習的有時候也必須了解 CPU 和 GPU 的連接關係，CPU/GPU 緩存和內存的調度方式，等等，否則多半會在系統性能上碰釘子。

擴展性是另一個大問題，用 AI 演算法解決一個具體問題是一回事，用 AI 演算法實現一個可擴展的解決方案是另一回事。要解決未來可能出現的一大類相似問題，或者把問題的邊界擴展到更大的數據量、更多的應用領域，這就要求 AI 工程師具備最基本的架構知識，在設計演算法時，照顧到架構方面的需求了。

原因四：架構知識，是工程師進行高效團隊協作的共同語言

AI 工程師的確可以在工作時專註於演算法，但不能不懂點兒架構，否則，你跟其他工程師該如何協同工作呢？

別人在 Hadoop 里搭好了 MapReduce 流程，你在其中用 AI 演算法解決了一個具體步驟的數據處理問題（比如做了一次 entity 抽取），這時其他工程師里讓你在演算法內部輸出一個他們需要監控的 counter——不懂 MapReduce 的話，你總得先去翻查、理解什麼是 counter 吧。這個

例子是芝麻大點兒的小事，但小麻煩是會日積月累，慢慢成為團隊協作的障礙的。往大一點兒說，系統內部到底該用 protocol buffers 還是該用 JSON 來交換數據，到底該用 RPC 還是該用 message queue 來通信，這些決定，AI 工程師真的都逆來順受、不發表意見了？

Google 的逆天架構能力是 Google AI 科技強大的重要原因。這個不用多解釋，大家都知道。舉幾個現成的例子：

（1）在前 AI 時代，做出 MapReduce 等大神級架構的 Jeff Dean（其實嚴格說，應該是以 Jeff Dean 為代表的 Google 基礎架構團隊），也是現在 AI 時代里的大神級架構 TensorFlow 的開發者。

（2）在 Google 做無人駕駛這類前沿 AI 研發，工程師的幸福感要比其他廠的工程師高至少一個數量級。比如做無人駕駛的團隊，輕易就可以用已有的大數據架構，管理超海量的 raw data，也可以很簡單的在現有架構上用幾千台、上萬台機器快速完成一個代碼更新在所有已收集的路況數據上的回歸測試。

離開這些基礎架構的支持，Google 這幾年向 AI 的全面轉型哪會有這麼快。

作者：王詠剛

簡介：原Google軟體工程師，著名技術撰稿人和IT演說家。現創新工場AI工程院副院長

小編拉你進粉絲微信群

不是在文章評論里回

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！