摩爾定律不管用了！AI算力3.43個月翻一倍 6年增長30萬倍

科技 05-17

智東西（公眾號：zhidxcom）5月17日消息，昨天，OpenAI發布了一份名為《AI與計算》的分析報告，自2012年以來，AI訓練任務所運用的算力每3.43個月就會翻倍，這一數字大大超越了晶元產業長期存在的摩爾定律（每18-24個月晶元的性能會翻一倍）。自2012年以來，AI算力增長了超過 300,000 倍（而如果是以摩爾定律的速度，只應有12倍的增長）。

硬體算力的提升一直是AI快速發展的重要因素。因此，OpenAI表示，如果我們希望目前的發展趨勢持續下去，我們就需要為研發遠超當前算力的全新系統做好準備。

OpenAI是2015年成立的AI非營利組織，由以埃隆·馬斯克為首的諸多矽谷大亨聯合建立，致力於推動AI發揮積極作用、避免AI帶來的問題。

以下是OpenAI此次分析報告中的一些重點。

為何要從算力角度來看AI的發展？

推動AI發展的動力有三個：演算法、數據、算力。演算法是否有創新發展難以量化跟蹤，而數據的巨大體量也難以計算，但算力是可以量化的，這為我們探究AI的發展進程提供了機會。

OpenAI認為，雖然使用大量的算力暴露出了當前AI演算法不夠高效的問題，但是，重要的技術突破依然必須在足夠的算力基礎上才能實現。所以，從算力的角度來審視AI的發展是合理的。

在算力的分析中，OpenAI認為起決定作用的數字並不是單個CPU的速度，也不是數據中心的最大容量，而是用於訓練單個模型所需的算力——這一數值最有可能代表當前最佳演算法的強大程度。

以模型計的算力需求與總算力有很大不同，因為並行計算的限制（硬體和演算法上）使得模型不可能太大，訓練的效率也不會太高。

OpenAI發現，目前，算力發展的趨勢是每年大約增加10倍。這種增長的實現，部分是因為有更為專業的硬體（如GPU和TPU）使得晶元每秒能夠執行更多操作，但主要還是因為有研究人員們不斷尋找更好的並行計算方法，並花費大量資金才實現的。

OpenAI是如何計量算力的？

AI深度學習模型需要耗費大量時間和算力，若有足夠的信息，就可以估計出已知訓練結果的總算力需求。

這份分析報告中，OpenAI使用petaflop/s-day（pfs-day）作為算力的計量單位。一個單位的petaflop/s-day（pfs-day）代表在一天時間內每秒執行10^15 次，總計約為10^20次神經網路操作（operations）。這種計量方法類似於電能的千瓦時。

OpenAI不測量硬體FLOPS數的理論峰值，而是嘗試估計執行的實際操作數量。OpenAI將任何加法或乘法計為單個操作，而不考慮數值精度，同時忽略集成模型。

通過OpenAI的計算，目前每次算力翻倍的時間為3.43個月。

算力發展的時期特徵

OpenAI在分析報告中給出了兩張圖表，展示了最為人熟知的幾個AI機器學習模型以petaflop/s-days計的計算總量，即其所需的算力。

幾個最為人熟知的AI機器學習模型以petaflop/s-days計的計算總量，即其所需的算力

從圖表中我們可以發現AI算力發展分為4個時期。

2012年之前：使用GPU進行機器學習還不常見，因此，在這個時期，圖中顯示的最小算力都難以達到。

2012年-2014年：使用很多個GPU進行模型訓練的基礎架構還不常見，這個時期多使用1-8個速度為1-2TFLOPS的GPU進行訓練，可達到0.001-0.1 pfs-days的算力水平。

2014年-2016年：普遍使用10-100個速度為5-10 TFLOPS的GPU進行大規模的模型訓練，可達到0.001-0.1 pfs-days的算力水平。這個時期的數據說明，減少數據並行化的返回值帶來的收益會遞減，這意味著更大規模的模型訓練帶來的價值是有限的。

2016年-2017年：出現可以實現更大規模演算法並行化的方法（如較大的批量規模、架構搜索和專家迭代）以及使用專用硬體（如TPU和更快速的網路連接），極大地突破了算力的限制，尤其是對某些模型來說。

AlphaGo Zero和AlphaZero是大家熟悉的大型演算法並行化例子，而很多其他同等規模的應用現在在演算法層面上也是可行的，而且也可能已經投入了應用。

算力會繼續快速發展，我們該未雨綢繆

OpenAI認為，人類的算力需求每3.43個月就會翻倍，每年大約增加10倍，這樣的發展趨勢將會繼續。

很多創業公司都在開發AI專用的晶元，一些企業聲稱他們將在接下來一兩年大幅提高晶元的算力。這樣一來，人們就可以僅僅通過重新配置硬體，以更少的經濟成本得到強大的算力。而在並行性方面，很多近期出現的新演算法在原則上也可以結合，例如，架構搜索和大規模並行SGD。

另一方面，並行化演算法的發展會被經濟成本限制，而晶元效率的發展將會被物理上的局限所限制。OpenAI認為，雖然如今最大規模的AI模型訓練使用的硬體，僅單個硬體就要花費百萬美元的採購成本（儘管攤銷下來，成本已經低了很多）。但今天的神經網路計算的主體部分仍然在於推理階段，而不是模型訓練階段，這意味著企業可以重新改裝或採購更多的晶元用於模型訓練。

因此，如果有足夠的經濟基礎，我們甚至可以看到更多的大規模並行訓練，從而使這一趨勢持續數年。全世界的總體硬體預算是每年1萬億美元，可以看到，經濟成本對並行化演算法的發展限制仍然遠未達到。

OpenAI認為，對於這種趨勢將持續多久，以及持續下去會發生什麼，用過去的趨勢來預測是不足夠的。

但是，即使算力增長的潛力目前處於我們可以掌控的範圍，也必須從今天就為研發遠超當前算力的全新系統做好準備，並開始警覺AI的安全問題和惡意使用問題。

這種遠見對於負責任的政策制定和負責任的技術發展都至關重要，我們必須走在這些趨勢前面，而不是對這些趨勢置之不理。

本文是智東西（zhidxcom）原創稿件，轉載聯繫微信：zhidx_com，未經許可，謝絕轉載。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※對話GE中國CEO段小纓：中國已成全球第二大醫療市場
※Facebook F8大會：高調推約會應用，「美國陌陌」慌了

TAG:智東西 |