當前位置:
首頁 > 最新 > 個人開發者也可以戰勝Google等巨頭?AI靠的不只是「蠻力」

個人開發者也可以戰勝Google等巨頭?AI靠的不只是「蠻力」

上周,Facebook 宣布其打造了世界上最準確的目標識別系統,該系統使用了 35 億張圖像(全來自於 Instagram )。在 AI 界有這麼一句老話:越大越好。要訓練最快的演算法,必須使用最大的數據集和性能最強的處理器。這種傳統觀念幫助科技巨頭吸引了不少人才和投資,但是斯坦福大學最近組織的一項 AI 競賽表明這種觀念並不一定正確。在人工智慧領域,原來才智仍舊可以打敗性能。

證據來自於 DAWNBench 挑戰賽,去年 11 月斯坦福大學的研究員宣布正式啟動這項比賽,上周他們宣布了比賽的獲勝者。我們可以將 DAWNBench 看作是 AI 工程師的田徑運動會,不過比賽項目不是跨欄和跳遠,而是諸如目標識別和閱讀理解這樣的任務。來自於大學、政府部門和業內的團隊和個人相互角逐,比賽項目為誰設計的演算法最優秀,斯坦福大學的研究員作為裁判。每個參賽的演算法都必須滿足基本的準確性標準(例如:在給定數據集中識別出 93% 的狗),評判標準包括訓練演算法的時間和訓練成本。

斯坦福大學研究員 Matei Zaharia 和 Cody Coleman 解釋稱,這些評判標準可以反映 AI 領域的實際需求。Zaharia 告訴科技媒體《 The Verge 》,「如果你的團隊較小,通過衡量成本,你就可以知道是否需要用 Google 級別的基礎設施來與別人競爭。通過測定訓練速度,你就可以知道部署某一 AI 解決方案需要多長時間。也就是說,這些衡量標準可以幫助我們判斷小團隊是否能與科技巨頭一較高下」。

比賽的結果並不能給出直接的答案,但是卻告訴我們:要在 AI 領域取得成功,計算能力並不是唯一要義,巧妙的演算法設計至少一樣重要。雖然 Google 和 Intel 這樣的大型科技公司在很多任務中成績突出,但是小型團隊(甚至個人)通過使用鮮為人知的獨特方法也可以名列前茅。

拿 DAWNBench 的目標識別挑戰賽來說,這項比賽要求參賽團隊訓練出可以識別圖片數據集 CIFAR-10 中的目標的演算法。CIFAR-10 是一個相對較舊的數據集,但是它反映了企業在現實中可能要處理的各種數據。CIFAR-10 包含 6 萬張尺寸為 32×32 的小圖像,每張圖像都歸類在一個類別下,例如「狗」、「青蛙」、「船」或「卡車」,共有 10 個類別。


在 DAWNBench 的榜單中,排名前三的獲勝者都是 Fast.AI 的研究員,他們的演算法訓練時間最短而且訓練成本最低。Fast.AI 並不是大型研究實驗室,而是一個創造學習資源的非盈利組織,致力於讓所有人都能學習深度學習。Fast.AI. 聯合創始人、企業家兼數據科學家 Jeremy Howard 表示,他的學生的成功靠的是創新思考,這表示任何人都能「用基礎的資源實現世界級的結果」。

Howard 解釋稱,為了設計出能解決 CIFAR 識別任務的演算法,Fast.AI 團隊選擇了一種相對不知名的訓練方法——超收斂(super convergence)。創建這種方法的不是資金雄厚的科技公司,而是美國海軍研究實驗室(Naval Research Laboratory)研究員 Leslie Smith。

超級收斂的基本原理是,緩慢增加用於訓練演算法的數據流。我們可以這麼理解這種方法:如果你要教某人識別樹木,你不會一開始就給他們一片森林。開始的時候你會教他們每一種樹及其樹葉的模樣,慢慢地將信息灌輸給他們。這樣解釋有點過分簡化,但是 Fast.AI 使用超級收斂法訓練的演算法在訓練速度上比競爭對手的演算法快很多。Fast.AI 團隊可以在三分鐘內訓練出一個能對 CIFAR 數據集進行分類的演算法,而且準確度滿足比賽要求。排名第二的團隊沒有使用超級收斂法,他們的訓練時間超過半小時。

不過,Fast.AI 沒有一路贏得所有比賽。在另一項挑戰賽中,參賽者需要利用目標識別演算法對 ImageNet 數據集進行分類,結果 Google 大獲全勝,包攬了訓練時間最短的前三名和訓練成本最低的第一名和第二名( Fsat.AI 獲得了成本最低的第三名和訓練時間最短的第四名)。但是,Google 的演算法都在自家定製的 AI 硬體上運行,晶元也是針對任務特別設計的,即張量處理器(TPU)。事實上,Google 在一些任務中使用的處理器是其自稱的 TPU「pod」——串聯運行的 64 枚 TPU 晶元。相比之下,Fast.AI 參賽團隊使用的是普通電腦上用的英偉達 GPU,所有人都可以買到。

Google 的張量處理器(TPU)是 Google 特別定製的晶元

Howard 表示,「Google 自家的基礎設備可以輕鬆地訓練演算法,但可能價值不大。但是只花 25 美元用同一機器在三小時內完成相同的訓練任務,價值就很大」。

ImageNet 的結果特別明顯,因為評判標準很模糊。Google 的硬體幫助它大獲全勝,但是考慮到它是世界上最富有的科技公司,這個結果並不讓人驚訝。雖然 Fast.Ai 的學生的確提出了一種創新的解決方案,但是 Google 的解決方案也很巧妙。Google 的一個參賽團隊使用了一種名為 「AutoML」 的演算法,這一系列的演算法可以在沒有人類指導的情況下搜索可以處理某一給定任務的最佳演算法。也就是說,AI 設計 AI。

理解這些結果的困難在於,並不是只要找出哪個團隊的結果最好就可以了,這些團隊有著社會和政治上的影響。例如,思考一下誰控制著人工智慧的未來,是利用 AI 增強自身勢力和財富的 Amazon、Facebook 和 Google 等科技巨頭嗎?AI 帶來的好處是否能平均、民主地分配給所有人?

對 Howard 而言,這些問題很重要。他表示,「我不希望深度學習被掌握在一小撮精英手中。每當我與年輕的從業者和學生對話時,越大越好這個觀念真的很讓我煩惱。對 Google 這樣的公司而言,這樣的觀念很好,因為這能幫助它們吸引到人才,人們都認為除非你在 Google 工作,否則你干不出什麼的。但是這種觀念是錯誤的」。


很遺憾,我們都不是 AI 預言家。沒人可以通過觀察 DAWNBench 挑戰賽的結果來預測 AI 的未來。如果說這項比賽的結果有什麼啟示,那就是告訴我們 AI 行業還在不斷變化中。決定 AI 未來的是小巧靈妙的演算法還是硬體的計算能力?沒人知道答案,且希望得到一個簡單的答案是不合理的。

DAWNBench 組織者 Zaharia 和Coleman 表示,他們很高興看到這項比賽引起了如此巨大的回應。Coleman 稱:「比賽結果有很大的多樣性。看到機器學習領域發生的事後,我並不是很擔心(某一家公司)會主導整個行業。在我們現在所處的這個階段,我們仍然能看到新框架的不斷湧現,以及大量想法的分享。」

這兩位組織者指出,大部分 DAWNBench 挑戰賽的參賽作品都是開源的,但是這不是比賽的一個評判標準,這意味著這些作品的代碼都發布在網上,任何人都可以獲取。不管誰是比賽的獲勝者,每個人都能從中受益。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |