53分鐘，英偉達打破BERT訓練時長紀錄！更好的對話式AI正在路上

新聞 08-14

在 33 億文本的語料上訓練，根據不同的任務進行微調，最終實現 11 項 NLP 任務的突破進展。這就是谷歌於 2018 年 8 月發布的 NLP模型——BERT。

因其強大的預訓練效果，BERT 誕生之後便受到學術界、工業界熱捧，甚至一度被稱為是「地表最強 NLP 模型「。

但是，這個 NLP 模型的光環卻籠罩在訓練耗時的陰影之下：BERT 的預訓練需要很長時間才能完成，在 16 個 TPUv3 晶元上大約需要三天，對應的計算資源消耗也會比較多。因此，BERT 被調侃為一項「大力出奇蹟」的成果。

一直有不同的 AI 研究團隊嘗試縮短其訓練時間，也都取得了相應的進展。例如，在今年年初，谷歌的研究團隊就曾提出新的優化器——LAMB 優化器，將訓練的 batch size 推到硬體的極限，使用 TPU Pod ( 1024 塊 TPUv3 晶元)，成功將BERT的訓練時長從 3 天又縮短到了 76 分鐘。

現在，這個數字又被打破。在一場面向媒體的會議上，英偉達宣布，使用 DGX SuperPOD 深度學習伺服器加之 Tensor RT 5.0 的優化，BERT模型最快只需53 分鐘就能在GPU上完成訓練。據悉，DGX SuperPOD 的運算能力能達到每秒進行 9.4 千萬億次浮點運算。

對於 NLP 領域來說，這意味著又一個新的開始，BERT 等突破性大型 NLP 模型的訓練時長仍有壓縮空間。尤其是在工業應用上，訓練時長的縮短可以直接帶來成本上的節約，BERT 等突破性模型在規模化應用上又減少了一大阻力。

（來源：英偉達）

英偉達深度學習應用研究副總裁 Bryan Catanzaro 對 DeepTech 介紹道，除了 53 分鐘的訓練時長突破以外，BERT 的推理時耗也縮短到了 2.2 毫秒（10 毫秒被認為是業內的高水位），完成 83 億參數的最大模型訓練。英偉達認為，以上三點突破，也將推動實時對話式 AI（ Real-Time Conversational AI）的發展。

現在，英偉達將公開 BERT 訓練代碼和經過 TensorRT 優化的 BERT 樣本，所有人都可以通過 GitHub 利用。

（來源：英偉達）

Bryan Catanzaro 稱，與簡單的交易場景下的 AI 不同，對話式 AI 更關注對話而非交易，為了保證用戶體驗需要提供即時的響應，因此對話式 AI 的模型會越來越大，且實時性更強。

目前，國外以 FaceBook、谷歌、微軟為首，國內以百度、阿里巴巴為首，掌握全球互聯網幾大最主要流量入口的科技公司、都在對話式AI領域競相追逐，以期能夠在新一代的互聯網互動式體驗上獨領風騷。

2017 年至今，這幾家公司也引領了對話式 AI 研究的幾個重要成果：2017 年年底，谷歌的 Tansfomer 問世，開啟了新的範式，隨後是 2018 年底的谷歌 BERT；2019 年的對話式 AI 的研究更是百花齊放，微軟 Mt-dnn、阿里巴巴的E nriched BERT base，Uber 的 Plato，百度的 ERNIE，以及近期 Facebook 推出的 RoBERTa，都是值得關注的研究。

（來源：英偉達）

英偉達表示，這些公司中已經有使用其 AI 技術進行對話式 AI 的研究，例如微軟必應。微軟必應正在通過其 Azure AI 平台和英偉達技術的強大功能來推動更準確的搜索結果。

微軟必應團隊項目經理 Rangan Majumder 稱，「通過與英偉達的密切合作，必應使用 GPU（Azure AI基礎架構的一部分）優化了BERT的推理，這讓必應去年的搜索質量排名大幅提升。與基於 CPU 的平台相比，我們使用 Azure NVIDIA gpu進行推理時，延遲減少了兩倍，吞吐量提高了五倍，使必應能夠為全球所有客戶提供更相關、更划算、更實時的搜索體驗。」

對話式 AI 近幾年才顯現出其商業價值，英偉達希望在這個正處於成長期的市場扮演計算服務提供商的角色。

-End-

坐標：北京·國貿

請隨簡歷附上3篇往期作品（實習生除外）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※谷歌為何資助這個「偽科學」？麻省理工發冷聚變最新研究，知名華人科學家回應

TAG:DeepTech深科技 |