谷歌研發能處理多域多任務的機器學習模型——MultiModel

新聞 06-22

我們知道，人工智慧領域雖然發展迅速，但大部分機器學習的系統都是針對特定的學習任務存在的，例如會下棋的AlphaGo，識別人臉的圖像識別模型，識別語音語義的智能語音助手等等。這些機器學習的系統都只面向特定的任務，目前很少有模型能真正突破狹義機器學習的限制，有能力學習多種不同領域任務。

近日雷鋒網了解到，谷歌在博客上發表了文章，提出了自己研發的新機器學習系統MultiModel，一個有能力處理多個任務的機器學習模型。這一模型由多倫多大學計算機科學機器學習小組研究員?ukaszKaiser，Google Brain Team高級研究科學家Aidan N. Gomez 聯合發布，以下是雷鋒網對MultiModel文章的翻譯：

在過去十年里，深度學習的應用和表現都是以驚人的速度高速發展著。然而，目前這一領域的神經網路架構對於特定的應用領域都是高度集中化的，一直有一個重要的問題仍然沒有被解決：領域之間的融合，能否有助於統一模型在多個領域都表現良好？

今天，谷歌研究院提出了MultiModel，這是一個在視覺，語言和音頻網路任務中都表現良好的的神經網路架構，它能夠同時解決跨越多個領域的多個問題，包括圖像識別，翻譯和語音識別。儘管在Google翻譯也曾經使用過Google多語種神經機器翻譯系統，在解決多任務領域有所進步，但MultiModel是首先將視覺，音頻和語言理解融入單一網路的機器學習模型。

MultiModel處理多領域的靈感來自於人類大腦，人類大腦是如何將不同模式（如聲音，視覺或味覺）的感官輸入轉化為單一的表達形式，並以語言或動作的形式給予反饋的呢？通過模擬大腦對這些模式和對它們所進行的轉換，MultiModel有很多的子網路，用於音頻，圖像或文本等特定形態的任務，MultiModel由編碼器，輸入/輸出混合器和解碼器組成共享模型，如下圖所示。

谷歌研發能處理多域多任務的機器學習模型——MultiModel

MultiModel結構：小型特定子網路與共享編碼器，I / O混合器和解碼器一起工作。每個小花瓣代表一種形態，轉化為內在的表徵（source：googleblog）

MultiModel能夠同時學習八種不同的任務：它可以檢測圖像中的物體，提供字幕，識別語音，翻譯四種語言，同時進行語法解析。給定的輸入和一個非常簡單的信號一起，該信號決定了我們要求的輸出形式。

在設計MultiModel時，很明顯有一些研究領域（視覺，語言和音頻）的某些元素，對於模型在相關任務中取得成功是及其重要的。谷歌研究院證明，這些計算原語（如卷積，注意力或專家混合層）可以顯著提高模型在原本應用領域的性能，同時不會影響MultiModel在其他任務中的性能。MultiModel不僅可以在多個任務聯合訓練上取得良好的表現，而且在數量有限的任務上，也可能實際提高性能。令我們感到驚訝的是，即使這些任務來自完全不同的領域，這種現象（性能提高）仍然存在。例如，圖像識別任務可以提高語言任務的性能。

重要的是，雖然MultiModel沒有刷新最優性能記錄，但它確實提供了一種新的思維，增加了團隊對神經網路中多域多任務學習的了解，以及通過引入輔助任務（auxiliary task）來解決在數據有限時訓練模型的問題。在機器學習中有一種說法：「最好的正則化方法就是引入更多的數據」；而在MultiModel中，這些數據可以通過多領域獲取，因此比以前獲取數據要更加容易。 MultiModel表明，與其他任務相結合的訓練可以獲得良好的效果，並能夠在數據有限的情況下提供模型的性能。

關於多域機器學習的許多疑問尚待研究，谷歌研究院將繼續致力於優化Multimodel，提高它的性能。為了使這項研究能夠更快發展，MultiModel將在Tensor2Tensor庫中開發。谷歌研究院認為，對來自多個領域的數據進行聯合訓練的協同模式將成為深度學習的下一個研究方向，並將最終突破狹義訓練網路的限制。

via research.googleblog, 雷鋒網編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※四大銀行已被瓜分完畢！中國銀行聯合騰訊成立Fintech實驗室
※為了王者榮耀新皮膚，下了個能免費充Q幣的軟體，結果竟然……
※微軟亞洲研究院CVPR圓桌：機器學習火成這樣，如何讓計算機視覺「獨立」發展？
※這個團隊要用更高效的無線充電技術，將電動汽車的普及推向現實
※騰訊發布智能語音解決方案「小微」，但想做的顯然不止於此

TAG:雷鋒網 |

您可能感興趣

※NASA太空技術任務部使用Bally Ribbon Mills公司3D編製材料開發新的熱防護系統
※Facebook開源視覺、語言多任務深度學習框架——Pythia
※DeepMind提出「SACX」學習範式，訓練機器人解決稀疏獎勵任務
※在 Django中使用 Redis和Celery處理非同步任務
※微軟、Spatial聯手展示HoloLens MR任務協同工作
※Google 推出移動版任務管理工具 Google Tasks
※谷歌重磅推出TensorFlow Graphics：為3D圖像任務打造的深度學習利器
※【Modular Multi-Mission Aircraft】空客A320neo模塊化多任務解決方案
※Google Assistant登陸iPad平板：支持多任務模式
※Pythia：Facebook最新開源的視覺、語言多任務學習框架
※PTC發布Vuforia Expert Capture AR，幫助工廠人員快速準確完成任務
※DeepMind最新研究動向，幫助實現單智能體多任務強化學習
※Spring Cloud Stream 使用延遲消息實現定時任務（RabbitMQ）
※重磅：DeepMind發布通用強化學習新範式，機器人可學會任何任務
※蘋果MacBook Pro Touch Bar用上Windows 10任務欄
※多任務智能體的一大步：DeepMind 一次搞定 57種Atari 遊戲的 PopArt
※多任務智能體的一大步：DeepMind 一次搞定 57種Atari 遊戲的 PopArt
※DeepMind提出新型SACX學習範式，從零開始訓練機器人解決複雜任務
※谷歌開源新模型EfficientNet，或成計算機視覺任務新基礎
※使用 Calcurse 在 Linux 命令行中組織任務