讓機器耳濡目染：MIT提出跨模態機器學習模型

知識 06-11

選自arXiv

機器之心編譯

參與：李澤南

不變性表示（invariant representation）是視覺、聽覺和語言模型的核心，它們是數據的抽象結果。人們一直希望在視覺、有噪音的音頻、有同義詞的自然語言中獲取觀點和大量不變性表示。具有識別能力的不變性表示可以讓機器從大量數據中學習特徵，從而獲得近似於人類的識別效果。但在機器學習領域，目前這一方面的研究進展有限。

對此，麻省理工學院（MIT）的 Yusuf Aytar 等人最近在一項研究中提出了全新的方法：研究人員通過多種關聯信息的輸入讓機器學習了跨模態數據的通用表達方式。在文字語句「她跳入了泳池」中，同樣的概念不僅出現在視覺上，也出現在了聽覺上，如泳池的圖像和水花飛濺的聲音。如果這些跨模態的表示存在關聯，那麼它們的共同表示就具有魯棒性。上文中的句子、泳池的圖像和水聲應當具有相同的內在表示。

論文：See, Hear, and Read: Deep Aligned Representations

鏈接：https://arxiv.org/abs/1706.00932

摘要

我們利用大量易於獲得的同步數據，讓機器學習系統學會了三種主要感官（視覺、聲音和語言）之間共有的深度描述。通過利用時長超過一年的視頻配音和百萬條配和圖片匹配的句子，我們成功訓練了一個深度卷積神經網路對不同信息生成共同的表示。我們的實驗證明，這種表示對於一些任務是有效的，如跨模式檢索或在形態之間的傳遞分類。此外，儘管我們的神經網路只經過了圖片+文字和圖片+聲音的配對訓練，但它也在文本和聲音之間建立了聯繫——這在訓練中未曾接觸。我們的模型的可視化效果揭示了大量自動生成，用於識別概念，並獨立於模態的隱藏單元。

圖 1. 共同表示：研究人員提出了深度跨模態卷積神經網路，它可以學習三種表徵方式：視覺、聽覺和文字閱讀。在此之上，研究人員展示了輸入信息可以激活網路中的隱藏單元，其中被激發的概念位置獨立於模態。

圖 2. 數據集：研究人員使用了大量未加工、無約束的數據對概念表達進行訓練。

圖 3. 學習通用表示方法：研究人員設計了一種能夠同時接收圖像、聲音和文字輸入的神經網路。該模型從模態專屬表示（灰色）中產生一種通用表示，同時適用於不同模態（藍色）。研究人員同時使用模型轉換損失和配比排名損失來訓練這個模型。模態專有層是卷積的，不同模態的共享層則是全連接的。

圖 4. 跨模式反演示例：MIT 的研究人員展示了使用深度表示，跨聲音、圖像和文字三種模態的頂層反演

圖 5. 隱藏單元的可視化：研究人員通過模型的可視化發現了一些隱藏單元。注意：頻譜圖（紅/黃色的熱區顯示）之外，還有原始視頻和與之對應的描述聲音，後者僅用於可視化目的。

不變性表示可以讓計算機視覺系統可以在不受約束的、現實世界環境中高效運行。在實驗中，研究人員發現了一些聯結表達方式具有更高的分類和檢索性能，可以應對未遇到過的新情況。麻省理工學院的學者們相信，對於下一代機器感知而言，跨模態的表示具有重要意義。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※機器學習已滲透到金融的各個領域
※曠視科技招聘深度學習/機器學習研究員
※程序員想搞機器學習？看看Nodejs之父這一年摸爬滾打的心路歷程
※蘋果發力AI WWDC主題演講不忘機器學習掛嘴邊
※乾貨分享 | 新一波機器學習資料匯總（已完結...）

TAG:機器學習 |

您可能感興趣

※CMU與谷歌大腦提出新型機器閱讀QANET模型，可提高機器理解精確度
※FAIR機器翻譯最新研究：提出不使用平行本文的無監督機器翻譯模型
※斯坦福大學＆DeepMind聯合提出機器人控制新方法，RL＋IL端到端地學習視覺運動策略
※谷歌為VR 3DoF控制器追蹤優化提出『手臂模型』解決方案
※學界｜北京大學提出注意力通信模型ATOC，助力多智能體協作
※超越BERT、GPT，微軟提出通用預訓練模型MASS
※北京大學研究者提出注意力通信模型ATOC，助力多智能體協作
※學界 | 北京大學研究者提出注意力通信模型ATOC，助力多智能體協作
※CMU＆谷歌大腦提出新型問答模型QANet：僅使用卷積和自注意力，性能大大優於RNN
※無需數學就能寫AI，MIT提出AI專用編程語言Gen
※谷歌大腦提出TCN，能讓機器人邊看視頻邊模仿
※DeepMind提出SPIRAL：使用強化對抗學習，實現會用畫筆的智能體
※牛津大學提出全新生成式模型「SQAIR」，用於移動目標的視頻理解
※DeepMind提出新型SACX學習範式，從零開始訓練機器人解決複雜任務
※打開黑箱重要一步，MIT提出TbD-net，彌合視覺推理模型的性能與可解釋性鴻溝
※Petuum提出新型正則化方法：非重疊促進型變數選擇
※MIT提出TbD網路，讓視覺問答模型更易於解釋同時保持高性能
※將離策略評估看作分類，谷歌提出新型強化學習模型選擇方法OPC
※將離策略評估看作「分類」問題，谷歌提出新型強化學習模型選擇方法OPC
※AI 造圖新境界！OpenAI 提出的可逆生成模型，比 GAN 更具潛力？