看圖聊天的騷操作，MIT開發精準到單詞的語音-圖像配對系統

知識 09-19

選自news.mit

作者：Rob Matheson

機器之心編輯部

參與：張倩、劉曉坤、王淑婷

MIT 計算機科學家開發了一個系統，可以根據有關圖像的語音描述學習識別、定位、檢索其中的目標。給定一幅圖像和一份語音描述，模型就能實時找出圖像中與特定辭彙描述相符的相關區域，這樣配置了該功能的語音助手也能跟你一起分享看照片的心情了。該方法有望應用於無監督雙語翻譯，相關論文發表在 ECCV2018 上。

與當前語音識別技術不同，該模型不需要人工轉錄和注釋其所訓練的例子，而是直接從原圖像的錄音片段和目標中學習辭彙，然後建立它們之間的聯繫。

圖 1：模型的輸入：圖像和語音波形的配對。

該模型現在只能識別幾百個單詞和物體類型，但研究人員希望這一「語音-目標」組合識別技術將來能夠為人類節省很多時間，同時為語音和圖像識別技術打開新的大門。

語音識別系統（如 Siri）需要轉錄幾千個小時的錄音。該系統使用這些數據學會匹配語音信號與特定辭彙。如果有新詞加入詞典，這種方法就不好用了，而且系統必須重新訓練。

「我們想用一種更自然的方式做語音識別，利用人類便於使用的額外信號和信息，但機器學習演算法通常無法利用這些信息。我們訓練模型的方法類似於讓一個小孩走過一個區域，然後描述他看到了什麼，」計算機科學和人工智慧實驗室（CSAIL）及口語系統小組研究員 David Harwath 表示。Harwath 在一篇 ECCV 大會論文中描述了這一模型。

在該論文中，研究人員展示了他們的模型。他們使用的圖像中有一個金髮碧眼的小女孩，穿著藍色連衣裙，背景是一座紅頂的白色燈塔。該模型學會了建立圖像中的元素與「女孩」、「金髮」、「藍眼睛」、「藍色裙子」、「白色燈塔」和「紅色屋頂」之間的關聯。給出一段音頻描述，模型會根據描述顯示出圖像中的每個目標。

圖 7：左邊顯示了兩幅圖像及其語音信號。每種顏色對應於從完全隨機 MISA 網路的兩個匹配圖中導出的一個連通分量。右邊的掩碼顯示與每個語音片段相對應的片段。掩碼下方展示了從 ASR 轉錄中獲得的描述。請注意，這些詞從未用於學習，只是用於分析。

學習不同語言之間無需雙語注釋的翻譯是該技術一種有前景的應用。全世界大約有 7000 種口語，其中只有大約 100 種具有充足的語音識別轉錄數據。如果模型從與圖像中的目標對應的語言 A 中學習語音信號，同時從對應於相同目標的語言 B 中學習語音信號，該模型就能假設這兩種信號（及對應的詞）可以互譯。

「這有可能是一種巴別魚式的機制，」Harwath 說，巴別魚是《銀河系漫遊指南》小說中虛構的一種生物耳機，它將不同的語言翻譯給佩戴者。該論文的合著者包括 CSAIL 的研究生 Adria Recasens、訪問生 Didac Suris、前研究員 Galen Chuang、電氣工程和計算機科學教授兼 MIT-IBM 沃森人工智慧實驗室負責人 Antonio Torralba 及領導 CSAIL 口語系統小組的高級研究科學家 James Glass。

聲音-視覺關聯

這項研究基於早期由 Harwath、Glass、Torralba 開發的將語音與主題相關的圖像關聯起來的模型。在早期研究中，他們從眾包的 Mechanical Turk 平台的分類資料庫提取場景圖像。然後他們讓人們按照向嬰兒敘述的方式用大約 10 秒的時間來描述圖像。他們編譯了超過 20 萬對圖像和音頻描述，涉及數百個不同的類別，例如海灘、購物廣場、城市街道和房間等。

然後他們設計了一個由兩個獨立的卷積神經網路構成的模型。一個處理圖像，另一個處理聲譜（音頻信號隨時間變化的可視化表示）。模型的最頂層計算兩個網路的輸出並對語音模式和圖像數據進行映射。

例如，研究人員將描述 A 和圖像 A（正確配對）饋送給模型。然後他們再饋送一個隨機描述 B 和圖像 A（錯誤配對）。在比較了圖像 A 的數千個錯誤配對之後，模型學習到了對應圖像 A 的語音信號，並關聯描述中的單詞信號。如 2016 年的這篇論文所述，模型學習選取對應單詞「水」的信號，並檢索包含水的圖像。「但它並沒有提供用特定單詞檢索特定圖像像素塊的功能。」Harwath 說。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※世界上最好的語言PHP：OpenCV與計算機視覺已在我掌控之下
※專欄 | 香儂科技獨家對話Facebook人工智慧研究院首席科學家Devi Parikh

TAG:機器之心 |