「讓神經網路能夠「通感」」MIT 和谷歌研究連接文字、聲音和視頻
神經網路學習某件事情,是靠加強神經元之間的連接,也即調整權重來完成。這也意味著,一旦神經網路學會了做某件事情,神經元之間的連接也固定下來,於是,再讓這個神經網路學做另一件事情,就必須改變已有的連接/權重,相當於不得不「忘記」已經學到的知識。
這種現象被人工智慧研究人員稱之為「災難性遺忘」問題(catastrophic forgetting)。今年 3 月,在 AlphaGo 獲勝一周年的時候,DeepMind 在 PNAS 發表研究成果,利用監督學習和強化學習,讓神經網路成功在學習新任務的同時,不忘老的任務,向著自適應學習邁出重要一步,也證明了災難性遺忘並非不可逾越的問題。
具體說,當時 DeepMind 研究人員借鑒了神經科學的原理,從哺乳動物和人類的大腦固化以往知識的理論中汲取靈感,提出「彈性權重固化」(Elastic Weight Consolidation,EWC)方法,讓系統在學會玩一個遊戲以後,不忘此前學到的內容,繼續學習玩新的遊戲。
在發表這項成果時,DeepMind 研究員表示,他們的工作證明了神經網路可以實現序列性學習,但對學習效率是否有提升還不明確。
日前,兩項分別來自 MIT 和谷歌的研究,在此基礎上更進一步,讓人工智慧系統在同一時間能夠完成多項任務。其中,谷歌的研究還揭示了對應完成單獨任務的模塊及相應學習效率的聯繫。它們都為人工智慧系統邁向「通用」「全能」打下了重要的基礎。
MIT 研究:讓神經網路具有「通感」的能力
谷歌的研究新智元此前已經有相關報道,所以,我們首先來看 MIT 的研究。
在接受 QZ 採訪時,MIT 研究的第一作者、博士後 Yusuf Aytar 表示,他們研究的關鍵在於「一致」(align)。
在這項工作中,MIT 的研究人員並沒有教給他們的演算法任何新東西,而是創造了一種方法,讓演算法能將不同形式的概念——聲音、圖像和文字——聯繫起來。例如,輸入一段足球賽的音頻,系統會輸出另一段與足球賽相關的音頻,還輸出踢足球的圖像和文字描述。
為了訓練這個系統,MIT 的研究人員首先向神經網路展示了與音頻相關聯的視頻。網路首先將視頻中的物體和音頻中的聲音關聯起來,然後會試著預測哪些對象與哪個聲音相關。例如,在什麼時候波浪會發出聲音。
接下來,研究人員將配有類似情況的圖說的圖像饋送到網路中,讓演算法將文字描述與物體和動作相關聯。首先,網路識別出圖片中所有的物體,以及音頻中所有的相關單詞,然後將詞和物體關聯起來。
除了輸入音頻,輸出圖像和文字,研究人員還做了其他實驗,比如輸入一張吉娃娃犬的圖片,演算法能夠輸出一段帶有(其他類型的)狗叫聲的音頻、其他狗的圖片和描述狗的文字。
MIT 研究的意義在於,在使用音頻和圖像,以及圖像和文本訓練後,系統能夠將音頻和文本匹配起來,而這是系統之前沒有接觸過的。研究人員表示,這表明系統生成了一個更客觀的觀念,能夠將看到、聽到或閱讀到的信息關聯起來,而不僅僅依賴訓練時接觸到的信息。
Aytar 在接受 QZ 採訪時說:「系統知道 [斑馬] 是一種動物,它知道斑馬會產生這種聲音,而且在本質上知道這種信息是跨模式傳遞的(across modalities)。」這樣的假設使演算法能在各種概念間建立新的聯繫,加強對世界的理解。
谷歌大腦研究:一個深度學習模型,語音、圖像、文本「通吃」
或許你已經知道了,谷歌的研究就是之前新智元報道過的,「用一個模型學會所有問題」(One Model to Learn Them All)。
谷歌研究人員提出了一個多模型適用的架構 MultiModel,用單一的一個深度學習模型,學會各個不同領域的多種不同任務。
具體說,谷歌研究員同時在以下 8 個任務上訓練 MultiModel:
(1)WSJ 語料庫
(2)ImageNet 數據集
(3)COCO 圖說生成數據集
(4)WSJ 語義解析數據集
(5)WMT 英-德翻譯語料庫
(6)與(5)相反:德-英翻譯語料庫
(7)WMT 英-法翻譯語料庫
(8)與(7)相反:德-法翻譯語料庫
圖1:MulitModel 能夠完成不同領域不同任務。其中,紅色表示語言相關的任務,藍色表示分類相關的任務。
MultiModel 由多個部分構成,比如不同的卷積層、注意力機制和混合專家層。每個部分此前都沒有在其他任務上訓練過。例如,卷積層此前沒有處理過文本或語音任務;混合專家層也沒有處理過圖像或語言相關的任務。
作者發現,每個單獨的模塊對於相應的任務而言都十分重要,比如注意力機制在解決與翻譯相關的任務時,遠比在處理圖像任務中重要。
MultiModel 的架構示意圖
實驗結果,谷歌研究人員提出的模型在所有上述任務中都取得了良好的結果——雖然具體到一項任務,結果並不是當前最佳的。
類似,MIT 的系統也並沒有在所有單項任務上取得最佳結果。
不過,Aytar 認為這並不是問題。「當你使用的感測器多了,準確度就會提高。」


※智能音箱2017大爆發,6大數據看懂亞馬遜與谷歌之爭
※MIT最新研究:新演算法通過學習摺紙模型,生成任意3D結構
※「北大AI公開課13講全鏈接+最強幹貨盤點」中國AI +,群星閃耀時
TAG:新智元 |
※文字、視頻、VR、AR NBA直播的過去、現在和將來
※網路會議太卡?微軟新專利能讓語音、文字和畫面無 縫轉換
※網路會議太卡?微軟新專利能讓語音、文字和畫面無縫轉換
※文字、播音:王瑄
※錄音轉文字、直播課程協助、網站維護等
※錄音轉文字、影音編輯、網站建設維護等
※富翁與拉匝祿 音頻+文字
※她的文字里有圖像、氣味和聲音
※探索與感悟-語言、文字與文化
※DeepMind的腦補AI再獲新技能:看文字知場景、複雜環境、連續視頻……
※將視野內的文字轉為語音,日本推出智能眼鏡 OTON GLASS 協助視障者閱讀
※美研究員找到方式攻擊語音轉文字系統,用「隱藏語音命令」讓人聲變成噪音
※廊坊「朗讀亭」:感受文字力量 體會聲音魅力
※講法錄音轉文字、直播課程協助等
※《頭文字D》里的男人、車和表
※東芝開發出AI將語音轉換成簡潔文字的技術
※育碧推出智能AI遊戲助手Sam 可語音文字對話問答
※《做夢的藝術》直播文字版中
※《道德經》語音文字複習系列
※BAIC 談毅訪談實錄全程音頻+文字整理