DeepMind開發唇讀AI以幫助識別語音，效果優於專業唇讀者

最新 08-01

編譯：chux

出品：ATYUN訂閱號

對於數百萬失聰者來說，唇讀可以提供一個窗口，可以跟上對話。但這種做法很難，結果往往不準確。現在，DeepMind研究人員報告一種新的AI程序，該程序的性能優於專業的唇讀者和迄今為止最好的AI，其錯誤率僅為之前最佳演算法的一半。如果完善並集成到智能設備中，這種方法可以讓每個人都懂唇讀。

編寫可以閱讀唇語的計算機代碼令人抓狂。因此，在新的研究中，科學家轉向了機器學習，讓計算機從數據中學習。他們為他們的系統提供了數千小時的視頻和成績單，讓計算機自己解決了這個問題。

研究人員開始使用14萬個小時的YouTube視頻，讓人們在各種情況下進行交談。然後，他們設計了一個程序，通過每個音素的嘴部動作或注釋的單詞聲音創建幾秒鐘的剪輯。該程序過濾掉了非英語語音，非語言面孔，低質量視頻和未直接拍攝的視頻。然後，他們裁剪了嘴巴周圍的視頻。這產生了近4000小時的錄像，包括超過127000個英文單詞。

哥倫比亞大學的計算機科學家Hassan Akbari說，這個過程和由此產生的數據集比同類產品大7倍，對於任何想要訓練類似系統來閱讀嘴唇的人來說都是「重要且有價值的」。

該過程部分依賴於神經網路，AI演算法包含許多連接在一起的簡單計算元素，這些元素以類似於人腦的方式學習和處理信息。當團隊為節目提供未標記的視頻時，這些網路會產生裁剪的嘴巴動作片段。系統中的下一個程序，也使用了神經網路，拍攝了這些剪輯，並為每個視頻幀提供了可能的音素列表及其概率。最後一組演算法採用了可能的音素序列並生成了英語單詞序列。

經過訓練，研究人員用37分鐘的視頻測試了他們的系統。他們發布在arXiv網站上的一篇論文中報告說，錯誤率僅為41％。這可能聽起來不是很多，但最好的以前的計算機方法，專註於單個字母而不是音素，單詞錯誤率為77％。在同一項研究中，專業的唇讀者錯誤率為93％（儘管在現實生活中他們仍然有語境和肢體語言，這有助於讀唇）。

該程序理解音素可能看起來不同，具體取決於之前和之後所說的內容。（例如，嘴裡的形狀不同於「boot」中的「t」而不是「beet」中的「t」）。系統有單獨的階段來預測嘴唇的音素和預測音素中的單詞。這意味著如果你想教系統識別新的辭彙單詞，你需要重新訓練最後一個階段。

Akbarni表示，將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶「翻譯」。這樣的翻譯也可以幫助那些不能說話的人，例如聲帶受損。對於其他人來說，它可以簡單地幫助解析聊天。

這種技術也可應用於其他程序，例如分析安全視頻，解釋歷史鏡頭，或在音頻下降時聽到Skype夥伴的語音。新的人工智慧方法甚至可以回答世界上最大的一個謎團：在2002年世界盃決賽中，法國足球運動員齊達內被驅逐出局，因為他猛烈地撞擊對手。他顯然是被垃圾話引起的，他說了什麼？我們也許可以解開謎底了。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

※谷歌為G Suite添加NLP功能，提高搜索效率並推薦相關內
※磁控微型機器人將幹細胞帶到難以到達的人體器官

TAG:ATYUN訂閱號 |