當前位置:
首頁 > 最新 > DeepMind開發唇讀AI以幫助識別語音,效果優於專業唇讀者

DeepMind開發唇讀AI以幫助識別語音,效果優於專業唇讀者

編譯:chux

出品:ATYUN訂閱號

對於數百萬失聰者來說,唇讀可以提供一個窗口,可以跟上對話。但這種做法很難,結果往往不準確。現在,DeepMind研究人員報告一種新的AI程序,該程序的性能優於專業的唇讀者和迄今為止最好的AI,其錯誤率僅為之前最佳演算法的一半。如果完善並集成到智能設備中,這種方法可以讓每個人都懂唇讀。

編寫可以閱讀唇語的計算機代碼令人抓狂。因此,在新的研究中,科學家轉向了機器學習,讓計算機從數據中學習。他們為他們的系統提供了數千小時的視頻和成績單,讓計算機自己解決了這個問題。

研究人員開始使用14萬個小時的YouTube視頻,讓人們在各種情況下進行交談。然後,他們設計了一個程序,通過每個音素的嘴部動作或注釋的單詞聲音創建幾秒鐘的剪輯。該程序過濾掉了非英語語音,非語言面孔,低質量視頻和未直接拍攝的視頻。然後,他們裁剪了嘴巴周圍的視頻。這產生了近4000小時的錄像,包括超過127000個英文單詞。

哥倫比亞大學的計算機科學家Hassan Akbari說,這個過程和由此產生的數據集比同類產品大7倍,對於任何想要訓練類似系統來閱讀嘴唇的人來說都是「重要且有價值的」。

該過程部分依賴於神經網路,AI演算法包含許多連接在一起的簡單計算元素,這些元素以類似於人腦的方式學習和處理信息。當團隊為節目提供未標記的視頻時,這些網路會產生裁剪的嘴巴動作片段。系統中的下一個程序,也使用了神經網路,拍攝了這些剪輯,並為每個視頻幀提供了可能的音素列表及其概率。最後一組演算法採用了可能的音素序列並生成了英語單詞序列。

經過訓練,研究人員用37分鐘的視頻測試了他們的系統。他們發布在arXiv網站上的一篇論文中報告說,錯誤率僅為41%。這可能聽起來不是很多,但最好的以前的計算機方法,專註於單個字母而不是音素,單詞錯誤率為77%。在同一項研究中,專業的唇讀者錯誤率為93%(儘管在現實生活中他們仍然有語境和肢體語言,這有助於讀唇)。

該程序理解音素可能看起來不同,具體取決於之前和之後所說的內容。(例如,嘴裡的形狀不同於「boot」中的「t」而不是「beet」中的「t」)。系統有單獨的階段來預測嘴唇的音素和預測音素中的單詞。這意味著如果你想教系統識別新的辭彙單詞,你需要重新訓練最後一個階段。

Akbarni表示,將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶「翻譯」。這樣的翻譯也可以幫助那些不能說話的人,例如聲帶受損。對於其他人來說,它可以簡單地幫助解析聊天。

這種技術也可應用於其他程序,例如分析安全視頻,解釋歷史鏡頭,或在音頻下降時聽到Skype夥伴的語音。新的人工智慧方法甚至可以回答世界上最大的一個謎團:在2002年世界盃決賽中,法國足球運動員齊達內被驅逐出局,因為他猛烈地撞擊對手。他顯然是被垃圾話引起的,他說了什麼?我們也許可以解開謎底了。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

谷歌為G Suite添加NLP功能,提高搜索效率並推薦相關內
磁控微型機器人將幹細胞帶到難以到達的人體器官

TAG:ATYUN訂閱號 |