當前位置:
首頁 > 新聞 > 谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目

谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目

編者註:人工智慧搶人類飯碗的趨勢越來越明顯了,最近,它又瞄準了一個新行業,而且一出手就比該行業專家們做的好。


主角還是 AI 大咖谷歌DeepMind,這次他們與英國牛津大學合作,通過機器學習大量的 BBC 節目,來學習一項全新的技能:唇讀術。可怕的是,人工智慧不僅學會了,而且讓唇讀專家們自愧不如。


唇讀是人類一項獨特的技藝,也是非常困難的一件事,它對於語言語境和知識理解的要求並不亞於視覺上的線索,然而 AI 又做到了。


谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



AI 系統的學習對象是近 5000 小時的 BBC 各類節目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來約有 11.8 萬句話。


谷歌DeepMind 和牛津大學的聯合研究團隊使用了 2010 年 1 月至 2015 年 12 月間的電視節目素材對 AI 系統進行訓練,然後使用 2016 年 3 月- 9 月間播出的節目進行 AI 性能測試。


谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



BBC節目資料庫。從左至右分別為:頻道、節目名稱、小時數、句數


通過觀察節目中說話者的唇形,AI 系統可以準確解讀出文字,比如下面這些比較「拗口」的句子:「我們知道也將有上百位記者會出席」(We know there will be hundreds of journalists here as well),以及「根據國家統計局的最新統計數據」(According to thelatest figures from the Office of National Statistics)。


DT 君試讀了以上英文語句,發現唇形變化其實並不明顯,而且電視節目中的語速是非常快的,難度可想而知。


谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



BBC節目資料庫中無字幕原片



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目


由谷歌DeepMind AI系統通過唇讀同步的字幕


AI能力再升級


測試結果的具體數據可能更能說明問題:在 2016 年 3 月-9 月的節目庫中隨機選取的 200 個說話場景唇讀對比測試中,人類專家的完全準確率為12.4%,而AI的完全準確率為46.8%


而且 AI 所犯錯誤中有很多其實無關緊要,比如在複數後面漏掉一個「s」之類。不過哪怕是這樣,AI 還是完虐了人類唇讀專家。

人工智慧業內專家稱,「這絕對是建構全自動唇讀系統的第一步!現有的各類龐大資料庫完全可以支持深度學習技術的發展。」



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



上方彩色圖片為BBC節目資料庫原始靜態圖片,下方黑白圖片為兩個不同的人說出「afternoon」(下午)這個單詞時的唇型


兩周前,牛津大學曾開發了一個類似的深度學習系統LipNet,這套系統當時就已93.4%對52.3%大比分擊敗了人類唇讀專家,但還不太說明問題,畢竟,LipNet和人類的競賽是基於GRID語料庫,這個資料庫只包含51個特殊辭彙


而DeepMind這次選取的BBC節目資料庫卻包含了驚人的17500個特殊辭彙,對人工智慧來說,這無疑是艱巨的挑戰。



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



GRID語料庫中的音視頻數據相對簡單得多


除此之外,BBC節目資料庫中包含了人類在正常說話時使用的各種語法,而GRID語料庫的33000個句子都採用相同表達,這使得句子很容易被預測,難度也相對低得多。


DeepMind和牛津大學的研究團隊將開放BBC節目資料庫供同行使用。來自LipNet的 Yannis Assael 表示將率先使用這一資料庫來訓練自己的唇讀AI系統。


把嘴唇排列起來


如果要通過 BBC 節目這一類的視頻資料庫來訓練自動唇讀系統,必須要讓機器預先學習每一個視頻片段。可問題是,節目中的視頻流與音頻流往往不是完全同步的,甚至會出現多達1秒左右的時間差。


簡單地說,這會讓機器徹底蒙圈,因為視頻里出現的唇形沒辦法和音頻完美貼合,機器就無法將某一特定唇形和其發音對號入座。這樣看來,AI 學習唇讀術好像是不可能的。



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



解決這一問題的方案是讓計算機先學會那些完全同步的音視頻流,掌握髮音與唇形間的關聯,然後自行推斷音視頻流中那些畫面是不同步的,再進行自動修正。DeepMind的 AI 系統自動處理的 5000 小時音視頻流就是採用的這種方法。如果完全使用人工來進行同步校準,工作量簡直大到不可想像。



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



DeepMind採用的「看、聽、嘗試、拼寫」架構。首先解碼出一個特徵yi及兩個向量,再通過向量去定位對應的輸入音頻視頻流序列


好了,問題來了,AI 唇讀本事這麼大,到底會被用來幹嘛?DT 君腦子裡首先出現的畫面就是:「天網」默默監視著全人類的談話,只要看看嘴型就知道你在說什麼……


雖然細思恐極,但專家說了,說到監聽這事兒,與其如此大動干戈,還不如超遠程監聽麥克風來得簡單直接效果好。所以,目前來看,沒什麼好害怕的。



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



相比之下,AI 唇讀技術更可能的應用方向是消費類電子設備,可以讓設備知道用戶想要說什麼,哪怕不發出聲音。「動動嘴皮子」這種事兒搞不好會成為未來人機交互的常態。


來自牛津大學 LipNet 研究團隊的Yannis Assael對此技術的評價是:「我們相信AI唇讀技術是一種非常實用的輔助性技術,比如更智能的助聽器、不便出聲的公共場合(Siri再也不用聽見你的聲音了),以及在嘈雜環境下精準的語音識別等。」


最後,小編拿出彩蛋一枚,供各位測試唇讀之用。



谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目



請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

今年洛杉磯車展:LiDAR、3D列印、星戰戰機
15年前他投資了騰訊,如今他還能找到下一個騰訊么
史上最先進氣象衛星發射升空:每秒能拍500張照片
大數據時代存儲極限,每一個原子都代表一個位元組

TAG:DeepTech深科技 |

您可能感興趣

運用好冷讀術,讀懂女生的心理
泡妞冷讀術11句慣例
一眼看穿男人心,讓你看上的男人都愛上你!(冷讀術)
學會冷讀術,增加和女人之間的信任!
戀愛技巧:追女生最實用的套路—冷讀術!
學好冷讀術,在戀愛當中增加女人的信任感
神秘的「冷讀術」,瞬間打開女孩兒的心扉
全方位冷讀術:教你直接讀懂女生的套路!
教你三招變成閱讀大師,《快速閱讀術》教你成為一個快讀大師
教你如何成為約會社交中的焦點,以及「冷讀術」的神奇運用
冷讀術:如何勾起女生的慾望好奇心?讓她對你更有感覺