當前位置:
首頁 > 知識 > 工程設計+演算法規模化真的是AI突破嗎?DeepMind唇讀系統ICLR遭拒

工程設計+演算法規模化真的是AI突破嗎?DeepMind唇讀系統ICLR遭拒

選自 OpenReview

機器之心編譯

上周,ICLR 2019接收論文名單放出,令人驚訝的是 DeepMind & Google 的論文《LARGE-SCALE VISUAL SPEECH RECOGNITION》未被接收。這篇論文的評審得分為:3,4,9,可謂是兩極分化了。評審們認為即使它在工程上和數據上都非常突出,但大模型加上大數據會提升性能是共識,這類改進不能被看作是貢獻。

這種情況不禁讓人想起 2016 年引起熱議的LipNet論文(牛津大學人工智慧實驗室、谷歌DeepMind和加拿大高等研究院 (CIFAR) 合作的研究),這篇論文同樣與 ICLR 2017 失之交臂。此外,這兩篇論文有三位共同作者 Brendan Shillingford、Yannis Assael 和 Nando de Freitas,兩篇論文的一作都是 Brendan Shillingford 和 Yannis Assael,兩篇論文的主題都是唇讀。

LipNet 是一項利用機器學習實現句子層面自動唇讀的技術,該技術將自動唇讀技術的前沿水平推進到了前所未有的高度。那麼 DeepMind 這次的論文主要是講什麼呢?

論文概要

論文鏈接:https://openreview.net/pdf?id=HJxpDiC5tX

該研究提出了一種新型唇讀系統(如下圖所示),它可以將原始視頻轉換成單詞序列。該系統的第一個組件是數據處理流程,用於創建該研究使用的大規模視覺語音識別(LSVSR)數據集,其中的數據來自 YouTube 視頻,包括說話視頻片段及對應的音素序列,共包括 3886 小時的視頻)。該數據集的創建需要結合計算機視覺和機器學習技術。該數據處理流程將原始音頻和標註音頻片段作為輸入,然後進行過濾和預處理,最後輸出音素和嘴唇幀對齊序列的集合。與之前的視覺語音識別研究相比,該研究的數據處理流程使用了 landmark smoothing、模糊度過濾器(blurriness filter)、改進版說話分類器網路和輸出音素。

圖 1:該研究的完整視覺語音識別系統概覽,包括數據處理流程(基於 YouTube 視頻生成嘴唇和音素幀)、用於識別音素的可擴展深度神經網路,以及用於推斷的生產級詞解碼模塊。

該研究提出的集成式唇讀系統包括視頻處理流程(將原始視頻轉換成音素和嘴唇幀序列的集合)、可擴展深度神經網路(將嘴唇視頻與音素分布的序列進行匹配,即識別音素),以及生產級音頻解碼器(輸出詞序列)。據介紹,該系統在留出集上達到了 40.9% 的詞錯率(WER)。相比之下,專業唇讀者在同樣的數據集上的詞錯率為 86.4% 或 92.9%,且他們可以獲取額外的語境信息。該方法相比之前的唇讀方法有顯著提升,包括 LipNet 和 Watch, Attend, and Spell (WAS) 的變體,二者的詞錯率分別為 89.8% 和 76.8%。

如前所述,該論文在評審階段得到的分數分別為 3,4,9。為什麼會出現這樣的兩極分化局面呢?我們來看一下評審人員的評審意見。

低分評審結果

領域主席(AC)在 reject 聲明中發表了以下觀點:

這篇論文很有爭議,作者和評審人員進行了大量討論,主要的爭論焦點在於該論文是否適合 ICLR。這篇論文的所有評審人員都認可該研究的質量和研究結果,但是在該論文是否適合 ICLR 這個問題上存在很大分歧。

一位評審者認為適合,但其他兩位持反對看法,他們認為要想被 ICLR 接收,這篇論文要麼更加註重數據集的準備,包括數據集的公開發布,以便其他研究者可以從該研究中獲益,將該研究提出的 V2P 模型作為唇讀任務的(非常)強基線;要麼更深入地探究該研究中關於表徵學習的內容,如對比音素和視位單元、提供更多(當然也更費時費力)對照實驗(ablation experiment),以便更深入地揭示該 V2P 架構的哪個組件帶來了性能改進。

AC 認為兩位持反對意見的評審者的論據充分,具備一定說服力。很明顯,很多監督式分類任務(即使是唇讀這樣的結構化分類任務)可以通過足夠靈活的學習架構和大規模標註數據集來解決,而這篇論文使用的建模技術本質上並不新穎,即使該技術的應用領域是唇讀。此外,如果該研究創建的數據集不公開發布,則其他人無法基於該數據集進行研究。目前來看,該論文較適合偏重應用的會議。

匿名評審 1(評分 3)

很明顯,該論文提出了一種大規模唇讀系統。很好的一項工作,也可能是當前最強大、通用的唇讀系統,但我覺得該工作與論文並不是很適合 ICLR。

論文作者收集了大量 YouTube 視頻,並過濾和抽取能用於唇讀的區域。然後他們設計了一種可擴展的預處理方法,並使用 CTC 方法訓練基於音素的聲學模型。不過他們似乎使用了 Miao 等人 2015 的研究《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》與谷歌 WFST 解碼架構,並實現大約 40% 的詞錯率。結果很不錯,但是我並沒有看到任何創新性,論文中也充滿了矛盾。

因此,匿名評審 1 從細節到概念提出了 10 個問題,包括:LipNet 和這個架構看起來很類似,也許你們可以指出哪些改變造成了這兩個系統的性能差異?」

在論文作者回應後,匿名評審 1 表示:

在目前的版本中,作者指出這篇論文之所以重要,主要是因為(1)數據規模大/性能好;(2)能幫助聽力受損的人;(3)與圖像處理流程的相關性。這表明該論文適合大數據和/或偏工程的會議、 accessibility leaning 會議,或偏應用的語音/視覺(甚至多模態)會議。

就當前的論文版本而言,我仍然很難發現哪個或哪些修改可以令這篇論文適合 ICLR,我認為作者可以繼續深挖模型為什麼要這麼做,以及解決一些問題(是否會公開發布數據集?為什麼使用音素而不是視位?)

匿名評審 2(評分 4)

該研究收集的數據集無疑是一項貢獻,但除此之外,技術創新不夠,因為所有的技術在視頻唇讀或者語音識別中都被提出過。表 1 中的數值很驚人,但難以搞清楚提升來自哪裡。因此,值得多做一些實驗:a) 在標註數據集不變的情況下改變網路架構;b) 固定網路架構,改變標註數據集;c) 固定網路架構與標註數據集,改變 dropout 或組歸一化。seq2seq 在此論文中就是一熊孩子,因為你無法拿它和其他設置對比。表 2 的數據也很驚人,但如果提出的系統能在 LRS3-TED 上訓練,並與 TM-seq2seq 對比會更好。

現在大家的共識是,大模型加上大數據會提升表現,但這類改進不能被看作是貢獻。作者有責任做一些綜合實驗,證明論文中的改進不是因為更大的模型、更多的數據。

在論文作者回應後,匿名評審 2 表示:

我認為該論文提出的數據集和系統都有很大貢獻,也將會有很大的影響力。但是,我依然認為該研究技術創新有限,因為我讀完之後沒學到任何東西,除了這個任務很難。整體方法和 Miao 等人 2015 年的論文一致,網路架構也類似於 Sainath 等人 2015 年的論文。我同意評審 1 的觀點,很難給這篇論文高分。如果這篇論文 focus 在數據集以及數據集準備流程且提供強大的基準上,我可能樂意給出一個高分。

高分評審結果

匿名評審 3(評分 9)

這是一篇好論文。首先,它提供了一個大規模視覺語音識別語料庫。其次,它展示了一個基於開放辭彙的視覺語音識別系統,且取得了當前最優的準確率。論文寫作也很好,所有的技術細節非常明晰。我個人非常感謝作者把這一精細研究貢獻給社區。這是我在 ASR/VSR 社區看到的最大的 VSR 數據集,也是表現最令人深刻的一項研究。讀這篇論文,非常享受。

基於反饋,我再補充些評審意見。一些人認為這項工作在工程上很成功,但缺乏技術創新,因此不能被 ICLR 接收。但我不這麼認為。首先,作者把創建大規模視覺語音識別數據集的技術設計流程描述的非常清楚,這對社區貢獻就很大。(在評審論文時,我假設此數據集將會開放給社區,這可能不太對,我在此致歉。我真的希望該數據集能夠公開,這是我給高分的主要原因。)其次,作者構建了一個在視覺語音識別任務上取得頂尖水平的系統。儘管模型與架構已經有了,但驚人的性能本身對此領域的影響就很大。這不是在大量數據上做工程就能得到的(雖然數據發揮一定作用)。這是一篇系統論文,但其影響與性能值得被 ICLR 大會接收。

機器之心CES 2019專題報道即將到來,歡迎大家積極關注。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

這種有序神經元,像你熟知的循環神經網路嗎?
「如何跳出鞍點?」NeurIPS 2018優化相關論文提前看

TAG:機器之心 |