IBM 語音識別能力逼近人類水平,獲深度學習巨頭 Yoshua Bengio 盛讚
你知道嗎?人類每聽 20 個詞,其實就有一兩個成為 「漏網之魚」。而在一段五分鐘的對話中,這一數字達到了 80。但對於我們而言,少聽一兩個詞並不會影響我們對語意的理解,然而想像一下,計算機如果要完成這件事有多難?
去年,IBM 已經在語音識別領域走到了一個新的里程碑:系統的錯誤率降低為 6.9%;而雷鋒網了解到,近日 IBM Watson 的語音識別系統將這個數字降到了 5.5%。
清華大學的鄧志東教授此前在採訪中向雷鋒網表示,只有 AI 技術達到人類水平,它才有商業化的可能性。技術越來越接近人類水平也一直是人工智慧的終極目標。而在語音識別領域,要在兩人對話的語境中降低錯誤率,自然也是工業界努力的方向。包括谷歌、百度在內的不少公司也一直在追趕著人類語音識別的錯誤率,IBM 此前的最佳表現水平是 5.9%。不過人類的識別錯誤率一直是難以超越的 5.1%,目前還沒有任何公司能夠達到這一水平。
以國內頂尖的百度人工智慧研究院在語音識別的進展為例,雷鋒網整理了近年來的一些研究進展:
在 2014 年底,吳恩達及團隊發布了第一代深度語音識別系統 Deep Speech,系統採用了端對端的深度學習技術,當時實現了提高嘈雜環境下的英語識別準確率,實驗顯示比谷歌、微軟及蘋果的語音系統的出錯率要低 10%。
而在 2015 年 8 月,百度研究院新增了漢語的識別,準確率高達 94%。這也讓端到端的深度學習演算法成為語音識別提升最重要的手段之一。
2015 年 9 月份的百度世界大會上,吳恩達也在期間展示了新一代的百度語音識別技術,驗證在較為嘈雜的情況下,機器識別已經超過人類。
2015 年年底,百度研究院又發布了論文推出 Deep Speech2,它能夠通過深度學習網路識別嘈雜環境下的不同語言,所應用的 HPC 技術將識別速度提升了 7 倍。根據研究院的官方消息,HPC 技術目前已在今年 2 月成功應用於深度學習中。
IBM 用於測試系統的樣本難度很大,音頻內容集中於像 「買車」 這樣的日常話題。而這個被稱為 「SWITCHBOARD」 的語料庫,已經沿用了近 20 年,成為語音識別的 「試金石」。
IBM 研究院採用深度學習技術進行應用領域的拓展,結合了 LSTM 及三個 WaveNet 音頻模型:
前兩個模型採用的是六層的雙向 LSTM 模型:
第一個模型有多個特徵輸入;
第二個模型採用了說話者對抗的多任務學習;
而第三個模型的特別之處在於,它不僅能夠從積極的模型中學習,還能借鑒消極模型——這樣一來,當相似的語音模式再次出現時,系統的表現會越來越好。
在合作夥伴 Appen 的協作下,IBM 重新對語音識別系統進行重新調整,前者為 IBM 提供語音及檢索的技術服務支持。儘管 IBM 已經達成了 5.5% 的巨大突破,但官方表示,人類水平的 5.1% 才是它們努力前進的終極目標。
MILA 的 Yoshua Bengio 認可了 IBM 的這一工作,也表示語音識別領域的研究工作依然任重道遠:
「儘管像語音識別或物體識別這樣的 AI 任務過去幾年取得了巨大的進展,技術也已經接近人類水平,但它們依然存在著科學上的挑戰。誠然,標準數據並不總是能揭示真實數據的多樣性和複雜度,比如不同的數據集基於不同的任務上會呈現不同的敏感性;而只把人類水平作為系統評估的標準,我覺得也有些苛刻,比如在語音識別領域參與測試的都是經過專業訓練的聽寫員。IBM 持續在語音識別領域取得了極大進展,在將聲學與語言模型應用於神經網路與深度學習上取得了非常大的飛躍。」
IBM 在實驗過程中也發現,尋找衡量人類識別水平的標準方法實際上比想像中要複雜許多。除了 SWITCHBOARD,另一個名為 「CallHome」 的語料庫提供了一組可被測試的語言數據,內容是基於家庭成員間未經預先定義的、更為口語化的對話。比起前者,CallHome 的數據難度更具挑戰性。IBM 的系統用 CallHome 測試後呈現的錯誤率達到 10.3%,而 Appen 提供的人類測試錯誤率在 6.8%。
此外,即使是用 SWITCHBOARD 進行測試,在測試集中,有部分講話者的聲音也與訓練數據是一致的,而 CallHome 則沒有這樣的重疊數據,這也一定程度造成了錯誤率的差異。因為這兩個實驗的前提條件不同,IBM 認為兩者並不能相提並論。
IBM 認為它們在深度學習上取得的進步,能夠最終克服目前存在的困難。哥倫比亞大學計算機科學教授兼主席 Julia Hirschberg 也對目前的語音識別技術挑戰發表了評論:
「要實現達到人類水平的語音識別是一個持續的挑戰,(要識別)人類自發的對話尤其困難。人類的表現難以定義,而人類在聽懂他人語言的水平也參差不齊。如果我們要將機器識別與人類識別水平進行對比,我認為需要滿足以下兩個條件:測試者的識別水平,以及在同一演講中不同人類的表現差異。IBM 最近在 SWITCHBOARD 和 CallHome 上的表現都非常驚艷,但我也對 IBM 在理解人類水平方面有了新的認知。這項科研成果與 IBM 目前的 ASR 進展同樣令人欣喜,不過我們也深知在語音識別的研究上需要更加努力。」
IBM 表示,它們的這一最新進展能夠與此前的語音識別技術相結合,比如去年 12 月推出的 Watson 語音轉文字技術。IBM 將繼續研究出能夠適配聲音、聽覺和大腦交互三者的技術,基於研究進展發表可靠而準確的技術成果。
viaIBM,雷鋒網整理
※打造一家像Amazon Go的無人零售店,需解決哪些核心問題?
※一場訴訟,埋葬了 Google和Uber 之間的動蕩 「婚姻」
※PAL Robotics 推出仿人形機器人 TALOS,已上崗工作
※維基解密曝 CIA 入侵蘋果、安卓機、電視,快來圍觀 8761 份泄密文件
TAG:雷鋒網 |
※Yoshua Bengio首次中國演講:深度學習通往人類水平AI的挑戰
※Yoshua:深度學習AI邁向人類水平的挑戰
※蘋果iPhone Xs Max已被山寨!造假水平已經接近iPhone XR
※Ian Goodfellow:你的GAN水平我來打分
※為迎新款iPad和iPhone FaceID或將支持水平解鎖
※外媒TechAdvisor點評華為P30 Pro:將智能手機的拍照水平提升到新的高度!
※谷歌的Translatotron將翻譯提升到新的水平
※簡化XR創作,Unity和Autodesk將互操作性提升至新水平
※寶馬出了一款電動水平對置顯卡發動機!——BMW Vision DC Roadster
※首雙 Boost 加持的麥迪戰靴!T-Mac Millennium 到底什麼水平?
※Steam調查:Rift和Windows VR繼續增長 Rift份額接近歷史最高水平
※堪比sacai聯名,這款特別的Blazer Mid什麼水平?
※Circulation刊發FOURIER試驗最新分析:炎症水平越高,應用PCSK9抑製劑(依洛尤單抗)心血管獲益越大
※敢質疑Virgil Abloh的設計師,Kiko自身的水平如何呢?
※把「負責」譯成「be responsible for」,英語水平達不到外企要求
※iRobot Roomba i7+:掃地機器人最高水平的代表
※Chinglish被國外承認了?!快來see see你是什麼水平
※Nature Medicine:中國學者完成單細胞水平肺癌T細胞免疫圖譜繪製!
※Magic Leap視場角為何只有水平40度?
※Etelcalcetide降低透析患者的甲狀旁腺激素水平