當前位置:
首頁 > 最新 > 語音識別的前世今生,那些你不知道的事

語音識別的前世今生,那些你不知道的事

本文共5336字,建議閱讀時間14分鐘

從台式機到移動設備再到更多應用,語音識別已經不再是滿足小眾需求的新鮮事物——而且還衍生出了一類新型的小工具。

過去三十年里,語音識別是這樣的:您能夠和自己的計算機交談,通常使用頭戴式麥克風,使用微軟 Windows 中未公開的語音識別應用軟體,或者 Nuance 通信公司「龍自然語言」版的應用軟體。如果您發音很清晰,那麼屏幕上就會顯示出單詞,然後執行命令。

今天,改進很大的語音識別技術得到了廣泛應用,在過去兩年中,它催生了一類新的消費系列產品:語音控制的個人助理。VoiceLabs 公司為語音應用軟體開發人員提供分析技術,該公司創始人之一 Adam Marchick 表示:「這是經過了 30 年的沉澱而一夜成名。它終於變得足夠精確,足以能進行對話了。」

和大多數技術一樣,語音識別的發展也是逐步的。2017 年 8 月,微軟宣布,根據行業標準測試,其會話語音識別系統的單詞識別準確度已經超過了專業人類轉錄員的識別準確度。在此類測試中,專業人員的平均錯誤率為 5.9%, 而微軟系統達到了 5.1%。

微軟技術研究員,也是該公司語音和語言部負責人黃學東說:「這就像夢想成真。1993 年我們在微軟開始語音識別時,錯誤率大約是 80%。1982 年,我在讀研究生的時候開始研究語音識別技術,那時,我們面對的是孤立的單詞,根本不敢想像軟體能夠像人那樣識別出對話。」

Nuance首席技術官 Vlad Sejnoha 說:「 今 天,如果您在一間安靜的辦公室里,清晰的用普通口音說話,那麼語音識別準確率能接近 100%。」

這樣的準確度意味著人們能更好的與自己的電話進行交談,更輕鬆高效的與客戶服務呼叫中心的機器人聊天,在家裡和辦公室里使用語音命令。

逐漸累積的進步

Sejnoha 說, 該技術能夠達到目前的水平,也是一步步走過來的。Sejnoha說:「15 到 20 年來,我們使用的主要技術是基於統計學的,特別是隱藏 Markov 模型。我們有各種各樣的模型來預測這個片段是某個特定音素產生的可能性,或者某個單詞應該合理的出現在某種上下文環境中。我們開發了各種變體,並且能夠穩步進展。

他補充說:「近年來,傳統的統計方法已經被深度學習(神經網路)模型所取代,這些模型非常靈活,而且比以前更能推動系統的發展。結果在過去 10 年中,錯誤率平均每年下降 20%。」他說,語音識別現在能夠為更多的人提供服務,用在各種各樣的環境中。Sejnoha舉了一個語音識別仍然不能很好工作的例子,他說:「在雞尾酒會上還是要喊。」

Sejnoha預計每年20%的改善率仍然會繼續下去,不僅越來越適應嘈雜的環境,而且還能適應很多特殊的情況。他指出:「理解多種語言越來越重要,在歐洲藉助 GPS 地圖,還必須做一些工作,比如理解德國司機所說的法語地名。普通話有很多外來詞,其發音因人而異。」

關鍵點

隨著每年 20% 改善率的累積,大廠商開始使用深度學習來製作自己的語音識別引擎。後來,他們越來越信任該技術,認為它足以支持新一類消費產品——個人助理,先是作為應用軟體(例如,蘋果的 Siri 和微軟的Cortana),後來作為獨立的設備(例如,基於 Alexa服務的亞馬遜的Echo,基於谷歌助理服務的谷歌Home,等)。

這類系統的語音識別是在雲中進行的。這些設備在收到「OK Google」 類似的命令提醒後,開始收聽,傳送出語音數據。

Marchick 解釋說:「設備非常薄,就像 Unix 終端一樣。計算機在雲中 , 它們會待命,聽它們的名字,就是這樣。」

語音和視覺技術公司 Sensory 首席執行官 ToddMozer 補充說:「長期以來,語音識別的重點一直放在計算機上,但在過去的 5 到 10 年間,重點轉向了消費類技術。第一個關鍵事件是 Steve Jobs 發布了 Siri,表明了對語音識別的支持。蘋果無論做什麼都會是消費類電子產品 的典範。第二個關鍵事件是亞馬遜發布基於 Alexa 的產品,例如 Echo。」

Marchick 說:「當我們在一 年前開始這項業務時,市場上只有亞馬遜的 Echo,以及幾萬台設備。很快 Echo 將面對 7 個競爭對手,預計今年年底會有三千三百萬台設備投入使用。語音交互會大幅度攀升。此前,有三百人為這些設備製作語音應用程序。而一年後的現在,有一萬六千人。」

Marchick 說,Echo 的競爭對手包括谷歌 Home,再加上未發布的蘋果 HomePod;運行微軟 Cortana 的未發布的 Harman/Kardon Invoke;還有三星 Galaxy 智能手機的三星 Bixby;其中至少有兩個是中文系統。

擴展應用

但事實證明,這些供應商通常會提供軟體開發工具包,使其語音識別引擎能夠被用來開發使用自然語言作為介面的應用程序。對話技術公司顧問 Deborah Dahl說:「自然語言和語音識別令人興奮之處在於這些工具包的開發。他們對其進行設置,以便普通開發人員都能夠使用在線工具創建口語系統。這真的降低了難度,所以不需要成為自然語言專家便能夠開發客戶服務應用程序。」

Sherif Mityas 是達拉斯 TGI 星期五連鎖餐廳的首席信息官,說他的公司能夠在 5 個月內啟動一個基於語音的介面應用程序,該應用程序是採用亞馬遜 Alexa 工具包 Lex 開發的。他補充道,對於手機用戶和亞馬遜 Echo 用戶,它用起來也是一樣的,唯一的區別是手機用戶通常四處走動,需要確定方向。

Marchick 說:「 應用程序開發過程就像創建一個網頁。您有很多服務可以使用,您編寫代碼,然後發布代碼,最後進行測試。」

Dahl 指出,「如果您花幾天的時間去適應 GUI,那麼這個過程會非常簡單。最難的是,它們不會幫助您設計應用程序——如果您對結果沒有一個清晰的概念,那麼當您看到沒有覆蓋所有應該覆蓋的用例時,您不得不回頭去做大量的返工工作。」以一個比薩訂購應用程序為例,「您必須想清楚所有需要由用戶提供的東西:澆料、厚度、尺寸和醬汁,等等。您可以在幾星期內自己完成,但是必須和訂購系統的後端保持一致。」

Mityas 說,TGI 星期五餐廳應用軟體的主要難點是怎樣簡化菜單選項。他說,菜單上有 15 個配菜,如果讓 Alexa 去列出這些菜會很麻煩,但開發人員發現他們可以列出最受歡迎的三個配菜,然後讓用戶去選擇更多的配菜。

Dahl說:「在現實生活中,您不會去預測用戶會說什麼。用戶總是出人意料,所以會有一段時間的調整。」比薩訂購應用軟體的用戶「會問起麵包棒。他們會要求您不要像上次那樣沒做熟。系統必須採集到這些,否則就會徹底失敗。」

為預測用戶會說些什麼,對話人工智慧系統(例如,企業虛擬客服)提供商 Next IT 最先研究了企業與公眾互動最有可能使用的辭彙。

Next IT 總裁 TracyMalingo表示:「作為經驗,當我們為了新客戶而接觸一個新商業領域時,我們希望有1萬到2萬次經過策劃的對話,我們可以從中獲取數據。這些可以是電話、聊天記錄、推特饋送——我們將處理任何涉及企業和消費者之間來回交互的文本對話。」

Mityas 指出,使用語音交互比基於文本的交互效果更好,因為用戶可以暢所欲言,建立起人工智慧可以使用的情景。他補充說,文本交互往往只是孤立的問題。

最後,Malingo 說, 訓練虛擬客服的時間和培訓人類客服的時間大致相同。她指出:「而虛擬客服一旦完成訓練,它就永遠不會休息,每天工作 24 小時,回答成千上萬的問題。」

Malingo 解釋說,虛擬客服的成本取決於應用程序和行業的複雜性。但是其成本比率通常是固定的,她說:「如果一個現場電話的成本是一美元,那麼與現場客服進行網路文本聊天的成本是 50 美分,因為客服每次可以同時進行多個聊天。而虛擬客服的成本將是 5 美分。」

Mityas 可以為私有企業 TGI 星期五餐廳提供免費的數據,但他說,使用語音識別技術已經使在線用戶的參與度提高了兩倍,在不到一年的時間裡,外賣的銷量也翻了一倍。

升級點

Malingo 說,虛擬客服的使用並不意味著所有的人類客服都會被取代。實際情況是,「升級點」(在這一點,致電者必須被轉給現場客服)被抬高了。

員工福利管理公司 Alight 解決方案公司技術總監 Ibrahim Khoury 對 此表示同意,升級點是關鍵。Khoury 說,通過引入自然語言客服來處理每年的招聘活動,公司能夠把轉給人類客服的對話減少 94%。

採用了虛擬客服後,Khoury 補充說:「我們正在努力解決大批量的低價值問題,讓客戶快速提問,快速得到答案。Khoury說:」這為人類客服處理少量的高價值問題打開了大門,比如『我失去了我的配偶』該怎麼辦?「

但調整不會結束。如果系統能回答 85% 到 90% 的問題,您會很高興。它在開始時可能會停留在 60% 左右。但總有 10% 的問題系統永遠無法理解。

Malingo 指出,與機器人交互的時間通常要少一些,因為閑聊少了。她補充說:「然而,這是令人愉快的,人們幾乎每次都要感謝機器人。」

至於實際的可靠性,Marchick說:「當您可以限制應用程序時,例如,只談論披薩,那麼語音識別的質量是驚人的。但是當您進行一般的對話時,您還沒有把該技術完全理想化,因此,即使出現怪異的對話,您也不會誤解它。如果您想在開會和記筆記的時候打開它,那真的很難,因為會議可能是關於任何主題的,而要想總結對話也真的很難。如果您在酒店房間里使用它來處理您想要的有限的操作——音樂、客房服務,或者電影,環境受到一定限制,它會工作得很好。」Dahl 指出,識別引擎通常會為每個單詞返回一個介於0和1之間的置信度值,程序員可以決定什麼時候要求用戶要求重說一遍。然而,怎樣確定好的置信度是一種藝術,如果置信度模糊不清,會導致用戶被接二連三的要求重說一遍,引起用戶的反感。

她說:「如果問用戶,您說的是『美國』還是『USA』,這就會讓用戶反感。」並且,Dahl 警告說,「如果設計考慮的太多,那就會沒完沒了,這包括:地區口音、兒童、惡意用戶、隱私等等考慮因素。」

然而,識別引擎的選擇並不是重要的考慮因素。當被問及哪家供應商的產品更適合哪項工作時,Malingo說,「我們看不出他們之間的差異。」

另一個關鍵點

當普遍認為語音識別已經足夠好的時候,2017 年 4月 12 日發生的一件事改變了人們的看法,當時,漢堡王(Burger King) 播放了一則電視廣告,想要欺騙任何正在收聽廣告的谷歌 Home 設備。

在廣告中,主持人說,「您正在收看的是一個 15 秒鐘的漢堡王廣告,遺憾的是我們沒有足夠的時間來解釋 Whopper 三明治有什麼樣的新鮮食材。但我有個主意。 那麼, 谷歌,Whopper 漢堡是什麼?「

所有聽到這個問題的谷歌 Home 設備,其回答都是背誦維基百科上 Whopper 漢堡頁面的內容。一位不願透露姓名的谷歌女發言人說,谷歌在當天阻止了這種回答。她說:「我們的主要目標是,谷歌Home 在您需要的時候提供幫助,而不是在您不想要的時候幫助您。」

同時,語音識別顧問 BillMeisel 指出,如果您想要使用語音識別工具在計算機上撰寫文本,那麼,Windows 語音識別和Dragon NaturallySpeaking仍然是不錯的選擇。他補充說:「這是律師和醫生的專業領域——但如果您想在手機上口述筆記,Cortana 會讓您得償所願。」

至於最終會怎樣,黃指出,「PC 讓計算普及開來,而移動計算讓 PC 普及開來。下一轉變將是環境計算,那時,您不會被束縛在設備上。語音識別將是這種轉變的核心所在。」

Mityas 對此表示同意。他說:「10 年後,沒有人會再使用應用軟體。他們與設備交談,使用鍵盤的日子很快就會過去。」

作者:Lamont Wood

編譯:Charles

原文網址:http://www.computerworld.com/article/3237587/

emerging-technology/speech-recognition-grows-up-and-goes-mobile.html

計 算 機 世 界

CHINA COMPUTERWORLD

關 於 IT 產 業 和 產 業 IT 的 一 切

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 計算機世界報 的精彩文章:

區塊鏈這麼火,你知道怎麼應用嗎?
Adobe高管:現在還不上雲?當心被競爭對手顛覆!

TAG:計算機世界報 |