開源之戰：在搜集人類語音數據上，谷歌與火狐展開正面交鋒

新聞 08-29

那些免費的音頻資源更實用，甚至比那些大公司秘而不宣的數據集更有價值

新智元編譯

來源：Fast Company

編譯：弗格森張易

【新智元導讀】巨頭都在爭相開源，那麼彼此之間會不會形成競爭？近日，火狐瀏覽器的所有者 Mozilla 開源了一個語音資料庫，與谷歌所做的資料庫高度類似。這篇文章比較了兩家公司資料庫的構成要素和數據搜集方法。文章認為，那些免費的音頻資源更實用，甚至比那些大公司秘而不宣的數據集更有價值。

一個語音虛擬助理，比如Siri、Alexa、Cortana或者Google Home的表現，很大程度上是由驅動其的數據決定的。要訓練這些程序來理解你正在說什麼，首先要擁有大量關於人類對話的現實案例數據。

這讓現有的語音識別公司擁有天然的優勢，因為他們已經大量地積累了對話樣本數據，能用於訓練演算法。所以，希望在這個舞台上競爭的創業公司必須擁有自己的一套語音音頻文件，也許可以從現有的文檔（如TED Talk轉錄構建的大約300小時的語料庫）獲得。

卡內基梅隆大學研究教授 Alexander Rudnicky說，開發人員通常需要訪問數百或數千小時的音頻。

谷歌從某種程度上也認可了這一說法，上周，他們發布了全球錄音的眾包數據集。這一包含了 65,000 條一秒鐘音頻剪輯的語料庫包括了來自世界各地的人們說的簡單的指令詞：「是的」，「不」，「停止」，「去」等等。

Mozilla是開源Firefox瀏覽器的擁有者。Mozilla最近推出了一個名為Common Voice的新項目。他們的目標是建立一個免費對外提供的，眾包的世界各地語音樣本數據集，包含各種樣本單詞和句子。

谷歌的錄音是AIY自動動手開發人工智慧項目的一部分，旨在使創客們能夠體驗機器學習。「我們用來創建數據的基礎設施也是開源的，我們希望看到它被更廣泛的社區用來創建自己的版本，特別是覆蓋服務不足的語言和應用程序，」谷歌軟體工程師Pete Warden說。

總的來說，它不僅是超過一千兆位元組的聲音，還是谷歌收集的用於訓練自己的AI系統的語音數據總量的一小部分。該公司曾經開設了一個自動化的助理服務，事實證明，這是他們收集人類語音數據的一種方式。

但是，以上所有這些都是私人公司持有的，通常不對學術界、研究人員或將來的競爭對手開放。這就是為什麼Mozilla決定推出其Common Voice項目。

「當我們開始開發這些系統時，我們發現我們可以在演算法的基礎上建立其他人的作品，並在演算法方面做自己的創新工作，但是對於所有這些，數據選擇，創建和聚合是一個挑戰，「Mozilla新興技術高級副總裁肖恩·懷特（Sean White）說。「如果你想做一個新的語音識別系統，你不能到市場上隨便就能找到一個高質量的數據集來使用。」

Common Voice 邀請所有具有互聯網連接和麥克風的人通過網頁瀏覽器上的幾次點擊來提交他們自己閱讀特定句子的簡短記錄。這與谷歌的項目工作方式類似，雖然Common Voice要求人們提交完整的句子，而谷歌只要求錄入那些通常用作命令的特定單詞和數字。

這些句子是由志願者提交的那些會話短語的混合，比如 -「她把充電器還給我了」是項目的GitHub文件中的一個，出自經典電影Charade and It』s a Wonderful Life。 Mozilla還要求參與者提供一些基本的人口統計信息，如年齡，性別和英語方言區（例如美國英語，加拿大英語或英語，西印度群島和百慕大）。

該項目在首次開放的大約57天內收集了大約307,000個錄音，每段約3至5秒。 Mozilla開放式創新團隊數字戰略家Michael Henretty說，這使得總音頻的播放時間達到了 340 到 520小時。

他說：「我們已經超越了TED演講，那是其中一個較大的開源數據集。

Mozilla的目標是在今年晚些時候發布一個版本的數據集，希望能在這段時間內擁有10,000小時的音頻，這個數字估計足以訓練現代的生產質量標準的系統。這遠遠超過谷歌剛剛提供的18小時的音頻剪輯資料庫。擁有大量和各種各樣的語音樣本的關鍵原因之一是使得在其上訓練的演算法避免了意想不到的偏見。因為任何一個嘗試使用語音助手的重口音的人都可以證明，這些系統在理解簡單的英語方面比別的更好。

谷歌收購的數據科學社區 Kaggle 的數據準備分析師 Rachael Tatman 在今年早些時候發表了一篇關於性別和方言如何影響 YouTube 自動化標題準確性的文章。她發現 YouTube 自動標題對於女性和蘇格蘭口音的演講不太準確，但根據訓練數據的使用情況，不同的系統可能會出現不同的錯誤模式。

「如果是我看了很多弗吉尼亞州的女性發表的演講，我也會對來自弗吉尼亞州的女性的演講聽得更準確，而對來自加利福尼亞州的男性就聽不了這麼準確。」Tatman 說。

現有的開源數據集已經被發現存有「偏見」——例如德州儀器最初收集的交換機對話數據集，現在託管在賓夕法尼亞大學語言數據聯盟。有偏見的數據在人工智慧的其他領域一直是個問題，一些演算法被認為更好地識別白人面孔，或者在理解推特上非裔美國人的英語時有困難，這對旨在為不同受眾服務的高科技公司和開源項目來說尤其是問題。

Mozilla 還邀請用戶驗證提交的樣本，驗證錄音的正確性。最近，由網站進行驗證的樣品包括來自英語世界各個地方口音的正確錄音，還配了一個聽不清的樣本，以及一段貓王的音樂。

Tatman 說，大多數語音助手背後的公司都沒有提供內部語音記錄，這並不完全是為了防止競爭。由於很多查詢都包含了個人信息，例如網路搜索或簡訊，如果開放數據將會造成隱私泄露。通過一個人獨特的聲音就可以識別他。

不過，這些公司仍會在內部使用這些數據：蘋果公司過去曾表示，它可以保留兩年的Siri數據，以及相應的用戶標識（如抽取出的 ID 號碼和電子郵件地址），以幫助改進演算法。該公司沒有對其當前Siri音頻保留政策引發的每個評論的進行反饋。

「你的聲音是可識別的，」Tatman 說。「這被認為是可識別的信息。」

Mozilla 也採取了措施來保護用戶隱私，因為它收集的是開源語音數據。「我們費盡心力地將用戶與相應的錄音分開，使得剪輯本身沒有嵌入個人識別信息。」

和一些現有的公開可用語音記錄數據集（如經過標記的 TED 演講）相比，Mozilla 數據集的一個優點是，和Siri或Alexa設備的聲音樣本一樣，錄音時的環境條件與人們實際使用語音識別軟體時的環境條件相似。

Rudnicky解釋道：「他們基本上是用瀏覽器來收集數據，這意味著所收集的數據的更多地代表了目標用戶可能具有的特徵。例如，我坐在辦公室里，我用的麥克風是辦公環境下桌面使用的那種，類似這樣。」

所收集的錄音擁有各種各樣的講者及口音以及所預期規模的數據集，因而會比現有的那些免費的音頻資源更實用，甚至比那些大公司秘而不宣的數據集更有價值。「我們在儘可能地撒一張大網」，Henretty稱。

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※上交大ICCV：精度保證下的新型深度網路壓縮框架，壓縮率3000％
※谷歌无人车之父Sebastian Thrun：摄像头才是无人驾驶最好的方式
※「重磅」2017中国机器人产业发展报告权威发布，智能技术比肩欧美(2万字，57PDF)
※谷歌無人車之父Sebastian Thrun：攝像頭才是無人駕駛最好的方式

TAG:新智元 |

您可能感興趣

※依圖科技發布語音開放平台，聯袂微軟、華為撬動語音市場
※智能音箱之後，誰將引領下一次語音交互的浪潮
※中國核司令程開甲逝世、物理試卷驚現王思聰吃熱狗題、RNG致歉，公布比賽語音破內訌傳言
※華為將開發海外版語音助手，與谷歌和亞馬遜競爭
※刺激戰場：決賽圈打開語音發現「隱形人」，結果玩家笑了
※谷歌開源語音引擎：分享9大語音功能，為長篇對話提供字幕
※DOSS再開先河，發布全球首款語音互動式超級藍牙音箱
※終結傳統智能音箱，「小度在家」開啟語音屏幕交互新時代
※搜索引擎「出框」，語音搜索才是終局
※AI語音對話交互，開啟智能生活新篇章
※語音宏技術加上滑鼠，真是開了眼界！
※阿里開源自主研發的 DFSMN 語音識別模型，引谷歌論文引用
※谷歌開發車用語音助理，美國人的技術真的比較強嗎？
※PUBG更新爆料：沙漠之鷹到來！戰隊系統、無線電語音即將上線
※獵戶語音OS亮相鎚子新品發布會，老羅直言：「市面上最好用」
※語音交互之後，谷歌為他們的智能音箱加上了一塊屏幕
※出門問問發布無線智能耳機，李志飛：語音交互的下一個爆點
※致敬羅永浩和堅果TNT？火狐要在瀏覽器上開啟語音操作時代
※《第五人格》或加入語音功能開黑溜屠夫！
※一部音箱，一個平台，亞馬遜開創的「語音交互時代」