Google為開發者推出改進後的語音轉文本服務

科技 04-10

幾周前，Google 剛剛對「雲端文本轉語音」API 實施了大改版。現在，該公司又升級了自家的 Speech-to-Text 語音識別服務。改進後的 STT API 承諾顯著提升了語音識別的性能，在內部所有測試中，單詞錯誤率減少了 54% 左右。不過在某些領域，實際表現要好得多。基於用例，新版 API 現允許開發者在四種不同的機器學習模型間進行選擇。

其中有面向短查詢和語音命令的，以及一個理解通話語音和處理視頻中音頻的。第四個模型屬於新增默認，谷歌推薦在所有其它場景中使用。

此外，谷歌還帶來了一項新的標點符號模型。團隊承認，其錄音文本長期飽受標點符號不太正常的吐槽。用標點符號來表達自己的觀點，算是出了名的困難。

谷歌承諾新模型可帶來更多可讀的轉錄文本，包括更少的斷句、更多的逗號、句號、以及問號。

本次更新後，谷歌還允許開發者藉助一些基本的元數據標記他們的轉錄音視頻。儘管一時發揮不了直接的益處，但谷歌表示，它將使用來自所有用戶的聚合信息，來決定下一步要優先考慮哪些新功能。

最後，谷歌還試圖對這項服務的收費方式做出小小的改動。此前，音頻轉錄的收費標準為 0.006 美元 / 每 15 秒；視頻模型的收費翻倍（0.012 美元 / 每 15 秒）。

不過 5 月 31 號之後，使用新模型也需要支付 0.006 美元 / 每 15 秒。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

※編程專家3D印表機器人貓，配備了人工智慧
※未來會專註於無反市場佳能春季媒體交流會專訪

TAG:太平洋電腦網 |