同樣做語音,他們為什麼不造音箱推了 「搜狗聽寫」?
GIF/1.7M
AI的「黃金時代」已來!那離我們最近的AI是什麼呢?地圖裡的語音入口,機器翻譯、拍照識圖、無人超市,還是最近大熱的智能音箱,比如正式開售的可語音購物的xx精靈。但這些真是能解決痛點的AI嗎?
近日,在AI領域贏得先機並明確將赴美上市的搜狗,推出了一款小眾的免費產品——「搜狗聽寫」,目的是為了解決會議、採訪、寫作等場景下長語音內容轉寫難,可以將語音實時轉變成文字,並能標註重點、邊寫邊改進行文字編輯。
「聽寫」和「轉寫」為文字工作者減負
採訪一小時,整理錄音三小時,寫稿兩小時……這是機器人圈記者的工作常態,相信也是大量同行的日常,而且除了記者編輯,包括職業寫作者、會議記錄整理者在內的不少文字工作從業人員都有相似遭遇。
當然,「人肉」速記能夠解決部分難題,但一有專業性的門檻,有些速記記錄的術語實在不忍多看;二是時間上需要排期,費用上也需要考慮,並不是所有的「扒速記」工作都能如願「轉包」出去。當然,市面上也有類似的工具,提供付費的轉寫服務,只是準確率仍差強人意。
再看「搜狗聽見」這款免費的APP,確實是擊中了部分人的需求。從功能上看,提供包括「聽寫」和「轉寫」在內的兩種模式:「聽寫」模式可在錄音的同時給出實時識別結果;「轉寫」模式則可在離線狀態下錄音,錄音完成後一次性獲取文字結果。
它還提供邊聽邊改(保存錄音後,可以邊聽錄音邊修改文字)、根據語義自動添加標點、支持文本/語音標重點、多客戶端同步、信息分享等功能,並且在人的說話音量低至30分貝時,依然可以識別。
值得一提的是它的「大殺器」功能,可以根據記者、作家、自媒體等文字工作者的需要,連接搜狗輸入法的個人詞庫,引入個性化辭彙,比如機器人圈的昵稱「圈圈」估計就屬於獨門。
此外,「搜狗聽寫」還將推出Windows版,專註大會場景的實時速記。
「喂」數據才能更強大
對於有著強大需求的機器人圈記者,在現場已經迫不及待的試用了一下產品。
記事寫作比訪談錄音呈現出來的準確性更高
對此,機器人圈記者也採訪了搜狗公司語音交互技術中心總經理王硯峰,他表示所有的搜狗語音類產品背後都是知音引擎,不過,一般面向具體的場景會有優化,有專門的語音模型。在演講、聊天的場景下,和車載、會議以及手機近場說話的語音模型都是不盡相同的。
搜狗語音交互技術中心技術總監陳偉還介紹,搜狗聽寫使用了搜狗知音引擎的長時語音轉寫技術,從立項到現在,錯誤率已經下降30%。在聲學模型方面,採用了端到端深度神經網路技術Deep LC-CLDNN+CTC技術,轉寫模式則使用了Deep CNN+CTC的方式,語言模型基於T級海量輸入法文本數據使用神經網路進行建模。
此外,影響準確度的還有硬體降噪,手機的降噪能力是比較弱的,尤其手機上在遠場的識別率不高,原因就在硬體上手機並沒有面向遠場識別的麥克風陣列。
還有一個重要的原因是數據的不足,「喂」數據訓練模型提高準確度已經是產業界公開的秘密,實時語料數據也將成為這一領域的真正「壁壘」,所以希望準確度提高,也離不開每個用戶的支持。
「自然交互+知識計算」的技術路線圖
當語音領域的隊友們都在「刷音箱」,為什麼搜狗卻做了一款「小眾」的轉寫APP呢?稍微回顧一下,搜狗在語言領域的布局。在2016年6月的搜狗輸入法十周年上,搜狗CEO王小川就提出了將人工智慧定位搜狗輸入法的下一階段戰略發展的新方向,搜狗CTO楊洪濤則首次透露了搜狗輸入法的快速分享、聰明回復和妙筆修飾等目前正在研發的三個能夠增強用戶表達能力的人工智慧新技術;而在7月的奇點創新者峰會上,王小川更是直接邀請一名現場觀眾上台直接演示完全通過自然語音來發送一段簡訊息。
2016年8,搜狗知音引擎發布,正式確立自然交互+知識計算的重點,將智能語音視為入口,並與場景相結合。當互聯網公司和提供AI技術服務的公司進入了同一賽道,他們的「佔位」方式還是略有差異。
在不久前,搜狗CEO王小川在給員工的內部信件中寫到:搜狗是為語言理解而生的,除了搜索引擎對語言理解有無盡的追求,搜狗更有市場份額絕對領先的輸入法產品,也專註在自然語言的計算與處理。正因為有輸入法和搜索,搜狗天然具備了啃這塊骨頭的能力。搜狗將基於對自然語言的交互和計算,將搜索升級到問答系統,將輸入法升級到對話系統,並通過翻譯將中文世界與全世界連接。
其實更通俗的理解是,作為一家帶有AI基因的互聯網公司,搜狗並不認為技術是能直接變現的,用戶積累、硬體落地才是更合理的方式。如果說,「搜狗聽寫」是一個小創新的話,我們期待在人工智慧領域重大的創新早日到來。


※你知道「模仿學習」功能強大,但它和「強化學習」有什麼關係?
※嫌圖片太大!有卷積神經網路幫忙,生成高質壓縮圖像不再難
※瞬間變樣!看TensorFlow如何實現深度「圖片風格遷移」
※TensorFlow和PyTorch相繼發布最新版,有何變化
※如何用CoreML和Swift在蘋果上開發「實時對象識別器」
TAG:機器人圈 |
※你讓智能音箱購物時它會做什麼?懂你似乎一直挺難
※為什麼我不看好帶屏智能音箱?
※給智能音箱種上這個「蘑菇」,你就能防止它偷聽啦
※你讓智能音箱購物時它會做什麼?「懂你」有點難
※追憶童年樂趣,這款復古風智能音箱帶給你不一樣的視聽感受!
※如果真的不再聽個響,監聽音箱會不會是一個更好的選擇?
※選購音箱需要注意哪些事情?功率不能決定音質,快來看看吧
※音箱只能聽不能看?這群帶屏智能音箱表示不服
※什麼?會跳舞還能取暖 這樣的智能音箱給我來一打!
※聯想要劍走偏鋒,不做電腦做音箱?
※智能音箱,你在竊聽我嗎?
※又好玩又會撩人,這樣的小度智能音箱你見過嗎?
※想要它,還真得拼運氣!小米推出小愛音箱手辦版:只送不賣
※他認真做音箱的樣子,看起來真的很酷
※一個藍牙音箱家裡都聽得見?這並不是痴人說夢
※一個能接聽電話的音箱有什麼用?
※音箱音質不好怪誰?很多人都盯著喇叭,發燒友卻指向音箱板材!
※你看不上的智能音箱為什麼大佬都在跟?
※讓音樂發燒友都激動的音箱,它是如何做到的!
※不能聽電台的音箱不是個好收音機