當前位置:
首頁 > 最新 > 想普及語音交互,人類必須先過自己心裡這道坎

想普及語音交互,人類必須先過自己心裡這道坎

今年互聯網女皇的報告發布了,相比去年用了10%的篇幅大談語音交互,今年的報告對於語音交互似乎冷靜了許多。不過我們仍然能看到,報告指出,來自Google Assistant的數據顯示,接近70%的請求都是自然語言、對話方式發出的,機器學習已經驅動Google的語音識別率從2013年的不足80%,提升至如今的95%(國內大部分平台公布的識別率是97%)。

我們可以看一看去年的報告,其中提到,快速簡便、個性化的語音交互很可能代替人們的雙手,成為人機交換的新模式。解放了雙手和視覺,能將「在線」這一概念延伸的更遠。

可讓人困惑的是,語音交互應用,尤其是中文語音交互真的離我們那麼近了嗎?

面對Siri,讓她來段beatbox之外,好像也沒有什麼好說的。看到報告中的數據後,我破天荒的長按home鍵,看到屏幕上那行「請問需要什麼幫助」後竟然沒由來的感到一絲尷尬,這感覺和我面對不熟的親戚時搜腸刮肚找話題的感覺一樣。

我知道語音助手們能幫我做很多事,搜索、打電話、發信息、叫外賣……可我就是開不了那個口。

我相信有很多人跟我一樣,除了在不方便聽微信語音時點個長按識別或者開車時指揮一下XX地圖之外,寧願死守著手指與鍵盤老一套的交互方式。這究竟是怎麼一回事?

語音交互真有這麼厲害?真有!

首先我們來看看,語音交互已經走到哪一地步了。

簡單來說,語音交互的關鍵在於兩點,一個是語音識別準確率,另一個則是自然語言處理(你經常能看到的NLP)水平。

語音識別將聲音轉換成波形文件,對聲音進行分幀,再從每一幀中提取包含內容信息的多維向量,這一過程就是聲學特徵提取。提取特徵後再將特徵組成音素(單詞發音的構成,類似於音標,對應漢語則是聲母、韻母)。而有了音素之後,還需要大量語音數據,對應聲紋幀和聲學特徵利用隱馬爾可夫模型、Viterbi演算法考慮語音與音素的匹配程度、音素之間轉換的概率再加上可以解決多音字問題的語音模型,最終形成一個有足夠多節點的網路,識別語音時,只需要找到與聲音最匹配的路徑就好。

計算能力加強、數據量增大,加上深層學習神經網路將計算機視覺應用於語音波形文件之上,語音識別準確率提高几乎是必然的結果。方言、多音字、語音語速個性化這些問題也正在被一一解決中,例如科大訊飛就表示自己可以利用「基於說話人編碼和i-vector的深度神經網路自適應演算法,以完全不需要人工干預的方式率先在產品中解決了深度學習框架下的說話人自適應問題。」

而NLP則是一個大話題,和語音交互有關的自然是其中語音處理的部分。從理解到生成反饋,其中涉及到大量有關機器學習的複雜問題,這裡就不再贅述。我們只需要知道的是,計算能力、數據量、機器學習三個關鍵指標的發展,已經極大的提高了語音交互的應用性。吳恩達曾經說過,「人們很快會習慣與機器流暢交流的時光,而忘記以前是如何與機器交互的」,如此可以看出,語音交互似乎已經可以代替如今人機交互中的很大一部分了。

語音交互應用範疇:先讓速記下崗

語音交互已經在我們生活中的哪些場景開始應用了?目前來說,與其稱之為「徹底的改變交互」,不如說「更多的代替人工」。最典型的例子就是在很多發布會上看到語音識別速記,其準確率已經和人工齊平甚至超過了人工。

語料庫累積不夠、識別能力和理解能力有限,在這些大前提下,語音交互應用於有特定場景的服務系統似乎更為實際。例如客服、人工服務窗口等等,從其業務範疇制定語音交互系統或許可行,如同線上智能客服。

除了單純的識別文字,語音交互更大的價值在於把聲音中更豐富的內容傳遞給機器。旋律、語種、情緒還有最關鍵的聲紋,這些都是文字中無法體現的。如何挖掘這些信息的價值,語音這個不算新鮮的交互方式的溝通密度達到一個新的維度,這些才是語音交互的革命性所在。相比之下,讓Siri幫你找個加油站,已經是語音交互最最淺層的應用了。

可我還是覺得和Siri說話好尷尬啊!

那麼回到最初的問題,面對語音交互我們為什麼開不了口?

這一點和我們與整個物理世界交互的方式有關。從原始人時期開始,我們想挪動石塊就會伸手,想召喚朋友就呼喊。從一開始,我們和物體的交互方式就是動手,而和生物的交互方式則是語言。當我們和非人甚至非生命體用語音交互時,我們心中常常默認TA是有「人性」的,比如寵物、植物等等,古代艷情小說里也常寫到,書生日夜與畫中美人交談,最終畫成精幻做人形。

後來進入了機器時代,雖然機械已經能代替我們做很多事,可我們和機械的交互依舊是物理式的。包括如今通過終端操作移動互聯網,雖然只是手指,但還是物理層面。甚至到傳說中吹氣指揮行動的呼吸控制型輪椅,但凡不是語音交互,人們的接受度都不低。而互聯網的出現更是把人與生命體之間原有的方式極大的改變了,不用說話,以物理方式(打字)也能進行交流,甚至給彼此留出了更多斟詞酌句的時間,說錯話了可以撤回,還能用表情包斗圖呢。看看大家是在飯局上說的話多還是微信群里斗的圖多,很快我們就能知道計算機對生物之間交互的方式改變了多少。

而到了語音交互,則是徹底改變了我們和物理世界的交互模式,更考驗著我們對於「人性」的固執認識。尤其是在被給予了很多希望的物聯網領域,想像一下,如果你回到家不是用手去摸開關,而是在空蕩蕩的房間里說一聲「開燈」,這畫面是不是有點詭異?同理,做語音助手的都喜歡給自己起個人一樣的名字,目的就是為了增強人性、消除用戶的不適感。

對於人類這種被計算機調教的越來越依賴物理交互的生物來說,將語音交互帶入生活簡直是在開生活習慣的倒車,忍不住要說一聲好彆扭。

或許在語音交互普及方面,我們除了要克服技術方面的難題,更多的還要克服我們自己。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 界面 的精彩文章:

網大網劇想做二次元題材?帶你看看用戶的「真實面目」
每個大人都曾經是小孩,不過,你10多歲的時候在編程么?
好看也要好用 五款適合不同場景穿著的女性跑鞋
大疆Spark國內首秀 回應監管:不鑽250克重的空子
電商造節搭台618家電廠商借台唱戲

TAG:界面 |

您可能感興趣

如果你也對語音交互感興趣,這裡有份書單可以參考
沒想到,小米小愛音箱有的智能語音交互,這款骨傳導耳機居然也有
如果這條語音是你愛的人發的,你還會討厭聽嗎?
很多手機都有智能語音助手,可你知道背後原理嗎?
你什麼聲音都沒聽到,而語音助手卻臣服於別人
經常給你發這些語音的男人,看來他並不打算真心待你,你要明白
「語音」拔罐雖好,但不是人人都適合喲
齊悟:做好語音交互技術,讓機器人不再當人工智障
常常用語音和你聊天的人,多半是對你「情」有獨鍾
為什麼語音聊天時總感覺自己的聲音那麼難聽?
AI語音助手如何能夠識別我們情緒化的聲音進行彼此互動
這個乾貨一般人我不說:智能語音識別與關鍵詞識別有什麼關係?
你會在什麼情況下給對方發語音?你又在什麼情況下討厭語音?
為什麼你們可以發語音?
能識別你的手勢、語音,亞馬遜折騰了各種無人機「人機交流」的專利
聰明人,都這樣發語音
分離人聲問題的攻破,將會為語音識別領域帶來哪些可能性?
為什麼大部分的語音助手都是女聲?答案你很難想得到
網戀的對象,一直不肯接視頻,只願意語音,這是什麼心理?
用 AI 克隆語音,人和自己「對話」的障礙在哪?