當前位置:
首頁 > 最新 > 人工智慧語音識別的漫漫長路 任重而道遠!

人工智慧語音識別的漫漫長路 任重而道遠!

語音識別已經走過了很長的路,但這只是一個開始。我們需要了解它是如何工作的,一些最好的語音識別技術是什麼,等等。

今天,隨著新技術的出現,通信發生了變化。對於所謂的大型企業,一個「物理人」是從來不會回應我們的。相反,自動錄音會回答並指示你按下按鈕以瀏覽內置菜單。許多移動應用程序開發公司提出的想法不僅僅是按下按鈕,客戶只需說一些詞就可以解決他們的疑問。

這怎麼可能?

這完全歸功於通過聲學和語言建模使用演算法的語音識別程序。聲學建模表示語言單位的語音和音頻信號之間的聯繫,並且語言建模將聲音與單詞序列相匹配以區分發音相似的單詞。

該軟體可用於家庭和企業,使用戶能夠通過文字處理和語音識別與電腦交談並將文字轉換為文本。你可以訪問功能命令,如設置鬧鐘、打開文件,在你最喜愛的餐廳預訂等等。另一方面,一些移動應用程序可以用於精確的業務設置,例如醫療或法律轉錄。

阻止語音識別成為主導的是它的不可靠性。有時候,口音或言語障礙不能被文字識別平台所理解。因為,僅僅識別聲音是不夠的,軟體還必須識別新的單詞和專有名詞。

這項技術是如何工作的

世界充斥著智能手機、智能汽車和智能家電,但我們並不總是考慮語音在這些設備中扮演的角色。語音識別非常複雜。例如,想像一下孩子如何學習一門語言。從孩子出生的那一天起,聲音就圍繞著他們。雖然很小的孩子不理解這些單詞,但它們吸收了所有的提示和發音,而且他們的大腦根據父母的交流方式形成了模式和聯繫。

語音識別技術的工作原理基本相同:

·用戶通過在移動應用上調用語音識別來說出一些詞語。

·說出的單詞由識別軟體處理並轉換為文本。

·然後將轉換後的文本作為輸入提供給搜索機制,從而返回結果。

Google的機器學習演算法現在已經為英語達到了95%的字詞準確率。

基於語音的移動應用的優勢

更簡單、更快速:最初,提供命令的唯一選擇是使用鍵盤。現在我們可以通過語音識別,這樣,與設備的通信變得更快、更自然。

精確地工作:可以避免錯誤,用戶可以專註於他們正在做的事情,而不是看他們的手機。

提高生產力:基於語音的移動應用程序提供簡化操作,可提高運營效率。

安全性改進:語音技術可以快速安全地解釋和遵循,並且需要較少的訓練。

多種用途:通過移動設備進行的基於聲音的訂單有助於執行任務。

為什麼這很重要

通過將語音識別技術集成到你的移動應用程序中,你可以不必通過使用手機的鍵盤來做更多的事情。當發簡訊給某人時,輸入較長的語句可能會導致錯誤,並且始終單調乏味,但通過語音功能,你可以擁有免提通信體驗。

藉助語音技術,移動應用程序開發人員可以增加用戶交互和用戶體驗,因為移動應用程序命令提供解決用戶體驗問題的獨特方式。由此,語音助可以說是最簡單的解決方案。

集成語音功能時面臨的挑戰

由於語音集成是一項相對較新的技術,因此挑戰必然會出現。

實時響應行為:實時響應取決於設備的網路功能:網路連接和麥克風。當用戶提供語音命令時,移動應用必須與伺服器交互以將語音數據轉換為文本。一旦文本被轉換並發送回設備,它就是可執行的動作。發送和接收應用程序行為的過程稱為實時響應行為。如果定義的操作要搜索,則設備會向伺服器發送另一個請求以獲取結果。在這種情況下,網路延遲可能是最具挑戰性的事情。為了克服這一點,開發人員必須確保應用程序的源代碼得到了適當的優化。此外,他們可以將語音識別和搜索功能移到伺服器端。

語言和口音:每種軟體都不支持所有語言,開發人員需要確定目標受眾的區域,以便在識別語言或口音時作出戰略決策。口音是語言的問題,因為難以定位和識別每個口音以及與之相關的語言。Google的API支持不同的口音,並且是讓你的移動應用程序支持大量不同口音的最佳方式。

標點符號:這是基於語音的軟體面臨的最大挑戰之一。不幸的是,即使是最好的改進和演算法也可能不起作用,因為在現實生活中有無盡的句子和不同的標點符號。

一些最佳的語音識別技術

百度:來自中國的一項技術,百度專註於互聯網相關服務和人工智慧。這種語音識別技術是深度學習、計算機視覺、語音識別和合成、自然語言理解、數據挖掘和BI的融合。它依賴於深度學習演算法,包括對多層神經元虛擬網路的訓練,以識別龐大數據的模式。百度移動應用程序使用戶能夠使用語音進行搜索,並附帶名為Duer的語音助理。語音查詢在中國更受歡迎,因為輸入文字比較費時,而且有些人不知道如何使用拼音。

Siri:「Hey Siri」功能使用戶能夠調用免提模式的通信。 Siri在iOS7中的工作比早期版本更好。它的反應更快、理解更多、說話更自然。如果你看一個網頁或應用程序,你可以說,「提醒我這個,」Siri就會知道你在看什麼,並添加提醒。你甚至可以添加時間或地點,不再需要複製/粘貼某個東西或者準確描述你想要的東西。

微軟 Cortana:Cortana是微軟為多款產品創建的虛擬助手。這是一個免費的數字助理,可以發送提醒、保留筆記和列表、處理任務,並幫助你管理日曆。這個應用程序可以提供基於位置的通知、安排會議、附加照片提醒等等。

當使用Office 365或Outlook時,Cortana可以提醒你電子郵件中列出的待辦事項。與其他智能手機助理類似,Cortana會為你搜索查詢,找到一個快速答案,甚至可以幫助你找到你喜歡的餐廳,並提供其他合適的建議。

亞馬遜Alexa:使用Alexa就像詢問一個問題一樣簡單。只要求播放音樂、調整光線或閱讀食譜,無需任何屏幕或任何手動激活,即可立即回答。無論你是在家還是在旅途中,Alexa的設計都讓你的聲音控制你的世界,讓生活更輕鬆。你與Alexa交談的越多,它採用的語音模式、發音和個人喜好就越多。利用Alexa應用程序,只需連接家中的Wi-Fi網路,即可致電或發送任何信息。一旦你習慣了使用Alexa,它可能會比與Siri這樣的基於電話的語音助理交談更自然也更有反應。而且達成的結果是,當你在家時,你會發現自己使用手機的頻率較低。

結論

語音識別技術確實走過了漫長的道路,隨著移動應用開發公司之間的激烈競爭,語音識別技術進步的發展在我們面前邁出了漫長的道路。

?此文章為「雜談那些事」原創,申請入駐一點號,特此聲明!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雜談那些事 的精彩文章:

TAG:雜談那些事 |