左手握技術，右手握需求，但聲紋識別依舊當不了「獨行俠」

科技 10-30

前段時間，OPPO意外上了熱搜。

因為智能AI語音助手「小歐」的語音喚醒、解鎖功能，用戶花了5000元買了一部OPPO的手機。這事沒讓用戶感到興奮，反而有點恐慌。

根據指示，在錄入聲音後，應該只有聲音的主人能夠語音喚醒、解鎖，而現在，在用戶已經提前錄入聲音的前提下，他的朋友竟然也通過語音成功喚醒小歐，並解鎖手機。

這其中究竟是哪一步出了問題？

答案是，語音識別。

說得更準確一點，是手機系統的聲紋識別不夠準確。

聲紋識別很「低調」，但掩蓋不住市場利好

就像這個世界上沒有任何兩片樹葉的紋理是一樣的，即使是雙胞胎，他們的舌、牙齒、喉頭、肺、鼻腔在尺寸和形態等方面多多少少都會有些差異，即便是聲音聽起來相似，但聲紋圖譜總歸是不同的。

具體說來，聲紋識別是生物識別手段的其中一種，跟它屬於同一家族的還有指紋識別、人臉識別、虹膜識別等等。在現實生活中，識別技術通常都被用來作為交互或是安全認證的一種手段，聲紋識別亦不能免俗。

目前，聲紋識別技術最大的市場在於安防和金融。其中，最為經典、刺激的當屬刑偵。最佳例子來自2017年的熱播劇《人民的名義》，針對陳海發生車禍一事，反貪局局長侯亮平與京州公安局局長趙東來在全場進行探討分析，提到陳海在車禍前共接到兩個舉報電話，京州公安局將兩個電話交由不同技術部門進行了兩次鑒定，最終得出結論，兩通電話舉報人的聲音並非蔡成功一人。

如何知道聲音不是同一個人的？這其中所使用的技術就是聲紋識別。更進一步講，這是1對1的聲紋識別技術，通過將電話中的聲紋與資料庫中蔡成功的聲紋特徵進行1對1比對。

而在金融領域，聲紋識別技術也被用於用戶身份確認等方面，譬如銀行系統會要求用戶登錄時先行說出一段指定文字，從而進行聲紋數據的比對，以確認用戶是否為本人。可以說，在安防/金融等領域，聲紋識別有著先天的落地場景和利好前景。

安防/金融等應用場景之外，聲紋識別也逐步地在智能硬體、智能家居等產品或場景內實現落地。

以智能家居場景內的智能音箱為例。最初智能音箱並不具備聲紋識別的功能，這也就意味著任何人都可以喚醒它並對其下指令。而當有多人同時發聲時，智能音箱就會發生「指令混亂」的問題。如果任何人都可以通過智能音箱進行全場景控制，那麼無疑為不法分子提供了作案便利。因此，出於安全性、指令接收準確性、個性化等因素，聲紋識別技術也漸漸在智能家居、智能硬體等場景中實現滲透。

目前，在聲紋識別技術的應用方面，除了接入安防、金融等行業，諸如長虹等硬體廠商也研發並推出了具備聲紋識別功能的智能電視、智能手機等等。

從近幾年的情形可以看出，相比於指紋識別、人臉識別等生物識別技術，聲紋識別是「低調」的，但市場需求是的確存在的，且市場熱度也有上升趨勢。

相比其他家族成員，聲紋識別的成長過程有著許多「攔路虎」

此前，智研諮詢發布《2018-2024年中國聲紋識別技術行業市場運營態勢及發展前景預測報告》，內容中指出，2017年聲紋識別技術的全球收入為1.32億美元，而這一數值在幾年將增至1.59，增速達到20.5%，預計到2021年，聲紋識別技術的全球收入將達到2.64億美元。僅從這一數值來看，聲紋識別的市場預期還是不小的。

但另一方面，這一市場預期又著實有點不夠看頭。國際權威調研機構Gen Market Insights發布了《全球人臉識別設備市場研究報告2018》，報告稱，2017年全球人臉識別設備市場價值為10.7億美元，到2025年底將達到71.7億美元，在2018年至2025年期間將以26.8%的速度增長。

一邊是個位數，一邊是十位數，這中間的差距之大十分明顯。

此外，我們再看另外一組對比：

從易用性、準確率、成本、用戶接受度等角度出發，對各項生物識別技術做對比。我們可以直觀看到，綜合評判上，相比於指紋識別、掌型識別、人臉識別、虹膜識別等生物識別技術，聲紋識別在各方面都佔據優勢。

那麼，我們就疑惑了：市場存在需求，易用性、準確率、成本、用戶接受度等方面又比其他生物識別技術更有優勢，緣何聲紋識別技術的市場佔有率遠遠落後於人臉識別等技術？

問題就出在數據的採集和覆蓋範圍上。

在本文開始，我們就提到縱然是雙胞胎，他們的聲紋特徵也是有所差異的，不過更為準確地講，聲紋是一種「相對唯一」的生物特徵。

在實際應用中，聲紋識別受影響的因素比較多，首先註冊模型上，受限於環境、身體狀態等因素，一個人的聲音會發生不用的變化；其次在應用中，也會受註冊環境跟驗證環境不一致造成的失配問題，致使聲紋不能匹配；最後，聲紋也會隨著年齡的變化而變化。另外，雖然聲紋可以實現非接觸的，但是在入侵方面也增加了更多的風險，比如錄音、合成器合成等。

其中針對某些問題，人工智慧技術能夠給予一定的幫助，比如環境對聲紋收集和比對的影響。一般情況下，在語料覆蓋率足夠完整的前提下，將之用於模型的搭建和訓練，在最終實際應用場景中，即使面對嘈雜的環境，系統在提取聲紋特徵時便會將這些因素「去掉」，從而確保聲紋特徵的精準。

什麼是語料？是指一個人的聲紋數據。

不過，用極限元創始人兼CEO溫正棋的話來說，面對環境失配問題，現在更多的是通過語料的覆蓋率來解決。在其看來，技術的成熟度極大程度上也是依賴語料的積累度。

語料積累的全面與完整，這涉及到背後的聲紋資料庫是否全面覆蓋了不用環境、不同狀態等場景下的聲紋特徵。對於一般企業而言，這是一個極具難度的工作。

語料的完整與否影響了模型訓練的精確度，也影響了聲紋識別技術在實驗室之外的商業化落地，尤其是面對1對N的「說話人辨認」的情況，相對於1對1的「說話人確認」，「說話人辨認」會要求系統通過聲紋識別技術在多個人中找出一個人，這對系統的語料完整度、聲紋特徵提取的準確度等多個方面提出了要求。

未來，聲紋識別當不了「獨行俠」

現如今，以智能手機為例，各大手機生產商、應用開發商更樂意採用人臉識別技術來用於認證解鎖、認證支付。而在機場、高鐵等場地，人臉識別檢票等設備也應較為常見。

在這些場景中，人臉識別技術被作為安全認證技術獨立使用。那麼，同樣是安全認證技術，聲紋識別有沒有機會來當一回「獨行俠」？

嚴格說來，聲紋識別當「獨行俠」的機會很少，微乎其微。只有在相對局限的場景中，譬如相對外來因素影響較小的家居環境等等，用戶只需要提前錄入自己多種狀態的聲紋並實時更新，系統將能夠獨立提供服務。

至於其他較為複雜的環境，現在的聲紋識別很多都是與語音識別和人臉識別等結合，譬如用戶讀出一段指定文字，以登錄銀行賬戶等，安全指數更高。也因此，從大趨勢來講，聲紋識別當不了「獨行俠」。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 鎂客網 的精彩文章:

※BAT大佬金句不斷，AI垂直論壇亮點頻出——2018 WAIC的乾貨集錦
※特斯拉定製AI晶元明年推出；Uber或明年IPO

TAG:鎂客網 |