語音合成，一位在校生書寫的訊飛傳奇

知識 06-11

本文是《環球科學》總編、社長陳宗周先生撰寫的系列專欄「AI傳奇」的第五回。通過該專欄，陳宗周先生將帶領我們回顧AI在過去60年走過的風風雨雨，也前瞻AI將如何塑造人類社會的未來。

陳宗周是《環球科學》雜誌社社長，《電腦報》創始人。

霍金又說話了，談論AI前景與人類命運。面對這位偉大的科學家，他說的每句話，人們都會認真傾聽。可是，霍金非常特殊，1985年之後已不能開口說話。他的深邃思想，是如何變成語音，傳到我們耳中？這是AI的幫助，讓他能用語言交流，甚至還能在講演中傾談。

讀過《時間簡史》、《果殼中的宇宙》，聽過黑洞、宇宙大爆炸等宇宙學故事的人，都會或多或少知道霍金，他是一個傳奇。物理學家、宇宙學家、思想家，許多重要學術頭銜集中於他身上，各種榮譽雪片般飛向他。

他的傳奇，還在於他非凡的人生經歷。斯蒂芬·霍金（Stephen Hawking）1942年出生於英國，17歲進入牛津大學，後來轉到劍橋大學學習宇宙學。21歲那年得了很少見的運動神經疾病，從此，他在輪椅上躺了50多年。

他彷彿一生都在挑戰死神與命運，21歲時醫生預測他的生命不會超過兩年。兩年後，他博士畢業。43歲那年，他到日內瓦開會患上肺炎，垂危中醫生詢問他妻子，是否考慮放棄生命維持器。妻子斷然拒絕，把他轉回劍橋的醫院，切開氣管挽救了他的生命，只是從此他再也不能說話了。

霍金被稱為世界上最聰明的人之一，偏癱在輪椅上，大腦卻依然在高速運轉，思想仍在奔流，深刻的見解，奇妙的想法源源不斷湧出。不能說話怎麼傳達他的思想？包括語音合成在內的一系列AI技術，讓霍金創造了不開口也能說話的奇蹟。

語音合成器幫助霍金「說話」

起初，霍金使用運行於Apple II 電腦的語音合成器說話。他用手操作，以每分鐘 15 個單詞的速度與人交流。後來，電腦和語音合成器不斷升級，英特爾公司一直為霍金提供技術支持。

但霍金控制手指運動的神經也在不斷惡化。到 2008 年，霍金的手就不能使用敲擊器了。解決辦法是在霍金眼鏡上安放「臉頰開關」，通過紅外光來監測霍金的面頰肌肉是否收緊。此後，他可以只通過一塊肌肉來上網、寫郵件、寫書和說話。

霍金的交流能力仍然在不斷下降，到 2011 年，他一分鐘只能說出一、兩個單詞。於是他寫信向「摩爾定律」發明者、英特爾公司創始人之一的戈登·摩爾求助。

2012 年 1 月 8 日，在霍金 70 歲的「宇宙狀態」生日聚會上，來了一群英特爾的人機交互專家。而此時的霍金，連自己的這次重要活動都無法出席。

AI和霍金本人共同創造的奇蹟又出現了。軟硬體升級後效果良好，程序會在眼前屏幕上顯示一個鍵盤，同時還配有單詞預測演算法，根據上下文的聯繫提供相應單詞，供霍金選用。當游標逐行逐列自動掃過屏幕和鍵盤時，霍金可以用臉頰開關讓游標停止在選中的單詞上，用鍵盤完成操作。還可以控制窗口中的滑鼠，操作其他軟體。霍金又可以上網、寫論文、說話了，甚至還可以用 Skype進行網路視頻通話。

隨著他身體變化，霍金的專用人機交互系統還在不斷調整，試驗過不少新技術。今天我們看到霍金出現在講演中時，坐在輪椅中的他，總是被一堆AI設備包圍，沒有AI就沒有霍金的聲音。霍金語音被稱為「完美的保羅」，是他和機器共同製造的完美之聲。

霍金說話的故事，是語音合成歷史的一部分。

語音合成發展史

語音合成又稱文本語音轉換（Text to Speech，TTS）技術，顧名思義，是把文本信息轉化成語音信息。相對於語音識別 (Automatic Speech Recognition, ASR)，它被認為是比較簡單的技術。語音合成的歷史，似乎也是一種印證。人的語音，本質上是發音器官震動，產生聲波傳出。模仿人聲，最古老的方法是使用樂器。到19世紀，就可以用機械方法產生語音了。

進入電子時代的1939年，貝爾實驗室H· 杜德利（H . Dudley）製作出第一台電子合成器，這是用共振峰原理製作的語音合成器，而共振峰技術至今還在使用。1960年瑞典科學家G·范特(Gunnar Fant) 的著作《語音產生的聲學理論》，建立了現代語音分析、合成的理論基礎。理論極大推動了語音合成技術的進步，1980年，D·克拉特（D. Klatt）設計出串/並聯混合型共振峰合成器，已經可以模擬不同的嗓音。20世紀80年代末，基音同步疊加時域波形修改（PSOLA）演算法被提出，較好地解決了語音段的拼接問題。

20世紀90年代，隨著計算和存儲能力大幅度提升，基於大語料庫的單元挑選與波形拼接合成方法出現，可以合成出高質量的自然人語音。

20世紀末，可訓練的語音合成方法（Trainable TTS）提出，使系統規模大大縮小，適合嵌入式設備應用，滿足多語種語音合成需求。

進入21世紀，語音合成飛速發展，在達到真人說話水平後，開始關注音色、情感等，使合成的聲音更自然和有個性。

到20世紀90年代，語音合成已經可以商業應用。今天全球有名的兩家語音公司正是在這段時候相繼創立。這就是分別在1992年和1999年創立的Nuance和科大訊飛。兩家公司都脫胎於大學，前者是斯坦福大學，後者是中國科技大學。兩家公司起步都是從語音合成開始。

為什麼當年研發和生產銷售實力雄厚的IT大廠商沒有迅速進入語音合成市場? 這令人有點奇怪。一種可能的解釋是，語音識別更有挑戰性和戰略意義，是必須佔領的競爭制高點。所以，當大公司的精兵強將在語音識別戰場鏖戰而沒有很快看到商業化戰果的時候，從語音合成出發的創業者卻快速打開了語音市場。

技術實際上沒有簡單的。任何一項技術，如果深挖下去，都有無窮的開拓空間。各種技術之間很多也都有聯繫，從研究和商業的角度，都可以互相轉化、融合。語音合成和語音識別的技術和市場本來就聯繫緊密，好像進入一個套房，敲開大門，進入房間就容易了。Nuance和科大訊飛兩家語音公司實際上都是從語音合成起步，延伸到語音處理的全產業鏈。

Nuance的故事我們上一回已經簡單講過了，由於技術壁壘已經不復存在，而靠此壟斷的它，現在情況很不妙。後起的訊飛卻漸入佳境，更值得關注。

劉慶峰與科大訊飛

訊飛這家中國最大的語音公司，也是國內第一家由在校學生創辦而後來上市的公司。寫下這一傳奇的學生，名字叫劉慶峰。

劉慶峰1973年出生，安徽涇縣人。17歲考入中國科技大學。19歲時因專業成績突出，破格進入學校與國家智能計算機研究開發中心共同設立的「人機語音通信實驗室」參與科研。22歲就成為該實驗室承擔的863項目」KD系列漢語文語轉換系統」的主要負責人。他的「基於LMA模型的語音合成器」、「基於數字串外推的韻律構建模型」、「聽感量化」等語音合成新方法，都是在學生期間完成。他研製的中文語音合成系統，在國內外權威評比中關鍵指標均名列第一。也是在學生期間，他被稱為「在中文語音合成技術研究上做出了國際領先成果」。

劉慶峰與科大訊飛

沿著這條路，劉慶峰可能成為頂尖的語音科學家。但就在念博士的第二年，他選擇了另一條路。1999年，他帶領十幾位同學在校創業，訊飛公司在那一年的12月份誕生。

他最初的志向是要「讓計算機象人一樣開口說話」。訊飛公司把他和學校的語音合成科研成果迅速轉化為產品，並不斷發展。很快MP3、電子書、GPS導航器、玩具等等消費電子產品中，都內置訊飛的語音合成模塊，華為、中信、神州數碼等系統提供商，也採用了訊飛的語音組件。各種中文語音合成應答服務場合，機器的聲音越來越美妙，越來越逼近真人，甚至還可以模仿使用者喜歡的名人，這都是訊飛語音合成系統在背後支持。在中文語音合成市場上，訊飛已經佔有80%的份額。

訊飛在語音合成技術上深耕，不僅中文語音合成是全球最好，並且多語種合成也做到了全球領先。2006年開始，訊飛參加權威語音合成競賽「暴風雪挑戰賽」（Blizzard Challenge ）。這項大賽有卡耐基梅隆大學、愛丁堡大學、IBM研究院、微軟亞洲研究院等世界一流機構參加，訊飛連續11年奪冠。2016年比賽主題是英語的故事級語音合成，要求聲情並茂，難度很大。訊飛是全球唯一讓英語語音合成超過普通人說話水平的機構。

劉慶峰要「讓計算機象人一樣開口說話」的理想已經實現了，但是訊飛的腳步並沒有停留在語音合成。2010年4月，蘋果收購語音識別技術提供商siri。訊飛也果斷進入移動語音識別領域並迅速取得成功。在2010年10月底，訊飛語音雲發布，移動語音輸入第一版面世，訊飛用自己語音技術的深厚積累，在中文語音識別領域突破。到第二年10月，iPhone4S發布時，已經有語音合成功能的Siri，還不能支持中文語音，中國的蘋果用戶用上中文版Siri，還要等到2012年10月。這時，訊飛的語音交互系統，已經牢牢佔領了中文市場。

訊飛對深度學習同樣敏銳， 2010年就開始了深度神經網路語音識別研究，並且在2011年上線首個深度神經網路中文語音識別系統。深度學習全面用於訊飛語音處理，與國外同行基本沒有時差。微軟研究院負責語音識別的鄧力博士是中國科技大學校友，2010年到 2012年間接受侯建國校長邀請訪問了科大和科大訊飛。鄧力是最早把深度學習引用語音識別領域的人，他到處推廣深度學習的方法並進行學術討論，他在中國的這些交流也是開始於科大。所以，鄧力評價，科大訊飛的深度學習技術確實在中國是非常早就已經開始應用，只稍滯後於微軟。

2016年9月13日，第四屆國際多通道語音分離和識別大賽（CHiME）的結果在谷歌公司揭曉，訊飛取得本屆賽事全部三個項目的最好成績，訊飛中文語音識別保持領先的同時，在英語語音識別方面向國際同行發起衝擊。

從語音合成出發的訊飛公司，目標是發展成為全球AI領先企業之一。劉慶峰在2017年兩會期間建議，中國要儘快組建AI聯盟，目標高遠。這家語音行業龍頭企業，也是中國AI企業發展的縮影。

百花齊放的語音交互

隨著語音識別、自然語言理解和語音合成等技術的成熟，融合這些技術的語音交互應用也隨之迅猛發展，近年來在智能市場出盡風頭。

儘管語音交互較早就出現，但人們還是認為是蘋果手機的Siri首次成功地將其推向大規模應用。

在2011年9月20日iPhone4S的發布會上，蘋果的一位高管向iPhone發問：「你是誰？」。手機里的Siri立刻回答：「我是你忠實的助手。」被媒體津津樂道渲染的Siri與人這一次經典問答，正好描述出Siri這類語音交互系統最重要的特徵，它是人類的語音助手。所以，它常被形象地稱為語音助理，也叫智能助理。

2010年4月，蘋果以2億美元收購了Siri 時，公司只有24人的開發團隊。但蘋果看好這一方向，收購後甚至在相當長的時間內把Siri技術封閉在蘋果公司內，不開放與第三方的合作，作為自己的競爭利器。

作為語音助理，Siri現在有很多功能：陪你聊天，和你開玩笑，查詢各種信息——還能通過屏幕朗讀功能讀出這些信息，用語音撥打電話、收發郵件，在備忘錄里安排時間並按時提醒你，查找歌曲或者在聽歌的時候讓它告訴你是什麼歌等等。Siri的功能，還在不斷發展。

作為全球最大的搜索公司，谷歌當然不甘落後。在推出不太成功的語音助理Google Now和經歷了Now團隊全部出走事件之後，谷歌公司藉助自己強大的AI能力，在2016年10月隆重發布新一代語音助理平台Google Assistant，支持谷歌旗下的智能軟硬體，如聊天應用Allo、家居應用設備Google Home、可穿戴設備Android Wear、智能手機Pixel、Android汽車、Android電視等等。谷歌立志在Android操作系統的生態圈裡，全面推廣語音交互服務。

目前Google Assistant還只能支持英文和德文，2017年春天才開始支持三星、華為等少數手機廠商。但對比應用和測試了蘋果Siri和Google Assistant個人和機構後的初步評價是，前者長於聊天和娛樂，而後者長於提供實際的工作和生活幫助。

相對於蘋果、谷歌分別依託智能手機和搜索優勢，亞馬遜Alexa則借用自己的電子商務領地，迅速用智能音箱Echo打進語音交互市場，大玩多場景應用；微軟Cortana(小娜)藉助操作系統多年霸主地位，推出跨平台的語音交互系統。

2017年6月的蘋果公司WWDC大會上，在大家的期望聲中，蘋果終於發布了智能音箱HomePod，正面迎接亞馬遜Echo的挑戰。利用自己 Siri平台的優勢，蘋果進一步用智能硬體產品HomePod全力捍衛語音交互市場。

在語音交互這一兵家必爭之地，科技巨頭們的大戰，才剛剛開始。

中國的科技公司也不示弱，2015年5月，京東商城和訊飛合作推出叮咚(DingDong)智能音箱系統，雖然在聽音樂、語音購物、語音控制家電、查天氣等信息等場景應用方面還在追趕亞馬遜，但在訊飛中文語音技術和AIUI語音智能交互平台的支持下，卻有方言識別等獨特的創新。

百度則依託自己的矽谷 AI 實驗室（SVAIL）研發出基於深度學習的語音識別系統Deep Speech和語音實時合成系統DeepVoice。DeepVoice在同樣硬體環境下，比谷歌2016年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍，而這個WaveNet在發布時，還被稱為語音合成的革命性突破。

百度大氣宣布，語音平台永遠免費。還開放了大量語音專利，和海爾、京東、中興、普天等 20 多家企業組建了智能語音知識產權產業聯盟。百度在語音交互戰場，志在必得。

中國語音交互市場，也將八仙過海，熱鬧非凡。

語言是人類最重要的交互工具，語音是語言的美麗外殼。AI催生出的這一場人機語音交互巨變，讓聾子聽音，使啞巴說話，萬物語音互聯的神奇世界，正在到來。

第四回 | 助飛的雙翼

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 環球科學 的精彩文章:

※星際航行行不通？我們可能在旅途中變傻
※數學史上最長的證明，全世界只有4位老人看得懂
※連線雜誌：埃隆·馬斯克一年完成他人八年工作量
※充電5秒鐘，通話一星期
※厲害了！這個黑科技能造福全球100000000人

TAG:環球科學 |

您可能感興趣

※語音識別＋歌聲合成，思必馳的新產品想讓普通人「讀詩成曲」
※科大訊飛副總：語音領域沒對手；周鴻禕：無人文思考的AI是悲劇
※人生一字師『語音版』
※這次不是訊飛：鎚子發布會公布了新的語音技術供應商
※語音轉文字在線生成方法，手機就可以將錄音轉成文字
※林清玄：把自己看成一朵花，香給世界看！（附語音）
※家電配備智能語音這件事，科大訊飛怎麼看？
※RNG比賽語音曝光，Uzi無視教練釀成大禍，網友：估計是飄了
※智能語音技術如何切C端市場，科大訊飛交出這樣一份答卷
※方興未艾的語音合成技術與應用
※黑科技語音滑鼠！語音打字上網、26國語言翻譯！科大訊飛再出黑科技！
※「中國」一詞的非漢語音譯問題
※語音版
※語音合成技術已將肯尼迪最後未完成的演講變成現實
※劉聰：聽懂方言的AI，科大訊飛中文語音識別背後推手
※成精鸚鵡模仿主人聲音用語音助手網購買吃的
※東芝開發出AI將語音轉換成簡潔文字的技術
※三條語音版
※做音頻新聞資訊聚合推薦平台，隨身聽欲成為語音AI版「今日頭條」
※一部音箱，一個平台，亞馬遜開創的「語音交互時代」