把思想活動直接轉變成語音的技術

知識 04-27

言語是強有力的交流工具，但由於生物學或環境限制，並非所有人都有機會使用它。現在有一種新演算法可以把負責語言發聲的肌電信息轉變成清晰的人工語音。

把大腦發送的複雜信息轉換成空氣中有序的振動節奏，絕非易事；完成這一創舉的一系列身體部位是世界上最偉大的管弦樂隊。

嘴唇、舌頭、喉嚨、下頜，喉部和膈肌都需要以近乎完美的同步方式協同工作，哪怕只是說出最簡單的一句話，我們的大腦也要進行全盤的統籌指揮。

加利福尼亞大學舊金山分校(UCSF)的研究人員嘗試模仿這種令人困惑的神經系統機制來指揮人工語音，結果十分不理想。

從理論上說，有幾種不同的方法可以解決這個問題。今年早些時候，哥倫比亞大學的一支團隊成功地採用了一種完全不同的方法將大腦信號轉化為可聽語音。

他們直接提取大腦的聽覺皮層中對相應語音的反饋活動來重建單音節詞。這種方式產生的合成語音有75%的幾率是有意義的——考慮之前的失敗，這不能算是差的結果。

直接解讀大腦的思想語音，難免出現各種謬誤。

源於UCSF團隊早期研究的可能更好的方法，是解碼大腦發送到各處發聲器官的指令信息，然後把信息轉化成聲音。

原則上，肌肉運動信號將比大腦信號更容易接收，因此也更加容易翻譯。

為了驗證他們的想法，研究人員招募了5名志願者，他們都接受過治療慢性癲癇的腦部手術。

借著手術，研究人員順便在患者的腦皮層植入了一系列電極——用來篩選神經系統的信息，監聽腦部語言功能的活動。

同時，在他們的舌頭、牙齒和嘴唇上粘了感測器，用來跟蹤動作。

實驗開始後，受試者需要從語音識別資料庫中讀取數百個單詞和句子，以及睡美人和龜兔賽跑等著名故事的幾個段落。

為了排除聽到自己聲音可能帶來的干擾信號，有一名志願者採取默讀的方式。

然後通過專門設計的演算法篩選出控制嘴唇、舌頭和下顎運動的大腦信號模式。

最後把模式與實際語言發音對應起來。

結果非常好。它們並不完美，但絕對令人印象深刻。研究人員從Amazon Mechanical Turk眾包市場招募了1700多名參與者參加聽力測試，去理解「虛擬聲道」誦讀的上百組句子。

結果因人而異。一位精明的聽眾聽懂了每一句話上。當單詞備選項多達25個時，一般聽眾的正確率不足一半。

然而有些句子比其他句子更容易識別，甚至在一些混亂的聲音結果里仍然能夠聽出有意義的單詞。

離實際應用還有漫長的路要走，更不用說神經植入物方面在實際和倫理上的障礙。

儘管如此，這些進展的意義不言而喻。

這項研究發表在Nature上。

本文譯自 sciencealert，由譯者 majer 基於創作共用協議(BY-NC)發布。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自煎蛋的精彩文章: