當前位置:
首頁 > 知識 > 只需觀察大腦活動,AI「讀心」技術就可以幫你合成語音

只需觀察大腦活動,AI「讀心」技術就可以幫你合成語音

選自 Science

作者Kelly Servick

機器之心編譯

參與:路、王淑婷

缺胳膊少腿可以用假肢來補充,不能說話就只能靠手語嗎?並不是。日前,《Science》報道:來自三個研究團隊的進展表明,計算機可以讀取大腦中的數據並把它「說」出來。

霍金時代的腦波打字技術,或許很快就要被直接發聲的新技術取代了。

人工智慧先驅,FAIR 主管 Yann LeCun 對這些研究表示歡迎,他表示:

「我們的發音速度受限於人類發音器官的機械限制,還是受到大腦語音生成皮層的速度限制?如果是前者,那麼擁有語音生成植入體的人有一天可能會比沒有裝備的人說話更快。」

對於很多無法說話的人來說,他們想說的話的信號就藏在大腦中。沒有人能夠直接解碼這些信號。而近期三支研究團隊取得了進展,他們可以將手術時放置在大腦上的電極片輸出的數據轉換成計算機生成的語音。在某些情況下,他們使用神經網路將其重建為人類能夠聽懂的單詞和句子。

他們近期發表在論文預印本平台 bioRxiv 的上論文沒有涉及重建語音。研究人員監控了大腦部分在人大聲朗讀、不出聲地說話或聽錄音時的反應,發現重建的語音是可以被理解的,這真是「太令人振奮了」,瑞士日內瓦大學神經工程師 Stephanie Martin 表示。他並未參與這一新項目。

在中風或生病後無法說話的人可以使用眼睛或其他小動作來控制游標或選擇電腦屏幕上的字母。(史蒂芬·霍金通過臉上一塊肌肉的運動來觸發眼鏡上的開關,從而實現輸出。)但是如果腦機介面可以直接重建語音,那他們或許可以重獲更多能力,比如控制音色和語調,或者插入快速對話中。

但還有很多障礙。「我們嘗試開發一種模式……神經元可以在不同的時間點開和關,推斷語音。」哥倫比亞大學計算機科學家 Nima Mesgarani 表示,「映射並不是直接的。」信號到語音的轉換因人而異,因此計算機模型必須針對個人進行「訓練」。模型在處理非常精準的數據時效果最好,而這需要開顱。

研究者僅在極少見的情況下做此類侵入式記錄。一種情況是在摘除腦部腫瘤時,從暴露的腦部進行電子讀取可以幫助醫生定位,避開關鍵語音和運動區域。另一種情況是給癲癇病患者植入電極片,以在手術治療前精準定位癲癇發作的病源。「我們最多只有 20 分鐘,或 30 分鐘」來收集數據,Martin 表示,「我們真的真的很受限制。」

發表新論文的幾個小組充分利用了寶貴的數據,他們將信息輸入到神經網路中,神經網路通過將信息輸入到計算「節點」層來處理複雜模式。神經網路通過調整節點之間的連接來學習。在實驗中,神經網路接受人輸出或聽到的語音錄音,以及同時的大腦活動數據。

Mesgarani 團隊的數據來自於五位癲癇病患者。他們的網路分析病人聽故事錄音和從 0 到 9 數數時來自聽覺皮層的記錄(聽覺皮層在說話和傾聽時處於活躍狀態)。然後計算機重建來自神經數據的數字,當計算機「說出」數字時,一組聽眾實現了 75% 的準確率。

另一個團隊由來自荷蘭馬斯特里赫特大學的 Christian Herff 和德國不來梅大學的 Miguel Angrick 兩位神經科學家領導。他們的數據來自 6 位接受腦瘤手術的患者。當他們大聲朗讀單音節單詞時,麥克風捕捉到了他們的聲音。同時,從大腦語音規劃區域和運動區記錄信息的電極片向聲道發送指令來表達單詞。網路把電極片讀取結果映射到音頻記錄中,然後根據之前未見的大腦數據重建單詞。根據計算機評分系統,大約 40% 由計算機生成的單詞是可以理解的。

最後,神經外科醫生 Edward Chang 及其在加州大學的團隊根據三名癲癇患者朗讀時從語音和運動區捕獲的大腦活動重建了所有的句子。在一份在線測試中,166 個人任意收聽其中一句,然後從 10 個書面句子中選出聽到的那句。在 80% 以上的時間裡,有些句子被準確識別。研究人員進一步推動了這一模型:他們根據人們無聲說出單詞時記錄的數據來重建句子。Herff 表示,這個結果很重要,因為「它離我們想做的語音假肢更近了一步。」

然而,「我們真正想知道的是,當病人無法說話時,這些方法會怎麼做。」研究語言產生的加州聖地亞哥州立大學神經科學家 Stephanie Riès 說道。人在腦海中無聲地「說出」或「聽到」聲音時的大腦信號與真實說話或聽聲音時的信號不一樣。沒有外部聲音來匹配大腦活動的話,計算機甚至很難知道內語何時開始、何時結束。

解碼想像的語音將需要「巨大的飛躍」,而「現在完全不知道要怎麼做」。紐約州衛生署(New York State Department of Health)國家適應性神經技術中心的神經工程師 Gerwin Schalk 表示。

Herff 說,有一個方法可以給腦機介面的用戶提供反饋:如果他們能夠實時聽到計算機的語音解釋,他們就可以調整想法以獲得想要的結果。如果用戶和神經網路都接受了充分的訓練,大腦和計算機可能會在中間相遇。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

Recurrent AI:呼叫系統的「變廢為寶」
2018年《環球科學》十大科學新聞:霍金逝世、賀建奎事件位列前二

TAG:機器之心 |