機器學習模擬人類處理聲音將成為可能

最新 05-07

引言

麻省理工學院的神經學家開發出一種機器學習系統，可以像人類一樣處理語音和音樂。2018年4月19日，麻省理工學院研究人員切爾西·特納對機器學習人類聲音感知技術進行了介紹。

麻省理工學院的研究人員使用被稱作深層神經網路的機器學習系統，研發了第一個可以模擬人類聽覺表現的模型。

這個模型由許多信息處理單元組成，可以通過大量的數據完成特定的任務，例如可以識別音樂流派。研究人員使用此模型闡明了人類大腦是如何執行相同任務的。「這些模型向我們演示了機器可以模擬對人類非常重要的感知系統，並且達到人類自身能做到的標準,這是以往從未有過的突破。從歷史上看，這種類型的感官處理很難理解，部分原因是我們還沒有真正的理論基礎和恰當的方法來開發一種模型用於感知周圍發生的情況。」研究人員喬什麥克德莫特說。

來自麻省理工學院大腦與認知科學系的神經科學助理教授弗雷德里克·A和卡羅爾·J·米德爾頓同樣是這項研究的資深專家。該研究出現在2018年4月19日Neuron期刊上，並提供了證據指明人類的聽覺皮層被安排在一個分層的組織中，就像視覺皮質一樣。在這樣的分布中，感官信息會經過一系列的處理階段，早期處理基本信息，後期處理例如提取單詞詞義的高級信息。麻省理工學院研究生亞歷山大·凱爾和斯坦福大學助理教授丹尼爾·亞明斯是此項研究論文的主要作者，其他作者包括前麻省理工學院訪問學生埃里卡和前麻省理工學院博士後薩姆·諾曼海尼埃爾。

大腦建模

當深層神經網路在20世紀80年代首次出現時，神經學家希望這種系統可以被用作人類大腦建模；然而，那個時代的計算機沒有能力建立足夠大的模型演示真實世界的任務，如識別對象或語音。在過去的五年里，計算能力和神經網路技術的進步使得使用神經網路來執行困難的現實世界任務成為可能，並且它們已經成為許多工程應用中的標準方法。與此同時，一些神經學家重新審視了這些系統可能被用來模擬人腦的可能性。亞歷山大·凱爾說：「這對神經學來說是一個激動人心的機會，因為我們可以創造出模擬人類感知行為的系統模型，然後深入調查這些模型，並將它們與大腦進行比較，從而得出大腦處理感知信息的工作原理。」

麻省理工學院的研究人員訓練他們的神經網路執行兩個聽覺任務，一個涉及語音，另一個涉及音樂。在語音任務中，研究人員給予該模型成千上萬條兩秒鐘的談話錄音，任務是確定剪輯錄音中的單詞。在音樂任務中，該模型被要求識別兩秒鐘音樂片段的類型。任務中的錄音都包含了背景噪音，使任務更加接近現實（也更加困難)。在經過成千上萬次的試驗後，模型學會了像人類聽眾的大腦一樣準確地執行任務，並且隨著時間的推移，模型會越來越熟練地完成任務。亞歷山大·凱爾說，「我們只是希望它能夠學習一些普遍並且基本的聲音，但是當你提出一個模型以前從未聽過的新聲音時，它竟然能很好地感知此聲音，後來我們在實踐中也證明了此觀點的正確性。」該模型也同樣會在人類最容易犯錯誤的片段上犯和人類相同的錯誤。

模型中組成神經網路的處理單元可以以多種方式組合在一起，形成不同的架構，從而影響模型的性能。麻省理工學院的研究團隊發現，執行這兩項聽覺任務的最佳模型是將聲音處理分為兩個階段。第一個階段是在語音任務和音樂任務之間共享的，但在此之後，它分成兩個分支進行進一步分析——一個用於語音任務的分支，另一個用於音樂類型任務。

分層證據

隨後，研究人員用他們的模型探索了一個長期存在的關於聽覺皮層結構的問題: 它是否按層次劃分。在分層系統中，當感官信息流經系統時，一系列的大腦區域會對其進行不同類別的計算。有證據表明，視覺皮層有這種類型的組織。早期區域，被稱為初級視覺皮質，對簡單的特徵如顏色或方向作出反應；後期階段啟用更複雜的任務，如對象識別。然而，檢測這種類型的組織是否也存在於聽覺皮層中對於人類來說很困難，一定原因是由於沒有好的模型可以模擬人類的聽覺行為。喬什麥克德莫特說：「如果能構建一個模型用來模擬人類的行為，我們或許能夠將不同階級的模型與不同部位的大腦做比較，並且得到證據證明此部分大腦是否存在分級結構。」

研究人員發現，在他們的模型中，如頻率等聲音的基本特徵在早期階段更容易提取，隨著聲音信息被處理並沿著網路進一步移動，提取頻率這種基本特徵則變得更加困難，但提取如單詞這種高級別信息則變得容易。為了觀察模型處理聲音的各個階段是否可以重現人類聽覺皮層處理聲音信息的方式，研究人員使用了功能性磁共振成像技術（fMRI）來測量當大腦處理現實聲音時聽覺皮層不同區域的表現。隨後他們將大腦的表現與模型中處理相同聲音時的反應進行比較，發現模型的中級階段與初級聽覺皮層中的活動相對應，後期與主要皮層之外的活動相對應。研究人員稱，這些都提供了證據表明聽覺皮層可能以分層方式排列，類似於視覺皮層。喬什麥克德莫特說：「我們可以非常清楚地看到初級聽覺皮層和其他部位之間的區別。」

為進一步研究這些聽覺任務是否可以通過此模型中特定的途徑完成，或者是否需要其他單獨的途徑，研究人員正在計劃開發可以執行其他新型聽覺任務的模型，如確定特定聲音來源位置的模型。此結果將會成為研究大腦如何處理聲音的一大重要突破。

內容來源：Massachusetts Institute of Technology. "Machine-learning system processes sounds like humans do: Neuroscientists train a deep neural network to analyze speech and music." ScienceDaily. ScienceDaily, 19 April 2018. .

編譯 / Fiona

責編 / 劉愛蓮

美編 / 九夏

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※口令終結者：機器學習
※機器學習或讓智能手機更智能：自動屏蔽用戶不感興趣的彈窗提示

TAG:機器學習 |