FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

新聞 05-27

Facebook AI Research 近日提出了一種基於多域 WaveNet 自編碼器的跨樂器、流派、風格的音樂轉換方法。在 NSynth 和從專業音樂家收集的數據集上的實驗評估上，該網路實現了令人信服的音樂轉換，甚至可以轉換口哨聲；這使得未經訓練的人類也具有了創作樂器音樂的潛能。

引言

人類總是在創造和重複音樂——無論是通過唱歌、吹口哨、拍手，還是在經過訓練後即興演奏或標準演奏。這種能力並不是只有人類才有的，世界上還有許多其他能通過聽覺重複音樂的聲樂模仿物種。

音樂也是第一個通過現代計算機和演算法進行數字化和處理的領域之一。因此，在模擬這一核心音樂任務中人工智慧竟仍然比生物系統差得多，這實在有些令人驚訝。

在這項工作中，據研究者所知，這是第一次在樂器、風格和流派之間生成高保真的音樂轉換。例如，他們把管弦樂隊演奏的莫扎特交響樂的音頻轉換為貝多芬風格的鋼琴演奏音頻。這種能力建立在最近可用的兩種技術上：（i）使用自回歸模型合成高質量音頻的能力，以及（ii）最近出現的以無監督的方式在域之間轉換的方法。

上述第一種技術很重要，主要有兩個原因。第一，它使我們能生成高質量、高模擬的音頻。第二，使用教師激勵技術（teacher forcing technique）進行訓練，自回歸模型能有效地被訓練為解碼器。而第二種技術有助於增加解決方案的實用性，因為在監督設置中提出學習問題需要不同樂器的並行數據集。

在本文提出的架構中，研究者採取單一的通用編碼器，並將其應用於所有的輸入。除了能訓練較少神經網路的優勢之外，這還能使我們把在訓練期間沒聽過的音樂域轉化到任意曾接觸的音樂域中去。

單一解碼器體系結構可訓練的關鍵在於，確保域特定（domain-specific）的信息不被編碼。研究者使用域混淆網路（domain confusion network）為編碼器提供對抗信號來實現這一點。此外重要的是，編碼器不能記憶輸入信號，而是要以語義的方式來編碼。研究者通過隨機局部音調調製使輸入音頻失真來實現這一點。

在訓練過程中，神經網路被訓練為去噪自編碼器，它能恢復原始輸入的無失真版本。由於失真輸入不再處於輸出的音樂域，因此網路可以學習將域外的輸入投影到所需輸出域中去。此外，網路不再受益於記憶輸入信號，同時採取了更高級的編碼方式。

據作者所知，他們當前結果所展示的能力是前所未見的。在將一種樂器轉化為另一種樂器的要求下，該網路比專業音樂家的表現幾乎持平或略差一些。很多時候，人們很難分辨哪個是原始音頻文件，哪個又是模擬完全不同樂器的轉換性輸出。在編碼方面，該網路能夠成功處理未經訓練的樂器或其他聲源，如口哨聲。在輸出端，網路能產生相對高質量的音頻，並且可以在不需要再訓練整個網路的情況下，添加新的樂器選項。

方法

本研究使用的方法基於訓練多個自編碼器路徑（每個音樂域一個路徑），這樣編碼器就可以共享。在訓練期間，基於 softmax 的重建損失分別應用於每個域。在應用編碼器之前，輸入數據被隨機增強，這能強制網路提取高級語義特徵，而不是簡單地記憶數據。另外，對潛空間應用域混淆損失以確保編碼不具域特定性。該網路結構圖如圖 1 所示。

FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

圖 1：網路架構。其中混淆塊（虛線所示）只在訓練中使用。

WaveNet 自編碼器

研究者重用了基於 WaveNet 解碼器和類似 WaveNet 擴張卷積編碼器的現有自編碼器架構 [16]。每個解碼器的 WaveNet 條件制約於編碼器所產生的潛表徵。該自編碼器和 [16] 之間存在著兩個不同之處。首先，該自編碼器不以音調為條件，而是讓它成為編碼本身的一個組成部分。其次，研究者略微修正了 WaveNet 方程，使其架構適合於 NVIDIA 提供的推斷時間 CUDA 內核（https://github.com/NVIDIA/nv-wavenet）。

編碼器是一個全卷積網路，可以應用於任意序列長度。網路由三個塊組成，每個塊有 10 個殘差層。每一個殘差層包含了一個隨著核尺寸遞增的擴張卷積、一個 RELU 非線性單元，還有一個在第一個 RELU 之前的、跟隨在激活值殘差和之後的 1×1 卷積。其固定的寬度為 128 個通道。在這三個塊之後，還有一個額外的 1×1 層。為了獲取 R64 的編碼，存在一個平均池化層，其核尺寸為 50 毫秒（800 個樣本），實施了一個 ×12.5 因子的時域下採樣。

該編碼採用最近鄰插值法進行時域上採樣達到原始音頻傳輸速度，並將其用於決定 WaveNet 解碼器，隨後緊接一個 1×1 層，該層對每個 WaveNet 層來說是不同的。音頻（包括輸入和輸出）使用 8 位 mu-law 編碼進行量化，與 [11,16] 類似，這會導致一些固有的音頻品質損失。WaveNet 解碼器具有 4 個塊，每塊 10 個殘差層，因此解碼器具有包含 4,093 個採樣或時長為 250ms 的感受野。

FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

表 1：轉換任務的 MOS 分數（均值 ± 標準差）。

FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

表 2：轉換任務的自動化質量分數。

FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

圖 2：一組實驗結果。（a）普通聽眾傾向於選擇與源相同的域，無論實際源如何。（b）大部分時間下，音樂家 A 都無法識別出源。（c）業餘愛好者 T 和（d）業餘愛好者 S 也在大部分情況下無法識別，但是 S 的結果更一致。

論文：A Universal Music Translation Network

FAIR提出通用音樂轉換網路：你的口哨聲也能變成交響樂

論文地址：https://arxiv.org/abs/1805.07848

摘要：我們提出了一種跨樂器、流派、風格的音樂轉換方法。該方法基於多域 WaveNet 自編碼器，具有共享的編碼器和一個可以進行端到端波形訓練的解纏潛空間（disentangled latent space）。利用多種訓練數據集和大規模網路容量，獨立於域的編碼器使我們甚至能從訓練期間未曾見過的音樂域進行轉換。該方法是無監督的，它不依賴於域或音樂轉錄之間的匹配樣本的監督。我們在 NSynth 和從專業音樂家收集的數據集上評估本方法，並實現了令人信服的音樂轉換，甚至可以轉換口哨聲；這使得未經訓練的人類也具有了創作樂器音樂的潛能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※模擬世界：谷歌大腦與Jürgen Schmidhuber提出「人工智慧夢境」
※人人都可參與的AI技術體驗：谷歌發布全新搜索引擎Talk to Books

TAG:機器之心 |