亞馬遜Alexa新演算法：無需重新訓練模型，讓AI輕鬆善解人意

科技 05-06

智東西（公眾號：zhidxcom）編 | 王小溪

導語：Alexa的「隱式調用」功能將有可能通過CoNDA技術直接添加到技能商店，而無需浪費時間重頭訓練模型。

智東西5月5日消息，據外媒報道，Alexa最近獲得了亞馬遜所謂的「隱式調用」（name-free skill interaction）功能，這使得它能夠解析未明確指出的第三方語音應用的請求意圖。例如，向Alexa發出指令：「Alexa，給我一輛車」，你不必指定網約車服務的提供商，它可能就會打開Uber、Lyft或其他一些乘車服務。

但正如Alexa AI研究部門的科學家所說，這並不像看上去那麼簡單，因為每次將新技能添加到Alexa技能商店時，理想情況下需要從頭開始重新訓練將話語映射成技能（被稱為「SHORTLISTER」）的人工智慧系統，這需要重新訓練所有的原始訓練數據，以及與任何新技能相關的數據。而Alexa僅在過去一年就增加了數萬項新技能，如果神經網路要定期更新，這種做法將非常耗時且不切實際。

幸運的是，在今年新奧爾良舉辦的國際計算語言學協會（ACL，The Association for Computational Linguistics）北美分會上，Alexa的研究團隊發表的一篇新論文（《Continuous Learning for Large-scale Personalized Domain Classification》）中，研究人員提出了一種省力的替代方案CoNDA（連續神經預適應，Continuous Neural Domain Adaptation）技術。它需要「凍結」AI模型的設置，並添加適應新技能的新網路節點，然後僅在與新技能相關的數據上訓練這些被添加的節點。

研究人員報告說，在涉及900項技能的訓練數據集和100項新技能的再訓練數據集的實驗中，表現最佳的SHORTLISTER版本（總共六個版本）在現有技能上達到88％的準確率，僅比從頭開始重新訓練的模型的準確率低3.6％。

一、讓AI理解人類的隱含意思有多難？重頭訓練模型太麻煩

有時候，人們說一句話不會說全，這個時候聽者怎麼執行就要靠悟性。

人們常說會看眼色行事是高情商的表現，那麼機器可以說是低情商的典型，往往只能呆板的執行明確的指令，「猜」不出人們話語中的引申義。

要讓機器猜透你的所思所想，那可是相當不容易的一件事，它需要建立一個將人的口頭語映射到智能個人數字助理中（IPDA）的自然語言理解（NLU）領域任務的神經網路，這個過程叫做域分類（Domain classification）。這是主流IPDA行業的主要組成部分。

域是智能個人數字助理中對天氣、日曆或音樂等特定的應用或功能的定義。例如，用戶對Alexa說「我要用優步搭車」，相應的域就會調用「Uber」應用程序。除官方域名外，外部開發人員還會創建數千個第三方域名來提升IPDA的能力。

每當讓AI掌握一個新的「引申義」（即增加一個新域），就意味著需要更新這個網路。

傳統上IPDA只支持數十個分離良好的域名，為了增加域名覆蓋範圍並擴展IPDA的功能，主流IPDA發布了允許第三方開發人員構建新域的工具。Amazons Alexa Skills Kit，Googles Actions和Microsofts Cortana Skills Kit就是這樣的例子工具。而且，為了應對新域的湧入，已經提出了像SHORTLISTER這樣的大規模域分類方法，並取得了良好的效果。

隨著越來越多的新域名迅速發展，大規模域名分類的主要挑戰之一是在不會失去已知預測能力的情況下如何快速適應新域，一個直截了當的解決方案是，從頭開始訓練網路，重新訓練所有的原始訓練數據，以及所有和新技能相關的數據。

而Alexa僅在過去一年就增加了數萬項技能，如果每增加一個新技能都重新訓練一遍網路，那將費時費力又浪費資源。

為了解決這一問題，提出了一種高效地更新系統使之適應新技能的解決方案——連續神經域適應CoNDA（Continuous Neural Domain Adaptation）。

他們用900個域作為初始訓練數據集，用另外100個新域作為測試集，一共測試了6個不同版本的神經網路。

經過大量的實驗，結果證明CoNDA在新域和現有域的測試精度都非常高，100個新域的平均預測準確率達到95.6％，並且在100個新域之後的所有域上累計準確率達到88.2％。表現遠遠超過baseline。

二、CoNDA技術只針對新技術進行數據訓練

研究人員的方法依賴於嵌入（embeddings），嵌入將數據表示為固定大小的向量（坐標序列），坐標序列定義了多維空間中的點，在多為空間中具有相似屬性的項目彼此分組。為了提高效率，嵌入層存儲在大型索引表中並在運行時載入。

像Shortlister這樣的機器學習模型包括多個互相聯接的功能層，每個層由簡單的節點（或稱為「神經元」組成，節點之間的連接有關聯的權重，訓練神經網路主要就是調整這些權重。

研究人員介紹了CoNDA技術，它是無名域名分類的最新技術Shortlister的變種。Shortlister有三個主要模塊。

第一個模塊用於生成表示Alexa用戶指令的向量，使用嵌入曾來表示用戶已啟用的所有技能（通常在10個左右）。

第二個模塊生成啟用技能的單一摘要向量，其中一些技能在話語向量的基礎上進行額外的強調。

第三個模塊將輸入（用戶話語，結合啟用技能信息）和輸出（技能分配）映射到同一向量空間，並根據他們應該執行客戶請求的可能性來生成技能的候選名單。

第二個網路被稱之為HypRank（假設排名，hypothesis ranker），它根據更細粒度的上下文信息來細化該列表。

為了提高效率，研究人員將技能嵌入存儲在一個大型查找表中。當有新技能被添加到Shortlister時，嵌入表會添加相應的一行，而所有其他嵌入保持不變。

類似地，Shortlister的輸出層由單行節點組成，每個節點對應於一個技能，每添加一項技能，將在該行擴展一個節點，每個添加的節點都連接到其下層中的所有節點。

接下來，凍結所有網路連接的權重（除了新技能對應的輸出節點的權重），然後僅針對與技能相關的數據訓練新的嵌入和節點。

第三個模塊的映射即標準化過程，將矢量長度規範到統一空間。但當神經網路在新數據上重新訓練時，新的向量往往不會經歷這種標準化過程。重新訓練的網路可以簡單地通過使其矢量比其他所有數據更長，來確保新訓練數據的良好性能。

類似地，當神經網路學習新技能的嵌入時，也可以通過使新技能的向量比其他技能更長來提高性能。為了防止「災難性遺忘」（catastrophic forgetting），在訓練期間，Shortlister評估新技能的嵌入不僅僅考慮整個網路對新數據的分類程度，還考慮其與現有嵌入的一致性。

此外，研究人員們還用另一種技術來防止災難性遺忘，除了加上新技能的數據重新訓練網路外，他們還從每個現有的代表性技能中提取小數據樣本，因為它們最能代表各自的數據集。

結語：CoNDA技術將有助於語音助手更善解人意

通過CoNDA技術為IPDA添加新技能的時候，無需進行耗時的再培訓，而是通過「凍結」AI模型的設置，添加適應新技能的新組件，並僅用與其相關的數據訓練這些新組件。

此項技術如果能不斷成熟並被推廣，語音助手將能更快更好地理解用戶的指令，變得更加善解人意。

論文鏈接：https://s3.us-east-2.amazonaws.com/alexapapers/Continuous_Learning_for_Large_scale_Personalized_Domain_Classification.pdf

文章來自：Venture Beat

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智東西 的精彩文章:

※晶元終極戰事！誰是製程之王？
※AI早報：台積電盈利最大單季降幅；亞馬遜將退出中國市場

TAG:智東西 |