解密谷歌Gmail新功能：結合BoW模型和RNN-LM，幫助用戶快速寫郵件

最新 05-17

選自Google AI

作者：Yonghui Wu

機器之心編譯

谷歌在上周的 I/O 大會上，推出了 Gmail 新功能 Smart Compose，其結合了 BoW 模型和 RNN-LM，在用戶打字時提出建議，幫助完成句子，提高電子郵件的寫作速度。

在上周的 I/O 大會上，谷歌推出了 Gmail 新功能——Smart Compose，該功能使用機器學習在用戶打字時提出建議，幫助用戶完成句子，從而提高電子郵件的寫作速度。Smart Compose 基於為 Smart Reply 開發的技術，為電子郵件寫作提供了一種新的方式——無論是回復收到的電子郵件還是從頭寫作新郵件。

GIF

開發 Smart Compose 過程中面臨的主要挑戰包括：

延遲：Smart Compose 基於每次擊鍵提供預測，因此它必須在 100 毫秒內做出理想響應，用戶才不會注意到任何延遲。如何平衡模型複雜度和推斷速度是一個關鍵問題。

規模：Gmail 有超過 14 億用戶。要為所有用戶提供有效的自動填充建議，模型必須具備足夠的建模能力，才能夠在不同的語境中提出恰當的建議。

公平性和隱私性：在開發 Smart Compose 時，谷歌需要解決訓練過程中潛在偏見的源頭，還必須遵守與 Smart Reply 相同的嚴格用戶隱私標準，確保模型不會泄露用戶的隱私信息。此外，研究人員無法訪問電子郵件，這意味著他們必須開發、訓練一個機器學習系統來處理他們無法讀取的數據集。

找到合適的模型

典型的語言生成模型，如 n-gram、神經詞袋模型（BoW）和 RNN 語言模型（RNN-LM），基於前面的單詞序列學習預測下一個單詞。但是，用戶在當前電子郵件中正在打出的單詞只是模型可用於預測下一個單詞的「信號」。為了整合用戶想表達內容的更多語境，谷歌的模型還基於電子郵件主題和之前的電子郵件主體內容（如果用戶正在回復收到的電郵的話）。

包含這一額外語境的一種方法是將該問題看作序列到序列（seq2seq）機器翻譯任務，其中源句子是主題和之前電子郵件主體的結合，目標序列是用戶正在寫的當前郵件。儘管該方法在預測質量方面表現良好，但它遠遠無法滿足谷歌嚴格的延遲約束。

為了改善這種情況，谷歌研究者將 BoW 模型與 RNN-LM 結合起來，其速度快於 seq2seq 模型，且僅出現輕微的模型預測質量損失。在這種混合方法中，谷歌研究者通過把每個欄位中的詞嵌入取平均，對主題和之前的電子郵件進行編碼。然後在每個解碼步中，將這些平均詞嵌入輸入到目標序列 RNN-LM。模型架構如下圖所示。

Smart Compose RNN-LM 模型架構。通過對每個欄位中的詞嵌入取平均，對主題和之前的電子郵件信息進行編碼。然後在每個解碼步將平均詞嵌入輸入到 RNN-LM。

加速模型訓練 & 服務

當然，確定使用該建模方法後，谷歌仍然需要調整不同的模型超參數，並在數十億樣本上訓練模型，這些樣本需要消耗大量時間。為了加速，谷歌使用完整的 TPUv2 Pod 進行實驗，能夠在不到一天的時間中訓練模型至收斂。

即使在訓練較快的混合模型之後，在標準 CPU 上運行的 Smart Compose 最初版本仍然具備數百毫秒的平均服務延遲，這對於一個試圖節約用戶時間的功能來說是不可接受的。幸運的是，TPU 在推斷時間可以使用，從而極大地加速用戶體驗。通過將大量計算卸載到 TPU 上，谷歌將平均延遲減少到幾十毫秒，同時極大地提高了單個機器可服務的請求數量。

公平性和隱私

機器學習中的公平性非常重要，因為理解語言的模型可以反映出人類的認知偏見，從而導致惹人厭的詞關聯和句子。正如 Caliskan 等人在其近期論文《Semantics derived automatically from language corpora contain human-like biases》中所指出的，這些關聯與自然語言數據有很深的糾纏，這是構建語言模型的挑戰。谷歌正在積極探索繼續減少訓練步驟中的潛在偏見的方式。同時，由於 Smart Compose 在數十億片語和句子上訓練而成，類似於垃圾郵件機器學習模型的訓練方式，因此谷歌已經進行大量測試，以確保只有多個用戶使用的共同片語才會被模型記住，此舉使用了論文《The Secret Sharer: Measuring Unintended Neural Network Memorization & Extracting Secrets》的研究成果。

未來工作

谷歌一貫致力於通過先進架構（如 Transformer、RNMT+等）提高語言生成模型的建議質量，並使用最近、最先進的訓練技術進行實驗。一旦這些模型滿足谷歌嚴格的延遲約束，谷歌將把它們部署到生產。谷歌還研究整合人類語言模型，旨在更準確地在其系統中模仿人類的寫作風格。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※上海交大金賢敏團隊實現最大規模光量子計算晶元：模擬量子計算翻開新篇章
※BAIR提出MC-GAN，使用GAN實現字體風格遷移

TAG:機器之心 |