谷歌基於語義模型打造全新搜索方式——Talk to Books
AiTechYun
編輯:chux
在過去幾年中,自然語言理解發展迅速,部分原因是詞向量的發展,使得演算法能夠根據實際語言運用來了解字詞間的關係。這些向量模型圖基於等價、相似或關聯性的思想和語言,將具有相似語義的短語映射到附近點。
去年,谷歌使用了分等級的語言向量模型來改進Gmail的智能回復功能。最近,研究者也一直在探索將這些方法推廣到其他應用上去。
Semantic Experiences這一網站展示了兩個例子,來說明這些新特性是怎樣作用於應用程序的,而這樣的結果是過去無法實現的。Talk to Books是一種搜索書籍的全新方式,從句子起步,而不是從作者或主題層面開始。Semantris是一種由機器學習技術支持的單詞聯想遊戲,玩家可以在其中輸入與給定提示相關的單詞。谷歌還發布了Universal Sentence Encoder一文,更詳細地描述了用於這些例子的模型。此外,谷歌為社區提供了一個預訓練的語義TensorFlow模塊,可以用自己的句子做試驗,以及進行短語編碼。
建模方法
該方法通過為更大的語言塊(比如完整句子和小段落)創建向量,擴展了在向量空間中表達語言的理念。由於語言是由概念的層次結構組成的,所以研究者利用模塊的層次結構來創建向量,並考慮到每個模塊與不同時間尺度和序列相當的特性。關聯詞,同義詞,反義詞,部份-整體關係,以及其他類型關係,如果以正確的方式訓練它們,提出正確的問題,它們都可以用向量空間語言模型來表示。這種方法在《用有效的自然語言反應進行智能回復》(Efficient Natural Language Response for Smart Reply)一文中有具體描述。
Talk to Books
Talk to Books這一方法提供了一種搜索書籍的全新方式。當做了陳述或是問了問題,這一工具會在書中找到回復的句子,而不依賴於關鍵字匹配。從某種意義上來說,與書籍對話並得到回應,你便能夠知道自己有沒有興趣閱讀這本書。
這一模型已接受了10億次類似的對話訓練,學會辨別如何做出合適的回應。一旦你問了問題(或者進行陳述),這一工具會在超過10萬本書中搜索句子,基於語義含義在句子層面對你的輸入做出反應,而且沒有預定義的規則限制輸入的內容和所得到的結果。
傳統的關鍵詞搜索可能不會出現結果,但這個功能是獨一無二的,可以幫助你找到有趣的書,不過此功能仍有改進的空間。
例如,這個實驗在句子層面上搜索(而不是如同Gmail的智能回復中那樣是在段落層面),所以機器認為好的匹配句子,仍可能會是斷章取義的結果。你可能會得到一些你並不想要的書和段落,或者段落被選中的原因並不明顯。名聲顯著的書並不一定居於候選的前列,這個實驗只考慮單個句子的匹配度。
然而這種方法的一個好處是,可以幫助人們發現意想不到的作者和標題,並以一種新穎和創新的方式發現書籍。
Semantris
單詞聯想遊戲Semantris也是由此技術開發的。當你輸入一個單詞或短語時,遊戲會在屏幕上列出所有的單詞,根據你輸入內容的反應好壞來評分。同樣,同義詞、反義詞和相似概念在這個語義模型中都處於平行模式。
Arcade版本中的時間壓力(如下所示)會迫使你輸入單個單詞作為提示。Blocks版本沒有時間壓力,可以盡情嘗試輸入短語和句子。你可以試驗一下提示究竟可以晦澀難懂到什麼程度。
GIF
Semantris Arcade
這些例子只是利用新工具進行經驗思考和設計應用程序的幾種可能的方法。其他有潛力的應用包括:分類、語義相似性、語義群集、白名單應用(在可供替代的選項中選取合適的回應)、語義研究(例如Talk to Books方法)。


※從自編碼器到變分自編碼器
※光子量子處理器Xanadu團隊:探索量子神經網路
TAG:AiTechYun |