當前位置:
首頁 > 最新 > 女朋友說「我想要MAC」,OpenAI幫直男get到是口紅還是電腦

女朋友說「我想要MAC」,OpenAI幫直男get到是口紅還是電腦

AI 科技評論按:語言辭彙的多義性已經是一個越發讓人頭疼的問題。比如女生對男朋友說:「生日禮物我想要MAC」,本來心懷期待地揣測他買來的唇彩會是什麼色,結果收到的可能是一台蘋果筆記本電腦…… 蘋果電腦本身當然並沒有哪裡不好,但詞語指代弄混的時候還是挺讓人難受的。

人類尚且有理解不對詞語類別的時候,人工智慧自然也還沒能攻克這個問題。不過 OpenAI 近期新設計的 AI 也在結合上下文的詞語判別上做出了突破,測試中的表現相比已有的其它 AI 也有了大幅提升。

「The prey saw the jaguar across the jungle」(獵物看到了穿越叢林的美洲豹)

「The man saw a Jaguar speed on the highway」(這個人看到美洲豹賓士在高速公路上)

OpenAI 在近期的一篇論文中介紹了自己新設計的神經網路 Type,它可以嘗試理解句子中的單詞,把它歸類到大約一百個自動學到的非獨佔性類別中。OpenAI 想到的典型例子是「jaguar」或者「美洲豹」,比如對於上面兩個句子,這個系統不會立即把兩個「jaguar」都統一判定為跑車、動物或者別的東西中的某一種,而是依據預選擇的類別解一組 20 個貝葉斯問題,推理得到判斷結果。相比之前的系統,Type 在數個實體分辨(entity disambiguation)資料庫上的測試結果都有大幅提升。

在 OpenAI 的訓練數據中,「jaguar」這個詞大概有 70% 的情況是指跑車,29% 的情況是指動物,還有 1% 的情況是指美洲豹攻擊機。根據 Type 判斷,「The man saw a Jaguar speed on the highway」中的「jaguar」的各種語義出現的可能性變化並不大,看起來模型覺得一隻大貓在高速公路上跑步也沒什麼不妥;但「The prey saw the jaguar across the jungle」中,模型的判斷就發生了很大變化,非常肯定這是一隻大貓,畢竟捷豹跑車根本不適合在森林裡開。

模型在 CoNLL(YAGO)數據集上的測試準確率為 94.88%,此前的頂級模型的表現為 91.5% 和 91.7%;在 TAC KBP 2010 挑戰賽數據集上的準確率為 90.85%,此前的頂級模型的表現為 87.2% 和 87.7%。之前的這些方法使用的是分散式表徵,OpenAI 的 Type 在這些任務中都有顯著的提升,距離完美的類別預測準確率 98.6% 到 99% 越來越近。


這個系統以如下的步驟運行:

1.從單詞的維基百科頁面提取所有的內鏈,確定這個詞可能指代的實體都有什麼。比如,對於https://en.wikipedia.org/wiki/Jaguar這個維基百科的鏈接,經過分析之後確定這個頁面的內容確實是「jaguar」這個詞的一個意思。

2.爬維基百科的分類樹(藉助 Wikidata 的知識圖),從而確定每一個實體都能被歸入哪些類別。比如在https://en.wikipedia.org/wiki/Jaguar_Cars捷豹汽車的頁面底部,有下面「英國品牌」、「汽車品牌」、「捷豹汽車」幾個類別分類(而且每個類別都還有自己所屬的類別,比如屬於汽車)

3.選出大約 100 個類別作為模型的類別系統,然後優化對類別的選擇,以便讓它們可以完全覆蓋到任何實體。我們已經知道了從實體到類別的映射,所以對於任意給定的類別系統,都可以把每個實體表徵為一個大約 100 維的二進位向量,其中的每一維就對應著是否屬於某個類別。

4.根據每個維基百科的內鏈和上下文文本生成訓練數據,其中會把單詞和文本內容映射到剛才提到的大約 100 維的二進位向量,然後訓練一個神經網路預測這種映射。這一步就把前面的幾步聯繫起來了,維基百科的鏈接可以把單詞映射到一個實體,然後從第二步知道每個實體的類別,第三步選出了這個分類系統裡面要用的類別。

5.到了測試的時候,給定一個詞和上下文,這個神經網路的輸出就可以看作是這個詞屬於每個類別的概率。如果確切知道了類別系統的內容,就可以縮小範圍,確定到某一個實體(假設類別是經過精心選擇好的)。不過也必須經過基於概率的一組 20 個問題組成的判斷過程,通過貝葉斯理論計算出這個詞被分辨為各個可能的類別的概率分別是多少。

藍莓是一種可以食用的水果,又屬杜鵑花科越橘屬植物產出。」

「在 2013 財年的第二季度,黑莓售出了 680 萬台手持設備,但同時也首次被競爭對手諾基亞的 Lumia 系列的銷量超越。」

「在Python中可以可以操作 string。」

Python一般是無毒的。」


Wikidata 的知識圖經過轉換後可以作為實體到類別映射的細粒度訓練數據源。OpenAI 的研究人員們遞歸使用其中的「instance of」(是 xxx 的一個實例)關係以確定任意給定的實體都可以屬於哪些類型,比如,每個「人類」下面的有效節點都屬於「人類」類型。維基百科也可以通過「category link」功能提供實體到類別的映射。

從維基百科的內部鏈接得到的統計結果可以很好地預測特定的辭彙指代某個實體的概率如何。不過數據里有很多雜訊,因為維基百科經常會鏈接到類型的某個實例而不是這個類型本身,比如會把「國王」鏈接到「英國查爾斯王子一世」(回指),或者鏈接到一個昵稱上去(轉喻)。這就讓有聯繫的實體的數量大爆炸,也讓鏈接出現的頻率變得混亂(比如「國王」有 974 個相關的實體,「皇后」鏈接到皇后樂隊有 4920 次,鏈接到伊麗莎白二世有 1430 次,而鏈接到君主只有 32 次)。

最簡單的處理方法是對不經常出現的鏈接剪枝,不過這也會帶來丟失信息的問題。所以 OpenAI 的研究人員們轉而使用 Wikidata 的屬性圖,啟發式地把鏈接轉換為它們的「一般」意思,像下圖這樣。

經過這樣處理之後,「國王」相關的實體就從 974 大幅下降到了 14 個,同時「皇后」到「君主」的鏈接數目也從 32 個增加到了 3553 個。


我們希望學到最好的類別系統和參數,這樣才能讓分辨單詞的準確率最大化。可能的類別種類組合有無數多種,找到一個精確解似乎難以實現。所以 OpenAI 的研究人員們使用了啟發式搜索或者隨機優化(演化演算法)的方法選出一個類別系統,然後用梯度下降訓練出一個類別分類器,用來預測類別系統的表現。

在這裡,理想的類型系統應當有足夠的區分度(這樣可以快速減小可能的實體分布),同時還應當易於學習(這樣單詞的上下文可以包含足夠的信息,足以讓神經網路推測適合什麼類型)。OpenAI 的研究人員們用了兩種啟發式方法進行類別系統的搜索,一種是基於可學習性的(訓練出的分類器預測類別所在的平均 AUC),另一種是先見準確率(如果網路預測對了所有類型,那麼辨別實體的能力如何)。


OpenAI 的研究人員們為數據集中最常見的 15 萬個類別分別訓練了二分類分類器,分類器的輸入就是上圖中文本窗口對應的一段。分類器的 AUC 就看作為這個類型的「可學習性」分數。高 AUC 表示表示很容易從上下文中推測出所屬類型,不好的表現就意味著訓練數據不夠,又或者設定的文本窗口並沒有起到什麼幫助(在 ISBN 之類的非自然類型預測中很容易發生)。完整的模型需要好幾天才能訓練好,所以他們也同步設計了一個小得多的模型作為「可學習性」分數的代理模型,只需要 2.5 秒就可以完成訓練。

「可學習性」分數和計數統計都可以用來估計把某一組類別作為類別系統之後的模型表現。交叉熵方法的優化示意圖如下。

每步優化中使用了 100 個樣本。更多的樣本可以讓優化結果更準確,但花費的時間也更長、模型大小也更大。圖示的優化得到的結果如下圖

整個模型的交叉熵如下


根據類型系統優化得到的最好結果,OpenAI 的研究人員們接下來就可以用類型系統生成的標籤給維基百科的數據做標註。得到了這樣的數據後(在 OpenAI 的實驗中,他們共用了英語和法語的各 4 億句)就可以訓練雙向 LSTM,獨立地預測每個單詞的所有類型的符合情況。在維基百科的源文本上只有網站內鏈是可以確認使用的,然而這也已經足以訓練出一個類別預測首位預測準確率超過 0.91 的深度神經網路。

有趣的是,在束搜索得到的某個分類系統中,除了包含了典型的航空、衣著、遊戲之類的分類之外,還令人意外地包含了一些非常具體的分類,比如「1754 年在加拿大」,意味著 1754 年在用來訓練網路的一千多篇維基百科文章中是非常充實有趣的一年。


OpenAI 表示自己的這項研究和以往嘗試解決這個問題的方法有許多的不同,他們也很感興趣分散式表徵的端對端學習相比他們開發的基於類別推理的系統最好能有什麼樣的表現。而且論文中的分類系統只是用了維基百科數據集的很小的一部分創建出的,如果擴展到整個維基百科的規模,有可能可以建立出有更廣闊應用空間的分類系統。

論文地址:

https://arxiv.org/abs/1802.01021

開源地址:

https://github.com/openai/deeptype

viaOpenAI,AI 科技評論編譯。

————— AI 科技評論招人了 —————

————— 給愛學習的你的福利 —————

三大模塊,五大應用,手把手快速入門NLP

海外博士講師,豐富項目經驗

演算法+實踐,搭配典型行業應用

隨到隨學,專業社群,講師在線答疑


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技評論 的精彩文章:

UC 伯克利優化理論教授談深度學習:為了可解釋性,我們可能需要犧牲一些模型表現
浙大博士生劉漢唐帶你回顧圖像分割的經典演算法

TAG:AI科技評論 |