當前位置:
首頁 > 最新 > 當我在說Soft的時候,到底想表達的是「柔軟」還是「軟弱」 ,以後由計算機告訴你

當我在說Soft的時候,到底想表達的是「柔軟」還是「軟弱」 ,以後由計算機告訴你

人類語言是描述人類與世界之間聯繫的一種驚人有效的方式。大部分情況下,我們只需一些簡短的詞語就能夠互通心意並進行與之相關的活動。

正因為我們可以看到並描述如此之多的複雜事物,所以很多結構被悄然編碼成我們的語言。計算機在學習自然語言方面並不容易,因為它如果不知道如何觀察世界,則需要了解人類如何觀察世界。

在大多數情況下,計算機無法理解自然語言。我們的程序仍然是通過逐行說明來告訴計算機應該做什麼 - 他們經常錯過細微差別和上下文語境。那麼你又如何向一台機器解釋諷刺(表現手法)呢?

什麼是詞嵌入

對此,好消息是自然語言處理(NLP)領域已有一些重要突破,研究人員試圖教授計算機人類語言。

其中著名的一項突破是,2013年Google研究人員(Mikolov 2013)發現了一種方法使計算機能夠學習如下語句之間的關係:

king-man+woman≈queen

這種有望深入發展的方法被稱為詞嵌入

它甚至可能揭示在我們眼中世界的隱藏結構。我們可以考慮如下使用詞嵌入方法發現的一種關係:

president-power≈prime minister

當然,這也許只是一種似是而非的關係。

為什麼要學習詞嵌入

言歸正傳,至少有兩個原因值得我們學習詞嵌入。

首先,詞嵌入可以實現多方面應用。

第二,我們可以從研究人員解決解密機器自然語言問題的方式中學習並了解這種方法。

詞嵌入的用途

我們沒有顯而易見的方法有效比較兩個詞,除非我們已經知道他們的含義。因此,詞嵌入演算法旨在根據單詞間的相似性或彼此間的關係來嵌入具有意義的詞。

在實踐中,單詞被嵌入到一個存在距離和角度概念的真實向量空間中。我們希望這些概念能夠有效擴展至詞嵌入範疇,從而量化不同單詞之間的關係或相似性。而且他們實際上是這樣做的!

例如,上面提到的Google演算法發現某些名詞是單數/複數具有性別之分(Mikolov 2013abc):

它們還發現一種國家與首都關係

為了進一步證明一個詞的含義可以從其他詞語的關係中被暗示,他們的確發現,通過學習得到一種語言的結構經常與另一種語言的習得結構相關,這也許暗示了通過詞嵌入進行機器翻譯的可能性(Mikolov 2013c) :

該團隊發布了他們的C代碼並成為word2vec工具包,不久之後,其他人將該演算法編為更多編程語言。其中較為有名的是gensim(Python)和deeplearning4j(Java)工具包。

如今,許多公司和數據科學家已找到不同方法將word2vec與其業務和研究相配合。

Spotify使用它來幫助其提供音樂推薦服務。

Stitch Fix使用它來推薦服裝。

據了解, Google也在RankBrain中使用word2vec作為其搜索演算法的一部分。

其他研究人員正在使用word2vec進行情感分析,試圖確定人們用於溝通的語句背後的情感。

例如,一個斯坦福大學的研究小組研究了不同Reddit論壇區中所使用的相同詞語是否具有不同的含義。這裡有一個關於「soft」一詞的例子:

如你所見,當你在談論運動時(你可能會想到「軟弱的」),「soft」這個詞就具有負面的含義,而當你在談論卡通(mylittlepony)的時候,它們則包含著一種積極的含義。

許多例子中,計算機可以分析不同討論區同一詞的情感情緒

它們甚至可以持續採用同樣的方法進行分析。比如「terrific」,這個在20世紀大部分時間裡意思為「令人恐懼的」的詞語,現如今已經主要用於表示「非常的」。

有趣的例子是,一個研究組曾使用word2vec來幫助他們確定一個事實是否是令人驚訝的,這樣他們就可以自動生產瑣事。

word2vec的成功也有助於促進其他形式詞嵌入演算法的產生 - 主要包括WordRank,斯坦福的GloVe和臉書的fastText等 。

這些演算法旨在改善word2vec - 他們還採用不同的單位來查看文本:字元,子詞,單詞,短語,句子,文檔,甚至是思維單元。因此,通過使用這些演算法,我們不僅考慮到單詞相似性,還考慮到句子相似性和文檔相似性– 正如這篇文章(Kusner 2015):

詞嵌入將人類語言有意義地轉化為一種有利於數值分析的形式。這樣它們就可以實現電腦探索大量以人類語言編譯的知識。而這其中的潛力是我們難以預料的。

任何程序員或學者都可以使用這些工具並為之貢獻力量。許多可從NLP中受益的研究項目和行業領域尚待探索。詞嵌入和神經語言模型是強大的技術。但也許機器學習最有力的一面是它的協作文化,因為許多最先進的方法與相關研究都屬於開放資源 。

因此,如果我們願意,這些方法一直都能為我們所用 。而現在主要的障礙就是我們自己......又或許是一個昂貴的圖形處理器(GPU)。

免費諮詢方式

小蔓

添加了解更多實習項目詳情

今天的小蔓

是小哥哥還是小姐姐?

本文轉載自:大數據應用

如需轉載請聯繫原作者進行轉載申請

排版:Leah

在蔓藤,我們為您

特徵分析 設定目標

規劃路徑 教育管理

發展評估 職場致勝

從前期職場規劃,到最終實現北美就業。

蔓藤,是你身邊的美國職場導師

美國實習工作哪裡找?認識蔓藤全知道

GIF

點擊了解北美最智能的留學生找工作引擎

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 蔓藤美國就業 的精彩文章:

未來世界最美的情話是AI的語言!你的情敵可能是人工智慧!

TAG:蔓藤美國就業 |