當前位置:
首頁 > 科技 > 哈工大劉一佳:通過句法分析看上下文相關詞向量

哈工大劉一佳:通過句法分析看上下文相關詞向量

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。

人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百里挑一。由中國科學院大學主辦,百度公司提供支持,讀芯術作為指定合作自媒體的「AI未來說·青年學術論壇」第二期「自然語言處理」專場已於2019年2月23日下午在中科院舉行。劉一佳博士為大家帶來報告《通過句法分析看上下文相關詞向量》。

劉一佳,哈爾濱工業大學計算機博士,2018年百度獎學金得主。

報告內容:隨著Deep contextualized word embedddings的發表,上下文相關詞向量給多項自然語言處理任務帶來了顯著的性能提升,因而獲得了廣泛的關注。本次分享嘗試從句法分析的角度出發,回顧什麼是上下文相關詞向量,其與傳統表示學習方法的聯繫與區別,以及其帶來性能提升的關鍵是什麼。同時,本次分享也將對通用詞、句子表示進行粗淺地探討。

通過句法分析看上下文相關詞向量

劉一佳博士的報告主要圍繞兩個結論:一個是上下文相關的詞向量好在哪?結論是好在能夠給未登錄詞進行建模。另一個是上下文相關詞向量能更快嗎?結論是對局部模型有希望。

上下文相關的詞向量,簡單來說,就是利用上下文信息對詞向量進行表示。主要用於處理自然語言表述問題,隨著深度學習在自然語言處理當中的應用,上下文相關的詞向量逐漸由高維轉化為低維。

解釋一下上下文相關與上下文無關的關係,比如「制服」這個詞,如果不把它放到具體的語句中,它可能有多個含義,比如說動詞的含義和名詞衣服的含義,此時它是上下文無關的,如果在「制服」後面加上「歹徒」,它的含義就是動詞的含義,此時它是上下文相關的。

未登錄詞就是訓練時未出現,測試時出現了的單詞,通過實驗發現了一個問題,就是未登錄詞越多的數據,模型性能的提升就越大。為什麼上下文相關詞向量能對未登錄詞更好地進行建模?可能的原因有兩種,一種是訓練時見過未登錄詞,另一種是雖然沒有見過,但是通過某種手段猜到了未登錄詞的含義。大概就是這兩類作用,可以概括為記憶和歸納。

在對未登錄詞以詞性作為類別標籤進行可視化實驗的過程中,對比上下文無關的詞向量和上下文相關的詞向量,可以發現上下文相關的詞向量聚類效果更好。由此可以聯想到未登錄詞存在一個典型問題是數據稀缺。

上下文相關的詞向量是很不錯的,但是訓練代價比較大,一般需要在多塊卡上跑很多天。為了克服這個問題,可以使用簡單一點、局部一點的上下文建模方法。但從通用性的角度來說,複雜的上下文建模更有意義。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

數據科學淘金熱:如何獲取那些頂尖工作?
今日芯聲:矽谷漸患「大城市」病,世界創新中心或將外移

TAG:讀芯術 |