當前位置:
首頁 > 知識 > 從「你媽逼你結婚了嗎」的分詞引發的思考

從「你媽逼你結婚了嗎」的分詞引發的思考

從「你媽逼你結婚了嗎」的分詞引發的思考



「你媽逼你結婚了嗎?」

在不同的分詞系統給出了不同的結果。


一個分詞系統的結果是:


「你/媽/逼你/結婚/了/嗎?」


另一個分詞系統給出的結果是:

「你/媽逼/你/結婚/了/嗎?」


嚴肅的用戶堅持說第一個才是正確的結果,有幽默感的同學大呼第二個太牛逼了。公說公有理,婆說婆有理。在沒有上下文,沒有場景,沒有具體應用的情形下,實際上無從評論孰好孰壞。但是,這個問題倒是引發了對中文自然語言處理研究方法的思考,藉以拋磚引玉。


現在對中文自然語言處理的常用方法,且不說內部演算法,基本是按照分而治之的邏輯,是研究分詞,詞性標註,語義標註,句法分析,語義分析,語用語境分析,語言生成,等等。然後,才是用這些方法或是模塊或是子系統去解決具體的應用場景和問題,比如,信息檢索,機器翻譯,問答,理解,摘要,情感分析,等等。這種分而治之的做法,一直這麼繼承下來,大家玩的不亦樂乎。但是各種方法,都只是在儘力解決自己的局部問題,利用的都是對自己有利的信息,很可能是局部最優結果,很可能和其它模塊是鐘擺關係,比如,通用分詞系統,追求的是分詞的正確率,很少考慮分詞的使用場景和來解決的具體問題。當將各個不同的方法整合起來用於一個具體問題和場景時,各個環節的方法引發的錯誤,很可能被關聯的環節一個一個節放大,從而影響了對某個具體問題和場景解決的質量。


然而,深度神經元網路的seq2seq模型,最近在自然語言處理很多的任務或問題或場景上取得了不小突破。比如,Google推出的神經翻譯,已經接近人類的翻譯水平了;還有就是問答系統,也有一些出彩的地方;搜索或是信息檢索,BrainRank使得質量和相關性更好了。我們看到,一個重要的原因是端到端的系統性的解決方案,而不是由一堆的分而治之,一環扣一環的子系統構成。也就是說,分詞,詞性,語法,語義,等,都自動嵌入或是隱含在大系統中,被系統自動學習和explore,不再是一個一個獨立的,各自獨立研發和評估和比拼。要玩就玩大的,解決實際應用問題才是王道。


那麼,這麼來說,是不是應該反思自然語言處理的傳統的分而治之的做法,不再比拼子系統的性能和正確率,而是對於具體的問題場景和任務,研究和發現新的端到端的解決技術演算法和方案。

請您繼續閱讀更多來自 待字閨中 的精彩文章:

TAG:待字閨中 |
您可能感興趣

如果你認為你的大腦包攬思考功能,那你就錯了,其實身體也在思考
我們不得不思考這個問題:結婚到底為了什麼?
從你看著我思考的那一刻,我就承認我輸了!
你真的會思考嗎?
如果你抑鬱了,請這樣思考問題!
如何讀懂愛人心?看看婚姻帶給我們最深的思考
這就是我為什麼不站在你的角度去思考的真實原因!
一個笑話引發的思考
思考:手機到底拿走了你的什麼?
最強tips出爐!當導演前要思考的事你都想好了嗎?
別讓你思考的方式,毀了你的優勢
男人,請你在結婚前認真思考以下問題,再去抱怨女人的要求太多
還在探討拒簽的鍋誰來背?這值得思考!
粗心馬虎終結者之一:你想不到的毛病其實出在分類思考上
寶媽請思考,如果你的口頭禪是「沒錢」,將會養出怎樣的孩子?
你的戀情失敗的原因,是因為你不懂得換位思考
少女時代泰妍在思考或緊張的時候,她手指就會不自覺的做這件事,你發現了嗎?
《我們的愛》很多事情都值得現在的我們去思考,不管是結了婚的和沒結婚的,不要讓美好總存在回憶里!
懶人也能hin時髦!不用思考就能穿出門的就是它了!