中科院宗成慶談文本數據挖掘
雷鋒網 AI 科技評論按,近年來,隨著移動通信和互聯網技術的快速發展與普及應用,數據挖掘技術得到了越來越多的關注。文本數據挖掘作為自然語言處理、機器學習和數據挖掘等多種技術的交叉研究領域,其研究熱度也逐年提升。在學術界,每年都有大量相關論文發表;在工業界,文本數據挖掘被廣泛地應用於醫療、金融風控、司法和情報分析等各個領域,極大地幫助了人們提高工作效率和分析挖掘相關信息。
如何更好地入門這項技術呢?相信相關專業的學生和該領域的初學者都非常關心這個問題。近日,由中國科學院自動化所研究員、博士生導師宗成慶、南京理工大學計算機學院教授、博士生導師夏睿和中科院自動化所副研究員張家俊三位老師歷時兩年多撰寫的《文本數據挖掘》問世,為這項技術的推廣和應用提供了一部優秀的教學輔導書。該書全面梳理了文本數據挖掘技術各個方向的基本概念和經典方法,並給出了具體的應用案例,對於初學者來說這是一本不可多得的好書,對研究人員也不失一本值得參閱的手邊書。
對於宗成慶老師,相信國內任何一位學習和從事 NLP 技術研發的人應該都不會陌生,他撰寫的《統計自然語言處理》多年來都是國內 NLP 學習和研究必備的參考書。時隔數年,宗成慶老師再次發表新著,其初衷和意義為何?帶著這些問題,雷鋒網 AI 科技評論宗和成慶老師進行了深入交流。
文本數據挖掘研究
AI 科技評論:文本數據挖掘作為一個研究方向,它的意義何在?
答:文本數據挖掘具有極其廣闊的應用前景,包括金融、醫療、生物醫藥、司法和情報分析等各個領域。我們所說的自然語言處理技術,其應用目標除了機器翻譯和對話系統以外,主要任務就是利用這本書中所介紹的這些文本數據挖掘技術進行文本的分析和處理。
AI 科技評論:您能否簡單介紹下這個領域的發展歷史?
答:其實,某些技術最早可以追溯到上個世紀的 50 年代,例如,自動文摘。那時候人們就已經在關注如何為圖書文獻自動生成摘要。之後,應用需求範圍不斷擴大,尤其是隨著互聯網技術的快速發展和普及應用,相關技術需求逐漸被提出,如情感分析、主題發現和追蹤等。我個人認為,這並不是一個新的領域,而是以自然語言處理為主,結合機器學習、數據挖掘等多種技術的具體應用。
AI 科技評論:文本數據挖掘的主要難點在哪裡?
答:不同的任務面臨的難點是不一樣的。但如果籠統一點來說的話,主要在於如何弄清楚文本作者的意圖和觀點,這是最根本的問題。不同於從資料庫中挖掘和發現知識,文本數據挖掘的處理的都是非結構化的文本數據,因此自然語言處理中面臨的問題都是文本數據挖掘中的難點。
計算機和人不一樣,對於一段文字,人掃一眼就可以明白了。而計算機理解語言會涉及到太多東西,包括語言學的問題、人的背景知識和常識等。目前我們還無法清楚地知道人腦是如何理解語言的。所以從長遠的深層次研究角度,我們要和腦科學研究結合起來。目前我們正在與中科院上海神經所、心理所等從事腦科學和語言認知研究的專家進行合作。當然,這是一個遙遠的目標。從應用的角度,我們希望儘快利用機器學習等技術,結合語言學和具體應用需求,建立實用的文本挖掘方法。
AI 科技評論:目前這一研究進展如何?
答:對人腦從事語言認知機理的研究是一個長遠的目標,屬於基礎性的探索研究,很難指望在短時期內看到直接的應用效果。但是,相關研究會給我們很多啟發,讓我們改進或者解釋現有的神經網路模型,或者建立更加有效的新方法。總起來說,這需要持續地研究,甚至需要幾代人一點一點地努力,去攻克這個堡壘。
《文本數據挖掘》
AI 科技評論:您寫作《文本數據挖掘》這本書的初衷是什麼?
答:主要有幾方面考慮。一方面,我前一本書《統計自然語言處理》的主要內容是自然語言處理的基礎理論和關鍵技術,而《文本數據挖掘》介紹的目前自然語言處理應用領域中熱點的研究方向,如情感分析、主題發現和信息抽取等。另一方面,我在國科大為研究生開設的一門課程名稱就是「文本數據挖掘」,需要這樣一本教學輔導書。另外,近年來自然語言處理技術的應用需求很大,技術發展非常之快,很多新技術和新方法不斷推出,對於我個人而言,撰寫這本書的過程也是學習和熟悉最新技術和方法,梳理學科知識的過程。
AI 科技評論:既然《文本數據挖掘》梳理的是最新的技術方法,那麼,您此前撰寫的《統計自然語言處理》,其內容需要更新嗎?
答:當然需要,因為現在的技術發展太快了,很多技術都已經更新。但是,我需要在清楚地掌握這些新技術以後,才能判斷哪些新方法需要寫進書中,很多技術都需要經過時間的驗證。其實,有些新技術已經被寫入《文本數據挖掘》這本書里了,如詞的分散式表示,深度神經網路方法等。我認為文本數據挖掘實際上就是自然語言處理方向的一個延伸和擴展。
AI 科技評論:文本數據挖掘現在在企業裡面有哪些具體的應用案例?
答:文本數據挖掘技術的應用非常廣泛。在醫學上,它可以用來幫助醫生進行診斷,或者為醫學研究者提供技術手段或知識支撐,也可以為患者提供幫助,如問診或查詢等;在金融領域,根據財務報告、大眾評價等一些公開的信息,可以幫助投資人分析某家公司的信譽如何;它還可以幫助法官根據以往的案例如何量刑和斷案等。
AI 科技評論:因為中國人主要使用中文,那麼,漢語的文本挖掘和其他語言有區別嗎?
答:區別是存在的。首先,中文文本挖掘面臨著分詞的問題,這是一個基本問題。
雖然其他語言也存在這類問題,如韓國語和日語等,但是中文的分詞更麻煩,尤其對於非規範化的文本而言。其次,中文在表達方式上比較複雜,或者說比較靈活,語義表達更複雜,有時候不同的人對同一句話的理解可能也不一樣。例如,在中文文本中很多時候作者在表達觀點時都比較委婉,甚至在描述一件事情的時候喜歡繞圈子,而不會直接表達自己的意思,而在英文文本中較為直截了當。所以,在進行中文文本挖掘時需要考慮漢語篇章的特殊性。
AI 科技評論:文本數據挖掘這本書裡面如何處理機器學習方法和傳統方法?
答:從性能和最終結果來看,對於很多任務來說,神經網路或者深度學習方法的結果要優於傳統方法,但是傳統方法也有它自己的優點,如便於結合先驗知識、可解釋等。在方法改進和創新研究中,我們不應該完全拋棄原來的方法。如何把這些方法結合起來,讓它們在不同的方面發揮作用,最終取得更好的性能,這是我們的目標。創新就是這樣,始終在前人工作的基礎上一步一步地提升和前進。
在《文本數據挖掘》這本書裡面,我們並沒有過多地強調深度學習方法,比較有代表性的方法都介紹了。我們希望讀者能夠完整地了解某個方向的發展歷程。在此基礎上,讀者自己會去進行判斷或者研究應該如何建立更加有效的新方法。
AI 科技評論:您剛才提到,傳統的方法也很重要。那麼,如果您現在修訂《統計自然語言處理》,會如何進行內容取捨?
答:一方面,有些內容需要壓縮。《統計自然語言處理》中的有些方法在性能表現上有點跟不上時代了。有些方法,如統計機器翻譯,只需要介紹起主要思想,而不過多地介紹模型細節。另一方面,需要增加一些深度學習的新方。
進一步學習
AI 科技評論:如果學完了這本書以後,還想要進一步學習,您覺得應該從哪一些方向入手?
答:《文本數據挖掘》這本書講的主要是一些比較基礎的方法,主要目的是帶領讀者進入這個領域。正如前面所說,這個方向發展得非常快,需要不斷地跟進和更新。每年 ACL、COLING 和 EMNLP 等本領域的會議上都會不斷推出一些新的方法,需要不斷地跟蹤。讀者在了解和掌握本書的基本知識之後可以通過閱讀論文、聽學術報告或其他交流形式,跟蹤和關注這一領域的最新進展。
AI 科技評論:在國內,很多學生過度依賴開源工具,缺乏自己的思考,您怎麼看待這一現象?應該如何改善這一狀況?您認為優秀的學生一般應該具有哪些重要的品質?
答:及時學習、跟蹤和使用開源工具,了解國際最新的前沿技術,是對學生,包括對碩士研究生和博士研究生最基本的要求。對於初學者來說,使用開源工具是一條捷徑,已有的很多創新也都是從模仿開始的。但是,跟蹤到一定階段,學生必須學會獨立地思考,提出創新思路。
目前各種誘惑和不合理的評價體系,是導致學生過度依賴開源工具、急功近利的主要原因之一。大家都希望在短時間內儘快出論文、出系統,而不願靜下心來深入思考。
要改變這一狀況,每一位從事科研工作的人,尤其老師和學生都有責任和義務,從我做起,從現在做起,不受一時利益和榮譽的誘惑,靜下心來,打牢理論基礎,扎紮實實地開展工作,堅守「一輩子做好一件事情」的目標和理想,才是改變這一現象的根本出路。
我認為優秀學生應該具備如下重要的品質:能夠坐得住,甘於寂寞,持之以恆地用心鑽研,不受前人思路的限制和制約,勇於創新和實踐。從長遠來看,社會最終認可的一定是扎紮實實的有用的技術,而不是故弄玄虛、華而不實的牆上畫餅。
雷鋒網雷鋒網


※AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享
※希捷中國區總裁孫丹:雲和邊緣是存儲市場最大機遇
TAG:雷鋒網 |