韓家煒:大規模文本數據挖掘的新方向
來源:中國人工智慧學會
現實中的大數據常常表示為一種非結構化,交叉和動態變化的文本數據。如何從大規模文本數據中抽取結構化知識是一個非常值得研究的任務。很多研究工作依賴於勞動密集型的數據標註,用有監督的方法去抽取知識。但是,這些方法不具有普適性,難以擴展,進而難以處理具有動態性或領域限定性的文本數據。我們認為大規模的文本數據其自身蘊含著大量的模式、結構或知識。通過將無領域限制的大規模文本數據和具有領域限制的知識庫結合,我們可以充分發揮大規模文本數據的優勢去處理非結構化數據轉換為結構化數據的難題。
——韓家煒
2018中國人工智慧大會(CCAI2018)將於7月28日至29日在深圳舉行,韓家煒教授屆時將在會上分享他關於大規模文本數據挖掘的最新研究,發表題為《基於海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》的主題演講,探討如何藉助大規模文本數據自身的力量去做大規模的知識提取。
適逢盛會,心嚮往之。會前,我們整理了韓教授以往關於大數據挖掘的相關觀點,方便大家一睹為快。
韓家煒現為美國伊利諾伊大學香檳分校計算機系教授,ACM會士和IEEE會士,被稱為「數據挖掘第一人」。他在數據挖掘領域有重要的學術影響力,發表論文600餘篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD並擔任主編。曾榮獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機協會的M. Wallace McDowell獎。他的專著Data Mining: Concepts and Techniques被公認為數據挖掘領域的經典教材。
大數據挖掘,數據結構化首當其衝
大數據(Big data或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模十分巨大,以至於無法在合理時間內通過人工截取、管理、處理、並整理成為人類所能解讀的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合併後進行分析可得出許多額外的信息和數據關係性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。
我們這個時代,由於互聯網的發展,產生了大量數據。這些數據中絕大部分(超過 80%)都是以文本等無結構或半結構的方式存儲。所以,挖掘大數據首先就是要系統地研究如何挖掘無結構的文本數據,也就是說,要實現從Big Data 到Actionable Knowledge的轉變。
韓家煒認為,要將無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網路(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。
在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現在仍在不斷求索中。
數據挖掘三部曲
韓家煒認為,數據挖掘的研究工作可以總結為三部曲:
(1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來
(2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube)
(3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。
此外,在研究的推進過程中,他們也曾遇到了很多困難。
一是領域限制。用一般語料獲得的實體標註在特定領域、動態領域或者新興的領域無法很好的工作。
二是名稱的歧義性。多個實體可能共享同一個表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊名等)。
三是上下文稀疏。對同一個關係可能有許多種表示方法(想想中文有多少中表示體育比賽結果的方法)。
雖然數據挖掘已經有了成型的結構,但仍有重重困難需要克服。韓教授曾說:「在這條路上,我們現在只是找到了幾個口子可以往前走。現在這還不是一條大路,只是一條小路。要想變成一條康庄大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結構的文本,變成大量的有用的知識。」
在即將到來的盛夏,韓家煒教授作為中國人工智慧大會的特邀嘉賓,將會介紹他最近的研究:如何藉助大規模文本數據自身的力量去做大規模的知識抽取?主要包括關鍵短語抽取,基於遠監督的實體識別和關係分類,基於模式的信息提取方法,多元分類的自動發現以及多維文本數據集的構建等方法。在CCAI2018的報告中,韓家煒教授將證明數據挖掘、機器學習和自然語言處理三個技術進行融合是一個「非常重要且極有前途」的方向。
在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!


TAG:人工智慧學家 |