當前位置:
首頁 > 知識 > 今日頭條李磊:機器學習問答與新聞創作

今日頭條李磊:機器學習問答與新聞創作

12月17日,中國人工智慧學會、中國工程院戰略諮詢中心主辦,今日頭條、IEEE《計算科學評論》協辦的2016機器智能前沿論壇暨2016 BYTE CUP國際機器學習競賽頒獎儀式在中國工程院舉辦,論壇邀請到今日頭條、微軟、IBM等業界科學家以及清華大學、北京大學、Santa Fe研究所、Georgia Institute of Technology(喬治亞理工)等國內外知名院校學者共同探討了機器學習的研究現狀、前沿創新及應用發展等問題。


今日頭條科學家、實驗室總監李磊博士受邀發表演講。李磊畢業於上海交通大學計算機系本科,卡耐基梅隆大學計算機系博士,加州大學伯克利分校博士後研究員。其博士畢業論文獲美國計算機學會SIGKDD最佳論文之一。在機器學習、數據挖掘和自然語言理解方面於國際頂級學術會議發表論文30餘篇,擁有三項美國技術發明專利。


李磊:謝謝蘇中博士的介紹,這次發言的排序非常好。多謝劉康博士剛剛向大家普及了如何用深度神經網路做自動問答和閱讀理解。我前半部分的內容和前面的talk有關,是講怎樣做自動問答。後半部分和這個環節的主題語言理解和創作非常相關,主要介紹我們的機器人怎樣自動寫新聞自動創作。

與前面兩位不同,我來自於企業。為什麼今日頭條會關心語言理解、問答以及創作呢?

今日頭條李磊:機器學習問答與新聞創作



今日頭條是一個信息分發平台,上面有非常多的內容,我們希望把這些內容推薦給感興趣的讀者。這些內容包括文章也包括視頻,甚至可以包括最右邊的問答形式。為什麼會有問答呢?我們有用戶會提出一些問題,有專家會去回答,這些問答同樣組成了一些高質量的內容。我們要做的是將它推薦給感興趣的用戶。那怎麼樣才能把推薦做好?第一步就是要對內容做一個很好的理解。今日頭條本質上是一個人工智慧公司,在我們的推薦環節當中,有三個部分和人工智慧是非常相關的,包括內容創作,內容分發,以及圍繞內容做討論,提升用戶參與度。

今日頭條李磊:機器學習問答與新聞創作



怎樣才能將這三部分做好呢?通過人工智慧技術,需要通過機器學習的技術,來對內容做理解,對用戶興趣做理解,最後才能將這兩部分到用戶的匹配做好。


今天要講的話題和創作以及討論有關。這是今天我要介紹的問題,我也會簡單的介紹Q&A,劉康博士已經介紹的比較詳細,我更多的會講我們有哪些工具可以來處理自然語言的問題。後面我會介紹一個最近的工作CFO系統,我們拿它來做自動問答,可以自動回答對事實類問題。最後我會分享兩項創作方面的工作,一個是如何做句子級別的摘要,另一個是如何做自動新聞創作。


劉博士剛剛介紹了整個問答的歷史以及解決問答問題的一些方法。我這裡要提的問答做了一些限制,是指那種一句話作為問題,一句話回答的那類。不是篇章,也不是針對文章做回答。這樣條件下,問題可以分為幾類,從簡單到難,我列舉一下。

今日頭條李磊:機器學習問答與新聞創作



最簡單的叫事實類問題,比如問美國總統是誰,答案比較簡單。第二類是描述性的,比如你要問一個東西它的性質是什麼,這個問題可能長一點,可以是一句話一篇文章。還有一類是過程性的,比如一個東西怎麼樣做,一個系統怎麼安裝,是按步驟的。第四類需要做一些計算,可能是推理一個比較簡單的內容。第五類可能更難,是因果關係,你去問一些原因性的問題。讓機器回答它對一個事情有什麼看法是非常難的,所以最後一類我覺得可能是目前很難通過機器生成的方法做的很好的。


我們今天要解決的是事實類問題,事實類問題本身還可以由簡單到難分成幾類。第一類叫簡單問題(Simple Question),就是剛剛曹歡歡博士提到的,他們的問答都是比較簡單的問題,所有的問題都可以用一個事實回答,只要找到那一事實就可以完成。第二類比較難,可能需要幾個事實連起來,才能回答。第三類是最難的,不僅僅需要多個問題,還要圍繞這個問題做一些聚合的計算,比如說在北京奧運會之前開幕式最長奧運的是哪一屆?這個問題需要把北京之前的奧運會都找出來,還要把他們開幕式時間找出來,然後計算找出最長的,這是最難的事實類的問題。


舉例來說,我們要解決問題類似於貝克漢姆是在哪出生的?那怎樣才能解決這個問題?機器有哪些工具?首先需要一個知識庫,知識庫通常表達成知識圖譜的形式。第二我們需要把自然語言問題變成一個可以在知識庫上執行的結構化問題。

今日頭條李磊:機器學習問答與新聞創作



這是一個知識庫的表達形式,以貝克漢姆為例,他在知識庫裡面表達成一個節點,有一些屬性,比如他的小孩叫什麼名字,出生地是哪裡,還有一些別名、真名、性別等等,這樣的一些節點間關係在資料庫里就表達成了三元形式。那怎麼樣在知識庫裡面找到對應問題的答案?我們需要把它表達成計算機可以理解的形式,就是類似於資料庫裡面的SQL查詢語句,叫SPARQL,在知識庫裡面也同樣可以用這樣的語句把對應的內容找出來,這個執行完以後就可以把答案找出來。


我們的演算法要實現的功能是將給出一句這樣的自然語言提問形式自動的變成下面這種計算機可以理解的SPARQL的形式。

今日頭條李磊:機器學習問答與新聞創作



怎麼樣才能變成這種形式?需要把裡面的關鍵元素找出來,比如出現的實體, 對應的關係是


。SPARQL查詢語句需要的實體和關係要在問句裡面找出來。這個關係


每一個詞拆出來都沒有在問句裡面出現,所以比較難。當然這個問題還有一些其他難度,因為本身語言是比較多樣的,比如同樣一個問題有多種問法的,問奧巴馬總統出生於哪裡,也可以換個問法奧巴馬總統的出生地在哪兒,這兩個不同問句是同一個意思。第二個難點是指代歧義。同樣一個名字可能指代不同的對象。舉個例子,大家都知道打籃球的邁克爾喬丹,但實際上機器學習領域同樣有一個邁克爾喬丹,是伯克利的教授。第三個難點是標註樣本稀疏。標註的數據非常少,事實非常多。比如在國際通用的一個比較廣泛的資料庫Freebase里,經過篩選以後有兩千萬事實,其中標註的問答對大概有十萬。我們希望用標註兩千萬的事實回答十萬標註的問題,這是比較難的。


接下來我會介紹一下用什麼樣的工具來理解文本中的語義。機器學習能夠解決比較好的問題是這樣一類有監督的學習,Supervised learning。

今日頭條李磊:機器學習問答與新聞創作



在監督學習的框架里,輸入的數據是X, 輸出是label Y。目的是通過數據能夠自動學出來這個從輸入數據X到label Y之間的映射函數F。很多機器學習的問題都可以變成這樣的形式。比如圖像分類,要判斷一幅圖是貓還是狗?是監督學習的一個例子。機器翻譯,從中文變到英文同樣可以變成一個有監督學習的問題。還有看圖說話,給一幅圖片,希望機器能自動生成一句自然語言的語句描述這個圖片,同樣可以變成一個有監督學習的問題。還有語音識別,給一段聲音希望把它對應的文字識別出來,同樣是有監督學習。有監督的學習的問題,在擁有大量標註數據,有表達能力足夠強的模型,都是可以把這個映射關係學出來的。


那麼對於我們自然語言來說,機器要理解它有什麼樣的挑戰?它和圖像處理又有什麼不同?圖像處理過程都可以把圖象變成相同大小,用神經網路處理就非常方便。但自然語言有一個特性,句子和句子之間是長度是不一樣的,怎樣處理這種變長的句子? 首先需要表達清楚這個句子裡面的詞,句子里出現一些實體,以及牽涉到的關係。我們找什麼樣的方法去表達這些詞?有一個簡單的方法是在模型里加入記憶單元來處理變長的問題。

今日頭條李磊:機器學習問答與新聞創作



這裡展示一個最簡單的循環神經網路,h是它一個簡單的記憶單元,每個位置會輸入一個字元的向量,結合前一個位置得到的向量一起可以學到當前這個位置的隱向量,這個信息會不斷的傳遞下去,傳遞的方式和單層的神經網路原理是相同的。


當然,這個傳遞的結構可以更複雜,我們知道人記憶的時候是會選擇性記憶的。可能過一段時間有些事情就忘記了,有些還記得。類比人的選擇性記憶和遺忘的原理,可以構建出一個記憶單元,讓機器選擇性的記住短期和長期的信息。

今日頭條李磊:機器學習問答與新聞創作



類似的模型還有一個叫LSTM,是長短式記憶,也希望通過控制信息的輸入控制每一個單元信息的輸出,通過這樣一些控制以後,它能夠實現信息的長短時的記憶。這些我們需要使用的基本工具,我們下面看一看如何用基本工具做自動問答。

今日頭條李磊:機器學習問答與新聞創作



回顧一下我們要解決的問題,我們已經有了左邊這個知識庫,以圖的形式存在,這個知識庫非常大,我們的知識庫數據含有幾百萬的實體節點,邊也有幾千萬。系統的輸入是像右邊一樣的自然語言問題,我們希望把它對應的實體和關係找出來,最後生成結構化的查詢語句在知識庫自動查找。我們先看一下有什麼簡單的方案可以解決這個問題,最簡單的辦法就是去找這個句子里出現的實體,通過匹配N-gram的侯選集,所有出現的單詞可以組成一個侯選集,二元組可以成為一個,三元四元都可以,所有出現這種N元組都可以成為侯選集。這些候選集當中我希望能夠自動找到最準確的一個,當然這裡的David Beckham是二元組。

今日頭條李磊:機器學習問答與新聞創作



這是一個方案,但這個方案不是最理想的,因為它會帶來非常非常大的雜訊。可以看到這會生成非常多的侯選集,其中絕大多數是沒有用的。怎麼樣把這些沒有意義的候選集去掉?有一個改進的方案,就是我如果小的單元被長單元包含的話,我就只保留長的單元,把小的去掉,這是一個貪心的方案。但通過這種方法仍然有非常多噪音,所以我們提出另一個方案。


先看這個問題,比如下面這個句子。「What theme is the book the armies of memory?」。你通過前面講N-gram匹配的方法,你會發現有很多並不重疊的詞會在知識庫找到侯選實體,比如說」book」有73個實體,」theme」有200多個,」Memory」有500多個,這些侯選集都加起來是上千個,在其中找到一個正確的實體非常難。


我們要做一個模型可以把這個範圍縮小。怎麼做?通過一個方法叫focused pruning。我們通過一個機器學習的模型給可能是中心實體的短語(subject mention)打分,表示這個短語可能對上資料庫的實體的概率。比如大衛貝克漢姆,大衛可能是一個侯選,貝克漢姆也可能是一個,我們給所有的侯選計算概率。這裡的模型需要從句子結構本身來理解那一部分可能是問題的中心實體。這裡並不需要對知識庫的實體進行匹配。

今日頭條李磊:機器學習問答與新聞創作



從短語找對應的實體也帶來一個問題,我們要對它進行向量化的表示,什麼樣的比較好?比如大衛貝克漢姆是一個實體,我們可以選擇隨機的向量,結果證明隨機的向量還可以,有一點效果的。但我也可以通過一個更好的方式——TransE的方法。我們有三元組,把subject, relation, object每一部分都表達成一個向量,訓練時加上一個限制:subject向量加上relation向量必須要等於object向量。通過這樣的約束條件來訓練向量,只需要知識庫本身就可以訓練出來實體的表示。第三種方法是我們在CFO這篇論文里提出的方法,叫做Type-vector。

今日頭條李磊:機器學習問答與新聞創作



它的做法是用實體的類型表示成二值化的向量。它不需要訓練,通過構造一個表示,非常快。具體如何做,比如大衛貝克漢姆的實體,我們把它對應的類別找出來標上1,其餘所有的類別都為0。

今日頭條李磊:機器學習問答與新聞創作



中心實體短語模塊、實體匹配、關係查找加上前面提到的循環神經網路就可以構建一個統一的學習模型來查找答案。對於輸入句子,通過詞的向量Embedding。這些embedding通過多層雙向GRU循環神經網路處理,疊了兩層以後得到問題語句的向量表示。然後和關係的項亮計算相似度,得到這個關係以後和前面的pruning方法找出來的候選實體結合起來一起查找答案,最後對所有的實體和關係統一起來,做綜合排序。

今日頭條李磊:機器學習問答與新聞創作



我們來看一下CFO系統的直觀效果,這邊有一些例子是我們系統可以回答的問題。

今日頭條李磊:機器學習問答與新聞創作



比如說哈利波特上過哪些學校,大家都知道Hogwarts魔法學校,Harry Potter上魔法學校之前還上過一個小學,我們系統也可以找出來。我們也比較了一下以前的方法在公開數據集上的效果,用了臉書做的公開數據集,有十萬個問答的問題,我們拿7萬來做訓練,另外的3萬來做校驗和測試。這裡比較了幾個方法,綠色的線是微軟提出的一套方法,56%的準確率,中間藍色是臉書提出的方法,叫MemoryNetwork,準確率是62.9%,我們CFO是75.7%,所以提升是非常大的。


為什麼我們的方法可以在這樣的問題上得到這麼大的提升?因為之前劉康博士也提到了臉書發明方法非常強,那什麼原因我們做得更好?我們分析了一下它問題的難度,這裡有一張圖。

今日頭條李磊:機器學習問答與新聞創作



怎麼去理解這個圖呢?整個圖是講在不同難度問題上的準確率,黃色部分是相對比較簡單的問題,你問一個問句,裡面能找出一些侯選,幾乎是唯一的,這樣你去查詢的時候就非常容易回答。藍色部分是可能出現多個實體匹配的情況,所以候選比較多,回答的時候就會出錯。我們看了最簡單的方法,我之前提到的N-gram以及改進過的N-gram方法,藍色的部分都非常大,有大量的問題比較難回答,有多個侯選的情況,黃色部分非常小,通過我們的方法可以把黃色部分大大提高比例,我們可以把大部分的問題由難變成簡單,而簡單的問題我們系統是可以回答的非常好的,或者說任何的系統都可以做得非常好,所以我們最大的貢獻是通過這個方法方法把一部分難的問題變成了簡單的問題,讓整個系統的效果得到了很大的提升。


最後介紹一下我們在自動創作、自動摘要方面做的工作。我們平台有很多文章,可能很多人沒有時間讀完整篇長文章,這對於文章自動生成摘要就有很大的需求。我們希望機器把長文章自動總結出來,變成一句話或者兩句話的間斷的摘要,自動推送給需要的用戶。我們通過一個自動摘要的技術,在裡面選句子,用了神經網路自動選出文章中最重要、最精華的句子再把這些句子選出來作為整個文章的摘要。

今日頭條李磊:機器學習問答與新聞創作



另外,我們希望能夠從數據里自動生成一個新聞。Xiaomingbot是我們在奧運會期間做的新聞自動生成機器人。八月份里約奧運會開始到結束自動創作了四百多篇文章,我們對比過它與我們平台上記者寫的體育新聞的閱讀率,發現這兩個數字是接近的,甚至有時還高於記者文章的閱讀率。當然我們做新聞機器人的目的並不是取代新聞記者,而是幫助作者更快的創作出更高質量的內容。

今日頭條李磊:機器學習問答與新聞創作



這個新聞創作機器人有什麼特點?可以看到它既能生成一些短的新聞,比如說這裡羽毛球比賽是比較短的,會配上一個圖,也能生成一些較長的比賽過程的描述,比如右邊是女足比賽的一個非常詳細的描述。

今日頭條李磊:機器學習問答與新聞創作



我們對照以前或者同期其他單位做的新聞機器人,比如華盛頓郵報也在推特上面做過新聞機器人,可以自動播報奧運會。相比而言我們的特點是能夠生成短的和長的,華盛頓郵報幾乎都是短新聞。並且我們可以自動配圖,長新聞可以根據比賽進程的時間線非常詳細的表述。我們不只用到了傳統的模板生成的技術,還用了機器學習技術,自動的生成一些句子。


最後我來總結一下,我們也在用自然語言解決自動問答的問題,非常關鍵的一步就是需要選擇正確的向量化表示方法。在Q&A的問題當中,通過類型type vector來表示實體方法非常有效。第二個是問答裡面中心實體的識別,這裡用模型做篩選證明是非常有效的。第三,語言生成是一個非常基礎的問題,我們如果可以把這個問題解決好,自然語音的理解方面可能還會有更大的突破,我們很多方法可以把難問題變簡單,如果能夠設計成模型自動的做這一步,最後得到的效果會更好。


最後的最後,我介紹一下頭條實驗室,剛才所分享的都是頭條實驗室的研究成果。未來頭條實驗室希望能在人工智慧和機器理解方面做更多的創新,並把這些新的技術更快更好的用到我們的產品中。我們歡迎關注機器識別、自然語言理解、計算機視覺方向的科學家和工程師加入我們,謝謝!




請您繼續閱讀更多來自 環球科學 的精彩文章:

降低噪音不如消滅聲音,海爾空調用上火箭技術!
2016年物理學領域被引用最多的20篇論文中,12篇都是關於這個不存在的粒子
萌物進化史:一圖看懂熊貓是怎麼來的
《環球科學》2017年1月號

TAG:環球科學 |

您可能感興趣

魏啟後:書法的學習與創作
頭條學習:篆刻章法彙編
李沐:從頭開始介紹機器學習,眼花繚亂的機器學習應用
新課堂同步學習與探究答案23 《日月潭的傳說》
篆刻學習:漢印臨摹實際操作之章法篇
機器學習課程發布,今日九折!
學習資料:魏碑技法語言
日語學習網站介紹
費曼技巧:學習新事物的最佳方法
五句話 學習朱熹的讀書之道
TF初學者指南:如何為機器學習項目創建合適的文件架構
【西散原創】張軍民作品丨菜籽溝學習筆記(四章)
劉麗萍:《月儀帖》的學習及臨創轉換
寶庫編織培訓——網路編織課程的學習內容【鉤針篇】
鈕問:學習思考筆記
初學TF機器學習:如何實現線性回歸?(附練習題)
寶庫編織培訓——網路編織課程的學習內容【棒針篇】
學習必備 梁 周興嗣《習字入門》
日本留學:文科研究生的學習生活日常介紹