新聞自動寫作若干技術研究

最新 02-14

摘要：我們期望機器可以像人一樣撰寫高質量的新聞，雖然目前有媒體宣稱已經實現了新聞的自動生成，但大多是使用既定的數據，對人工設定的新聞模板進行自動填充，這種方式拓展性較差，也無法實現智能化。真正的智能新聞寫作應該可以匯總和歸納給定數據和信息，自動產生符合相關標準的新聞，自動文本生成是實現這一目標的關鍵技術。

本文調研了常用的智能化生成文本的方法，鑒於文本數據具有序列性的特點，循環神經網路在文本生成任務上卓有成效，常用的循環神經網路模型主要是LSTM，GRU。本文首先對這兩個模型進行了簡要介紹，然後應用這兩個模型到文本生成中，包括的方法有：1)將訓練語料數據經過語言模型生成具有語義特性的分散式詞表示，作為LSTM或者GRU的輸入，訓練得到神經網路模型，將新的數據也使用詞表示的方法輸入到已經得到的模型中，得到新的文本輸出；2) 使用深度生成模型變分自編碼，對語料數據學習到一個生成模型，使用該生成模型得到新的文本輸出。最後提出這兩種方法在實際應用中的困難。

關鍵詞：新聞自動寫作，文本自動生成，LSTM GRU，語言模型，變分自動編碼

一、研究背景

1.1發展歷程

所謂「機器寫作」，又稱「機器人寫作」，是指運用演算法對輸入或搜集的數據自動進行加工處理，從而自動生成完整新聞報道的一整套計算機程序[1]，核心在於自然語言生成。「機器新聞寫作」則指用這種技術進行新聞寫作，是人工智慧學科在新聞領域的應用。

機器寫作要追溯到 20 世紀 50 年代，源自機器內容翻譯的研究。 20 世紀 60 年代，為了驗證指定的語法理論的正確性和轉換生成語法的有效性，學者開始研究使用機器生成與上下文無關語法的句子；20 世紀 70 年代，計算機技術應用領域的拓展催發了其他領域機器寫作的研究，如在遊戲中利用機器寫作生成遊戲說明文本，同時學者開始嘗試機器生成孤立句和複述自然語言；20 世紀 80 年代，機器寫作技術得到了突飛猛進的發展，並逐步開始應用於段落、篇章的生成，文本規劃的概念首次提出；20 世紀 90 年代，文本規劃器和語言實現器的提出與實現促使機器寫作開始應用到更多的領域中，如在軍事上生成軍事報告，氣象局生成天氣預報等等；21世紀初，機器寫作技術基本成熟，各個領域也開始加快研究步伐，在醫療、新聞、教育等領域開始實現機器寫作系統，機器新聞寫作甚至於投入市場，對新聞行業產生了極大的衝擊與挑戰[2]。如今，人工智慧在各個領域大放異彩，新聞界也不可避免的接受人工智慧的重塑，其中以機器人寫作最具代表性。隨著深度學習的發展，機器寫作的新聞也開始變得更加多元化，更符合用戶的需求。

1.2國內外的發展現狀

從2010年起，敘述科學公司開發了一個名為Quill的系統撰寫了「十大聯盟」數千項大大小小體育賽事的新聞，它幾乎是在比賽中進行實時報道，稿件不管是在數量還是時效上都遠超以往。為了更好地把數據通過演算法轉化成文字，敘述科學公司僱傭了一批記者來「訓練」計算機，使其能夠從數據中發現各種各樣的「角度」，並教會計算機如何組織文章的「架構」。此外，敘述科學公司的團隊還為客戶提供了報道語氣風格的多樣化選擇。經過幾年的發展，敘述科學公司的技術有了更強大的提升。2014年3月，該公司發布了Quill Engage平台，也就是谷歌分析（Google Analytics）應用。

國內媒體採用機器撰寫新聞稿件起步較晚，但後續發展勢頭強勁。2015年11月，新華社宣布「快筆小新」投入使用，這台機器可以快速完成體育財經類的新聞自動寫作。但這並不是國內第一個寫作機器人。早在9月，騰訊財經發表的一篇題為《8月CPI同比上漲2.0%創12個月新高》的消息就由自動新聞寫作軟體Dreamwriter完成，在一分鐘內將重要信息進行解讀並送達客戶。在2016年的里約奧運上，一個名叫Xiaomingbot（張小明）的機器人開始嶄露頭角。「張小明」的核心寫稿模塊由北京大學計算機研究所萬小軍團隊和今日頭條媒體實驗室聯合研發。這是國內第一款可以報道奧運賽事的機器人，在結合了最新的語言處理機器學習和視覺圖像處理的技術之後，通過語法合成與排序完成新聞寫作。在奧運會開始後的13天內，機器人「張小明」通過對接奧組委的資料庫及時更新信息，配選圖片，在短時間內完成消息寫作和賽事匯總等工作，共撰寫了457篇關於羽毛球、乒乓球、網球的消息簡訊和賽事報道，每一篇稿件生成的時間大約是兩秒，每天可以撰寫30篇以上，其發稿速度幾乎與電視直播同時。

1.3機器新聞寫作的意義

機器新聞寫作作為一種新的智能工作為新聞領域注入了新的動力，它的實現徹底改變了傳統新聞稿件創作的模式。機器寫作將代替我們去重複撰寫基本新聞稿件，記者更多地去做更高深有意義的工作。機器寫作主要有以下幾個優勢促進新聞稿件的創作：

第一，實時快速。目前，由於新媒體的出現，新聞消息的速度得到了很大的提升。作為新聞行業的競爭者，新聞報道的快速和實時成為佔領頭條的重要法寶。

第二，低成本。在信息時代，新聞報道的需求量不斷增加，但大量報道的撰寫其實是一種機械性的重複的工作，這大大加重了撰寫者的負擔，浪費了很多的勞動力。機器新聞寫作在一定程度上把人力解放出來，使得人們有更多的精力去做更重要的事情。

第三，客觀公正。毋庸置疑，人在撰寫新聞稿件的時候會不可避免地把個人的主觀情感帶入其中，導致人們對新聞稿件的理解出現偏差。機器新聞寫作在一定程度上可以完全做到客觀性，機器新聞寫作實質上就是對信息的一種結構化輸出，這樣傳達到民眾身邊的信息就是客觀公正的。

二、新聞寫作相關技術

2.1自然語言生成

自然語言生成包括文本到文本的生成(text-to-text generation)、意義到文本的生成(meaning-to-text generation)、數據到文本的生成(data-to-text generation) 以及圖像到文本的生成(image-to-text generation)等，新聞寫作的核心技術就是自然語言生成技術(NLG)，自然語言生成（NLG）一直處於人工智慧和計算語言學的影響之下，屬於交叉學科。意在構建高效的基於語言信息處理的計算機模型，通過將抽象概念和一定的語義、語法規則的結合來生成文本。經典的自然語言生成模型包括內容規劃、句子規劃和表層生成三個基本功能模塊[3]，在人機對話、機器翻譯、自動摘要等自然語言處理任務中都有著廣泛的應用。

傳統的自然生成方法依賴於規則和專家，移植性很差，近些年，更多學者開始使用神經網路的方法處理NLG任務，Sutskere[4] 提出sequence to sequence模型解決英語到法語的翻譯問題，使用兩個LSTM 模型，一個用於編碼，一個用於解碼。該模型允許輸入可變長度，因為來自編碼器的輸出總是映射到固定大小的向量。實施的結果表明與SMT系統相當。

本章將主要圍繞文本生成技術，介紹基本的循環神經網路模型以及可行的技術方案。

2.2 循環神經網路

近些年隨著深度神經網路（Deep Neural Network, DNN）的興起，學者們開始嘗試使用循環神經網路(Recurrent Neural Networks，RNNs)處理自然語言生成任務。在傳統的神經網路模型中，是從輸入層到隱含層再到輸出層，層與層之間是全連接的，假設所有的輸入是相互獨立的，所以每層之間的節點是無連接的，但這對於許多NLP任務來說並不是一個好的假設，例如，預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。RNNs可以對前面的信息進行記憶並應用於當前輸出的計算中，這樣隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出，RNNs已經被證明對NLP是非常成功的，如詞向量表達、語句合法性檢查、詞性標註等。

文本生成本身是一個序列輸出問題，RNN可以很好地刻畫辭彙與辭彙之間的前後關聯關係，本節介紹基本的RNN模型以及常見RNNs的拓展和改進模型。

2.2.1 Vanilla RNN

理論上，RNN能夠對任何長度的序列數據進行處理。但是在實踐中，它能記憶的長度是有限的，簡單的RNN模型存在梯度消減以及梯度爆炸的問題，往往難以訓練，這個問題的本質是由BP誤差反向傳播演算法引起的，反向傳播演算法使用鏈式法則，在求導的鏈上梯度會連乘，當輸入有輕微變化時，訓練出的梯度有時會有劇烈變化，通常情況下大於 1 的數連乘會變大，極端時會引起梯度爆炸；小於1 的數連乘會變小，極端時會引起梯度消失。梯度消失也會令在循環神經網路中，後面時間步的信息會覆蓋前面時間步的信息。

2.2.2.2 Gated Recurrent Units

2.3語言模型用於文本生成

總結來說，語言模型生成文本的輸入通常是詞的序列，輸出是預測得到的詞的序列，對應到新聞文本的生成，給出某一主題的新聞或者具有相似結構的新聞作為訓練數據集，得到一個可以寫出類似主題的新聞模型，基本如下：

該模型的訓練過程為：對於一句輸入的純文本，左側RNN依次讀入每一個單詞，並輸出一個當前的狀態。當最後一個單詞讀入完畢後，最後輸出的這個狀態被輸入到多層感知機linear的模型中，輸出兩個參數μ，σ這兩個參數即為q_θ (z│x) （採用高斯分布）中的兩個對應參數。隨即模型從q_θ (z│x)中隨即採樣出一個點z, 這個z 向量將作為右側RNN的初始狀態向量，參與到最終輸出文本的生成中。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 齊魯壹點 的精彩文章:

※微軟開啟編譯和測試Windows 10 Redstone 5
※傳統藝術進課堂，濟南萌娃做麵塑有模有樣

TAG:齊魯壹點 |