當前位置:
首頁 > 最新 > 中國新聞機器人現象分析:數據與技術困境下的填字遊戲

中國新聞機器人現象分析:數據與技術困境下的填字遊戲

本文字數:7344字

閱讀全文需要:13分鐘

文/洪傑文,蘭雪,李程

作者簡介:

洪傑文,武漢大學新聞與傳播學院副教授;蘭雪、李程,武漢大學新聞與傳播學院,碩士研究生。

本文試圖通過對我國4個主要新聞機器人(Dreamwriter、Xiaomingbot、快筆小新、DT稿王)進行分析,窺探當下我國機器新聞發展的現狀、難點、發展趨勢及對我國新聞業生產的啟示。

本文認為機器新聞雖然具有高效率、高產出的特點,但其生產由於受到數據和技術等因素的制約,仍處於較為初級的階段。生產的稿件較為生硬、缺乏人情味,呈現出公式化、模塊化、同質化的特點,並且局限於少數互聯網科技公司,水平暫落後於西方國家。未來的新聞生產是基於數據的人-機一體的報道模式,我們既要注重複合型人才的培養,又要加強技術創新,保護我國的數據主權。

一、 概述

(一)機器新聞的概念界定

從廣義上來看,機器新聞又稱機器人新聞,或自動化新聞,是指人工智慧技術在新聞寫作、採訪、編輯、主持等新聞活動中的具體運用。

狹義的機器新聞就是指機器人新聞寫作,是一種自然語言生成引擎,利用演算法程序,通過採集大量的各種題材以及高質量的數據,建立各種分類的龐大資料庫,藉助人工智慧(Artificial Intelligence,縮寫為AI)實現從數據到知識、見解和建議的提升和跨越,最後由機器自動化生產新聞。本文所關注的是狹義上的機器新聞,即機器新聞寫作。

(二)機器新聞寫作的產稿模型——自然語言處理模型和語言模板模型

目前的機器新聞寫作,稿件的生成主要有兩種方式,一種是基於自然語言處理的自然語言處理模型,將數據直接轉換為人類語言,通過人工智慧技術組成最終稿件,理論上可以做到與人類編輯的稿件幾乎相同。該模型通過機器學習技術積累了自身的一個知識庫(Knowledge Discovery in Database,KDD),在應用過程中,不斷豐富自身的知識庫,最後輸出越來越接近人類語言的稿件。該模型並不是單一的一項技術,而是涉及整個人工智慧領域的技術集合,涵蓋人工智慧、自然語言處理、大數據等。

另一種是預先埋入模板的模板模型,然後將擁有的數據欄位填充進去,最終產生稿件。這種方式就像搭積木一樣,基於數據選擇相應的字詞句模板,目前大部分的機器新聞應用都是採用這種方式。這種方式在模板的數量多到一定程度,排列組合的粒度足夠小時,複雜度更大,最終稿件的效果越接近人工稿件。這兩種產稿模型也並非割裂地使用,實際應用中往往是各種技術的相互交叉。

二、 我國現有的4個主要新聞機器人

2015年9月10日,一篇題為「8月CPI漲2%創12個月新高」的新聞稿件在騰訊網財經頻道發布。」繼騰訊Dreamwriter嘗試後,國內各家媒體緊隨其後推出機器新聞應用,如第一財經的「DT稿王」,新華網的「快筆小新」,今日頭條的「AI小記者XiaomingBot」等。

(圖片來源於網路)

(一)騰訊「Dreamwriter」

Dreamwriter是騰訊財經2015年9推出的自動化寫稿機器人,是國內在機器新聞領域的首次嘗試。推出至今,該寫稿機器人已經完成了至少5個版本的迭代,主要運用在騰訊財經以及騰訊體育兩大板塊。截至2017年4月8日,共發稿件約5000篇。

體育方面,截至2017年4月8日,在百度搜索中,輸入關鍵詞「本文由騰訊機器人Dreamwriter site:sports.qq.com」,共有2490篇新聞稿。里約奧運會期間,騰訊體育在奧運板塊DW播報專欄共發布稿件約250條,以簡訊為主。在NBA的賽事報道中,Dreamwriter共撰寫近800條稿件,內容多由「比賽視頻+比賽回顧+陣容介紹」組成,配有圖片、視頻,平均評論相對較多。

財經方面,截至2017年4月8日,在百度搜索中,輸入關鍵詞「本文由騰訊機器人Dreamwriter site:finance.qq.com」可搜索出1970篇相關新聞。其中,《研判版:9月CPI漲幅回落貨幣政策或維持寬鬆》一篇文章就推出了研判版、民生版、常規版、精要版四個版,針對不同的用戶個性化喜好進行推送,是機器新聞在個性化寫作和投放中的一次嘗試。

可以看出,騰訊Dreamwriter體育新聞的傳播效果優於財經新聞的。原因有二,財經新聞本身的受眾相較於體育新聞就少得多;體育新聞相較於財經新聞更容易進行深度報道,且賽場內容較為豐富多彩。

(二)今日頭條「Xiaomingbot」

2016年里約奧運會之際,今日頭條推出「Xiaomingbot」寫稿機器人。Xiaomingbot在里約奧運會期間共撰寫了457篇關於羽毛球、乒乓球、網球的消息簡訊和賽事報道,不僅囊括了從小組賽到決賽的所有賽事,且其發稿速度也非常快,幾乎與電視直播同時。Xiaomingbot寫作的稿子有將近百萬的閱讀量,有的稿子的閱讀量甚至高過於記者人工寫作的稿件。

Xiaomingbot是國內第一個運用自然語言處理、視覺圖形處理和機器學習技術的寫稿機器人。Xiaomingbot屬於第二代寫稿機器人,不僅可以通過檢索圖片自己選擇圖片,還能模仿人類的語氣,使用諸如「笑到了最後」、「實力不俗」等詞語。Xiaomingbot寫稿速度更快、擬人化程度更高、還可以在文章中選取插入賽事的圖片,圖文並茂使文章更加生動形象。

(三)新華社「快筆小新」

2015年11月7日,新華社迎來了「快筆小新」——一個計算機程序,應用人工智慧、機器學習、數據挖掘等技術,生成類似於人類寫作的稿件。目前「快筆小新」供職於新華社體育部、經濟信息部和中國證券報,寫體育賽事的中英文稿件和財經信息稿件。

在百度搜索中輸入「這條新聞由新華社機器人寫稿系統編寫」進行搜索,一共可以搜出130篇新聞。在中證網中搜索「這條新聞由新華社機器人寫稿系統編寫」,截至2017年4月3日,快筆小新一共撰寫了1043篇文章,其中2017年撰寫了72篇文章。總體來看,大部分稿件是數據的堆砌,語言銜接也較為生硬,純文字,無圖片,無評論。

(四)第一財經「DT稿王」

2016年7月,DT稿王進入大眾視線。DT稿王是第一財經媒體實驗室開發的一款自動化的新聞寫作工具,主要撰寫財經類的稿件,現多發布在第一財經的微信公眾號上。

PC端方面,從2016年5月29日開始,DT稿王在官網上共撰寫8條稿件。每條稿件質量較高,包括主題提取及圖片匹配;移動端方面,截至2017年4月8號,在官方微信公眾號上,DT稿王共撰寫文章71篇,全部為公告匯總。

DT稿王處理速度很快,利用多台伺服器分散式的對發布的公告進行掃描,可以即時對公告進行分類篩選出待寫新聞稿的公告,並通過後台的信息提取演算法提取出該公告的重要信息。同時,DT稿王生成的稿件語句流利通順,符合人類自然語言的語法,主要體現在其擬人化的運用上。最後,DT稿王在海量的信息中抓住信息本身的重點,協助決策的快速實施,主要體現在關鍵信息以及主題的提取上。

三、我國新聞機器人水平現狀

(一)機器新聞的適用領域——財經、體育

迄今為止,機器新聞使用最廣泛的四大領域是財經、體育、氣象地質和健康。就我國機器新聞的發展而言,最廣泛的應用領域還是財經和體育兩大方面(具體見表1)。

這些報道類型有一個共同點,就是所圍繞的新聞主題通常涉及大量數據,需要進行量化分析,而新聞寫作的結構具有相對固定的標準和模式。據分析,可以看出騰訊的Dreamwrite在奧運會期間所撰寫的體育簡訊一般都是按照「時間+人物+比分+結果」的模式撰寫的。模板化也是基於人工智慧的自然語言生成技術的機器新聞稿件的一個顯著的特點。

(二)中文機器新聞寫作進展落後於西方國家

我國機器新聞產業雖取得了一定發展,但仍遠遠落後於西方國家。究其原因有二:一是西方國家憑藉其強大的創新能力在人工智慧技術上已有一定的優勢;二是漢語堪稱最複雜的語言之一,中文「機器寫作」的難度遠大於英文等語言。

比如,Xiaomingbot在新聞中使用「實力不俗」等成語、DT稿王提取「如履薄冰、如臨深淵、戰戰兢兢、兢兢業業」等關鍵詞的技術都相對難度較高。因此,對於中文「機器寫作」的開發者而言,我們在學習西方先進技術的同時,不能一味照搬國外思路和技術,而是需要根據中文的字音、字形、字義以及語法特點,因地制宜,進行更具針對性的技術創新。

(三)機器新聞的優勢:多而快、滿足個性化需求、長尾效應突出

對於財經、體育等規格化比較高的新聞,機器新聞不僅生產速度快,而且產量也遠遠大於記者所撰寫的稿件。計算機軟體24小時隨時待命,不需要休息,可以不間斷地高強度工作;伴隨著計算機硬體設備的不斷升級換代,基於演算法對海量數據進行挖掘和分析也僅僅是幾秒鐘的事情。DT稿王的平均閱讀速度為7,471字/秒(448,275字/分鐘),是普通人閱讀速度的50倍。然後,按新聞稿成稿格式重新組織輸出,機器寫稿為28字/秒(1,680字/分鐘),是普通人打字的35倍。

(圖片來源於網路)

隨著技術的不斷進步,通過對不同語料庫語言風格的智能化機器學習,結合對每個用戶閱讀習慣的自動化分析,機器新聞可以自動生成適應不同人群語言習俗的表達方式,能夠針對同一新聞事件生產出不同風格的內容版本,以適配不同受眾的需求。在這一方面,騰訊的Dreamwriter比較突出,其寫作邏輯是在達到一定的觸發條件後,系統通過對若干計算模型進行定量和定性的分析,自動根據數據選取合適的表達模板,將數據與模板相結合,完成多版本的個性化寫作和推送。

互聯網平台上新聞報道長尾效應突出。這是由於互聯網上受眾基數巨大,即使小眾的受眾,其數量也十分可觀,這符合未來分眾化新聞的大趨勢。計算機軟體可以對互聯網上的每一條數據和碎片化文本做出分析和處理,將看起來意義不大的數據和文本的價值挖掘出來。

四、機器新聞的難點與不足

(一)模板型機器新聞的難點:數據獲取與處理、模板的選擇

對於所有機器新聞來說,如何保證數據來源都是首先要面對的問題,模板型機器新聞的數據來源都是一些結構化的數據,如奧運XML數據。其數據往往具有獨立性,不需要其他輔助數據等。一般與這種機器新聞應用對接的都是專業機構提供的數據介面,或者人工進行結構化預處理後再提供給程序使用。如何拿到數據來源,得到數據源後如何保證其準確都直接關係到機器新聞最後能否產出合格的稿件。

得到數據源後就要面臨處理數據的問題,我們需要機器新聞有個內部機制來保證的數據的穩定,因為外部的數據是不能完全信任的。嚴重數據異常的甚至會影響整個系統,從而導致新聞及時性嚴重滯後。這就需要機器新聞內部的這個保障機制盡最大努力在外部數據源不穩定的情況下如何做到不影響全局。

模板型機器新聞根據數據的不同情況來預先埋入不同的模板,最簡單的方案當然是一種模板適用於一種情況,但如果這樣的話難免顯得生硬。為了更好地模擬人類語言的特點,以及對一些數據微妙差異的適應,往往在同一種情況下需要備選幾套模板方案,選擇哪一種模板來作為最終產稿的依據,這就涉及到了模板的選擇問題,一般會為不同的模板配置不同的權值,根據數據的表現來決定模板選擇的優先順序。

(二)自然語言處理型機器新聞的難點——技術基礎薄弱、訓練問題凸顯

理論上來說,自然語言處理是一種很有吸引力的人機交互方式,但當今計算機技術處理非結構化的現實世界數據還有很大難度,自然語言處理技術本身面臨的難點就成為制約著該模型方向下機器新聞的發展。目前自然語言處理本身面臨的難點有:計算機對於自然語言的理解、對於詞語邊界的界定以及語言行為與計劃。

以中文為例來說,不同詞意的理解對於人類尚且存在識別的困難,對計算機來說就更是複雜,機器只能基於一個數學分析來判斷,比如句子「我們把香蕉給猴子,因為(它們)餓了」和「我們把香蕉給猴子,因為(它們)熟透了」有同樣的結構。但是代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」。如果不了解猴子和香蕉的屬性,無法區分。

在自然語言處理中,對於詞語邊界的界定時中文的難度往往比英文更大,中文以字為單位,計算機需要先識別出詞法,然後再判斷出句意。另外句子常常並不只是字面上的意思,例如,「你能把鹽遞過來嗎」,一個好的回答應當是動手把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖說回答「不」或者「太遠了我拿不到」也是可以接受的。再者,如果一門課程去年沒開設,對於提問「這門課程去年有多少學生沒通過?」回答「去年沒開這門課」要比回答「沒人沒通過」好。這種形式的對話就不僅局限於上下文本身的語境,而是涉及到人類的知識庫以及當前的社會環境,其計算的複雜度難以想像。

(圖片來源於網路)

使用自然語言處理的機器新聞的生產,必須解決機器學習中的訓練問題,訓練也需要數據,這些數據就像模板模型的模板一樣,對機器新聞程序大量輸入,讓程序通過已有的素材,總結出自己的寫作模式。理想狀態下,我們可以使用大量現存的新聞稿件對程序進行訓練,讓機器自主學習這些新聞稿件中的寫作模式以及用詞,比如先將一篇正常的新聞稿處理成結構化的數據源,機器根據數據源產稿後將自己的輸出與實際的人工稿件進行對比,通過不斷記錄兩者之間的差異來達到修正自己的目的。

在實施過程中,選擇何種現存稿件,初步的結構化處理應該做到何種程度,機器學習過程中的差異記錄如何控制都是很複雜的問題。就目前來說,人工智慧在新聞生產中的大規模應用,還有很長一段路要走。

(三)機器新聞的不足——內容生硬刻板、缺乏人情關懷與深度分析

模板型機器新聞將數據埋入模板產生新聞,不可避免帶來稿件生硬刻板的問題。雖然騰訊的Dreamwriter根據財經和體育報道的不同特點開發了兩套系統,每個系統都有自己的表達方式和計算模型,但大多數的體育新聞還是以簡訊的形式呈現。少數稿件篇幅相對較長,但也是按照「比賽焦點+精彩回放」的模式展現,文中不僅用詞重複率高而且篇章句法結構都極為相似。

不論是模板型機器人還是自然語言處理型機器人,現階段的機器寫作都還處於初級階段,是基於海量數據的分析與整合,機器人不具備人的創造力,也不具備記者的長期職業積澱以及社會洞察能力,因此機器不能進行深度的思考和分析,不能進行調查性的深度報道,所做的工作僅僅是周而復始的填字遊戲,稿件沒有質感與溫度,內容缺乏人情關懷。

比如今日頭條的Xiaomingbot在8月16號發布的關於奧運會男乒半決賽的一篇報道中,出現「絕望之際,失敗女神朝其拋出了橄欖枝」的語句。在自然語言中,向某人拋出橄欖枝意味著向某人示好。顯然,Xiaomingbot並沒有領會到橄欖枝在自然語言中的含義。機器人對信息的深度理解遠遠不夠。個性化的細節,栩栩如生的描寫和或多或少的煽情使文章的人情味更濃,人類特有的思維和情感才能產生的「人情味」使得記者的稿件更令人期待。

五、機器新聞未來發展趨勢及對新聞生產的啟示

(一)人-機一體的新聞報道體系將成為主流

「現階段人工智慧發展的關鍵問題是人和機器如何在人機對話中實現功能的互補和價值的匹配。」將來的新聞寫作,將是人與人工智慧的結合。機器新聞的特長在於,可以對海量數據進行快速的公式化地處理,效率高、產量大。但這僅是基礎階段,在價值判斷、情感處理、深度調查方面,人的介入不可或缺,這也是人類記者的價值體現所在。

目前多數媒體還是保留了「人工審核」這一關鍵步驟。這是因為機器本身並不具有獨立判斷新聞傾向和新聞價值的能力,其對材料的篩選更多源於對關鍵詞句等數據的獲取。未來的新聞寫作一定是人-機一體、人機協作的方式,這也是未來媒體人的價值和核心競爭力之所在。

(二)數據獲取與物聯網緊密相連,數據將成為新聞生產的新思維

機器新聞中最關鍵的要素是演算法和數據。演算法有賴於人的智能設計,數據採集和當下的物聯網的發展有著非常緊密的聯繫。2015年瑞士達沃斯經濟論壇上,谷歌公司前首席執行官艾瑞克? 施密特做出了大膽的預言:「互聯網即將消失,一個高度個性化、互動化的有趣世界——物聯網即將誕生。」未來不管是面向新聞寫作的數據獲取,還是面向個性化寫作的用戶閱讀習慣、反饋的數據獲取,物聯網技術將會給其提供更大的空間。

機器新聞的基礎是海量數據,數據是新聞生產的新思維、新資源,包括數據資源的豐富性、數據採集的便捷性以及數據處理的智能化。

(三)更加個性化、實現可視化

在未來,計算機軟體可以通過對傳播效果的後期自動分析做出情感預測,即通過分析人們對這則新聞產生的情感傾向的反饋,來判斷是否達到了預期的新聞效果,來預測閱讀完新聞後可能產生的情緒反應,進而決定給受眾推送新聞的類型以及新聞寫作的模版的改進。

除此之外,現如今的機器新聞多為數據堆砌,文字數據的閱讀效果並非十分理想。即使文本加入了相關的圖片,還是難以讓人產生十分直觀的印象,這就對機器新聞提出了可視化的要求。如何將冰冷的數據轉化為直觀生動的圖像是機器新聞要解決的問題之一。

(四)開闢更多報道領域,實現更廣泛的應用

現階段,國內的機器新聞局限於體育和財經兩大領域,而國外的機器新聞的應用領域已經從最初的體育報道、財經報道,逐步擴展到自然災害報道、罪案報道等領域。今日頭條的Xiaomingbot只會寫體育新聞,這一方面是由於其初始寫作模塊的設置,功能較為單一,未能考慮到深度學習功能;另一方面,數據壁壘導致Xiaomingbot不能獲取學習更多的數據資料,導致其「知之甚少」。

但是伴隨著計算機數據處理能力的不斷增強,以及數據開源的實現,跨領域的機器人新聞寫作將成為可能,不同的資料庫可以相互補充。因此機器新聞寫出的稿件不僅領域更加寬廣,而且內容也將更加全面。

(五)新聞傳播的內涵和外延的變化——注重培養複合型人才

新聞傳播行業的核心是內容生產與傳播。機器新聞的內容生產被解構為機器寫稿、編輯進行人工修改把關兩個環節。而騰訊的Dreamwriter則完全實現了機器的自動化寫稿和發布,不需要經過人工審核這一步驟。

2012年和2014年哥倫比亞大學Tow Center和波因特研究院先後對新媒體時代記者應具備的技能調查的結果顯示,熟悉數據和統計知識,具備基本的編碼知識正被納入新聞記者核心技能培養體系。對於這一變化,國內外不少新聞傳播院校,在「大傳播」理念下,紛紛加強了新媒體方面的課程內容比重,包括大量的信息和數據處理技術和信息藝術設計方面的課程。

新聞傳播從業者在認清機器人與記者互補共存的基礎上,要加強對數據處理和數據挖掘的技能的學習,進一步要加強綜合能力的提升,高校要注重新時期複合人才的培養。

(六)全球新聞傳播失衡——大力推進技術革新,全力保護數據主權

在我國,除了像騰訊、今日頭條、百度等互聯網科技公司,絕大多數企業並不具備在機器新聞或者人工智慧方面的自主研發能力。另外,在互聯網時代,發展中國家的網路和數據主權並未得到有效的保護,英美等西方國家佔據了全球大部分的信息資源。機器新聞在世界範圍的應用可能會加劇發展中國家對發達國家的被迫依賴,導致全球範圍內新聞傳播的失衡。因此,發展中國家要大力推進計算機技術發展,同時保護我國的網路主權和數據主權。

機器新聞寫作可以在某些領域取代人類高度重複性的工作,提高新聞的生產效率,從而改變新聞生產的模式。但目前為止,我國機器新聞還處於比較初級的階段,寫作機器人還停留在被動接受指令,進行運算的層面,所寫的稿件也都是模塊化、公式化的文章,限於快訊、簡報的形式,主要運用於財經和體育兩個方面,是數據與技術困境下的結構性敘事。因此,對於機器新聞,我們需要用一種冷靜的態度看待,既不盲目崇拜,也不抗拒新技術的到來。

本文節選自:洪傑文,蘭雪,李程:《2015中國數據新聞發展報告》,《中國媒體發展研究報告》,2017年,205-224頁

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |