當前位置:
首頁 > 最新 > 新聞業玩並玩壞人工智慧的 N 種方法

新聞業玩並玩壞人工智慧的 N 種方法

以《紐約時報》「新聞編碼」如何被始亂終棄為例

有人還記得上個世紀雅虎的「目錄樹」及其衍生的「新聞門戶」嗎?那種老掉牙的搜索方式,在當時可是十足的創意,並由此造就了一批中外互聯網巨人、新媒體巨頭。然後,就有了谷歌,谷歌將搜索一口氣帶離了冷兵器時代,並在2002年,歷史性地推出了人工智慧的新聞產品:谷歌新聞,基於演算法的新聞服務。

從此,新聞業與人工智慧的互動達到了一個前所未有的高度,並在此基礎上,推出了形形色色的基於演算法(人工智慧、機器學習)的新聞產品與服務,包括但不限於馬克?扎克伯格的 News Feed、張一鳴的今日頭條。所有這一切,直接解放了新聞(journalism),間接摧殘了新聞業(media)。

新聞業並不落伍,事實上,新聞業常常愛趕時髦,他們曾經以 N 種方式,參與玩,並玩壞了所有此前以及目前的科技巨頭曾經玩過或者仍在玩的互聯網技術與商業模式(包括但不限於搜索、郵箱、博客、微博客、社交、機器推薦內容平台)。遺憾的是,他們今天勇立潮頭來玩人工智慧的時候,很可能以同樣的 N 種方式走樣。為什麼?因為他們大都玩的只是概念,並沒打算動真格,甚至,對於他們打算把玩的對象,也不屑於深入理解。

引人注目的「新聞編碼」就是一例。

前述雅虎目錄樹、谷歌演算法新聞、臉書 News Feed、今日頭條的頭條號都可以理解為基於「新聞編碼」(比較粗放)的產品與服務。而「新聞編碼」恰好是如今新聞業人工智慧熱中一個相當性感的標的,一個被始亂終棄的尤物。

2015年10月20日,《紐約時報》研發實驗室( The NYT R&D Lab)的研究員亞歷克西絲?勞埃德 ( Alexis Lloyd )寫了一篇博客,提出要為新聞文章「編碼」(encode)。這是一篇她個人的工作手記,發表在實驗室博客專欄中,並不代表《紐約時報》官方,也從未在《紐約時報》的新聞或者言論欄目中發表。(注1)有人不知怎麼就從中讀出了要以新聞「積木」(注2)拯救新聞業的遠大夢想。一些學者也很激動地跟著起鬨。以新聞編碼為關鍵詞,百度一下,可以找到很多有意思的解讀。一份新聞專業雜誌甚至刊發了一篇文章,標題是《紐約時報:拯救媒體業的「文章積木」》,提要中說:《紐約時報》近日發布最新「研究成果」。

亞歷克西絲?勞埃德博客的標題其實很平靜《新聞的未來不是文章》,並沒有許多讀者理解得那麼深刻與高遠,那麼令人激動。如果大伙兒真明白她在說什麼,也許就不那麼激動了,或者會以另一種形式激動。她說的是,我們現在做的新聞,是一次性產品,而新聞是可以有生命的,是可以再生、復活的,是可以以自己的方式產生新的新聞的。而使新聞從文章走向非文章的方式,不是人,不是新聞記者,而是機械、演算法,是人工智慧;不是生物大腦,而是機械 的大腦。人力成本太高。她事實上在宣判有血有肉的記者的有期徒刑,在數落人類的局限。她唱的,是計算機與演算法的頌歌,人類、生物大腦的安魂曲。

如果說「阿爾法狗」與棋士李世石的戰鬥,只不過是一場遊戲的話,那麼,走出遊戲的阿爾法狗,將帶給人類的,遠不只是遊戲的快樂。它將深刻地影響甚至改變人們的生活,許多人在這麼說,這幾乎已經是陳詞濫調了。「新聞編碼」看起來,好像就是這麼一條新聞業的阿爾法狗?

事實上,「新聞編碼」創意上個世紀就已經存在了,並不是《紐約時報》或者亞歷克西絲?勞埃德率先提出的。新聞編碼,如上所述,早就通過計算機在互聯網上進行中,無非是處於初級階段,線條粗放。所謂新聞編碼試圖通過機器可以識別、理解的語言,在機器學習基礎上,讓機器在特定的網路中自動、自主地聚合、處理並生成信息。新聞編碼試圖使每一個基本事實,都成為一個活著的棋眼,準備和另一個或另一些事實,組合蒙太奇,告訴大夥他們不知道的其它事實。這樣的創意,早就存在了。亞歷克西絲?勞埃德在她的博客中寫得十分清楚。(注3)但是,大夥就可以視而不見,非把這朵小紅花戴到《紐約時報》胸口。

亞歷克西絲?勞埃德認為,新聞編碼概念是互聯網之父蒂姆·伯納斯·李上個世紀提出的「語義網」之下的一個十分重要的內容。語義網的核心是通過給全球信息網上的文檔添加能夠被計算器所理解的語義「元數據」(Meta data),從而使整個互聯網成為一個通用的信息交換媒介,以實現信息的自動聚合與處理。亞歷克西絲?勞埃德說,因為成本太高,認真踐行的人並不多。

幸運的是,《紐約時報》沒有真的拉開架勢來做這項工作,否則,往這個黑洞無謂地扔錢是可以想像的。一張每個季度都要為財務報表上的數字發愁的報紙,沒有能力靜下心來思考這樣的問題,解答這樣的問題,沒有能力為了明天而給新聞編碼。給新聞編碼是燒錢的工作,需要燒到什麼時候,並不知道。

《紐約時報》不僅沒有認真地做這件事情,而且很快把亞歷克西絲?勞埃德的實驗室也滅了。如今,已經沒有一個叫做「紐約時報研發實驗室」的機構了。包括亞歷克西絲?勞埃德在內的紐約時報研發實驗室主管們在完全不知情的情況下,突然發現,紐約時報研發實驗室被改變了定位與名稱,要出發去新的邊疆。那是題外話。亞歷克西絲?勞埃德和她的同事,當然只能捲鋪蓋走人。目前,亞歷克西絲?勞埃德和她的一位主要實驗室夥伴在一家新創立的數字媒體公司 Axios 出任設計主管。她的新東家的創辦人,都是美國主流媒體出身的資深記者,對於「積木新聞」的能量瞭然於胸,但顯然不是邀請她去做「新聞編碼」的。對於草創的 Axios 來說,養家過日子,更重要。

傑羅姆在此提供這個背景的意思是,新聞編碼,也許仍然是人類的一個夢想,但肯定已經不是《紐約時報》的了,也不再是亞歷克西絲?勞埃德的了。這種時尚的概念,玩一把就好。

那些歡呼新聞編碼將拯救新聞業的人,對此恐怕會相當失望。這裡說的新聞業,顯然應該是指傳統新聞業,基於互聯網的新聞業過得好好的,需要拯救嗎?我的意思是,臉書與谷歌需要拯救嗎,今日頭條與微信公眾號平台等等需要拯救嗎?哪怕是傳統媒體,他們在互聯網上可以覆蓋的受眾也前所未有的海量,他們的新聞產品與服務的用戶十倍百倍於前數字時代。他們的主要問題在於他們的收益,被谷歌、臉書這樣的技術平台巨頭截留了。

新聞編碼顯然是新聞業,更廣義地說,內容業發展的一個方向。它可能是新聞獨立於人的起點,是新聞的獨立宣言。它決不會因為紐約時報研發實驗室不再存在了,就不再存在了。不過,能看到新聞編碼的意義,並不等於能夠進行新聞編碼。能夠看到AI對於新聞業的意義,並不等於能夠發掘並把握這種意義。那是一項需要巨大投入、長期積累的系統工程。當然,在這個工程開始之前,還需要有一個具體的規劃,有一個普適的標準,否則,白搭。獨立的、孤立的某一個新聞機構的「新聞編碼」,完全是天馬行空,不著邊際。愚公移山的故事,並不是一天之內可以講完的。

「語義網」及其子集新聞編碼就是是這麼一個夢想,註定將會實現的夢想,但目前看起來還十分遙遠,遙不可及。種種人工智慧在新聞業的應用,同樣如此。對於今天的具體某一個新聞機構而言,它們是陷阱,不是機會。扯開嗓子,為新聞編碼叫魂的,要麼根本沒有鬧明白那是怎麼回事,要麼沒有明白自己是怎麼回事。

在數字化轉型的過程中,新聞機構積極嘗試包括人工智慧在內的新技術帶來的技術手段與商業模式,十分必要。在新聞業務中使用一些人工智慧的產品,應用一些人工智慧技術,在自己的臉上貼幾個時尚標籤,都不是什麼壞事。但千萬別把那叫做新聞業的人工智慧化,別自欺欺人。人工智慧將徹底地改造新聞業,但建設一個無人機編隊、拍幾段虛擬現實、增強現實視頻、請幾個機器人寫幾篇數據新聞,無法抵擋互聯網巨頭對於新聞業的無孔不入的侵蝕,不足以拯救新聞業,也與所謂的人工智慧化無關。

哪怕是谷歌這樣擁有無窮盡資源的科技巨頭,要做這樣的編碼(encode)工作,也常常找不到北。

谷歌的射月計劃中有一個看起來比較靠譜,2002年開始,它一直在投入巨大的資源做一件事情:把世界上所有的圖書,掃描成電子版本,建立一個大一統的可檢索的電子書庫。這可以是人類文明史上的一個重要里程碑。當這項工程完成之後,人類的大腦,將會無限擴容。如果人類真的可以做到,向自己的大腦植入晶元之時,將可以把這整個圖書館植入自己的大腦。這個當年看起來瘋狂的構想,現在,看起來需要的只是一點點時間。谷歌已經成功掃描並數字化了2500萬本書,建成了人類文明史上最大的圖書館。谷歌完全可以在幾年內把所有的圖書掃描完畢。但是,谷歌差點被這個計劃搞破產,因為有人集體訴訟谷歌侵權,如果敗訴,谷歌賠光家底都填不滿坑。幸運的是一位有人文素養的美國法官救了谷歌,法官們好象已經想明白了這個創意的意義,開始傾向於支持谷歌。但是,谷歌仍然不得不被迫在兩年前正式宣布發棄這個代號「海洋計劃」的夢想工程,以免被人們的口水淹死。那個已經擁有2500萬本數字化圖書的人類前所未有的超級圖書館,也只能被囚禁在硬碟之中。

這個偉大的計劃,當然包含著谷歌的私心,但是,當然也是人類文明進程中的一個跨躍。如果這個計劃完成,天災人禍,大都不足以毀滅人類文明。人類文明的成果已經被徹底編碼,他們的夢想,他們的智慧,他們的所有神和女神,全都被存儲在某種介質上,遊走於不可知的星空,等待著被遙遠星空的文明和遙遠未來的文明解讀,就像我們去解讀楔形文字一樣。

不過,哪怕谷歌的那個圖書館最終建成了,也僅僅只是向著廣義的內容編碼邁出了第一步。這一步只解決了掃描、輸入的問題,沒有解決聚合、計算的問題。谷歌圖書計劃只解決了數字化的問題,並沒有解決數字化生存的問題。

每一本書,每一個思想,仍然是獨立的,沒有聯結的,仍然需要人們通過檢索來組織、整合其中的信息。這種組織工作,仍然需要第一推動力,比如,一個人,一個創意,一個構思。圖書館中的某一本書與另一本書,並不會因為一本新書的進入,而突然自動出列,與其經過有機的組合,提供人們新的視角與知識。這仍然需要人工干預,由人來操作。

經過亞歷克西絲?勞埃德所謂編碼的內容,今天的新聞,明天的歷史,就不是如此被動了。他們是有生命的。當某一條新的被編碼的新聞(內容,或者隨便你叫它什麼)入庫之時,它與庫中的已經存在的具有聯繫的新聞自動默認地進行聯結,從而觸發警示,產生新的新聞。

比如,非洲東海岸出現的長滿海洋寄生物的波音飛機碎片消息,立即觸發了 MH370 的整個故事。它的出現,證明了許多推斷,也否決了許多陰謀論。一張知識信息的大網,帶領人們向著真相邁進了一步。雖然是一小步,但是可靠的方向出現了。目前,這種聯結,完全依賴人來進行。但是,在未來,在新聞內容最小化編碼之後,在成熟的「語義網」之中,這種工作,可以由機器與演算法來進行。因為,機器與演算法可以理解經過編碼的信息。每一條相關信息的出現,都會自動地向某一個相關事件的拼圖上,自動地添加。而人們對於這些信息的解讀與猜測,為這張拼圖提供了更為豐富的變形可能。每天,有多少信息,進入這個信息烏托邦?每天信息烏托邦的高性能計算機陣列,將進行多少量級的計算?不知道。也不必知道,未知太多,我們只需一步一個腳印往前走。

前《紐約時報》研發實驗室研究員亞歷克西絲?勞埃德作為一個新聞業的工程師,可以有自己的暢想,但《紐約時報》能幹這樣的工作嗎?別逗了。這是最近的將來,人類可以實現的目標嗎?你說呢?谷歌的超級圖書館還在路上呢。如果《紐約時報》或者某一家、某一些新聞機構真的投入地去做了,那不是在自我拯救,而是在自殺。

蘇茲伯格家族很清楚這一點,他們沒有這樣的雄心,也沒有多少美元可以讓他們來揮霍。因此,他們十分輕鬆地把亞歷克西絲?勞埃德和她的實驗室滅了。當然,他們可能明白,這是一個必然的方向,一個誰也改變不了的必須敬畏的趨勢。

最終,新聞編碼,將在不知不覺中完成。這個過程,只可能在不知不覺中完成。某種編碼技術的突破,將使這樣的編碼工作得以變得現實可行。就象谷歌新聞演算法的突然出現,使基於互聯網的新聞檢索變得空前簡便,就象馬克?扎克伯格的 News Feed 的出現,讓基於社交的大規模信息交換與分撿、分發成為可能。這種突破在什麼時候,以什麼方式出現,不可能預期,但是,它顯然、必然出現。

我們的大腦可以想像那顆遙遠的星辰,但是,我們暫時無法想像如何建造通向那顆星辰的雲梯。給予人類足夠的時間,他們一定可以完成那把雲梯的。至於雲梯是什麼樣的,管它呢。按照信息技術現在的發展速率,下一代人,也就是在未來的三十到五十年間,一定可以看到雛形。這裡說的不是雲梯,是新聞編碼。

但是,也千萬不要神話新聞編碼與「新聞積木」。因為,新聞編碼與新聞積木及其大一統資料庫,或者「語義網」,是不完美的。基於人工智慧的新聞編碼並不一定是好事。自動生成的新聞,新聞所產生的新聞,並不一定是真實的新聞。比如,某條有意識輸入的假新聞,將在資料庫中催化連鎖的反應,並在此基礎上產生大量的假的新聞,與假的判斷。輸入(Input),將成為一個巨大的問題。而資料庫中的已經被編碼的新聞,也並不是固化的。有人可以根據需要,刪除,改動。有人,可以從元數據開始,操縱那個資料庫,改變其中的一些數據,那意味著,通過那個編碼資料庫出來的新聞,完全可以失真。就象我們在一些好萊塢大片中看到過的,中情局完全有能力從根本上抹去你在這個世界上存在過的一切痕迹。

歷史,將變得更為隨意,人們有可能離真相更遠。

人類的智慧,可以通過機械大腦傳承,並且通過種種我們現在無法理解的演算法,無限地增強。演算法,正在突破新聞(journalism)的邊界,也正在解放新聞(journalism)。演算法,正在以前所未有的方式,生產新聞,分發新聞,呈現新聞;同時,演算法,也正在以令人擔憂的方式,扭曲新聞,稀釋新聞,進而操縱新聞。

當這一切都可以發生的時候,這個世界,更真實了,還是更不真實了?那是另一個問題,可以另行討論。

有了人工智慧的世界並不會比現在的世界更為美好;有了AI 的新聞業,並不會比今天更加健康。把AI作為憧憬與夢想就好。萬一實現了呢?可能還是個噩夢,比如,今天谷歌、臉書帶給美國新聞業與美國人民的,據說就是一個惡夢,美國的左、右各種勢力,正在驚人一致地要求加強監管科技巨頭,以擺脫這樣的惡夢。

不必玩概念,並把概念玩壞。拯救新聞業,還是來點實在的吧。

———————————

注1: 博客鏈接 :http://nytlabs.com/blog/2015/10/20/particles/

注2: 積木(Particles)的準確定義詳見歷克西絲?勞埃德的下面這段描述:In order to leverage the knowledge that is inside every article published, we need to first encode it in a way that makes it searchable and extractable. This means identifying and annotating the potentially reusable pieces of information within an article as it is being written – bits that we in The New York Times R&D Lab have been calling Particles.

注3:亞歷克西絲?勞埃德的原文是這樣的:This concept ( Particles)builds on ideas that have been discussed under the rubric of the Semantic Web for quite a while, but have not seen universal adoption because of the labor costs involved in doing so.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新新媒體觀察 的精彩文章:

買流量、騙廣告:美國新聞周刊媒體集團的商業欺詐只是個案?

TAG:新新媒體觀察 |