當前位置:
首頁 > 最新 > 大數據與新聞傳播研究的學術想像

大數據與新聞傳播研究的學術想像

# 本文系2018年第2期

「反思傳播學」專輯系列文章 #

作者

張志安,中山大學傳播與設計學院教授、院長,廣東省輿情大數據分析與模擬重點實驗室、廣州大數據與公共傳播研究基地主任。

本文是教育部哲學社科研究重大課題攻關項目「大數據時代國家意識形態安全風險與防範體系構建研究」(編號:16JZD006)。

不久前,阿里巴巴董事局主席馬雲(2017)在第四屆世界互聯網大會開幕式致辭時說:未來30年,數據將成為生產資料,計算會是生產力,互聯網將成為一種生產關係,如果我們不數據化,不和互聯網相連,那麼會比過去30年不通電顯得更為可怕。作為互聯網巨頭公司,他強調互聯網企業要將大數據作為核心競爭優勢是非常必要的,而作為研究者,我們關注人和技術的關係、研究互聯網信息傳播對人類行為的影響,的確也需要把大數據作為一種新的「生產資料」。

本文首先從理論取向和應用取向的維度,簡要回顧大數據與新聞傳播的相關研究,繼而對基於大數據的新聞傳播研究進行特徵概括和必要反思,最後試圖針對大數據如何給新聞傳播研究帶來新的學術想像做一些探討。

一、理論和應用取向的大數據與新聞傳播研究

筆者(張志安,曹艷輝,2017)曾對2011-2016年間新聞傳播學領域SSCI、CSSCI期刊上的相關研究進行過梳理,大體勾勒出相關研究的基本輪廓:

其一,理論取向的大數據傳播研究,主要運用大數據方法來對傳播研究的理論進行驗證或發展。相關研究主要從四個方面切入:1.關於傳播主體與關係網路,主要是突破以往有限樣本和案例,運用大數據方法來對推特、論壇上的傳播關係網路進行分析,集中探討網路媒體是否有助力復興「公共領域」,包括網路表達的政治同質化現象、網路意見領袖及其權力結構等;2.關於傳播內容與公共輿論,主要研究社交媒體的自我表達、內容生產和政治傳播呈現哪些特點和規律,比如不同文化群體的表情符使用差異、傳統媒體和社交媒體上政治評論的異同、社交媒體上的情感表達及其對爭議性風險議題的態度等;3.關於傳播過程和信息流,藉助大數據分析可以實時、精準記錄社交媒體上的傳播過程,如針對熱點事件考察信息流中的信源和信息路由器(key information routers)、不同社交媒體的技術文化差異及其在網路動員中的作用等;4.關於傳播效果,運用大數據方法來檢驗政治傳播、風險傳播的效果,比如通過議題之間的語義網路分析來豐富議程設置的測量維度、以社交媒體內容為文本考察恐懼訴求在禁煙宣傳中的說服效果等。

其二,應用取向的大數據傳播研究,主要聚焦於數據新聞、精準營銷和網路輿情等領域。關於數據新聞,學者們(張帆,吳俊,2016)重點探討大數據對「新聞生產流程、報道內容、數據素養和倫理道德」等四個方面的影響,考察其如何重構新聞生產的環節、重塑新聞質量標杆、怎樣提升受眾反饋等,其中,藉助大數據分析進行的調查性報道極大提升了媒體超越表面現象、挖掘深層現實的能力;藉助大數據分析,廣告業可以更加精準地分析消費者需求、進行精準可控地廣告投放和效果評估,海量用戶的網路行為數據成為新媒體營銷的重要「資本」,精準化、個性化和可預測逐漸成為大數據驅動下精準廣告營銷的新特點。

從國內新聞傳播學科針對大數據的研究來看,網路輿情是重要的關注焦點,上海交通大學、中山大學和暨南大學等均成立了與大數據輿情相關的實驗室,運用大數據進行輿情分析的確存在諸多優勢(張志安,曹小傑,晏齊宏,2017):比如獲取網路上公眾表達和轉發等動態數據,可及時或實時跟蹤研究網路輿情動向;聚焦特定議題或事件,有助於把握網路輿情的總體發展態勢;獲取社交媒體相關數據,有助於深度挖掘網路中的信息流動規律等。不過,大數據輿情分析和傳統民調方法應該有機結合,而非片面追求新數據,而放棄傳統的、經典的社會調查方法。

二、基於大數據的新聞傳播研究的主要特徵

通過上述研究回顧看,運用大數據分析方法來做新聞傳播研究,基本上可以概括為兩種類型:一是「新方法+舊問題」,運用社交媒體和論壇數據研究信息流、議程設置、意見領袖等傳播研究的經典問題,但更多的是著力於比較傳統媒體和網路媒體之間的效果差異;二是「新方法+新問題」,運用社交媒體、論壇數據研究表情符號、網路情緒、在線關係網路等互聯網研究領域的新問題。無論哪種類型的研究,要真正在理論建構上獲得突破都並非易事。

從研究問題看,現有大數據與新聞傳播研究多數還是「數據驅動」的研究,而非「理論驅動」的研究,能拿到各種類型的網路大數據並基於這些數據來進行理論研究,本身就是這個領域一直積極探索的方向。目前的數據來源,國外研究主要是推特(Twitter)、YouTube、Facebook等社交媒體,而且大部分是推特這一開放性社交平台的數據,國內研究主要是論壇、微博、百度等網路社區、社交媒體和搜索平台的數據而且以微博這一開放性社交平台的數據為主,數據規模小則數萬、數十萬,多則數千萬和上億。與傳統研究主要通過調查問卷、訪談等方式獲取受訪者「自我報告」數據,不同的是,基於大數據傳播的研究主要以精鍊的「關鍵詞」或整群採樣來建立資料庫,傳統的抽樣邏輯被顛覆,研究的關注焦點從「代表性的小樣本」 轉向「選擇性的全樣本」(張志安,曹艷輝,2017)。

從研究方法看,針對大數據的處理往往與計算機輔助內容分析、自動化的數據 挖掘、大規模的社會網路分析相聯繫,需要傳播學、心理學、計算機等多學科的理論和方法支撐。其中,最流行和便捷的計算機輔助內容分析方法是基於詞典的文本分析工具(Dictionary-Based Text Analysis),可以根據詞典中關鍵詞所屬類別自動對文本內容進行編碼;機器學習(Machine Learning)包括無監督、有監督的機器學習兩種類型,是基於數據經驗來識別提取數據類型、做出決策的演算法;複雜社會網路分析常針對傳播者(如意見領袖)、傳播議題之間的關係進行分析,常用工具包括Ucinet、Gephi、Pajek等(張志安,曹艷輝,2017)。

從研究結論看,基於大數據的新聞傳播相關研究更多注重的是變數之間相關關係的檢驗,而非因果關係的闡釋。一方面,這受制於研究所收集的網路數據很難進行結構化處理,難以獲取研究樣本詳實的人口統計變數數據,更重要的是難以根據研究目的靈活設計控制變數,只能基於自然生成的數據進行挖掘;另一方面,基於時間、人力和研究成本的考量,要收集到更多不同維度的線上和線下數據,尤其是將社交媒體上網民表達的內容數據、瀏覽和轉發的行為數據與其現實生活中的人口學特徵數據結合在一起進行研究,難度非常大。正如喻國明(2014)指出:大數據思維只關注「相關性」,而不再關注「因果」關係,對大數據的研究,發生了從 「隨機樣本」到「總體」的研究範式改變,對其研究的重點正從「理論」向「演算法」與「規則」轉換,理論研究的指導價值正在下降。目前,基於大數據的新聞傳播研究具有哪些總體特徵?第一,社交媒體數據成為研究公共表達、傳播內容和傳播效果的新數據來源。比如運用微博數據可以測量不同熱點事件發生過程中的公共表達議題、意見領袖的關係網路、網民的直覺情緒;運用搜索數據可以分析公眾關注某個社會議題的搜索路徑和認知深度;基於不同熱點事件的微信H5數據可以研究同一議題、不同內容的網路擴散路徑,進而探討民族主義情緒和微信傳播模式之間的關係等。

第二,運用社交媒體數據進行的研究,回應的問題依然是議程設置、沉默螺旋等傳播效果研究的經典問題,其背後依然是美國傳播學的實證研究範式佔主導。比如,運用社交媒體和傳統媒體的文本進行分析比較,考察不同平台之間議題的多元和複雜互動,針對某個特定議題或事件分析預測哪個平台、哪種議題網路能夠更好的預測某個群體的關注、表達和參與行為等。

第三,針對社交媒體數據的分析維度,從傳播內容、傳播過程和傳播者關係網路越來越多地拓展到情緒、態度、空間等跨學科研究的視野中。比如社會心理學相關研究,利用社交媒體數據挖掘進一步檢驗用戶線上情緒和線下情緒、線上心理和線下心理之間的關係;計算機模擬的相關研究,運用大數據進行人工社會的模擬系統平台建設,預測不同熱點事件在線上和線下不同空間中的傳播規律等。

值得思考的問題是,通過「新數據+舊問題」的研究能否越來越多地催生「新數據+新問題」的研究,「數據驅動」的研究能否越來越多地走向「理論驅動」的研究,「相關性」的研究能否越來越多提升至「因果」關係的研究,從而真正借力大數據分析方法為新聞傳播研究打開新的視域。

三、以大數據方法提升新聞傳播研究的主要路徑

運用大數據分析和挖掘方法來提升新聞傳播研究的學術想像力,需要面對挑戰和抓住機遇。以時下國內新聞傳播學界熱衷的網路輿論研究為例,如果只是進行決策研究、提供輿情分析報告和對策建議,則門檻相對較低,如果要真正進行學術研究,則至少面對三個方面的挑戰:

(一)數據如何獲取:學術機構如果要採購微博等平台的數據,購買成本非常高;如果利用高校自建的數據實驗室、藉助網路爬蟲等方式進行數據抓取,則很容易被攔截而無法持續抓取;如果通過學術合作的方式,跟百度、騰訊、阿里巴巴等相關互聯網公司建立數據合作,所獲得的傳播數據往往規模有限且抓取、分析和成果發表等各環節面臨諸多限制。此外,數據獲取還面臨著兩個比較突出的困難,一是「數據孤島」的問題,即微信、微博和各大網站的數據之間並未打通,每個平台的數據只能反映特定平台上網路輿論的特徵;二是數據的「結構化」問題,即便能夠抓取和分析每個平台的全樣本數據,也很難對其在多大程度上符合總體人口的樣本特徵進行充分說明。

(二)數據如何分析:針對社交媒體的數據分析需要解決概念測量、理論建模、模型計算等諸多環節的方法難題。比如,分析網民針對特定議題所形成的網路情緒,如果僅僅從關鍵詞的維度進行正負情緒的統計,就很難真正準確的挖掘情緒背後的態度和心理。為此,需要結合表情符號、圖片、主題識別、議題類型等進行更深度、更準確的分析;再比如,針對微博140個字左右的短文本、針對微信數千字的較長文本,要進行準確的主題識別,需要更多計算機自然語言處理和數據挖掘的方法。

(三)數據如何洞察:利用不同社交媒體的網路輿論數據,通過分析來把握中國社會的真實民意,是極具挑戰的。多數輿論數據都根據熱點事件來進行抓取和分析,主要停留在「事件型」輿論層面、而非「話題型」輿論,因此需要更長時間的縱向研究、更多維度的橫向比較。此外,藉助大數據方法進行的輿論研究還需要跟傳統社會調查、實驗法等方法進行綜合運用,才能更加準確地分析網路空間輿論和現實空間輿論之間的互動關係。

基於上述挑戰,筆者認為,大數據作為方法也作為語境,要真正助力於新聞傳播研究的學術想像力提升,需要重點從如下方面做更多努力:

首先,處理好「理論驅動」和「數據驅動」的關係。現階段,能夠抓取到知乎等問答社區、百度等搜索平台、微博、微信等社交媒體、今日頭條等聚合型資訊終端的數據,在把握不同平台的網民結構、技術特性和文化偏向基礎上,進行一些「數據驅動」的研究探索是有其意義的。但長遠來看,則需要從「理論驅動」的層面,對相關數據進行結構化處理、科學化分析,從理論假設、檢驗和建構的高度進行更具學理性、普適性的學術研究。

其次,處理好學術前沿問題和中國本土問題的關係。社會科學的研究要解決「全球化」和「本土化」問題,歸根結底要立足中國本土的政治、經濟、社會和文化脈絡,將基於現實的實證數據進行理論闡釋、全球學術對話和普遍規律的探索。比如,基於信息流的過程追蹤、地理和議題差異的網路輿論研究,將其與中國政治文化生態和輿論調適的權力結構結合在一起進行分析,探討網路輿論生成規律和現實社會輿論空間的複雜互動;基於港澳台和內地輿論場針對同一議題的社交媒體傳播數據,分析同一國家、不同地區的跨境政治輿論場的差異和影響機制。

最後,處理好網路空間數據和現實社會數據的關係。今天的互聯網早已不再是「虛擬社會」,所謂的「虛擬」和「真實」 「線上」和「線下」的邊界早已被打破,但是,我們的研究總體還很缺乏對網路空間數據和現實社會數據整合打通的嘗試。回到心理空間、網路空間和現實空間的多維空間傳播實踐的角度看,今天越來越需要在社會空間、網路空間、心理空間等多空間視域下重新審視人、信息和技術之間的關係。大數據時代新聞傳播研究,需要追問的是:大數據會為我們認識和理解日益複雜的互聯網社會提供新的可能嗎?能夠讓我們在已然分割學科的邊界中拆掉籬笆、運用不同學科的理論資源去完整認識社會嗎?從這個角度看,立足多空間視域、運用跨學科視角,將傳播視角的研究拓展至社會視角的「整體論」研究,應該是我們基於大數據的新聞傳播研究「再出發」的觀念起點。

原文刊載於《國際新聞界》2018年第2期。

封面圖片來源於網路

本期執編 / 庫蘿

點擊以下鏈接,可以閱讀本專輯已經完成推送的其他文章。

訂閱信息


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 國際新聞界 的精彩文章:

TAG:國際新聞界 |