當前位置:
首頁 > 文史 > 大數據告訴你,影響力最大的唐詩居然是這首

大數據告訴你,影響力最大的唐詩居然是這首


4月29日,中南民族大學文學與新聞傳播學院的王兆鵬教授在上海古籍書店分享了自己在「大數據時代唐詩研究」領域的最新成果。此前,王兆鵬用大數據的研究方法推出的唐宋詩詞研究的定量分析成果引起了學術界和公眾的廣泛關注,諸如 「李白最喜歡用的詞是黃金,杜甫最喜歡用萬里」「宋代,浙江一省的詩人數量佔了全國的四分之一」等結論是這項研究所引發的有趣問題。數字化及可視化研究能否給傳統人文學科帶來新的改變?這一問題的熱度在爭議中節節攀升。



大數據告訴你,影響力最大的唐詩居然是這首


「大數據時代唐詩研究」講座現場 (圖:上海古籍書店)


二維地圖:一鍵檢索唐代詩人一生行跡與作品


歷代以來,學者們對唐詩的批評和研究,無論是詩話、評點,還是選本、詩壇點將錄等傳統形式,大部分是感悟、直覺和印象式的,缺少整體上的理論思辨。而時至今日,我們可以通過定量分析和大數據的方法,為唐詩研究帶來哪些改變呢?王兆鵬指出,唐詩研究領域至少需要作家、作品、讀者三個方面的數據。從作家角度來看,我們所需要的信息,有時間層面的生卒年、享年、進士及第年、進士年歲、創作起始年、創作終止年等;空間層面的出生地(籍貫)、定居地、去世地、活動地、貶謫地等;以及身份層面的帝王、宰相、將軍、帥臣、幕僚、官員、隱士、布衣、僧道、歌妓等等,都應該進入研究的視野。


近年來,王兆鵬及其學術研究團隊從《全唐詩》《全唐文》的作家小傳、《中國文學家大辭典·唐代卷》、年譜及生平考證類論著中持續挖掘相關數據,先後製作成《唐代詩人信息統計表》《唐代文學編年地圖平台》等多個資料庫(表)。他們在不斷摸索中改進,試圖尋找出海量數據背後文學衍生髮展的規律。

在今年3月24日上線的「唐宋文學編年系地信息平台」中,王兆鵬所提出的「量化分析唐詩及詩人」的研究設想得到了較為充分的展現。經過歷時五年的數據挖掘後,這個平台現在可以呈現出151位唐宋詩人一生的行跡路線圖,北至蒙古烏蘭巴托,南至越南清化,點擊路線圖中的任一地點,系統即會詳細顯示出某位詩人在此地創作的詩歌作品。此外,搜索者也可以以地點或年份為關鍵詞進行檢索。例如,我們若輸入年份「公元701年」(則天順聖皇后長安元年),就能得出這一年詩人們的履歷:李白出生於西域碎葉城(今吉爾吉斯斯坦托克馬克市),王維出生於晉中,12歲的孟浩然在襄陽居鄉讀書,45歲的宋之問則從鄭州來到洛陽又到西安,寫下多首詩作。


王兆鵬指出,用傳統的方式編纂的詩人年譜或者作家全集,往往是從單一的時間或者空間層面展示作家的創作情況和生平經歷。而與之相比,「唐宋文學編年系地信息平台」最大的特點就在於「打通了時空維度」,用形象化、可視化的方式展現出多位詩人的生平行跡和創作情況,使文學地圖進一步走向立體化。



大數據告訴你,影響力最大的唐詩居然是這首


「唐宋文學編年系地信息平台」展示的李白一生行跡 (圖:王兆鵬)


宏觀視野:把評價詩歌的尺子拉長,再拉長


王兆鵬在「唐詩量化研究」領域的探索除製作文學地圖以外,還包括多種數據分析嘗試,不斷提出了新的問題,諸如:


問:20世紀的李白研究中,研究者最關注李白的哪一篇詩文?


答:《蜀道難》,共有107篇論文專門討論這首詩。


問:20世紀李白研究的學者群體中,誰的論文最多?

答:排名第一的是南京師範大學郁賢皓先生,共66篇。此外河南社科院的葛景春、日本松浦友久等學者的成果也較多。


正是通過對一個個看似碎片化問題的回答,王兆鵬摸索出了自己的「唐詩數據挖掘」方式——把評價詩歌的時間尺度拉長、再拉長,力求從宏觀視野來觀照唐宋詩歌的整體狀貌。一方面,他相信,統計數據可以將文學空間的分布與位移集約式地呈現出來。例如,以唐宋詩人的籍貫數據為基礎進行統計,王兆鵬發現,「唐代有時代、籍貫可考的詩人共1686人,其中北方詩人為949人,佔56.3%,北方略佔優勢」,「而宋代有時代和籍貫可考的詩人為5694人,其中南方為4908人,佔86.2%,南方占絕對優勢」。如果從省份數據進一步分析,他指出,「唐代,占籍詩人最多的三個省份是河南、陝西與河北」,「宋代詩人最多的省份是浙江,有1437人,占宋代有籍貫可考詩人總數的25.2%」。值得注意的是,通過這些數據我們可以發現,唐宋詩歌版圖南移的時間和社會經濟文化重心南移的時間並不完全一致,這個現象可以糾正我們某些固有的「標籤化」觀點。一般認為,北宋王朝的毀滅代表了中國經濟文化重心南移的真正分野,而王兆鵬通過大數據的證明認為,中國詩壇重心的南移,始於晚唐五代,完成於北宋。


另一方面,我們還可以通過對歷代的唐詩選本、評點資料和研究論文的計量分析來排定唐詩宋詞的影響力榜單。在講座現場,王兆鵬展示了自己從2005年開始嘗試和2011年初步排定的《唐詩排行榜》。這份榜單主要以70餘種唐詩選本、歷代評點唐詩、20世紀唐詩研究論文和相關文學史著作等方面的數據為基礎,通過極複雜而周密的方法,排列一百首影響力最大的唐詩作品。顛覆大眾對唐詩印象的是,通過統計得出,歷代以來影響力最大的唐詩是崔顥的《黃鶴樓》(昔人已乘黃鶴去),其次是王之渙《涼州詞》(黃河遠上白雲間)、杜甫《登高》、王之渙《登鸛雀樓》和張繼《楓橋夜泊》等,而可能更為大眾所熟知的陳子昂《登幽州台歌》等詩作則名落孫山。


大家可能會疑惑,王之渙存世作品不多,為什麼會有兩首詩都排在榜單前列?王兆鵬認為,這很有可能與詩歌的傳播力需要一個精彩的故事有關。著名的「旗亭畫壁」的故事為王之渙《涼州詞》增色不少。據說,在開元年間,王昌齡、高適和王之渙三位詩人去旗亭(即酒樓)小飲,忽有幾位歌妓演唱當時知名詩人的作品。幾首過後,在座詩人王昌齡和高適的作品都被唱過,唯獨王之渙的沒有,然而他淡定地說:「剛才唱的都是下里巴人的俗曲,我們來聽聽那位最美的歌妓唱誰的詩。」果然,那位頭牌歌妓開口唱的就是王之渙的那首「黃河遠上白雲間……」。足見《涼州詞》在當時受普通民眾歡迎的程度。


大數據告訴你,影響力最大的唐詩居然是這首



十字路口:當傳統學科面對數據可視化


儘管眾多的文史愛好者欣喜於數字化及可視化研究可能給傳統人文學科帶來的積極影響,然而,學術界對「唐詩大數據」研究方式仍存有不少疑慮。


部分人文學者認為,類似的「唐詩影響力排行榜」固然可能有益於在當今社會傳播經典,但進行唐詩排名的根據存在邏輯問題。不同於傳統的「點將錄」批評方式,近代的排行榜更多基於對相關數據的可靠收集和精準分析。若以歷代唐詩選本入選唐詩、歷代唐詩評點、唐詩研究論文、文學史中提及唐詩的數據為基礎進行排行,難免會招致一系列質疑:歷代選本選唐詩的標準並不一致,這份排行榜具體能代表哪個時期的詩歌審美趣味?研究論文選題、文學史詩歌批評受時代和資料條件影響較大,能不能有效反映詩歌的社會評價?如果考慮到中國港台地區和東鄰日本的人文環境和詩歌傳播情況,唐詩排行榜的說服力是否還需進一步思考?類似的問題從《唐詩排行榜》推出之日起,就不斷縈繞在關注者的話題之中。究竟唐詩需不需要排名?應該以何種標準排名?顯然是現今學術界還不能完全達成一致的問題。


與此同時,關注「唐詩系年系地地圖」領域的數據分析愛好者也很不滿足。「唐宋文學編年系地信息平台」已經取得一定的成果,但若與技術工具的發展相對比,又難免令人興起望洋之嘆。目前,「唐宋文學編年系地信息平台」的信息展示方式僅有點狀散點圖一種,但現今大眾常用的數據地圖至少包括氣泡圖、面積圖、點狀圖和熱力圖四種,每一種又各有豐富的操作工具和呈現方式。如果考慮到與詞雲、指標卡、計量圖、瀑布圖、桑基圖、旭日圖和雷達圖等多種信息圖(Infographic)的綜合使用,那麼未來的文學地圖數據可視化(Data Visualization)之路,應該會走向形式更加豐富的互動式可視化方向。


此外,更加重要的是,大數據分析方式的核心基石是海量異構數據(massive heterogeneous data),目前「信息平台」僅僅有不到兩百位唐代詩人的行蹤和詩歌數據,預計到年底詩人的數量可以增至500餘位,然而這與唐代詩人的總量相比仍然略顯單薄。因此,快速增加大量相關詩人的數據就成為「信息平台」發展和維護的當務之急。據王兆鵬介紹,項目組下一步可能會與哈佛大學費正清研究中心《中國歷代人物傳記資料資料庫》項目組合作,共享數據資源。



大數據告訴你,影響力最大的唐詩居然是這首



經典信息圖之一,《拿破崙東征圖,1812-1813》。1861年,由法國工程師 Charles Joseph Minard 繪製,描述了1812年拿破崙東征俄羅斯的失敗戰役。圖中同時包含了多個信息,粗細代表軍隊規模,配合日期標明了軍隊位置經緯度,棕色進軍黑色撤退,下方折線展現氣溫,另標註了戰鬥的關鍵事件等。


《經濟學人》雜誌的數字編輯肯尼思·庫克耶(Kenneth Cukier)在其著名的TED演講「大數據好處多」(Big Data is Better Data)中曾提出:「現在,更多的數據不僅僅讓我們在同一件事情上了解更多,它可以我們有新的發現,能更好地了解,並讓我們從不同視角去理解事物。」在海量數據和數據可視化的基礎上,傳統人文研究能否走出一條兼具信度效度與吸引力的創新研究之路,將是人文研究者和數據分析師未來需要共同回答的命題。


(文/付優)


本文轉自澎湃新聞http://www.thepaper.cn/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 澎湃新聞 的精彩文章:

著名學者、中國現代文學研究會原會長王富仁逝世
迄今最精準數字人臉3D模型建成,可自動處理多人種面部特徵
巴迪歐與齊澤克的爭論:哲學是否應該干預當下世界
特朗普與新加坡泰國總理通話 討論朝鮮問題

TAG:澎湃新聞 |

您可能感興趣

大數據顯示古人最喜愛的竟然是這十首詞!蘇東坡竟然佔了三首!
大數據告訴你現在最受歡迎的髮型,不再傻傻被忽悠
為什麼說現在中國大數據應用是一個很大的坑?
大數據告訴你媽媽的重要性
身陷大數據殺熟風波,蘋果是這樣回應的
一大組健身對比照告訴你,體重數據都是浮雲
大數據殺熟?大數據要說愛你不容易
什麼是大數據,為什麼需要大數據?
什麼是「大數據殺熟」?你被大數據宰過么
歐洲冠軍報告:讓數據告訴你誰是影響力最大的球隊!
數據讀史:毛主席說這兩國家是最大威脅,當時沒人信,今天數據證明高瞻遠矚
大數據告訴您,肝癌離我們有多遠
李白的「大話」與他的「大數據」
大數據告訴你牛股在哪裡!
大腦中的意識,是藉助於大腦存在的數據,還是單獨存在的?
什麼是大數據?
乾隆是不是最大的敗家子?咱用事實和數據說話
光棍們,大數據告訴你,最受歡迎的男女身高
大數據是好東西,但不是讓你們拿來殺熟的 網友評論炸鍋
大數據告訴你,體弱者久坐更易得大病!