AI眼中的歷史:用人工智慧挖掘舊報紙里的英國現代史
大數據文摘作品,轉載要求見文末
本文作者|Martha Henriques
編譯團隊|Sophie,劉曉莉
試問,哪位歷史學家有時間閱讀跨越一個多世紀英國歷史的數千萬份報紙?沒人可以。所以,計算機科學家和歷史學家一起,教會了計算機做這件事——分析新聞報道中的數十億個詞,讓我們重新認識19世紀到20世紀初的英國歷史。
註:
文化組學culturomics,指通過數字化文本的定量分析研究人類行為和文化趨勢的計算辭彙學
計算機分析了1800年至1950年間的3500萬份英國地區新聞報道中的286億辭彙,約佔該時期英國地區報刊總量的14%。
作為對比,一個成年人的平均閱讀速度為大約每分鐘300字。按照這個速度,一個人需要整整180年來完成所有的閱讀。如果算上人類的休息時間,閱讀需要的時間就更長了。而計算機演算法用大約8周完成了所有的工作,該項目研究員英國布里斯託大學計算機科學家Nello Cristianini稱。
這項研究的第一步是人工檢查,以確保計算機可以從報紙中提取真實的歷史事件。檢查的內容為計算機是否能準確地找到諸如加冕,已知的疾病流行和戰爭等事件。
有趣的部分發生在下一步:研究計算機演算法是否可以找到歷史學家使用傳統方法不能找到的歷史事件。
「我們正在尋找一些不太明顯的歷史進程——例如,技術的興起,」Cristianini說。「我們看到1900年左右,技術發生了變化。我們還能進一步解讀更微妙的信號:我們可以看到電報,電話和廣播被公眾接受的速度有多快。這個速度在不斷加快。現在,人們接受Twitter或Facebook只需要一年。」
人工智慧分析不僅僅是簡單的字數統計(這是曾經大量數字化文學研究的做法)。這一次,研究人員使用AI技術,如自然語言處理,以獲得對上下文和文本含義的理解。你可以認為它是終極的快速閱讀。
他們發現了什麼?這是AI眼中的英國歷史:
電力什麼時候趕超了蒸汽?
1898年。這一年,電在新聞中出現的頻率開始超過蒸汽,電能逐漸取代了蒸汽。
圖:20世紀來臨時,電力取代了蒸汽(來源Nello Cristianini / PNAS)
火車什麼時候趕超了馬車?
僅僅四年後的1902年。火車的時代開始於19世紀40年代,那時英國開始發展國家鐵路系統。但就新聞方面而言,火車在半個多世紀後才變得比馬車更重要。
圖:「鐵馬」(來源New York Public Library / Flickr)
人們什麼時候開始
不再討論奴隸制?
對奴隸制的報道高峰出現於1830-1870年廢奴運動時期和1861-1865年美國南北戰爭期間。1870年後,報紙幾乎不再提及奴隸制。
圖:1830年到1870年,奴隸制出現在新聞中(來源Nello Cristianini / PNAS)
記者什麼時候開始
報道婦女參政權運動?
1906年。一個戲劇性的報道高峰出現在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會上阻攔英國國王的馬之後。
圖:Emily Davison倒在英國國王的馬前,四天後她死於頭部創傷(來源Hulton Archive)
註:
女權運動還有這段歷史!今天的一切來之不易啊!
女性什麼時候得到了
和男性相同數量的報道?
從來沒有過。20世紀開始,對女性的報道率有上升趨勢,且在二戰時期突然增加。但在整個分析覆蓋的時期,新聞中每提到一個女性大約會提到三個男性。在21世紀,這個數字更接近男女比2:1,但這種轉變並不大。
圖:戰爭時期,女性得到了更多的報道(來源Wikime)
勇氣什麼時候最重要?
毫不意外,在第一次和第二次世界大戰期間勇氣被提到最多。維多利亞時代的價值觀,例如毅力,在整個分析覆蓋時期表現出報道頻率的穩步下降。但在戰爭年代,對耐力和勇氣等價值觀的報道出現了明顯的增加。
英國和英國人的概念
(Britishness)是何時出現的?
註:
英國全稱為大不列顛及北愛爾蘭聯合王國United Kingdom of Great Britain and Northern Ireland。不列顛Britain/British是對英國和英國人的統稱,相較於對英國某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。
對「不列顛」的報道出現於20世紀早期,1900年左右出現第一個峰值,一戰和二戰期間出現了兩個更大的峰值。這個發現和很多歷史學家的觀點不同——很多歷史學家認為「不列顛」在更早前就已經是一個活躍的概念了。
圖:「不列顛」的概念在20世紀早期開始活躍,而傳統上,歷史學家認為「不列顛」出現得更早(來源Nello Cristianini / PNAS)
經濟什麼時候成為了口號?
與「經濟」相比,「政治經濟」一直是更為常用的術語,直到1900年左右,這兩個詞的用法變得更加模糊。20世紀初,這兩個術語在約十年間的使用頻率大致相似,之後,「經濟」開始成為更受歡迎的用語,在幾個劇烈的峰值後使用頻率開始穩步上升。
圖:「政治經濟」的使用被「經濟」取代(來源Nello Cristianini / PNAS)
關於轉載
如需轉載,請在開篇顯著位置註明作者和出處(轉自:大數據文摘 |bigdatadigest),並在文章結尾放置大數據文摘醒目二維碼。無原創標識文章請按照轉載要求編輯,可直接轉載,轉載後請將轉載鏈接發送給我們;有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】給我們申請白名單授權。未經許可的轉載以及改編者,我們將依法追究其法律責任。聯繫郵箱:zz@bigdatadigest.cn。
志願者介紹
回復「志願者」了解如何加入我們
※四分鐘漢化視頻 回顧2016年度十大科學突破
※學渣的逆襲:他叛逆狂妄,卻搞出不少大新聞
※NASA剛剛開啟了一個gif頻道 用動圖給天文粉兒過癮
※視覺研究的前世今生(下)
※中科院陳潤生院士:精準醫療數據處理中的挑戰
TAG:大數據文摘 |
※奧村大輔、金子雄司談《ID-0》:挖掘美術和攝影的魅力
※守望先鋒劇情挖掘:法老之鷹、人工智慧與死神的情報
※ACM SIGKDD主席裴健專訪:華人學者在數據挖掘領域的成就有目共睹
※中國音樂家在新疆「尋根」:挖掘中國和中亞衰落的音樂傳統
※中國挖掘其巨大的電商和社交媒體平台的商業優勢
※小蟻新品曝光:海報驚現藍翔挖掘機
※數據挖掘《榮耀戰魂》全新飾品、精英和傳奇裝備曝光
※數據挖掘《榮耀戰魂》 全新飾品、精英和傳奇裝備曝光
※歷史上真的有葫蘆型的古窯,景德鎮麗陽古瓷窯址的挖掘已經證明
※中國考古史上一大悲劇——定陵的挖掘
※深入挖掘經典文化,《軒轅傳奇手游》演繹傳統文化新形態
※八國聯軍美軍情報官寶復禮:中國人的戰壕都沒有完全挖掘好
※揭秘巨人遺骸挖掘現場照,網傳由美國國家地理考古小組發掘
※中國步履式挖掘機:這是中國機械品牌的一座豐碑
※八國聯軍情報官:中國人的戰壕都沒有完全挖掘好
※深入挖掘经典文化,《轩辕传奇手游》演绎传统文化新形态
※金融機構開始採用人工智慧開展數據挖掘
※權志龍EXO鄭秀晶少女時代 韓國偶像是怎麼被挖掘的?
※中國瓦當書法繼承、挖掘、創新第一人,書作曾被連戰收藏!