推動數據連接 促進史學研究
近些年來,全球史學界和圖書館界掀起一股構建歷史資料庫的浪潮,主題、形式各異的歷史資料庫層出不窮,研究者所能掌握的史料規模呈現出巨量增長。如何做到既有量的增長,又有研究方法的提升,特別是發揮數據史料的特點,形成比肩甚至超越過往紙質史料利用深度和效率的研究,推動學術發展,便成了亟待探索的新問題。筆者認為,「互聯」「互通」是互聯網的重要特點,歷史資料庫的構建與研究,應重視資料庫自身信息的「內連接」和資料庫之間信息的「外連接」,以儘可能地實現「數據追蹤」,由此方能發揮電子數據的優勢,推動新技術環境下史學研究的深化發展。
歷史資料庫的「內」與「外」
「內連接」和「外連接」本是信息學科針對關係型資料庫(relational databases)進行數據查詢、分析時所採取的方法,本文將此概念移用於歷史資料庫的構建與研究。「內連接」主要包含兩層含義:一是指某一資料庫在建設時力爭利用多來源史料中能相互匹配的信息,進行信息連接以擴充資料庫內容;二是指利用某一資料庫進行研究時,應注意其中信息的相互連接,以拉長研究的時段、代際或擴大空間範圍等。「外連接」主要是指不同主題但內容、關係等方面具有連接可能的資料庫,在開放的前提下,實現相應數據信息的連接,從而突破單一資料庫主題明確但信息範圍相對局限的制約,從學術研究層面真正實現資料庫建設與研究的「共享」與「共贏」。
歷史資料庫信息「內連接」與「外連接」的最終目的,是將存儲於各主題資料庫中的相關信息逐步從靜態推向動態,實現「數據追蹤」。如利用多種材料或不同資料庫的互相連接,可以連綴起個人和某些群體不同時間節點的信息,形成一種動態化的「追蹤數據」。「追蹤數據」的形成,使得某些歷史人物甚至群體的經歷更加豐富或連續起來,這對理解和研究歷史人群的社會行為具有極高的學術價值。
連接不同史料與信息
即便是單一主題的歷史資料庫,其包含的具體史料也是規模龐大、類型繁多的。這些史料中的某些信息是能被連接起來、形成數據鏈的。如「中國近現代思想史專業資料庫(1830—1930)」收錄了多種晚清民國的報刊和個人著述,總字數達到1.2億。一些學者通過檢索的方式和統計工具的幫助,將某一具體概念或思想主題(如「主義」「青年」「民族」等)連接起來,從而能夠分析這些近現代史上重要概念的形成與歷史演變,「驗證」或「突破」了既有的研究結論,實現了學術創新。
人物主題資料庫是較為常見的一類歷史資料庫,通過內部連接,往往能夠形成以人物為主幹的信息鏈條。筆者正在建設的「民國大學生信息資料庫」,即是以個人基本信息為基礎的資料庫。資料庫中每一名學生的信息既有個人自身的,也有家長和保證人的。通過資料庫內部連接計算髮現,很多家長本身也是大學生,能夠連接形成追蹤數據,進而獲得三代人的基本信息,這為中國近現代史上多代際教育獲得與社會流動研究提供了堅實的數據基礎。以親友為主的保證人通常是學生最主要的社會關係,將不同學生的保證人信息進行連接,可以發現很多學生具有同一家長、共同親友,也就挖掘出了學生的家庭、社會關係網路。
連接不同主題資料庫
中國歷代人物傳記資料庫(簡稱CBDB)的領導者、哈佛大學教授包弼德指出,隨著「數字人文」的發展,歷史資料庫的建設大為增加,數字數據(史料)迅速膨脹,數據生產者之間的協作也就越來越重要。通過資料庫的開放和協作,形成不同主題資料庫的信息連接,是其中最能發揮數字數據優勢、推動學術研究的一種方法。
「民國大學生信息資料庫」收錄的雖然主要是民國時期教育精英的基本信息,但資料庫中早期學生的家長,往往上溯到晚清時期。香港科技大學教授康文林領導建設的清代《縉紳錄》資料庫,包含整個清代官員信息,其中有一些光緒、宣統年間的數據,經過計算能夠與「民國大學生信息資料庫」中的學生家長信息進行匹配,這對理解民國大學生的家庭來源以及近代教育轉型對家庭的影響都頗有助益。而《縉紳錄》資料庫本身又能夠與CBDB資料庫中的明清人物、進士題名錄等材料連接起來,這些官員人物的個人信息也由此大為豐富起來。
「外連接」還可以應用於主題資料庫與大型電子文獻資料庫的連接。越來越多的報紙、期刊乃至各類史料文獻都在被逐步電子化,這類文獻資料庫中蘊含有大量的尚未結構化的歷史信息。雖然多數資料庫只提供開放檢索而不能進行後台數據的直接抓取,但依靠手動檢索和比對考證,還是能夠與一些主題資料庫實現系統性數據連接的。「民國大學生信息資料庫」收錄了1929年前清華大學全部的庚款留美生。這批留美生是民國時期最為成功的留美者,梳理他們的職業發展軌跡,對理解民國社會發展和近代化轉型等問題意義重大。但即便依靠「內連接」,主要是清華校方1920—1937年間多次出版的《同學錄》等材料,依然只能獲得60%留美生的唯一職業信息。而通過與目前已開放的各類近現代報刊資料庫(如上海圖書館的「晚清、民國期刊全文資料庫」)、現代出版物資料庫(讀秀、超星等)等,手動逐一檢索每位留學生,能夠連接上大量的職業信息。到目前,留美生的平均職業屬已經從0.6個上升到7個左右,這為研究清華留美生的職業發展及其與中國近代化的關係等問題提供了可能。
數據追蹤成為重要研究方法
這些研究實踐讓我們體會到,過去學界多認為利用資料庫進行史學研究,最重要的優點是對史料的大規模使用,能夠「廣」而「全」地使用史料。現在,隨著越來越多的資料庫被建設起來,並向學界開放,資料庫之間進行數據的各種「連接」的可能大為增加,「數據追蹤」越來越成為資料庫研究的重要方法。資料庫研究的特長,不僅能夠「廣」而「全」,也越來越能夠「專」且「深」。
在進行歷史資料庫數據連接時還有一些問題需要注意。對「內連接」而言,數據連接必須合理和可靠。比如一些人物關係型資料庫的數據連接,因為同名現象的普遍存在,研究者顯然不能僅僅根據姓名這一單一信息進行連接,更何況同一人物也可能存在多個姓名(字/號)的問題。研究者需要在儘可能設定如年齡、籍貫、畢業學校等限制性條件的同時,還要進行必要的人工複檢。
對「外連接」而言,資料庫的開放至為關鍵。不僅是前台數據檢索的開放,更需要後台介面的開放,這樣研究者才能植入相應的軟體程序進行數據提取、分析等工作。香港科技大學李中清、康文林研究團隊的中國多世代人口資料庫(CMGPD)、哈佛大學包弼德領導的CBDB資料庫等都實現了這樣的全面開放,但目前能如此做的歷史資料庫還很少。這是因為不僅資料庫開發工作的成果認定尚缺少明確的學術標準,資料庫開放後的知識產權保護更是難題。不過,當前在自然科學和生命科學領域,已經建設起研究數據共享的規範,這對社會科學和人文學科的影響正在逐漸凸顯,越來越多的學術基金和學術期刊已經逐漸要求研究者提供原始數據。如果說,最初希望數據公開的動因是檢驗已經發表的分析結果,現在,學界則越來越意識到共享數據還有更重要的目的:一是資料庫開放後,其他研究者可以用來進行完全不同的課題研究。這或許與資料庫建立者的初衷不同,但無疑提高了資料庫的使用效率;二是與其他資料庫結合,構建覆蓋範圍更大的資料庫。隨著這種認識和資料庫連接的重要性不斷為學者們所接受,學術界應儘快開始討論、制定資料庫開放標準和成果保護準則。
(作者單位:南京大學歷史學院暨數字史學研究中心)
精彩推薦
來源:中國社會科學網-中國社會科學報
責任編輯:劉星 排版編輯:劉星


※歐亞大陸遠征古道的轉型——從絲綢之路到茶馬古道
※王聰聰:多重危機下南歐左翼政黨的政治迎合
TAG:中國社會科學網 |