歷史學數字資源利用的誤區及其應對
在面對海量數據及資源的情況下,研究者在利用歷史學數字資源的過程中遭遇的誤區也逐漸顯現出來。首先,「窮盡」史料變得更加艱難,而非更加容易。其次,研究者預先設定的思路往往成為搜索和篩選數據的藩籬而不自知。
第三,數字資源更需要辨析,而且與傳統史料相比更加困難。第四,資料庫本身的「缺陷」使得研究者無意識地走進誤區。在歷史學數字資源的利用已成史學研究必然趨勢的情況下,如何有效避免諸多誤區,使其優勢發揮到最大化,成為亟待解決的問題。
誤區一:「窮盡」史料變得更加容易。
表面上看,大數據時代飛速增長的歷史學數字資源為研究者「窮盡」史料提供了更多的機會與可能,而事實上,「窮盡」史料變得更加艱難。
按照傳統史學訓練,選擇好某一課題之後,研究者通常會藉助圖書館的論著索引、目錄等工具書,找到該領域的重要資料目錄,再通過圖書館或檔案館獲取這些資料,亦可實地考察調研以獲取更多新材料。
但在歷史學數字資源極為豐富的大數據時代,研究者在選好題目之後,更多地選擇通過「讀秀」「中國知網」「中國國家圖書館文津搜索」等在線數據平台搜索相關中文論著,通過「美國國會圖書館」「大英圖書館」JSTOR等處搜尋國外相關研究論著,還需要根據課題所涉時段及領域尋找更為細化的數字資源。
以鴉片戰爭為例,除了以上查找資源的常規方式之外,可以利用的在線全文數字資源還有許多。比如「晚清民國期刊全文資料庫」「大成老舊期刊全文資料庫」中國國家圖書館的「民國圖書」「民國期刊」「民國法律」等特色資源資料庫可以檢索並閱讀晚清民國的圖書、期刊等論著全文。
中國國家圖書館的「民國報紙」「近現代中國英文報紙庫」、「愛如生資料庫」中的中國近代報刊庫和《申報》資料庫等,可查詢相關中英文報紙;「台灣中研院近代史研究所檔案館館藏檢索系統」中可以查找晚清外交部門及經濟部門的檔案及地圖的原件;另外,還有Gale公司開發的諸多資料庫,如「Gale虛擬參考書圖書館」、「十九世紀作品在線」等,可以檢索到國外學者的相關研究論著。
以上是較易想到的相關資料庫,一般可以通過各大圖書館的鏈接輕鬆獲取,但也會有一些意想不到的數字資源,如載體語言多樣、資源種類豐富的「歐盟數字圖書館」和著名學府麻省理工學院(MIT)的「可視化文化」中亦有大量與廣東貿易體系、圓明園、第一次鴉片戰爭、日本人眼中的鴉片戰爭等相關的原始畫像或照片。
「Bibliotheca Sinica 2.0」則是以奧地利國家圖書館和維也納大學圖書館為基礎建立的網站,網站名稱與著名法國漢學家亨利?高迪愛的皇皇巨著《西人論中國書目》的書名Bibliotheca Sinica剛好一樣,堪稱其「網路升級版」。此網站可以檢索到1939年以前出版的國際漢學界對某個中國問題的相關研究成果的數字化全文鏈接,亦可找到與英國東印度公司等相關的資源。
《西人論中國書目》
由此可見,歷史學數字資源存在不可否認的突出優勢,其一是資源數量十分龐大,居於世界各地的資源唾手可得;其二則是資源的種類極為豐富,既有傳統的文字形式的文獻,亦有圖片、音頻、視頻及博物館所藏實物的3D甚至全息展示等嶄新形式的歷史學資源。
與此同時,數字資源的劣勢亦十分明顯,首當其衝的便是資源分布相當零散;其次是所用語言亦多種多樣,英、法、德、意、日、俄等國語言都有;其三是徵引不便,網頁地址的不確定性和非永久性無法保障始終能夠成功打開該網頁;其四是不同數字資源之間互不連通,需要花費大量精力搜尋和整合,大量數字資源的挖掘無疑增加了研究者處理數據的工作量。
最後是重複性,同類但分屬不同網站的資源存在相當數量的重複資源,如「中國知網」「維普網」「萬方數據知識服務平台」等都提供中文期刊的檢索與全文下載,但利用不同平台輸入同樣的檢索詞,所得到檢索結果的數量則是不同的,其中必然存在重複的條目,如果採用人工篩選難度頗大。
以上這些劣勢都給學者檢索和利用數字資源帶來不少障礙,大大增加了學術檢索和整合史料的工作量。
與此相應,要想在網路時代儘可能地「窮盡」史料,還是有一些應對方法的,而這些也多是對研究者提出的新要求。
首先是語言關,不需學習多門語言(當然能夠掌握多語言更佳,而且這也是未來學術研究的趨勢)但一定要儘力掌握多門語言的檢索常用詞,以適應不同語言環境的資源網站,尤其是那些不提供英文版網頁的網站。
其次,要熟知各大網路資料庫及其他各類有可能提供數字資源的網站,進而還需對新數字資源的建設和上線實時保持關注,以維持自身掌握數字資源的廣度。
再次,所有線上和線下檢索到的史料之間必定會存在重複的內容,學者還需自行篩除那些重複的部分,更好的方式是學習並利用一些軟體來自動識別和篩選,以減輕研究者人工處理文獻的工作量,如Reference Manager、Note Express和EndNote,把這些自然科學工作者早已熟悉並使用的常用參考文獻管理軟體應用在歷史學研究中。
誤區二:藉助豐富的數據資源及其附帶的各項細緻的檢索條目,能夠最大限度地查找到與研究課題相關的史料。
實際情況則是研究者預先設定的思路往往成為搜尋和篩選數據的藩籬而不自知。囿於研究者自身對各種數據資源的掌握程度及檢索方式的不同,其篩選的原則是否能夠最大限度地獲取與課題相關的數據直接關係著其「窮盡」史料的廣度與深度。
一般而言,各大資料庫及網站在提供海量資源的同時,亦會具備多重檢索功能,可使檢索更迅速準確,從中搜索與研究者既定課題相關的史料似乎唾手可得。
但細想之下不難發現,鏈接到哪些資源網站及資料庫、輸入何種檢索詞、具體添加哪些二次甚至多次檢索條件,這些直接影響史料獲取的重要環節都掌握在研究者本人手中,整個過程中主觀性和偶然性無疑佔據重要地位。
不難見到這樣的景象,同樣的課題使用相同的資料庫,卻由於輸入的檢索詞、添加的二次檢索條件不同,一人檢索到的史料,另一人卻完全沒有發現,反之亦然。抑或,一人非常熟悉的資料庫,另一人從來沒有聽說過,更沒有使用過。顯而易見,即便選擇完全相同的研究課題,獨立的兩位研究者最終獲取的史料範圍及內容也不會一致。
這些除了可以通過學習和提高檢索技巧來解決的技術性問題,最關鍵的則是每位研究者解決問題思路的差異。
研究思路無疑包含著每位研究者的學術個性,但也恰恰是這種根本性的差異造就了研究者檢索資源時不自知而設立的藩籬,將自身束縛在某種限定的學術思維模式內,很難「跳出盒子」去想問題。當然,類似的情況在傳統史學研究中就已經存在,只是在大數據時代仍然延續下來而已。
想要突破以上技術性或研究思路上的壁壘,需要幾方面分工合作、協同努力。
首先,各資料庫之間需要積極建立友好聯繫並體現在資料庫首頁友情鏈接上,以方便使用者找到更多同類的資料庫,打破數字資源分散的屏障。
其次,各國的國家圖書館應積極擔當整合各類網路資源的角色,並主動與其他國家的類似機構合作,積極推廣學術性數字資源。
再次,各類專門的學術檢索網站在獲得資源提供方許可的前提下,儘可能地整合各類史學數字資源。
最後,研究者自身亦需積極獲取各類數字資源的信息、學習有效利用各類數字資源的檢索技巧,並努力開拓研究視野,積極尋求解決問題的多樣化途徑。
誤區三:以圖像化方式製作的史學數字資源相當於直接看到原始史料,故可不加辨析地使用。
而事實卻是數據資源更需要辨析,且與傳統史料相比更加困難。以前學者僅需要核對原文,如今除了在數據資源基礎上核對紙本原文之外,還需對那些無法獲得紙本的檔案和圖片資源進行審慎地辨認、句讀以及資料來源的考證。
由於網路學術資源數字化的對象是分布在世界各地圖書館及檔案館的著作、論文、檔案、照片、音頻、視頻等史料,其中絕大部分是研究者無法親眼目睹去求證的,在這種情況下,逐一核對所有原始文獻就成了幾乎不可能完成的任務。
以上提到的幾種史料類別中,第一類,是完全圖像化製作而非使用提取文字方式製作出來的電子版著作,其準確度是最高的。由於以圖像方式存儲,即便平台上人工輸入的出版信息有誤,只要研究者認真查看出版頁的圖像,自然可以得到準確的出版信息。
事實上,在「讀秀」上搜索圖書,時常會出現系統錄入的出版信息與圖書本身的出版信息不一致的情況,需要仔細核實。如英國學者藍詩玲所著《鴉片戰爭》一書,「讀秀」系統錄入的出版時間是2015年6月,而出版頁則顯示是2015年7月,類似的例子還有許多。
第二類,圖像化的電子版論文。如果刊載論文的期刊每頁或每奇數(或偶數)頁上方在出版時就已經印刷有期刊的名稱、期數、出版時間的話,則可以直接採信,但此類情況在過刊中尤其罕見,在現今的刊物中已有部分期刊採取類似詳細標註的方法,方便使用者查詢論文來源。
如果刊載論文的單頁上並無詳細的當期刊物出版信息,則除非能夠看到紙本的期刊,否則僅僅依據數字資源製作者的標註是無法完全確信其來源的。現在國外不少電子期刊平台上下載的論文都被系統加上首頁,上面註明論文的出處及平台的信息,如JSTOR,但究竟有無錯漏還是無法單憑平台系統人為錄入的信息就能最終確認。
在實際研究中,經常會出現不同數據平台上的相同論文被誤標為不同年代及期數,若無紙本期刊來驗證,則無法真相大白,而錯誤的期刊來源藉助知名學者偶有疏漏造成的以訛傳訛也會使錯誤引用的情況持續惡化。
第三類,檔案。如前所述,如果是圖像化的檔案,且檔案首頁註明卷宗詳細信息的自然可信,如台灣中研院近代史檔案館就可以在線閱覽大量原始檔案的高清圖像,每份檔案的首頁上清晰地顯示了詳細的檔案號,和研究者親自到檔案館見到的別無二致。若檔案首頁並無詳細明確標示,只是數據平台在數字化過程中人為加上的標註,則仍需查閱檔案原件才可確信。
第四類,照片。這是諸多史料中辨識度最低、核實來源最困難的一種。由於照片這種載體本身就是以單張形式出現且絕大多數無詳細信息的,偶見標註也很難十分詳盡,故在利用照片作為史料時需要謹慎再謹慎。
遇到照片本身(一般在上下端或四角處)印有文字說明的是最幸運的情況,基本可以採信;如果是從圖書中摘取的照片,出版時在照片一旁標註有詳細信息的或者遇到照片單張背面有詳細說明的,至少有線索可查,可以佐之以旁證;倘若遇到照片上無任何信息的則基本上很難作為可信史料來使用,即便想要核查也很難找到頭緒。
顯而易見,研究者使用數字資源必須有所辨析,決不能拿來就用。判斷史學數字資源出處信息準確與否有一個簡單的判定標準,這個關鍵點就是究竟由誰來標註具體出處信息。如果是圖像化製作的資源本身,可以視同親眼見到原文,無疑可以判定為可信。
但實際上研究者更常遇到的情況是由資料庫、網頁等各平台的建立者及維護者後期人為添加的出處信息,這時,傳統的史料辨析方法就可大顯身手,尋找蛛絲馬跡考證其來源。
誤區四:
近年來,逐漸有些資料庫不僅提供史料本身,還在其平台的海量數據基礎上開發了多種統計工具,其提供的數據分析能夠在短時間內迅速完成一位學者甚至一批學者花費數年才能完成的任務。
乍看起來,這些操作簡便的數據分析十分具有誘惑力,似乎史學工作者的任務已經可以部分地由程序高效地完成,可以大大減少研究者的工作量。
暫且撇開量化處理數據更適合災害史等部分史學研究領域不談,任何資料庫或多或少都存在「缺陷」,正是這種「缺陷」使得研究者無意識地踏入誤區。任何資料庫均有其統計及收集資源的標準,對這些標準的了解和分析將成為研究者利用數據前的必經之路,否則難免不自知地步入誤區。
目前所見網路上的數據資源中有些是由固定化的專人操作,有些則完全開放,可以由網路上任意一人補充和修改,個別網站還會保留每次改動的日誌並公開化。其中第一類由於有專業人員長期維護,有大量資金與專家投入,其可信性自然相對較高。
但即便如此,任何資料庫的建立都是依據設立好的計劃和標準一步步實施的,收集哪些材料、如何分類、依據什麼標準收集並統計數據,這些都有相應的標準。這些詳細的標準為資料庫的建立和維護提供了基本指導,是必不可缺的。
但換個角度來看,恰恰是這些標準限定了資料庫自身。標準的制定是否科學,是否能夠始終貫徹如一,尤其是資料庫或網站提供基於自身數據的分類分析統計時,統計的範圍、標準、分類都會影響統計的結果。
在這個意義上,資料庫及其搭載的分析程序的諸多標準也就轉化為其自身難以消弭的「缺陷」,如果僅依靠資料庫自身這種含有「缺陷」的統計和分析,研究者未加辨別就採信,則必將帶來研究成果及結論的片面性。
這些有「缺陷」的數據資源主要體現於那些不僅提供數據本身,還提供依照一定關鍵詞進行資料庫內相關資料的統計和分析的資料庫,而這一切都是由預先設計好的電腦程序來完成,與檢索條件精確匹配,但缺乏人的主觀判斷,其統計標準亦難判定是否科學及完善,因而其分析的結果尚需商榷。
如「萬方數據知識服務平台」的「知識脈絡分析」提供知識脈絡的檢索及對一些檢索詞進行比較分析的曲線圖,依據的正是萬方數據自身收錄的期刊論文。這固然是其優勢,同時也恰恰構成其劣勢,畢竟有些論文是萬方沒有收錄而事實上存在的相關論文,在其他數據平台如「中國知網」或「維普網」上是完全可以檢索到的。
故而,萬方知識脈絡分析存在的漏洞自然使其分析的可信度降低,在此基礎上的分析固然可以看出模糊的趨勢,但卻無法直接提供令人信服的分析結果。
再如由北京大學中國古代史研究中心、哈佛大學費正清中國研究中心和台灣中研院歷史語言研究所共同主持的「中國歷代人物傳記資料庫」(CBDB)項目是一個典型的關係型資料庫,國內外已經出現學者利用該資料庫進行研究並公開發表論文,其可視化的分析圖表十分引人注目。
如筆者所見CBDB宣傳PPT中展示的唐代男性獲得刺史和九卿職位的年齡曲線圖、宋代進士的籍貫在地圖上的定點陣圖、唐代大族和北宋進士籍貫的對比圖,等等。通過圖示可以得到更清晰更直觀的印象,但必須時刻謹記這些圖表都是基於一個現實基礎的,那就是目前為止CBDB收錄的資料。
而目前此資料庫仍處於不斷完善的過程中,其中如按照朝代看,收錄人數最多的是明代,共計16萬餘人,占被收錄總人數的近一半。雖然至2016年4月,CBDB已經收錄了37萬餘人,但仍有大量人物尚未被收錄其中。依賴這種「未完成」或者正處於「進行時」的數據基礎所做出的分析,相應地說服力亦十分有限。
既然任何數據平台都自有其標準,而這些標準恰恰導致其產生「缺陷」,如此推論,沒有「缺陷」的數據平台是不存在的。那麼利用資料庫本身提供的數據統計和分析是否仍然可行呢?
答案是肯定的,但首先,需要各資料庫能夠公開其詳盡的收錄、分類、統計、分析數據的標準,以資參考;其次,研究者在利用電腦程序做出的數據分析之前,必須先行閱讀該資料庫的各項標準,綜合不同資料庫的統計分析,結合傳統方法,得出自己的統計範圍、內容和分析結果。
簡言之,對任何數據平台統計分析結果的利用僅能停留在參考資源之一的定位上,不可輕易盡信之。只有這樣,才能既充分利用現有各類資料庫開發的檢索和統計工具,同時亦能規避這些資料庫本身的設定可能為研究者帶來的錯誤判斷。
隨著雲計算等技術的成熟,大數據分析在許多領域已經成為最佳分析甚至預測的利器。可以預見,在不遠的未來,歷史學科必將會受到巨大的衝擊,也許史學研究的形態也會相應產生難以預計的巨變。但這些新技術究竟以何種形式更有效地應用於歷史研究,仍需經歷長期磨合。
在此過程中,本文所及諸多誤區如能提前預見,並採取可行性較高的措施有效避免和克服,則歷史學數字資源對史料運用與史學研究的貢獻才會最大化,反之,則將弊大於利。
作者為河南大學歷史文化學院講師;
原文載《史學月刊》2017年第5期,注釋從略。
關於《史學月刊》網站的公開聲明
據反映和編輯部發現:近期互聯網上有假冒的《史學月刊》網站,並以本刊編輯部名義組約稿件、收取費用等。對此非法破壞我刊網站、涉嫌詐騙的犯罪行為,我刊已向公安機關報警立案。
《史學月刊》官方網站(http://sxyk.henu.edu.cn)由於遭到黑客攻擊,目前暫時無法使用,修復啟用時,將登刊告知。作者來稿,請採用列印稿和電子文本同時寄送的辦法。列印稿請寄至「河南省開封市河南大學明倫校區《史學月刊》編輯部」,郵編:475001。聯繫電話:0371-22869623。來稿請勿寄至個人,以免誤時。
在此鄭重聲明:本刊嚴格按照國家有關政策法規進行出版,發表文章不收取任何費用,凡以我刊名義收費者,均系毀壞我刊聲譽之假冒詐騙行為,我刊有追究其法律責任的權利。再次提醒作者,謹防上當受騙。
敬請廣大讀者和作者相互轉告周知,感謝您的支持和厚愛。
《史學月刊》編輯部
2015年9月
史學月刊∣一個有深度的公眾號


※大數據時代史學的多元發展趨勢
※19世紀英國人對倫敦煙霧的認知與態度
※從「婦女主義」到「家庭統一戰線」
※中共對華北地區鄉村戲劇的改造
※20世紀二三十年代中國鄉村危機的另類敘事
TAG:史學月刊 |
※口腔醫學數字化技術應用
※數學不好?教你用學語文的方法學數學!
※機器學習技術或揭示蛋白質動力學數據中因果關係
※學數學需要語言能力!
※數字能量學數字風水號碼0的作用,是小三還是疾病不斷?號碼吉凶
※如果你想學數據科學,這 7 類資源千萬不能錯過
※學數學有什麼用啊,買菜又用不到函數
※千萬別學數學,根本想不到如此簡單的數學小問題
※孩子為什麼不願意學數學,數學應該怎麼學?
※首都師範大學數學及其交叉學科前沿創新論壇
※學數學要大量做題嗎?史寧中校長談數學的7個問題
※學數學有什麼用,買個菜還用三角函數嗎?
※像學數學公式一樣學寫作
※被老師深惡痛絕的「用手點著讀」,竟是學數學的好辦法
※千萬別學數學,根本想不到如此簡單的數學小問題居然……
※不學數學,就不懂美和藝術?
※聚焦全面深化改革,科學數據,如何科學管理
※樂活學數字能量:天醫加「絕命」磁場
※【孩子思維力訓練】數學啟蒙絕不是學數數或計算!
※去高科技數控工廠當學徒,學數控UG編程仍是唯一的最高境界