當前位置:
首頁 > 文史 > 中華書局的古籍數字化之路

中華書局的古籍數字化之路

2014年6月,「中華經典古籍庫」在國家圖書館發布,中華書局的古籍數字化工作逐漸為人所知。自此以後,中華書局才真正具有了古籍數字出版的概念,並加速發展。截至2016年底,「中華經典古籍庫」已經收入了7個出版社的古籍整理圖書1274種,計7.5億字,古籍數字化整理平台和多個專業產品蓄勢待發。回顧中華書局這些年來古籍數字化的歷程,2014年之前內容與數據的積累是基礎,2014年後產品化、市場化的轉型是關鍵,2016年平台化發展又是一個新的起點。在下文中,我將分享中華書局這些年來古籍數字化工作的歷程,分析從「項目」到「產品」再到「平台」的發展轉變中我們的思考與實踐。

中華書局「中華經典古籍庫」

十年的準備與積累

2003年,中華書局成立了「古籍資源開發部」,負責建設「中華古籍語料庫」項目,正式開啟了古籍數字化的工作。從部門名稱上可以看出來,那時候還沒有「數字出版」的概念。古籍資源開發部最主要的工作是數字化編輯加工,即將中華書局鉛排古籍整理圖書通過OCR採集等手段數字化,並按照語料庫的要求編輯加工成XML格式的文件。通過幾年建設,我們完成了3億字整理本古籍的數字化工作。這3億字現在看來數據量不多,但是籍此書局建立了一整套數字加工標準和流程管理規範,直到今天還在應用和完善。古籍資源部在數據加工的同時,也開發了一套系統用來編輯、標引、存儲、檢索、統計古籍數據。

有別於普通圖書,古籍的數字化工作有很多難點,需要在實踐中不斷摸索。比如整理本古籍,大部分是按照專名線、浪線式書名號的全式標點體例規範來整理的。在進行OCR採集的時候,當時沒有一家公司具有成熟的技術,可以讓識別軟體自動識別並標引出專名線和浪線式書名號,構成了很大的技術障礙。我們通過和技術公司的合作,不斷優化OCR系統,梳理整理本古籍的特殊體例和要求,建立相關的數據加工規範,很好地解決了整理本古籍特有的數字化要求,極大地提升了數字化的效率和質量。

在整理本古籍的數字化工作中,最個性化的困難是計算機用字的處理。「中華經典古籍庫」在系統里使用了Unicode編碼字符集,從基本集到擴展E集,共有8萬餘個國際標準編碼的漢字。即便如此,依然有很大一部分古籍整理作品中的字形無法表示。到目前為止,我們額外造了3.1萬個字符集以外的字,使這些字具有檢索功能,並實現靈活的樣式顯示,在PC端和移動端可提供更好的閱讀和檢索體驗。

Unicode字符集

整理本古籍的用字處理是最為複雜的一種,不僅有大量繁難的古籍用字,還涉及到對古籍用字的整理和規範,通常要查閱大量的工具書甚至是整理底本、校本才能確定。數字化時出現Unicode字符集以外的字,通常會有三種原因:一是整理本編校排印時的錯字,屬於文獻中根本不存在的字,必須要糾正。二是與現在Unicode字符集里相同的字,但是筆形有差異。遇到這種情況,如果原書不是從字型入手進行論述,我們通常會採用認同這兩個字的處理方式,使用Unicode編碼中已有的字型,方便讀者閱讀檢索。三是真正需要造的字,這些字在文獻中有實實在在的用例,但是沒有收入到Unicode編碼字符集中。每一個字的判斷處理都需要摘錄判斷依據,填寫字的屬性庫,如IDC、四角號碼等等,便於在之後的工作中核查。多年的古籍數字化實踐,讓我們越來越深刻地體會到數字化的過程並不是簡單還原的過程,而是一個標準化的過程,需要投入大量編輯力量,是用數字形式對古籍的一次再整理。用字處理這一個環節,就體現了古籍的數字化對古籍整理用字的規範化作用。中華書局為了更好地完成數字化用字的處理工作,不僅在實踐中制定了大量相關的標準和流程規範,而且投入了大量精力參與到相關標準建設,如「中華字型檔工程」、「國家數字圖書館漢字規範處理」項目等。通過項目建設,不斷完善數字化古籍用字標準,積累了大量的漢字屬性數據,為數字化奠定了基礎。

2008年前後,中華書局通過OCR方式採集數據的工作流程基本確定,並完成了大量文本的數字化加工。當時書局並沒有迅速開發產品,而是提前進入了另外一個領域的探討——對古籍知識庫的研究。隨著互聯網發展,以谷歌為代表的檢索引擎,有強大的資源索引、聚合的功能,對於專業領域來說,內容服務註定向知識服務轉變。2009年至2012年,中華書局開始了《資治通鑒》和「二十四史」分析系統建設,主要探索如何為用戶提供知識化的古籍內容服務。

我們與合作方把「二十四史」和《資治通鑒》中的信息通過人機結合的形式標引並組織起來,形成以人物、時間、地點和事件等不同維度的知識網路,幫助讀者更方便地使用古籍。通過文本的標引和本體庫建設,系統可以脫離原書目錄結構按照不同維度來導航,比如時間、地點、人物;可以按照知識點來檢索,比如檢索張飛,系統就會圖形化的給出與張飛相關的人物、地點、時間、事件等等,進一步還可以檢索兩個知識點的相關關係,比如檢索張飛和關羽,系統就會給出兩個人物的關係圖,包括他們共同參與的事件、共同相關人物等等,即使兩個知識點不直接相關,也可以給出兩個知識點間接關聯的路徑。除了檢索和閱讀的功能,還提供了人物的時空分析,把人物、時間、文獻記載與地點坐標關聯,並連接成線,這樣就看到一個人物在地域上的移動軌跡。類似很多的分析功能這裡不一一細表。

《資治通鑒》和「二十四史」分析系統的項目最終沒有產品化,但是為後續將要開發的「中華經典古籍庫」產品提供了重要的思路。但在當時,發展知識服務的條件還不具備。從企業的角度講,產品化的內容一定是要通過市場獲得收益。但當我們回頭審視知識庫的開發時,感到相關領域的基礎性研究和知識儲備還不足,過多依賴人工進行內容標引和知識體系構建,資金需求量巨大,而且要完成大量文獻的本體庫建設,時間成本也難以符合市場化的需求。此外用戶的使用場景也並不明確。知識庫的技術含量雖然更高,但是當審視每一個用戶群體,從普通讀者到學者,從學生到老師,這個知識庫都不能滿足他們的主要需求,或者說很多時候並不知道該用它來做什麼。而數據量大、適用人群廣的海量資料庫,雖然結構簡單,在商業上反而更加成功。

中華書局在古籍數字化工作開展的初期,一直沒有加速產品化建設,這其中包括了數據與技術的因素、對市場理解和把握的因素,還有就是始終對知識產權的保護存在擔心,特別是古籍的特殊性增加了知識產權保護的難度。整理本古籍是中華書局最核心的資源,也是中華書局這個品牌構成的核心要素,也是中華書局重要的經濟支柱。推出數字化古籍是否會傷害傳統市場,加速盜版風險,都沒有辦法驗證。但是隨著社會上古籍數字化的產品越來越多,特別是中華書局與數字公司之間不斷的知識產權訴訟,我們逐漸認識到產品化也許是保護數字版權的一種更好的方式,即通過高質量的產品佔據市場。鑒於此,中華書局著手開發了第一個古籍數字化產品——「中華經典古籍庫」。

走向產品化道路

「中華經典古籍庫」從開始產品化的2012年至今,已經歷了五年時間。在此期間,數據規模從2億字擴展到7.5億字,從單一的區域網版到在線版、微信版,發展的動力來源於對用戶需求的響應。

「中華經典古籍庫」高級檢索頁面

2012年開始設計該產品時,手裡的主要資源就是中華書局整理本的古籍圖書,有2至3億字已經過數字化的文本。當時社會上一些數字公司開發的古籍庫往往有10億字級的數據量,在這方面,「中華經典古籍庫」存在天然的差距。我們在研究資料庫使用行為時發現,有很多用戶先通過海量資料庫檢索到內容,然後去圖書館利用整理本的圖書核對原文,最後記錄下來原文出處等信息,完成了一次文獻檢索與使用的全流程。在這個使用流程里,用戶並沒有完全脫離紙質圖書,只是把資料庫當成了紙質圖書的電子索引使用。因此在設計產品的時候,我們特意強化了對於原版紙書的利用:

在數字化成XML文件的同時,保留了原書版面圖像,並和文本內容對應,讓用戶可以不必再到圖書館查閱紙書,就可以看到與原書一致的內容;

系統提供了「引用」功能,用戶複製一段文獻出來,會自動在文獻後加上來源出處,如中華書局某年某版第幾頁,省去了再去核對版本與原書頁碼的麻煩;

在產品里還為用戶提供了一些必要工具,比如聯機字典、歷史紀年換算、關聯字表查詢等等;利用工具書和原書後的索引,製作了人名異稱的關聯檢索,當用戶檢索時輸入一個人名,系統會提示這個人物在文獻中的其他稱謂,比如曹操,系統會提示孟德、魏武帝、阿瞞、吉利等等,便於用戶提高檢索的查全率。

通過一系列的功能設計,我們希望用戶在「中華經典古籍庫」產品里完成從內容檢索到文獻使用的全流程。

從資源角度來看,整理本是「中華經典古籍庫」與其他古籍庫最根本的區別,它涵蓋了建國以來專家學者的研究成果。從社會各行各業對古籍的應用來看,整理本最具有普遍性和不可替代性。因此在系統功能的設計上,我們也緊緊圍繞資源的特點展開。在檢索時,充分利用整理本的特點,允許用戶在正文、注釋、校勘、專名、書名等不同範圍內檢索,如果要查詢一個人名,在專名範圍中查找,就能極大提高命中的準確率。檢索時也能夠選擇是否忽略標點,合理地利用標點和斷句信息,用戶能夠更有針對性的找到所需要的內容。可以說發揮自己資源的優勢,結合用戶的實用需求,是產品設計初期重要的考慮因素。

2014—2015年,「中華經典古籍庫」的區域網版是數字化的主要產品和收入來源,這和產品定位在國內機構用戶是緊密相關的。大多機構希望一次性付費使用,並買到實體,而不是按年付費訂閱。但是區域網版具有很多劣勢:一是海外用戶基本不會採購,他們不願安裝軟體到本地,更多的是希望通過瀏覽器在線訪問;二是資料庫的採購通常伴隨大量的試用過程,區域網版需要給用戶上門安裝,如果不採購還要再撤回,試用效率低而且成本高。2015年底,我們發布了在線版,可以通過網路授權訪問。短短一年裡,在線版已經在100多個機構開通試用,北美地區的哈佛、耶魯、普林斯頓、哥倫比亞等幾所大學都購買了在線產品。在線版的試用不僅讓更多機構了解到了「中華經典古籍庫」,而且對區域網版的銷售還起到了促進作用。

2016年4月23日,在中華書局讀者開放日上,我們發布的微信版「中華經典古籍庫」,可能對很多人來說都是始料未及的產品。這是在社交移動平台第一次出現大規模的古籍資源,讀者可以隨時隨地的閱讀檢索,分享內容。短短半年,微信版吸引了近3.5萬名讀者,大大加速了「中華經典古籍庫」的品牌推廣。微信版的推出看起來是「中華經典古籍庫」又一個形式的產品,其實本質是運營推廣的一次嘗試,也是從機構用戶向個人用戶的一次拓展。

微信版「中華經典古籍庫」

「中華經典古籍庫」無論是區域網版還是在線版,都是面向機構用戶銷售的產品。用戶構成主要有以下幾類:高校圖書館及專業院系、公共圖書館、黨政機關、出版社、研究機構及博物館、其他民間機構、海外機構(主要是大學和一些國家圖書館)。根據調研,古籍庫機構版的潛在用戶不下千家。但是經過兩年的推廣,古籍庫的試用用戶只有上百家,這種一對一的面向機構推廣的模式效率不高。有90%以上的讀者,無緣接觸到「中華經典古籍庫」,甚至不知道中華書局有了古籍數字化成果。另一方面,面向機構的產品存在一個天然的問題,採購者和使用者往往是兩個群體,因此我們不太容易接觸到真正的用戶,用戶也無法順暢地向我們表達對產品的反饋。為了解決這些問題,需要一個面向個人的產品,還要具備高效的傳播方式,用戶能夠很方便和我們溝通,自然就選中了微信作為資料庫的載體。

微信產品讓我們第一次真正地面向讀者:通過後台的統計分析功能,可以了解到用戶檢索和閱讀哪些內容、什麼時間使用資料庫、哪些地方的用戶最多、他們操作方式是什麼等等。很多讀者本著對中華書局及其產品的信任,在註冊時提供了完整的註冊信息,包括專業、職業、聯繫方式等等,這讓我們有了更加具體的用戶畫像。通過微信的二維碼關注功能,在不同活動、不同推廣媒體和場合投放的二維碼,可以明確區分出用戶群體和傳播渠道。微信用戶數據對於我們明確產品的發展方向和提升營銷的針對性都起到了關鍵作用。真正定位到「人」,是微信產品最核心的價值。認識到這一點後,我們與高校用戶開展合作,將微信版賬號贈送給在校學生使用。對於學生來說,他們獲取到了一大批免費優質資源;對於學校來說,已經購買的機構版新增了額外的增值服務;對於中華書局來說,我們得到了一大批潛在的用戶。

推動平台化發展

中華書局在發展了兩年產品後,深切感到要想真正做到融合發展,推動出版的轉型升級,靠現有的產品線是不夠的。很多根本性的問題沒有解決:一、古籍整理作品通過整理者和編輯的努力,內容質量遠高於社會其他古籍資源,但是在數量上具有天然劣勢,無法滿足用戶在更大範圍內檢索文獻的需求。二、現有數字產品的模式實際上是紙書的附屬物,從內容到版權,都受制於紙質圖書的出版,還遠達不到產業轉型升級的要求。三、在互聯網時代,很多與內容相關的產品並不是依賴對現有內容的數字化來完成的,而是通過用戶自己產生內容,迅速擴張,維基百科、知乎等都是很典型的例子。出於這些原因,我們感到發展產品只是我們工作一部分,更重要的是通過互聯網搭建一個平台,提供一個古籍整理的新模式,加速古籍的整理速度。

「中華古籍整理出版資源平台」力圖打通數字與出版的雙向通路:古籍整理出版物可以通過數字產品的形式發布,整理平台也可以通過數字化產生整理作品,可直接在線發布,還可以提供給出版社紙質出版。平台提供了古籍從整理到發布的一系列流程:

1

該平台提供了一個古籍書目系統,包括了從版刻書到整理本一系列的古籍目錄,可以讓用戶方便的檢索古籍書目信息,並且了解整理出版情況。不僅能達到檢索古籍書目的目的,還能夠依照中國古籍的整理情況,進行古籍整理的規劃工作。

2

提供了版刻書調閱系統,涵蓋大量的版刻圖書資源,以原版掃描的形式提供,作為用戶整理古籍的底本和校本使用,也可作為其他的整理參考。

3

作為一個古籍整理平台,提供了自動校勘和輔助標點功能,利用後台的數據支持,為用戶整理古籍提供大量的參考資料和已有整理成果。

4

工具書與知識單元查詢系統,深度嵌入到整理平台,為整理者提供必要的知識提示。

5

成果發布系統,可以將在線的整理成果直接發布,供讀者使用。同時,平台還具備一個約稿系統,可以發布需要整理古籍的信息,採用眾包的形式,由讀者共同整理完成。該平台的設計從根本上要實現古籍的在線整理和發布,通過眾包與多人協作,提高古籍整理的速度。

在平台下面,學術期刊庫、碑刻墓誌庫、小學文獻庫等等多個專業子庫也在研發中,既可以為古籍整理者提供資料支持,也可以作為單獨產品運營。我們希望通過平台的建設,將進一步打通讀者和作者之間的關係,通過互聯與協作,推動古籍整理事業的發展。

經驗和總結

中華書局這十幾年的數字化道路經歷了從緩慢積累到加速發展的多個階段。回顧當初,我們感覺起步還是晚了。當「中華經典古籍庫」進入市場時,大量的古籍資料庫已經佔據了市場,銷售推廣工作因此遇到很大的困難。所幸中華書局終究還是邁出了這一步,2015年成立了古聯(北京)數字傳媒科技有限公司,專門負責古籍數字化業務,至此走上了專業化加速發展之路。成立一年多來,古聯公司迅速發展,人員近30人,「中華經典古籍庫」在2017年末將突破10億字。在2017年初發布的《中華經典古籍庫》第四期,來自6個兄弟古籍專業出版社的古籍整理圖書聚合在一起,第一次實現了古籍整理出版領域大規模跨地域跨集團的數字資源合作,共同為讀者提供優質內容。資料庫的價值是以聚合內容為前提的,資源合作與擴展,成為了古籍數字出版做大做強的關鍵因素。

另一方面,技術在數字出版領域佔據重要作用。這裡所說的技術並不是單指計算機技術,還包括提供數字服務的一切相關技術、標準。以中華書局的產品為例,包括了數字化的相關標準、超過10萬字的古籍字表和屬性資料庫、不斷完善的漢字關聯表、準確的歷史紀年換算工具、幾十萬的專名詞表、在線顯示超大字符集和版權保護技術等等,這些都是在數字化過程中不斷發展出來的。2016年底,古聯公司組建了「古籍數字化與知識工程重點實驗」,成為首批新聞出版業科技與標準重點實驗室,在「古籍數字化漢字處理」「古籍文本自然語言處理與語義關聯」「古籍知識組織體系建設」「古籍資源知識庫構建」「古籍整理自動化」五個角度進行深入研究,這些將來都是構成古籍整理數字化工作最核心的技術。在資源量達到一定級別的時候,技術的價值將越來越充分地體現出來。

用短短的一篇文章來寫古籍數字出版,註定是掛一漏萬的,比如本文並沒有涉及到運營推廣的內容,但它是數字出版非常重要的一環。也沒有包含任何理論,只能盡量梳理了中華書局這些年在數字化上所做的工作和實踐經驗,希望能夠對願意從事古籍數字化的同仁有所幫助。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 深圳微生活 的精彩文章:

賈益:翦伯贊的台灣「番族」考
同樣的《水滸》不同的解讀:看藝術家如何演繹一百單八將
從西周金文看西周宗廟「圖室」與早期軍事地圖及方國疆域圖
樓蘭國都與古代羅布泊的歷史地位

TAG:深圳微生活 |

您可能感興趣

海量古籍資源在線閱!點贊國家圖書館古籍數字化工作
新華三發布《數字化轉型之路》新書
酷炫版中國數字化文化遺產坐標:從圓明園到隋唐城
從數據中心遷移至云:EF英孚教育的數字化轉型之路
中國亞麻紡織業的數字化之旅
陝西古籍文獻整理成果豐碩古籍資源將數字化
國家圖書館積極推進古籍數字化工作
文物復生的奇蹟:數字化、網路化保護
唐曉峰:《北京歷史地圖集》的數字化
法藏敦煌遺書數字化回歸 共享古籍資源
德國副總理舒爾茨在京談「數字化的挑戰」
「絲路之魂」大火是文化遺產數字化的陣痛?
數字中國研究院正式成立 京粵數字化水平領跑全國
德國媒體:中國數字化的發展堪稱典範,數字時代屬於中國人
融繪數字未來 新華三解讀數字化轉型之道
中國數字化走在世界之巔 德媒:取得優勢源於五大因素
客戶數據中台:當代數字化營銷頂樑柱
中國文化館將定位全民藝術普及 借網路數字化激發活力
什麼是航空公司的信息化、數字化和數字化轉型?
中國銀行數據中心副總經理楊志國:IT 運維向智能化、數字化轉型