AI將揭開梵蒂岡機密檔案館之謎

新聞 03-20

梵蒂岡機密檔案館(Vatican Secret Archives)被列為世界十大禁地之一，它是羅馬教皇的檔案保管機構，也是歐洲教會中收藏檔案最豐富，最古老的檔案館。

其珍藏的許多文件從未轉錄，即便教堂檔案員也對其中隱藏的秘密一無所知。然而，機器視覺系統將會揭開中世紀文本的神秘面紗。

AI將揭開梵蒂岡機密檔案館之謎

梵蒂岡機密檔案館頗為傳奇。據稱，該館保存的往屆教皇的私人信件和其他文件，不少內容可追溯至公元8世紀, 排起來可延綿85公里長。

館內警戒森嚴，自1881年起，學者們接觸到的文件極為有限，但其中的信息量卻蔚為可觀。

舉個例子，一張長達60米的羊皮紙上記滿了對法國聖殿騎士的審判供詞，這場審判自1307年伊始，持續數年。這些信件中，有米開朗基羅的手稿，有國王亨利八世請求廢除婚姻的申請書，還有蘇格蘭女王瑪麗被斬首前的說情信。

此外，檔案中還包含距今較短的通信文件，比如美國南北戰爭時期，亞伯拉罕·林肯和傑斐遜·戴維斯分別來信，試圖說服教皇庇護九世支持各自陣營——北方聯邦和南部邦聯。還有二戰期間，教皇與納粹政權的往來信件都從未出版。事實上，1939年後的所有檔案完全對外保密。

AI將揭開梵蒂岡機密檔案館之謎

雖然這些文件禁止出版，但檔案館設有影像備份及檔案保護工作室。與其他許多歷史檔案館一樣，他們已開始影像備份文件，供學者深入研究。

但檔案存量過於龐大，光靠人工抄錄備份，根本無法完成。那麼，機器視覺技術是否能夠起作用?

幸運的是義大利羅馬第三大學的Donatella Firmani及其同事啟動了「In Codice Ratio(『編碼系統』的拉丁文)」項目，旨在開發能夠自動轉錄梵蒂岡機密文件(名為Vatican Registers)的系統。

該語料庫收錄了13世紀的18，000頁官方信件，覆蓋內容極廣，從天主教到國王、王后，從政治到宗教，橫貫歐洲各領域。Firmani及其團隊表示：「這些文件此前從未轉錄，因此，歷史意義可謂空前巨大。」

中世紀文本的特殊性給機器視覺技術帶來了諸多挑戰。由於手稿字跡風格各異，存在連筆(將相鄰字母連成一筆書寫)和特殊縮略語，因此傳統的視覺識別演算法無法勝任轉錄工作。

為解決這一難題，學者們研發了識別整個單詞(不僅僅是字母)的計算機視覺系統。然而效果仍不理想。大多數單詞在長篇文件中只出現過幾次，所以很難創建滿足機器學習需求的數據集。

如今，Firmani及其團隊發明了訓練文字視覺識別系統的新方法：將單詞拆分為筆劃，再像拼圖一樣將筆劃組合起來。他們表示：「我們想開發一個能夠轉錄儘可能多手稿的成熟系統。」

系統將單詞拆分為筆劃後，再試圖將筆劃組合成字母，分析所有可能的排列組合方式，最終排除所有不符合語法的組合。

例如，通常可將筆劃組合為「iii」和「m」，因語法錯誤排除前者。同樣的筆劃組合還有「in」或「ni」，系統需進一步研究整個單詞及其所處語境，再作出選擇。

Firmani團隊首先創建了一個數據集，訓練基於神經網路的計算機視覺系統。

該數據集需要進行標記處理。因此，視覺系統可學習筆劃的排列方式與可能字母的映射。

他們將數據標記外包出去，將拼圖似的單詞拆分為模式識別問題(如拼圖式驗證碼)呈現給120所高校學生，讓他們數小時內共同人工標註包含15，000個單詞的數據集。

標註結果十分理想。Firmani團隊稱：「我們能夠準確轉錄數據集中65%的字母圖像。」

顯然，這一成果對轉錄中世紀文章和歷史學家的研究而言意義非凡。但還有更多難題需要攻克。例如，小寫字母的轉錄問題仍然存在，因此下一步的關鍵是擴大辭彙量，將大寫字母及中世紀文本中的縮略語納入數據集。

梵蒂岡機密檔案館將如何利用這一科技尚不得而知，梵蒂岡文件(Vatican Registers)被轉錄後是否會公之於眾也無人知曉。

但即使文件未能出版，Firmani團隊開發的前沿技術也能幫助學者們進行相關領域的深入研究。例如，可利用單詞、片語頻率及其隨時間的變化等數據展開歷史文件研究。可作為分析歷史文化的重要切入點。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科技行者 的精彩文章: