當前位置:
首頁 > 新聞 > AI將揭開梵蒂岡機密檔案館之謎

AI將揭開梵蒂岡機密檔案館之謎

梵蒂岡機密檔案館(Vatican Secret Archives)被列為世界十大禁地之一,它是羅馬教皇的檔案保管機構,也是歐洲教會中收藏檔案最豐富,最古老的檔案館。

其珍藏的許多文件從未轉錄,即便教堂檔案員也對其中隱藏的秘密一無所知。然而,機器視覺系統將會揭開中世紀文本的神秘面紗。

AI將揭開梵蒂岡機密檔案館之謎

梵蒂岡機密檔案館頗為傳奇。據稱,該館保存的往屆教皇的私人信件和其他文件,不少內容可追溯至公元8世紀, 排起來可延綿85公里長。

館內警戒森嚴,自1881年起,學者們接觸到的文件極為有限,但其中的信息量卻蔚為可觀。

舉個例子,一張長達60米的羊皮紙上記滿了對法國聖殿騎士的審判供詞,這場審判自1307年伊始,持續數年。這些信件中,有米開朗基羅的手稿,有國王亨利八世請求廢除婚姻的申請書,還有蘇格蘭女王瑪麗被斬首前的說情信。

此外,檔案中還包含距今較短的通信文件,比如美國南北戰爭時期,亞伯拉罕·林肯和傑斐遜·戴維斯分別來信,試圖說服教皇庇護九世支持各自陣營——北方聯邦和南部邦聯。還有二戰期間,教皇與納粹政權的往來信件都從未出版。事實上,1939年後的所有檔案完全對外保密。

AI將揭開梵蒂岡機密檔案館之謎

雖然這些文件禁止出版,但檔案館設有影像備份及檔案保護工作室。與其他許多歷史檔案館一樣,他們已開始影像備份文件,供學者深入研究。

但檔案存量過於龐大,光靠人工抄錄備份,根本無法完成。那麼,機器視覺技術是否能夠起作用?

幸運的是義大利羅馬第三大學的Donatella Firmani及其同事啟動了「In Codice Ratio(『編碼系統』的拉丁文)」項目,旨在開發能夠自動轉錄梵蒂岡機密文件(名為Vatican Registers)的系統。

該語料庫收錄了13世紀的18,000頁官方信件,覆蓋內容極廣,從天主教到國王、王后,從政治到宗教,橫貫歐洲各領域。Firmani及其團隊表示:「這些文件此前從未轉錄,因此,歷史意義可謂空前巨大。」

中世紀文本的特殊性給機器視覺技術帶來了諸多挑戰。由於手稿字跡風格各異,存在連筆(將相鄰字母連成一筆書寫)和特殊縮略語,因此傳統的視覺識別演算法無法勝任轉錄工作。

為解決這一難題,學者們研發了識別整個單詞(不僅僅是字母)的計算機視覺系統。然而效果仍不理想。大多數單詞在長篇文件中只出現過幾次,所以很難創建滿足機器學習需求的數據集。

如今,Firmani及其團隊發明了訓練文字視覺識別系統的新方法:將單詞拆分為筆劃,再像拼圖一樣將筆劃組合起來。他們表示:「我們想開發一個能夠轉錄儘可能多手稿的成熟系統。」

系統將單詞拆分為筆劃後,再試圖將筆劃組合成字母,分析所有可能的排列組合方式,最終排除所有不符合語法的組合。

例如,通常可將筆劃組合為「iii」和「m」,因語法錯誤排除前者。同樣的筆劃組合還有「in」或「ni」,系統需進一步研究整個單詞及其所處語境,再作出選擇。

Firmani團隊首先創建了一個數據集,訓練基於神經網路的計算機視覺系統。

該數據集需要進行標記處理。因此,視覺系統可學習筆劃的排列方式與可能字母的映射。

他們將數據標記外包出去,將拼圖似的單詞拆分為模式識別問題(如拼圖式驗證碼)呈現給120所高校學生,讓他們數小時內共同人工標註包含15,000個單詞的數據集。

標註結果十分理想。Firmani團隊稱:「我們能夠準確轉錄數據集中65%的字母圖像。」

顯然,這一成果對轉錄中世紀文章和歷史學家的研究而言意義非凡。但還有更多難題需要攻克。例如,小寫字母的轉錄問題仍然存在,因此下一步的關鍵是擴大辭彙量,將大寫字母及中世紀文本中的縮略語納入數據集。

梵蒂岡機密檔案館將如何利用這一科技尚不得而知,梵蒂岡文件(Vatican Registers)被轉錄後是否會公之於眾也無人知曉。

但即使文件未能出版,Firmani團隊開發的前沿技術也能幫助學者們進行相關領域的深入研究。例如,可利用單詞、片語頻率及其隨時間的變化等數據展開歷史文件研究。可作為分析歷史文化的重要切入點。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技行者 的精彩文章:

埃森哲推出AI測試服務,深度學習演算法的「黑匣子」問題或將不再
科學家正在利用細胞生物學,破解人工智慧「黑匣子」

TAG:科技行者 |