當前位置:
首頁 > 科技 > 現實版《降臨》:機器破譯古文能否找回逝去的人類文明?

現實版《降臨》:機器破譯古文能否找回逝去的人類文明?

機器之心編譯


在歷經一個世紀的失敗之後,語言學家們開始向機器(計算機)求助以破解一段遠古文字。



現實版《降臨》:機器破譯古文能否找回逝去的人類文明?


1872年,一位名叫 Alexander Cunningham 的英國將軍在挖掘北印度地區(該地區隨後被英國控制)的某區域時,偶然發現了某些奇怪的東西。從殘骸之中,他發掘出了一個一英寸見方的石頭,它呈黑色、表面光滑、未被拋光,在表面上刻有奇詭的符號——由線條、相互交錯的橢圓、像是魚形的符號構成,在旁邊還刻著一個像牛一樣的東西。這位將軍並不認識這些符號,但他認為刻著的這頭「牛」並不像其他的印度動物,所以他欣喜地認為,這個石器並非是印度人的產物,而是來自於其他外來文明的某種圖騰。這塊石頭和在隨後幾年發現的相似的石頭一起,最後都被帶到了大英博物館。在1920年代,這些石器(後來人們發現它們其實是印章)為人們發現一段有4000年歷史的文明——即如今被大家所知的印度河流域文明,是已知的最古老的印度文明——提供了線索。


在那之後,數以千計的類似的小印章被發現。大部分的印章都有著這樣的特徵:在上方刻著一行符號,在下方則刻出了一幅圖像,它們通常是動物的圖像。圖中出現的動物包括公牛、犀牛、大象甚至是獨角獸。它們的發現地區不僅涵蓋了今印度及巴基斯坦,還延伸到周圍的商路上(在現伊拉克地區也發現了印章)。這些符號囊括了從幾何圖形到代表了魚和罐的圖標,也被在公告欄、牌匾、銅碟、工具和陶器上被發現。


儘管我們現在有數以千計的這些符號,但我們並不清楚他們有什麼含義。在 Cunningham 發現它們一個世紀之後,我們仍不能讀懂這些印章上蘊含的信息。它們是否是某一遠古語言的字母,又或它們只是某種宗教性的、家族性的乃至政治性的符號?這些激烈競爭的問題不僅引起了學者之間的爭端,還加劇了文化之間的競爭(爭奪將它們作為自己文化遺產的權利)。但研究人員在使用了包括複雜演算法、機器學習乃至認知科學的方法後得到的新成果,正逐步幫助我們一步步破解這段古印度文字。


現實版《降臨》:機器破譯古文能否找回逝去的人類文明?



帶有駝背牛的滑石印章,印度河流域,Mohenjo-Daro,公元前2500年~2000年


從公元前2600年到公元前1900年,印度河流域文明的規模超過埃及文明及美索不達米亞文明。它橫跨包括如今印度及巴基斯坦在內的超過100萬平方千米的地區。他有著複雜的基礎設施,包括先進的水管理及排水系統、經過街道規劃的有組織的城市(系統)及第一個已知的廁所。除此之外,這些古印度人還管理著一個巨大的商貿網路,它最遠觸及波斯灣。事實上,印度人最初的行跡在十九世紀被重新發現——當時在現巴基斯坦地區,執行連接兩個城市任務的建築工人在一些老舊廢墟旁偶然遇到了大量的磚塊。工人們使用它們建造了約100英里的鐵軌。在一段時間吼,考過學家才意識到,這些磚塊原來是來自印度河流域文明。考古學家的發掘只帶來了極少的信息:(在該文明中)沒有強力領袖或是宗教符號的跡象,這非常奇怪,與同期青銅時代文明的特徵不一致。我們還未在該文明中,發現任何像是美索不達米亞文明的金字形神塔、埃及文明的金字塔一樣的宮殿或者巨大塑像。同時除了一些被挖掘出的矛和箭之外,我們並未發現很多戰爭的跡象。事實上,我們幾乎什麼也不知道。「如果你問一個考古學家印度河流域文明從哪裡來、怎麼結束的、他們存在的時候在幹什麼,它們無法給你確切的答案。」金石學家 Bryan Wells 如是說。對我們而言,印度河流域文明就如同它使用的符號一樣神秘莫測。



現實版《降臨》:機器破譯古文能否找回逝去的人類文明?


源自於印度河流域文明的印章先存在新德里博物館。


這些古印度符號是正逐步減少的未破解古文字名單的一部分。學者們正在研究世界各地的許多數學系統,包括 Linear A、克里特象形文字(它們是來自古希臘的兩種文字)、原始埃蘭語(已知最古老伊朗文明的書寫)、一些中美洲文字及復活節島上的 Rongorongo 文字。一些新石器時期的語言符號,因為沒有後來的衍生語言,可能永遠都不會被解密。另一些古代語言,如作為希臘語前身 Linear B 語言,最終通過標記符號的方式,弄清了語言如何標記一個短語的開始與結束、不同的音節如何改變單詞的意思、句子中的母音和輔音如何構建等。這與科幻影片《降臨》所表現的內容並無二致——查找語言中的模式、測試總結的規律以及不斷地測試和錯誤。不過和電影中的語言學家相比,古印度語學者的壓力不如那麼大——因為人類不如像在乎即將入侵的外星文明一樣那樣在乎古代文明。在過去,大部分相關工作都是手工完成的。對於 Linear B 而言,細心構建的語音圖最終帶來了語言的解密。類似的方法也在古印度語上被嘗試過。在20世紀30年代,學者 G.R. Hunter 發明了符號集群使他能夠發掘隱藏在語句中的一些結構。但他也沒能弄清語言的含義。印度孟買她他基礎科學研究所天文和天體物理部的研究員 Nisha Yadav 表示:「很多原因導致這個語言非常難被破譯。首先,文章的句子很短。平均來說,一個印章上總共只有五個符號,被發掘出最長的也只有17個。這麼短的文字使得解讀文字結構變得十分困難。」「這個問題的複雜之處在於,我們不清楚它底層的語言是什麼。」美國國家科學基金會感覺運動神經工程中心主任、華盛頓大學計算機科學與工程系教授Rajesh Rao說。「我們甚至不知道當時在那個地區,人們所說語言的語言家族。」一旦一個文明消亡,它的文化及書寫系統也會逐步消失。「我們沒有任何連續的文化傳統,」Yadav 說。考古學家還未(在古印度語中)找到某種像 Rosetta 石——破譯埃及象形文字的關鍵所在——一樣的多語言文本。儘管我們對古印度知之甚少,但這絕不是因為缺乏嘗試。「它通常被叫做最難解讀的語言因為它有靠近100種解讀方式。」威爾斯說,「不過當然,沒有人喜歡其中的任何一個。」許多人聲稱已經破解了語言,它們通常認為該語言是後來語言的某種前身,但沒有一個解讀方式是成立的。「我覺得最古怪的一種解讀,來自於一位佛教大師,他聲稱通過冥想接觸到了創造語言的超自然存在,被告知這些語句代表著什麼。」威爾斯補充道。



現實版《降臨》:機器破譯古文能否找回逝去的人類文明?


帶有駝背牛的滑石印章,印度河流域,Mohenjo-Daro,公元前2500年~2000年。


為破譯古印度的語言,最重要的是確定我們看的究竟是什麼東西——或是代表語言的某種符號,或是只是代表家族名或神祇名的某些圖騰或是會長。「基於我們現有的信息,我們並不能對文字代表的內容作出確切的評斷。」Yadav 說。「我認為我們所做的僅僅是嘗試拼湊我們現有的一些線索,來看看它們能否印象我們猜測的內容。」Rao 說道,「同時,至少從我們已做的工作來看,我認為它似乎更傾向於靠近我們關於語言的假設。」大多數學者都傾向於同意這一觀點。2009年,Rao 發表了一篇文論,它研究了古印度文的順序結構,即特定符號跟在其他符號之前或之前的可能情況。在大多數語言系統中,詞或符號以半可預測的方式彼此連接。它們有一定的陳述句結構,但也有相當大的靈活性。研究人員將這種半可預測性稱為「條件熵」(conditional entropy)。Rao 和他的同事計算了一個符號按照特定順序跟隨另一個符號的可能性。 「我們感興趣的是,如果我們可以推測出一些統計規律或結構,」Rao 說,「他能基本上排除這些符號只是簡單並置、而有一些規則或模式的可能性。」他們將古印度語的條件熵與已知的語言系統(如吠陀梵語)及已知的非語言系統(如人類 DNA 序列)進行了比較,發現古印度語與語言系統非常相似。 「所以,儘管它不能證明這些符號編碼了一種語言,但它能提供額外的證據證明這些符號不是任意符號的隨機並置。」Rao 說,「他們遵循的模式與在能構成語言的符號中能找到的模式是一致的。」


在隨後的一篇論文中,Rao 和他的同事對所有的已知的古印度符號進行了研究,觀察他們在他們被發現的銘文中的位置。這種被稱為馬爾可夫模型的統計技術,能夠找出具體的信息——如哪些符號是最可能開始一個文本、哪些最可能結束一個文本、哪些符號可能重複,哪些符號經常配對在一起及哪些符號傾向於在特定符號之前或之後等。在處理不完整的銘文時,馬爾可夫模型也是很有用。許多文物被發現時已經損壞,部分銘文缺失或不可讀,但馬爾科夫模型可以幫助填補這些空缺部分。「你可以基於其他完整序列上的統計學信息,來試圖填補這些缺失的符號。」Rao 解釋道。


Yadav 做了一種類似的分析,採用一種被稱為 n-gram 分析的不同類型的馬爾可夫模型。一個現有的 n-gram 分析的例子就是谷歌搜索欄。當你輸入查詢事項時,搜索欄會基於你已經輸入的內容填充搜索建議,隨著輸入字數的增加,搜索建議也會相應改變以使之與輸入文本相匹配。Yadav 及其同事關注兩種分析方法,一個是基於某一符號其下一個符號出現的概率——二元文法,另一個是基於前兩個符號下一個符號出現的概率—— 三元文法。得到的結果模式顯示印章上所刻的字跡存在語法,這也就為所刻字跡是語言這一觀點提供了支持。同時像馬爾可夫模型一樣,該分析也能在所刻字跡部分文本缺失時填充上可能的符號。

這兩種技術也揭示了一些意料之外的事情:在不同區域發現的遺迹描述的是截然不同的符號序列。所以在現在伊拉克境內發現的印章所具有的符號序列往往與在印度及巴基斯坦境內發現的其他印章的符號序列不同。Rao 說,這暗示著,也許人們使用相同的符號去編碼當地語言。「好像他們在用不同的字跡做實驗,」Yadav 說,「或許他們在用同樣的字跡書寫不同的語言或不同的內容。」


對現有遺迹引入其在人類學及考古學上的背景知識,也有助於我們進一步理解古文字。 劍橋大學數字知識研究中心助理研究員Gabriel Recchia 僅就以此為目的發表了篇論文。Gabriel Recchia 及其同事在之前的認知科學研究中指出,可以通過在書面中同時提到不同城市的頻率來估算城市間的距離。這一觀點是真實可行的,對於美國城市,依據的是兩城市在全國性報紙上同時出現的頻率,對於中東和中國的城市,依據的是相應的阿拉伯語和漢語文本,甚至對《指環王》中的城市也適用。Recchia 將該觀點適用於印度河谷字跡,將已知起源遺迹的符號提取出來,用以預測帶有相似符號的未知起源遺迹的出處。 Recchia 解釋道,若這種方法將更多詳盡的信息考慮在內將大有裨益。「在同一遺址的不同分位置挖掘出的遺迹存在顯著差異,它們在遺迹中的位置往往是不知道的,在許多情況下,這能提供更多有用的信息,」Recchia 說。「這些是在垃圾堆里和一大堆其它印章一起發現的還是從其它地方運來的?」


與此同時,Ronojoy Adhikari,一名印度金奈數學科學院的物理教授和他的研究助手 Satish Palaniappan 正在做一項能夠從一張印度手工藝品的照片上精確提取符號的研究工作。「如果一個考古學家來到印度某處發現了新的印章,如果純手工的把它們影印後再加到資料庫里會非常耗時,」 Satish Palaniappan 說。「我們項目的終極目標是僅僅通過對該文物的一張照片就能自動提取出其中的文字部分。」他和 Adhikari 正忙於做一個 app,該款 app 能夠使考古學家們僅通過手機在現場就可以立即提取新的銘文。



現實版《降臨》:機器破譯古文能否找回逝去的人類文明?



未指明的近似1988:印度藝術-公元前2500年-印度河谷的石印。


但不是每個人都認為手跡是一種語言。2004年,一篇由文化神經生物學家和比較歷史學家 Steve Farmer、計算理論學家 Richard Sproat、以及文獻學家 Michael Witzel 聯合發表的文章里就認為印度手跡不是一門語言。作者們甚至至今願意為能找到較長的印度銘文的發現者提供10000美元。「並不是所有在印度高度政治化的社會之外的人都把印度符號作為『未破譯的文稿』中的一部分,」Farmer 在郵件里說。在他們針對文稿的立場發表後,Sproat 寫了兩篇文章分析 Rao 和他的同事們所用的條件熵技術,以及另外一個小組所採用的類似技術以分析 Pictish 符號,另一種古文體。在這兩篇文章中,Sproat 概括性的認為條件熵測量技術並不是那麼管用。「它告訴你什麼?它告訴你這不是完全嚴格。它告訴你這不是完全隨機。我們已經知道這些了,這沒什麼信息量。」 Sproat 說。「它沒有告訴你任何事。」


Farmer 說:「僅在一堆符號中發現結構,並不當然意味著已經發現符號編碼語言的證據。甚至傳令符、星座或者童子軍隊列自身都存在結構。」為回應 Sproat 的論文,Sproat 所質疑的 Rao 及其同事和皮克特符號研究中心的作者們 都寫文強調他們的關注點。Sproat 又反過來就他們的回應寫文章回應。


「你從清潔工那裡獲得醫學建議都比從 Steve Farmer 那裡聽到的關於印度河字跡的觀點要靠譜得多,」Wells 說。「這三個作者都沒有考古學,刻字學或任何與古文字相關方面的學位,他們根本的立論依據是"我們這麼聰明都無法破譯它,所以它不可能是文字",這種觀點簡直荒謬。」Wells 將求證 Farmer 的觀點比作求證特朗普的話一樣。「你不得不核實他所說的每一件事,因為他所說的絕大部分都是錯的。」


而且 Wells 對 Witzel 觀點的批判一直向前追溯到其有關印度河字跡的博士論文,據 Wells 說,Witzel 曾試圖反駁過該觀點。之後,在與 Witzel 一同到印度時,Wells 甚至還在計程車后座上,向 Witzel 展示了一個 ppt,名字就叫《你不了解你所說問題的十大原因》。


有一件事 Rao 和 Sproat 確實表示認同,即如果印度河手跡被證實編碼的不是語言,那麼可能結果會更加有意思。「我們非常了解有文字的古代文明,但對缺乏文字的文明知之甚少, Sproat 說。「如果這是一種整體上的無語言系統,那麼從某種意義上說,會比是某種字跡更有意思。」


Rao 也認為,其陷入論戰中的作品存在細微差異。「這是一場有趣的腦力論戰,希望現在已經休戰了,」Rao 笑著說:「希望這不會是一個將持續一生的論戰,但我認為目前每一方都盡了最大的努力。我是個十足的樂觀主義者,我認為我們會對印度河手跡有更好的理解,無論是這樣的方式還是其它的方式,語言性的也好,非語言性的也罷。」


在這場論戰之外,解讀的過程也受到了當代政策的威脅。在印度國內,不同的派系正在為哪方的語言和文化是印度河谷文明的繼承者爭得不可開交。北邊的梵語區、南邊的德拉威語區、以及那些中部講部落語言的地區。「他們爭論的是無論是誰傳承自印度河谷文明都是印度的繼承者,」 Wells 說。「所以說,他們是從當代政治的角度來爭論這件事。我知道有的人就因為說梵語不是或者德拉威語不是而收到死亡威脅。」並且因為印度河谷文明跨域當今的印度和巴基斯坦,當前兩國的緊張局勢也影響到了研究領域。印度河谷文明出土的古器具的圖冊也被分為兩個不同的卷出版-一個是在印度發現的古器具,另一個是在巴基斯坦發現的。


破譯手跡的另一個困難挑戰也是一個老生常談的問題:錢。Wells 認為,除非學校和資金贊助機構共同努力促進印度河手跡的研究,否則很難有進步。「必須共同合作,必須有資金支持,並且必須有研究基地,」Wells 說。在促進共同努力過程中,就他個人而言,Wells 正籌辦第二次印度河手跡年度會議,會議將於今年3月在不列顛哥倫比亞省召開。並且,如無例外,只要 Farmer 到會,還會有10000美元獎金。


我們還不能破譯這些古文,不過 Rao 堅信除非我們找到更長的標本或者一種多語言的文本,否則這些統計學的方法已經是我們最好的嘗試。並且 Wells 說進展的程度與合作息息相關。「我認為所有需要破譯的文稿都在那,」他說,「團隊合作-跨學科、或者可能多輩分-我們做的工作越多我們取得的進展越大。」Wells 和他的同事已經取得了一些進展並且計劃這個三月份的會議上發表。他們的發現和其它發表在會議上的工作可以在四月份的 the Proceedings of the Second International Meeting on Indus Epigraphy 上公開查閱。與此同時,任何想要為破譯古文做貢獻的人可以登陸 Wells 的協作網站(collaborative website),該網站提供了所有目前已知的符號和各種分析工具。


當被問及電影《降臨》以及是否能破譯手跡以在某一天拯救世界時,Rao 笑了笑,「好吧」他說,「這還得看具體情況。」


原文來源: verge

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

人工智慧從入門到進階,機器之心高分技術文章全集
深度強化學習綜述:AlphaGo到學習資源分享
機器之心發布吉祥物,你猜到了嗎?

TAG:機器之心 |

您可能感興趣

美國做了張神秘唱片送入外太空,破譯者將解碼整個人類文明!
一段奇異的外星文明對話:《破譯地球起源》
《易經》破譯6:禮貌和音樂也能夠治理好國家嗎?
他們仿照漢字創造了自己的文字,但嚴禁外傳,結果至今未能破譯!
考據黨真可怕,《來自深淵》原創文字被成功破譯
西藏發現史前墓穴和石碟,教授破譯出恐怖事件後,石碟神秘消失!
一人在山洞中發現神秘石板,上面的文字破譯後,全世界都不敢相信
關嶺「紅崖天書」:從明代至今無人能夠破譯
《來自深淵》原創文字破譯,考據黨的愛好你們不懂!
破譯「上古真人」道法
破譯晉商翹楚的成功之道,除了家規還有這些文化財富!
破譯地球起源——人類不是太空「唯一文明生物」!
破譯上古蜀國的傳奇密碼
外星人能破譯人類的密碼?
火星探測器上傳回一段古老而又神秘的信息,破譯之後內容很驚人
《八卦太極圖》被破譯,伏羲並不是人類始祖,而是「另類」?
A股君解析:一眼破譯布林線選股的精髓,簡單實用
你能破譯這個「外星人信息」嗎?
《來自深淵》原創文字破譯,這可是考據黨的愛好你們不懂!