當前位置:
首頁 > 教育 > 中央民族大學教授趙小兵:少數民族語言信息化關乎民眾福祉,需要各界的更多支持

中央民族大學教授趙小兵:少數民族語言信息化關乎民眾福祉,需要各界的更多支持

中央民族大學教授趙小兵:少數民族語言信息化關乎民眾福祉,需要各界的更多支持

AI 科技評論按:近年來,我國在國際自然語言處理領域的表現較為活躍,多個自然語言處理頂級會議上都能見到我國學者的身影,論文的發表數量也在逼近美國。然而這僅僅就少數語言而言。在我國境內許多的少數民族地區,當地許多語言文字還處在低信息化狀態,連最基礎的工具如搜索引擎、門戶網站等都不具備,使得原本就處在偏遠地區的少數民族進一步被「邊緣化」。

少數民族語言信息化是一項龐大工程,非一人一時之力所能解決。以雲南為例,作為一個多民族、多語言、多文種的邊疆省份,雲南省人口在 6000 人以上的世居少數民族一共有 25 個,這 25 個世居少數民族中,除回、水、滿 3 個民族通用漢語外,其他 22 個民族共使用 26 種語言,14 個民族使用 22 種文字,語言文字資源豐富且使用情況複雜。

我們好奇的是,如今少數民族語言的信息化工作究竟進展到了哪一步?學界/業界有哪些值得被記錄的成果?研究在轉化落地成為產品的道路上遇到了哪些棘手的問題?帶著這些疑問,我們採訪了中央民族大學國家語言資源監測與研究少數民族語言中心主任、中國中文信息學會理事、民族語文信息處理專委會副主任、博士生導師趙小兵教授。(採訪:岑峰、黃善清 ;整理:黃善清)

中央民族大學教授趙小兵:少數民族語言信息化關乎民眾福祉,需要各界的更多支持

趙小兵、女、蒙古族、1967 年 2 月生、內蒙古呼和浩特市人,二級教授、博士生導師,北京市第十五屆人大代表。1988 年 7 月畢業於內蒙古大學電子系計算機科學與技術專業,獲學士學位;2003 年 1 月畢業於韓國青雲大學信息產業大學院, 獲碩士學位,專業方向為人工智慧;2007 年 6 月畢業於北京語言大學應用語言學研究所, 獲博士學位,專業方向為計算語言學。現任中央民族大學「國家語言資源監測與研究少數民族語言中心」主任,受聘為北京外國語大學、新疆師範大學、呼和浩特民族學院、內蒙古師範大學等機構研究中心學術委員會委員或名譽教授。兼任「中國中文信息學會」理事,「中國中文信息學會民族語言文字信息處理專委會」副主任、「中國語文現代化學會少數民族語文現代化專委會」副主任,「中國少數民族語言文字標準化委員會」秘書長、「國家自然科學基金項目評審委員」等。

曾任第三屆「中國學生計算語言學學術研討會」大會主席;「第 11-16 屆中國少數民族語言信息處理學術研討會」學術委員會委員兼組織委員會副主任。曾主持國家自然科學基金重點項目《跨語言社會輿情基礎理論與關鍵技術研究》等科研課題 28 項;獲「中國第二屆錢偉長科技進步一等獎」、「北京語言大學優秀博士論文」等獎勵 18 項;發表 SCI、EI 等學術期刊及會議論文 72 篇,出版學術專著 8 部,獲國家發明專利 2 項、軟體著作權 2 項。

AI 科技評論:請簡單介紹少數民族語言信息化工作的基本情況。

趙小兵:國內目前認定的少數民族語言種類有 80 多種,而聯合國科教文組織認定的則多達 120 多種,儘管在認定標準上存在差異,實際上兩者的數量並沒有本質的區別,因為聯合國科教文組織考慮是否將一個民族的某種方言視作獨立的一種語言,還會考慮語言之間能否交流。

我們判斷一個語言的社會化使用程度,一個關鍵指標是看該語言是否進入大眾媒體流通語言中,當然包括網路等新媒體。在中心的長期跟蹤下,總結出網路上使用的少數民族語言一共有 14 文種(來自 12 個民族),當中以蒙、藏、維、哈、朝、彝、壯、傣和柯爾克孜的用戶基數相對較多。網站數量方面,中心在 2011 年的統計是 1030 個,最近(2018 年底)的核對結果是 680 個,之所以數量上有所變化,一個重要原因是由於網站創建者興趣轉移、經費不繼等問題關閉,這當中以個人網站居多,而由政府機關、企業以及社會團體創建的網站則相對穩定。

AI 科技評論:少數民族語言的信息化工作一共經歷幾個階段?

趙小兵:大體來說,經歷了 3 個階段。每個階段均以這個階段的主體任務作為標誌,但由於少數民族語種多,發展並不均衡,三個階段也是交叉融合的。

第一個是字處理階段(上世紀 70 年代末、80 年代初開始),這個時期的主體任務是保證民族語言文字的字元在計算機及關聯設備上的顯現,也就是解決字元編碼、輸入法和字處理軟體的問題。這時候面臨的問題主要有兩個:一是少數民族語言文字字元的編碼及輸入,需要解決字元編碼的不統一等問題,比如擁有多種編碼體系的蒙古文,需要進行字元編碼的統一轉換;比如不同地域方言區所使用的彝文,是一種典型的「表意文字」,不同區域使用的文字字元存在較大差異,也就意味著其字元編碼需要收錄處理龐大的字符集。二是文字字元的字處理及排版問題,這一階段北大方正與「濰坊」華光在這方面扮演著重要的角色,特別是濰坊華光專門針對少數民族語言開發了排版軟體。

第二個階段是詞處理階段(上世紀 90 年代末開始),這個時期的主體任務可分為前期和後期:前期是構建語料庫,對語料進行不同層次的加工標註如分詞、詞類標註、語法信息詞典、句法樹、語義標註等,為計算機理解少數民族語言並進行後期自動加工處理打下基礎;後期是在標註語料庫的基礎上搭建和訓練各類計算機自動加工處理模型,使計算機在滿足精確度標準的情況下對語料進行處理。

第三個階段是智能化產品及應用階段(近 10 年),近年來機器學習,特別是深度神經網路技術的成熟與應用,語言的智能應用也逐步由實驗室模型開始走向了實用化的民用產品,包括機器翻譯、輿情分析、搜索引擎、智能教育等一批民族語言應用,科大訊飛的藏維語音識別合成智能應用產品便是近年來的一個標誌性產品。

AI 科技評論:少數民族語言的國際編碼處理與英語有哪些異同?

趙小兵:字處理階段,兩者的處理是比較類似的,因為這個階段主要處理的是字形,只要按照字形的拼音等的輸入規則給出一套完整輸入方案即可。到了詞處理階段,使用什麼方法來進行語言分析和理解,構建語言翻譯模型等應用變得至關重要。進行語言分析,構建語言模型主要有基於規則或者經驗的方法。應用規則進行語言分析,依賴於語言的詞法、句法等規則描述,與語言語種強相關,規則建構龐雜、工作量大,很難建立實際應用,只適用於目標單一或受限領域的應用。近年來,基於經驗的語料庫統計方法,特別是深度學習在人工智慧語言信息處理技術的逐步成熟,其應用領域範疇不斷擴大並走向實用化,這類方法的主要目標是構建語言無關的模型,所以無論是英語、漢語,還是少數民族語言均採用相似的語言分析及處理模型。少數民族語言智能信息技術在這個階段的主要研究任務除進行機器翻譯、語音識別等應用研究外,針對低資源、跨語言目標的模型訓練亦成為近期的研究熱點。

總的來說,學界未絕對地選擇經驗或者規則一條道路走到底,而是把兩者結合起來,根據不同任務目標和訓練語料的實際情況,靈活地調整處理模型和方案。

AI 科技評論:國家推動少數民族語言信息化的目的是什麼?

趙小兵:一個是促進民族之間的溝通交流。在我國少數民族自治區域,當地的主體民族語言文字和國家通用語言文字共同在當地社會及家庭中普遍使用。當地的政府公文、牌匾、學校等都是雙語或多語共同使用,我國每年「兩會」的政府工作報告等也會發行蒙藏維哈朝彝壯等七種少數民族文字翻譯單行本,另外地方民語委也會設立翻譯機構來進行日常的公文及文件翻譯,所以民族語言智能化應用不僅是少數民族群眾日常進行信息交流的需要,也可以輔助幹部下鄉時與少數民族群眾的溝通交流,使少數民族群眾切實感受到國家的發展給他們生活帶來的信息交流的便利,同時提供個性化的、跨語言智能技術服務,滿足民族地區群眾信息檢索與自身能力提升的需求。

另外,少數民族語言智能信息處理的應用近期還有兩個熱點,一個是進行社會輿情監控。通過結合情感分析技術和社交平台數據,可以讓政府及時了解民眾的情緒與關注話題,為政府的政策制定提供量化的參考依據。

另一個是打造少數民族語言的領域知識圖譜。由於少數民族語言屬於典型的「低資源語言」,網路上可供使用的資源和工具都非常少,知識圖譜等於在為少數民族群體未來的信息獲取服務打基礎。

AI 科技評論:少數民族語言成為「低資源語言」的原因是什麼?

趙小兵:少數民族語言在早期信息化過程中出現了一批應用工具,由於用戶在使用上習慣了這些工具,導致網路上的少數民族語言文本許多時候都處於編碼不統一的狀態。以蒙古文為例,網上既存在國際標準的 Unicode 編碼,也存在蒙科立、賽因等多種編碼。

這種編碼混亂的狀態讓後期的信息化工作遇到很多困難,是導致少數民族語言成為「低資源語言」的原因之一。其二,類似百度、必應、谷歌這些主流搜索引擎都只處理 Unicode 標準編碼的文本,少數民族語言「百花齊放」的編碼標準導致了信息剝落。其三,即便收錄的是 Unicode 標準編碼的內容,由於前期的錄入錯誤等問題,導致目前網上檢索到的少數民族語言文本不一定百分之百準確。這些情況都導致少數民語言的網路資源一直上不去,對後來的人工智慧應用模型訓練造成了很大影響。

AI 科技評論:面對「低資源語言」問題,學界採取了哪些措施?

趙小兵:一方面我們會儘可能地去採集更多資源,同一時間我們也在強調預處理流程,避免出現前期編碼錄入工作不到位的問題。更重要的是,我們將根據少數民族語言現狀構建「低資源語言訓練模型」,通過引入遷移學習或零資源語言模型訓練等技術,由大規模的語料庫資源中學習的語言模型遷移訓練低資源的少數民族語言,在此過程中對參數進行調優。這是當下學界的研究熱點,尤其在機器翻譯這塊。

此外,我們也重視跨語言檢索技術的應用,在構建知識圖譜時,先從其他主流語言的資料庫中挖掘知識之間的層次關係,進而遷移到少數民族的應用中來。這是一個龐大的工程,需要多方機構組成聯盟來促進,尤其是在教育和醫療等專用領域上,能為身處偏遠地區且教育資源有限的少數民族群體提供更理想的服務。

AI 科技評論:目前在「低資源語言」研究這塊做得比較好的團隊有哪些?

趙小兵:高校上來說,清華的蘇茂松老師和劉洋老師在做少數民族語言的機器翻譯,從他們這裡走出了大量的少數民族語言信息化人才;北大有計算語言學研究所的俞士汶老師等,特別是蒙藏維等語言跟隨俞老師的漢語語法信息詞典而建構的民族語言語法信息詞典,為少數民族語言未來的信息化工作奠定了基礎;中科院自動化所的宗成慶老師,在他承擔的機器翻譯項目中,涉及蒙藏維吾等少數民族語言,一些地方民族院校的學生也跟著他在做機器翻譯軟體;東北大學有朱靖波老師與民族翻譯局合作,開發針對小語種的「小牛翻譯」,得益於民族翻譯局常年積累的文本優勢,讓他們在語料訓練上佔有一定優勢。

國內少數民族語言信息處理技術最初的帶頭人包括維吾爾文的吾守爾院士、吐爾根教授、玉素甫教授,蒙古文的嘎日迪、敖其爾教授、確精扎布教授,藏文的趙晨星教授、於洪志教授、江迪研究員、歐珠教授、尼瑪扎西教授、才讓加教授,哈薩克文的古麗拉教授、彝文的沙馬拉毅教授等前輩。今天在少數民族語言文字信息處理的應用成果是他們辛勤耕耘的結果,而活躍在今天國內民族信息技術領域的人才隊伍也大都來自於這些前輩所在的單位和機構,他們為國內少數民族語言智能信息技術的發展做出了重大貢獻,應該被歷史記憶!

另外,少數民族語言信息處理技術的發展一直以來得到中國中文信息學會的重視與大力扶持,學會在 1980 年成立了民族語言文字信息處理專委會,組織國內民族語言信息處理的學術交流,推動了民族領域人才培養和技術發展。

這些是我目前所了解到的,不一定能夠百分之百準確概括學界的情況。

AI 科技評論:目前哪個少數民族語言的信息化程度是最高的?

趙小兵:蒙、藏、維這三種少數民族語言的信息化程度基本上是同步的,主要有兩個原因:一個是這幾種語言的信息化工作得到了國家發改委的大力支持,這三種語言相繼得到國家發改委、信息產業部等上億元的專項投入,另外還獲得了國家自然科學基金項目、科技部專項課題等的持續支持;一個是這幾種少數民族語言的發展歷史相對較長,因此科研隊伍也相應比較成熟。即便如此,這裡還是要強調一點,既懂少數民族語言又懂信息處理的人才依然是非常稀缺的。

AI 科技評論:少數民族語言的信息化產品在具體落地時面臨了哪些挑戰?

趙小兵:目前承擔人工智慧/自然語言處理國家課題的主要還是以科研院校為主,而科研院校的成果更多還是通過論文發表等形式呈現。隨著近幾年國家對科研成果轉化的引導,科研院校開始有意識和企業做聯動,推動技術轉化、產學研結合,然而目前依然存在一些障礙:其一,科研院校需要調整傳統延續下來的做事模式,這種認知與習慣上的轉變不是一件那麼容易的事情。其二、雖然國家針對科研院校制定了引導政策,卻缺乏相應的約束機制,科研院校對人才成果的評價及工作量的核定,需要更加多元化。

此外,少數民族語言的受眾少,在應用的落地上需要獲得更多來自國家政策的支持。比如青海玉樹那次大地震,當地明顯存在語言交流的問題,類似預警系統的建設需要國家的大力投入,不能只靠產品受眾的購買力來推動這件事情。

在選題申報上,國家應該將項目課題分成兩類,一類是追求技術領先的,一類是針對民用的,不能僅僅因為技術上的優勢而將所有項目給到同一類型的申報者。目前民用相關的課題在高校中普遍不被認可,導致高校老師在申報這類型項目的積極性上普遍不高,更別說轉化了。

AI 科技評論:怎麼理解「約束機制」的缺乏?

趙小兵:目前高校老師的主體任務還是教學,在保證教學質量的前提下,可以進一步選擇產出科研成果,包括論文、出書、專利等,至於這些成果有多少轉化,產生多大的經濟效益,都不做硬性要求,技術轉化成了可選可不選的 B 項。我們知道技術轉化工作需要很大的投入,研發的東西在到達用戶手上以前實際上只完成了 30% 的工作量,然而人的精力畢竟有限,如果沒有配套的激勵政策,高校老師不會主動去做這件事情。

AI 科技評論:在未來的 3—5 年裡,您認為少數民族語言信息化工作會在哪些地方有所突破?

趙小兵:首先,做研究還是要與國家的整體規劃保持步伐一致。涉及到少數民族這一塊的話,第一點是要打通語言這一關,尤其是一帶一路沿線國家的語言關,由於翻譯非常依賴語言模型和語料庫建設,這一點因而顯得尤其重要。此外,不能只把眼光局限在境內,要考慮到許多境內的少數民族語言和周邊國家的官方語言其實屬於同一種語言,要基於這一點進行頂層統籌布局。

第二點,要意識到許多少數民族群眾如今早已不是「面朝黃土背朝天」的生活狀態,而是從傳統的生活區域範圍逐漸向城市遷移,在走出去的過程中,他們特別需要來自知識層面的支持,只是這些推送服務他們要從哪裡獲取?典型的比如說搜索引擎、門戶網站等工具服務的建設。

第三點,少數民族語言信息化還涉及到家安全層面,我們依然需要通過輿情分析技術來了解民心民意。

如果說突破的話,我想會體現在這幾個方面。

閱讀原文
喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |