當前位置:
首頁 > 最新 > 蘋果最新博文劍指漢字手寫識別!專家回應:並沒有技術含量

蘋果最新博文劍指漢字手寫識別!專家回應:並沒有技術含量

參與 鴿子,Shawn

今日,蘋果再次更新其博客,這次的內容主打手寫識別,而且是對漢字的手寫識別。是不是挺好奇的,先來看看這篇論文的簡介:

對由30000字元構成的大型漢字字元庫進行實時手寫漢字識別

隨著智能手機、平板電腦和可穿戴設備(如智能手錶)的普及,手寫識別技術變得愈發重要。但是如果想在這些移動設備上實現漢字手寫識別,就必須解決一些特有的問題,因為漢字識別需要有巨大的符號資料庫。本論文闡述了我們如何解決這些問題,在iPhone、iPad和Apple Watch(手寫模式)上實現了手寫漢字的實時識別。我們的識別系統基於深度學習,最多可準確識別30000漢字。為了實現令人滿意的準確度,我們在數據收集條件、手寫體表徵和訓練方法上花了很大工夫。我們發現,只要方法正確,系統甚至可以準確識別更大的漢字資料庫。我們的試驗證明,只要使用的訓練數據足夠好且足夠多,當漢字資料庫越來越大時,系統的準確度只會緩慢降低。

引言

手寫識別可以增強移動服務的用戶體驗,尤其是漢字輸入的用戶體驗,因為漢字輸入法相對而言較為複雜。而且漢字手寫識別又獨具挑戰,因為潛在漢字資料庫十分龐大。使用字母單詞寫成的文字通常只會用到大約100個字元,但是中國國家標準GB18030-2005中的漢字字符集共包含27533個字元,而且現在整個大中華區還在使用很多新增的意符(logographic)文字。

為了能在計算機上輸入漢字,我們通常只一定數量的漢字,這些漢字被認為是我們日常生活中最常使用的漢字。因此,標準的GB2312-80字符集只包含6763個字元(1級字符集包含3755字字元,2級字符集包含3008個字元)。中國科學院自動化研究所(CASIA)資料庫中緊密排列的字符集共包含7356個字元[6],SCUT-COUCH資料庫所涵蓋的漢字字元數和它差不多[8]。

早期的識別演算法主要依賴於基於單筆劃分析的結構方法,後來人們認識到必須實現比劃順序的獨立性,因此他們將目光投向了利用漢字整體形狀信息的統計學方法[5]。但是如果使用這種方法,大型漢字資料庫的識別顯然會更加複雜,因為需要對大量的類別進行消除歧義,這樣正確分類字元就會變得更加困難[3]。

在拉丁文識別任務(例如MNIST數據集[4])中,卷積神經網路(CNN)很早就被作為解決方案。由於擁有充足的訓練數據,而且必要時還可以用合成樣本作為增補,CNN可以得出非常有效的結果[1],[10]。但是,這些研究中的類別數量卻很少(10種)。

不久前,我們開始研究大型漢字數據集的識別,當時使用CNN是我們的首選方法。但是這種方法要求將CNN縮放到一個大約由30000漢字構成的數據集,同時還要在嵌入式設備上維持實時性能。本論文主要研究的是如何滿足準確度、漢字覆蓋面和對手寫字體的魯棒性的要求。

(完成博客請見:https://machinelearning.apple.com/2017/09/12/handwriting.html)

這篇論文到底價值如何?有何精華,有何不足?

AI科技大本營在第一時間聯繫到在漢字的離線識別領域中非常領先的富士通研究中心的資深研究員,算得上是這個領域的佼佼者,請他們對蘋果剛剛發布的論文略作評析,同時也對手寫識別領域作簡要分析。

以下為AI科技大本營根據其觀點,以其第一人稱總結梳理如下:

文章主要討論了兩件事:

一是把目前漢字識別的類別數擴大之後,如何控制模型的大小和計算量;二是再擴大之後,會遇到更多的混淆字的問題。

蘋果在收集自己的資料庫時候,發現中國人對同一個字的寫法有很多種,這樣導致傳統的結構識別法在很多情況下不能用,比如筆順不固定這種情況。

就這兩件事情而言,並無太多價值含量。因為通篇只是討論,並沒給出相應的解決辦法。

當然,這是蘋果公司一直以來的傳統,不公布任何技術。

需要注意的是,這篇文章主要關注在線手寫識別,也就是帶有時序信息,主要應用範圍為手機平板這類電子設備。

就漢字在線識別來看,華南理工大學金連文教授算得上最為領先,他與搜狗合作推出的在線漢字手寫識別準確率非常高,這一點應該走在蘋果前面。

除了在線手寫識別外,還有一種是離線手寫識別。

就離線手寫識別而言,中科院劉成林研究團隊,以及富士通研究中心在這一塊的研究是最為靠前的。目前,離線識別的應用更廣,在線識別則相對窄一些。

如果是英語手寫識別,德國的DFKI(德國人工智慧中心,相當中國中科院)的研究在全球則最為領先。

你怎麼看蘋果此次發布的這篇博文呢?歡迎在評論區說出你的觀點。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

老黃啊,特斯拉背著你找AMD了,咱可不能給他降價
北京約談比特幣交易平台 今日頭條引入AI技術大牛
勞斯萊斯正打造無人駕駛船舶,海運行業山雨欲來?
名校排行榜:上海交大位居內地CS排名第一,清華包攬AI綜合實力及畢業生競爭力第一
厲害了!周志華教授當選歐洲科學院外籍院士

TAG:AI科技大本營 |