當前位置:
首頁 > 最新 > 超好玩:谷歌大腦研究員用神經網路造了這些腦洞大開的「漢字」

超好玩:谷歌大腦研究員用神經網路造了這些腦洞大開的「漢字」

小鹿創萌

聚焦「雲物大智」,提供前沿科技報道。

近年來,各國人民對學習中文這件事,熱情是一路高漲。2017 年的一份全美調查顯示:中文受歡迎程度,已經躍居美國教育系統中外語第四名,僅落後西班牙語、法語和德語。不少和我們年齡相仿的老外,都在中學時期被告知 「中文是未來的語言」。

而中文學習中,漢字的讀寫可以說是最難的部分之一了。我們從小看著漢字、寫著漢字長大,已經忘記了漢字本身是一件多麼困難的事情。

雖說漢字基本的筆畫就只有點橫撇捺等幾種,但是,中國文字從甲骨文、金文、篆書、隸書一路走來,不同程度存在難寫難認的缺陷。就算只是一個「點」,在不同的字裡面,這個點的大小和方向也是各不相同。因此,對於漢字設計師來說,可是要了老命。

設計一款漢字字體,是一個漫長艱苦而又令人沉迷的過程。

言字旁在不同的文字中擁有不同的大小和方向

一位經驗豐富的設計師可以在6個月的時間裡設計一種涵蓋幾十種西方語言的新字體。但是,對於單個中文字體,至少需要一個好幾人的設計師團隊兩年以上的時間。這也是為什麼相比五花八門的英文和阿拉伯數字字體,漢字的字體那麼少的一個原因。

有沒有什麼好的方法能夠解決這個問題?

谷歌大腦東京分部的研究人員hardmaru開發出了一款漢子生成器Demo——Kanji-RNN,它的原理是使用神經網路生成漢字。只要在頁面上寫幾筆,神經網路會根據你寫出來的部分,補完一個「漢字」。不過,由於提供給神經網路的數據是「筆畫」,因此生成的多半是一些理論上可以存在,但現實中並沒有在使用的「假」漢字。

或許你會有疑問,造一些這樣的字,有什麼用?但仔細看就能發現作者這樣做在理論和實際應用上的意義。

漢字的系統本質上是開放的。使用偏旁部首、筆畫等元素,可以製作出無數個不同的字元。雖然代碼目前還不能很準確地定位筆畫的位置,但hardmaru實驗中的一些結果,看起來非常像真實存在的漢字。

在一篇介紹Kanji-RNN項目的博客中,hardmaru表示,他從小也被父母硬逼著去學漢字,雖然他周圍的人大多說英語。老師教他寫漢字的過程就是抄寫聽寫抄寫聽寫的不斷循環,就好像LSTM根據訓練樣本輸出序列結果一樣。

另一方面,他也注意到,「寫」漢字和「讀」漢字是兩個非常不同的過程。你認識一個字(能夠閱讀或者發出讀音),但不一定寫得出來;但是,如果你能寫出一個漢字,你一定知道它的發音。現在,人們越來越多的依賴基於發音的輸入法來「寫」漢字,當真正提筆寫字的時候,常常會出現忘記怎麼寫的情況。

GIF

在一定程度上,機器學習的過程也一樣,最初都是從簡單的分類問題開始:判斷輸入的圖像是貓還是狗,交易是真實的還是是欺詐……這些任務非常有用。但是,hardmaru認為,更有趣的任務是生成數據,在hardmaru看來,生成數據是數據分類的延伸和擴展。相比能夠認出某個漢字,能夠把這個漢字寫出來表明我們對這個漢字有更多的理解。同理,生成內容也是理解內容的關鍵。

這是已有的一些有趣的結果,hardmaru還為這些還不存在的漢字做了「注釋」,還真像那麼回事兒:

還有一些不知道怎麼描述的結果:

對於那些嚮往神秘東方的外國朋友來說,Kanji-RNN的魅力不言而喻,在Reddit、HackerNews等論壇上都大受歡迎。

未來隨著中國國力穩居第二逼近第一,中文學習一定會逐漸輻射到更多的國家和地區,外國人對於基於中文的一系列教育和服務項目需求,也會日益增長。其背後的創業機會,也是一座待挖掘的寶藏。

是不是很想玩一下試試?

傳送門在此:http://otoro.net/kanji-rnn/

素材來源:量子位

編審:小鹿君


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 微軟南京孵化器 的精彩文章:

微軟將數據中心沉入海底:當今伺服器界我主「沉浮」
特斯拉裁員9%,馬斯克內部信曝光

TAG:微軟南京孵化器 |