破解人類識別文字之謎，對圖像中的字母進行無監督學習

知識 08-22

研究通過從自然圖像中對字母進行無監督學習，探討了人類是如何獲得文字識別能力的。

新智元編譯

作者：Alberto Testolin,Ivilin Stoianov & Marco Zorzi

編譯：熊笑

【新智元導讀】Nature 子刊 Nature Human Behavior 上最新發表了一篇關於人類行為的研究，通過對自然圖像中的字母進行無監督學習，探討了人類是如何獲得文字識別能力的。研究人員提出了一個基於深度神經網路的大規模字母識別計算模型，通過將概率生成模型與視覺輸入擬合，以完全無監督的方式開發了複雜的內部表徵的層次結構。

書寫符號的使用是人類文化發展的重大成就。然而，抽象的字母表徵是如何在視覺中進行學習的，這仍然是未解決的問題。昨天發表在 Nature.com 上的一篇題為 Letter perception emerges from unsupervised deep learning and recycling of natural image features 的研究報告中，研究人員提出了一個基於深度神經網路的大規模的字母識別計算模型，通過將概率生成模型與視覺輸入擬合，以完全無監督的方式開發了更為複雜的內部表徵的層次結構。

有這樣一個假設，學習書寫符號部分地重新使用了用於對象識別的預先存在的神經元迴路，模型的早期處理階段利用了從自然圖像中學習的一般領域（domain-general）的視覺特徵，而特定領域（domain-specific）的特徵則出現在曝光於印刷字母前的上游神經元中。研究論證，即使對於雜訊降級（noise-degraded）的圖像，這些高級別表徵可以很容易地映射到字母識別，從而產生和人類觀察者類似的對於字母認知的廣泛實證結果的準確模擬。研究者的模型顯示出，通過重用自然的視覺原語（primitives），學習書寫符號只需要有限的、特定領域的調整，這支持了字母形狀被文化選擇以匹配自然環境的統計結構的假設。

圖 1a 刻畫了研究者提出的模型的整體架構。網路底層接收了作為圖像像素灰度級別激活編碼的感知信號。出現在視網膜和丘腦中的低級別視覺處理被一個啟發自生物學的 whitening 演算法所模擬，捕捉到了圖像中的局部空間關係，成為了對比歸一化（contrast normalization）的一個步驟。

圖1 是深度學習架構和自然圖像及印刷字母數據樣本。a，深度學習架構。每個框代表了網路中的一層神經元。和 whitening 步驟相應的有方向的箭頭引出了前饋的處理過程，而無方向的連接顯示了無監督生成學習所利用的雙向處理過程。和線性讀數層相應的有方向的箭頭引出了監督學習。在字母處理過程中涉及到的相應大腦網路顯示在右側（LGN, 背外側膝狀體核; V1, 首要視覺皮層; V2, 二級視覺皮層; V4, 紋狀體外視覺皮層；OTS, 顳枕溝）；b,包含多個小 patch （40 × 40 pixels）的自然圖像，顯示在右側；c,研究者的數據集中印刷字母的樣本，使用多種字體、風格、大小和位置關係創造而成。

研究人員將編碼在第一個內部層（隱式）神經元的潛在特徵集稱為H1, H1 模仿了出現在早期大腦皮層視覺（corticalvision ，在 V1 和 V2 中）的處理類型。

圖2 是新出現的神經元感受野（receptive fields）、表徵選擇和模型中字母識別準確度。a,在 H1 層中神經元樣本的感受野，灰度體現其連接強度（黑色：強，inhibitory connection；白色：強，excitatory connection）；b,H2 層中隱式神經元樣本的感受野；c 和 d，H1 層（c）和H2層（d）中對於不同刺激的平均反饋（activation norm）；e, 作為雜訊級別函數（即, 高斯雜訊的標準偏差）的不同表徵層讀數的準確度；f，無雜訊刺激樣本，及含雜訊的對應版本，性能表現約為前者的 50%。

圖3 是人類心理物理學研究的模擬。 a，模型混淆矩陣和各種經驗混淆矩陣之間的Pearson 相關性（均P

圖4 是感知渠道中介字母識別的空間頻率分析。 a，b，疊加在高斯雜訊（均方根對比度= 0.2）和背景（亮度= 0.2）上的低通（a）和高通（b）濾波字母的樣本； c，根據濾波器類型的H2讀數敏感度對比函數，每個字母的頻率範圍從 0.8 到 6.6（兩個軸均為對數）。注意，與對應於低通和高通雜訊的曲線相比，對應於低通濾波和高通濾波的曲線相反，因為研究者直接對輸入信號而不是調製雜訊進行濾波。

論文 doi:10.1038/s41562-017-0186-2

【號外】新智元正在進行新一輪招聘，飛往智能宇宙的最美飛船，還有N個座位

點擊閱讀原文可查看職位詳情，期待你的加入~

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「微軟語音識別新突破，錯誤率降至5.1%」黃學東：新的行業里程碑
※「AI博士五星指南」入行自评，选大公司还是初创企业（万字长文）
※AI博士五星指南：入行自評，選大公司還是初創企業
※黃學東：微軟語音識別新突破，錯誤率降至5.1％
※MXNet 0.11發布，加入動態圖介面Gluon，還有兩位CMU教授的親筆教程

TAG:新智元 |

您可能感興趣

※服了！古人對詩詞這樣進行鍊字
※如何對非結構化文本數據進行特徵工程操作？這裡有妙招！
※遠古文明是人類文明的死循環？科學家：不同等級文明難以進行循環
※無處不在的攝像頭侵犯隱私，他用這組照片進行「抗議」
※怪物獵人世界無法與好友進行語音怎麼辦？
※八字命例分析：如何進行八字算命
※人工智慧如何識別人類情緒？通過皮膚導電率進行「量化」
※靈魂真的存在嗎？人類不斷對它進行探索，可還是無法證明！
※如何使用U盾進行數字簽名？
※通過八字對性格進行分析——命主實例分析
※如果孩子向你提出這類問題，別忽視，說明該進行性別意識的培養了
※訓練要有目標設定，可別漫無目的進行哦！
※畫面精美，以主角視角進行探索解謎！
※不同種類的狗差異之大，我們再也無法將它們的特性進行統一的描述
※一種基於原子模型對結構密度圖進行後處理的電鏡圖像恢復演算法
※如何對「看臉的世界」進行生物學解釋？
※八字中的桃花劫有多厲害如何進行化解
※微軟呼籲政府對人臉識別技術進行監管
※教師在傳授知識的同時，要有意識地進行科學方法教育，誘導學生逐步掌握物理研究的方法
※未來人類的走向，不同文明等級可否進行循環，科學家說根本沒有條件