當前位置:
首頁 > 最新 > 遞歸皮層網路RCN識別文本CAPTCHAS的Science論文基礎知識和譯文

遞歸皮層網路RCN識別文本CAPTCHAS的Science論文基礎知識和譯文

數據簡化DataSimp導讀:矽谷初創公司Vicarious AI的Science論文《高數據效率訓練的和文本CAPTCHAs (CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自動區分計算機和人類的圖靈測試)斷字的生成視覺模型(A generative vision model thattrains with high data efficiency and breaks text-based CAPTCHAs)》:論文背景基礎知識、VicariousAI初創公司簡介、論文譯文概述及相關程序等。如有錯誤或疏漏(包括原文錯誤)等,請聯繫DataSimp@126.com溝通、指正,文末有作者微信、實名制群聯繫方式,歡迎留言、轉發。

概率生成模型PGM遞歸皮層網路RCN識別文本CAPTCHAS的Science論文(35530字)

目錄

A論文背景基礎知識和公司簡介(7515字)

A.1論文相關背景基礎知識

A.2矽谷初創公司VicariousAI簡介

B遞歸皮層網路RCN識別文本CAPTCHAs的Science論文翻譯(14372字)

B.1遞歸皮質網路Recursivecortical network

B.2表徵Representation

B.3推理Inference

B.4學習Learning

B.5結論Results

B.6討論Discussion

B.7方法總結Methodssummary

B.8參考文獻和筆記REFERENCESAND NOTES

參考文獻(1068字)Appx(626字).數據簡化DataSimp社區簡介

學術期刊《Science(科學)》2017年10月26日刊發矽谷知名人工智慧創業公司Vicarious AI(間接替代人工智慧)的一項最新研究論文《A generative vision model that trains with high data efficiency andbreaks text-based CAPTCHAs》。作者在論文中提出了一個不同於深度學習的模型——遞歸皮質網路(Recursive Cortical Network),突破了基於文本的全自動區分計算機和人類的圖靈測試CAPTCHA。和主流的深度學習演算法相比,Vicarious AI的遞歸皮質網路在場景文字識別中體現了300倍的訓練數據使用效率。該項研究通過提出一種新型生成式組成模型(generative compositional model):遞歸皮層網路Recursive Cortical Network(RCN),使用小樣本學習,在CAPTCHA上獲得突破性成果。RCN的成功表明,在推動人工智慧發展的道路上,生成式組成模型(GenerativeCompositional Model),特別是上下文相關概率語法圖模型(Context CorrelationProbability Grammar Graph model)和自底向上(bottom-up)/自頂向下(top-down)聯合推理演算法(Reasoning Algorithm),取得了一個重要的階段性成果。

Vicarious AI(間接替代人工智慧)公司的聯合創始人George認為CAPTCHA是一個「完全AI問題」。如果完全地解決了這種類型的問題,那就得到了通用人工智慧。為了能徹底識別CAPTCHA,模型必須能識別任何文本。不只是驗證碼,即使有人在紙上隨便寫什麼形式的字體(就像PPT里的藝術字一樣),模型也需要識別出來。想要研究CAPTCHA的科學家不止George團隊,很多科學家都意識到識別CAPTCHA的重要性。麻省理工大學的認知科學教授Josh Tenenbaum同樣在使用生成概率模型解決CAPTCHA問題。而Vicarious AI的解決方法和其他研究最大的區別是——將腦科學的研究成果應用到生成模型中。

註:早在2013年,Vicarious AI公布結果時引發AI界業內熱議,有褒有貶。當時該公司沒有拿出有效的研究方法,成為很多A.I.科學家口誅筆伐的主要理由,其中包括Yann LeCun。他在2013年對Vicarious AI進行了激烈抨擊,並用「這是最糟糕的教科書式AI炒作案例(It is a text example of AI hype of theworst kind)」來譴責Vicarious AI。畢竟弄虛作假、騙取投資、賺眼球的「偽AI」太多了。


論文背景基礎知識和公司簡介

文|秦隴紀,2018-06-23Sat綜合彙編

A.1論文相關背景基礎知識

矽谷初創公司Vicarious AI發表Science論文「Agenerative vision model that trains with high data efficiency and breakstext-based CAPTCHAs」相關的背景基礎知識:人工智慧(Artificial Intelligence/AI)、推理系統/演算法(Reasoning System/Algorithm)、計算機視覺(Computer Vision)、CAPTCHA(CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自動區分計算機和人類的圖靈測試)、機器學習(Machine Learning/ML)、神經網路(Neural Network)、卷積神經網路(Convolutional NeuralNetwork/CNN)、小樣本學習(Small Sample Learning)、生成模型(Generative Model)、概率圖模型(Probabilistic GraphicalModels/PGMs)/概率生成模型(Probabilistic GenerativeModels/PGM)、生成式組成模型(Generative Compositional Model)、遞歸皮層網路(Recursive Cortical Network/RCN)、腦科學(BrainScience)、大腦皮層(Cerebral Cortex)、橫向連接(lateral connections)等基礎概念。

A.1.1 AI相關背景基礎知識(Basicknowledge of AI relevant background)

人工智慧(ArtificialIntelligence/AI)

1956年夏季,以麥卡賽、明斯基、羅切斯特和申農等為首的一批有遠見卓識的年輕科學家在一起聚會,共同研究和探討用機器模擬智能的一系列有關問題,並首次提出了「人工智慧」這一術語,它標誌著「人工智慧」這門新興學科的正式誕生。尼爾遜教授對人工智慧下了這樣一個定義:「人工智慧是關於知識的學科――怎樣表示知識以及怎樣獲得知識並使用知識的科學。」美國麻省理工學院溫斯頓教授認為:「人工智慧就是研究如何使計算機去做過去只有人才能做的智能工作。」這些說法反映了人工智慧學科的基本思想和基本內容。即人工智慧是研究人類智能活動的規律,構造具有一定智能的人工系統,研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應用計算機的軟硬體來模擬人類某些智能行為的基本理論、方法和技術。

https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/9180

推理系統/演算法(Reasoning System/Algorithm)

推理系統reasoning systems是一種利用推理deduction和歸納induction等邏輯技術logical techniques,從可用知識available knowledge中產生結論conclusions的軟體系統。推理系統在人工智慧artificial intelligence和基於知識的系統knowledge-based systems的實現中起著重要的作用。所有計算機系統都是推理系統,因為它們都自動化了某種類型的邏輯logic或決策decision。在信息技術領域的典型應用typical use中,通常執行更為複雜的推理的系統,不適合做相當簡單的推理類型fairlystraightforward types of reasoning,例如計算銷售稅sales tax客戶折扣customer discount,但適合對醫學診斷medical diagnosis或數學定理mathematical theorem進行邏輯推斷logical inferences。

推理系統分為兩種模式:互動式interactive批處理batch processing。互動式系統界面interactivesystems interface允許用戶要求澄清問題clarifying questions,或用戶以其他方式指導推理過程guide the reasoning process。推理系統reasoningsystems具有廣泛的應用領域,包括:調度scheduling、業務規則處理business rule processing、問題解決problem solving、複雜事件處理complex event processing、入侵檢測intrusiondetection、預測分析predictive analytics、機器人技術robotics、計算機視覺computer vision和自然語言處理natural language processing。還有其他邏輯用處Useof logic,以及不確定性下的推理Reasoning under uncertainty。常見的推理系統類型Types of reasoningsystem:1約束求解Constraint solvers,2定理證明器Theorem provers,3邏輯程序Logic programs,4規則引擎Rule engines,5演繹分類器Deductiveclassifier,6機器學習系統Machinelearning systems,7案例推理系統Case-basedreasoning systems,8程序推理系統Proceduralreasoning systems。推理系統相應的、用到的演算法,就是推理演算法。

https://en.wikipedia.org/wiki/Reasoning_system

計算機視覺(ComputerVision)

計算機視覺是使用計算機及相關設備對生物視覺的一種模擬,主要任務是通過對採集的圖片或視頻進行處理以獲得相應場景的三維信息,就像人類和許多其他類生物每天所做的那樣。計算機視覺是一門關於如何運用照相機和計算機來獲取我們所需的,被拍攝對象的數據與信息的學問。形象地說,就是給計算機安裝上眼睛(照相機)和大腦(演算法),讓計算機能夠感知環境。頂級會議有①ICCV:International Conference on ComputerVision,國際計算機視覺大會;②CVPR:InternationalConference on Computer Vision and Pattern Recognition,國際計算機視覺與模式識別大會;③ECCV:European Conference on Computer Vision,歐洲計算機視覺大會。

https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89

CAPTCHA(CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自動區分計算機和人類的圖靈測試)

CAPTCHA項目是Completely Automated Public Turing Test to Tell Computers and HumansApart(全自動區分計算機和人類的圖靈測試)的簡稱,卡內基梅隆大學試圖將其註冊為商標,但2008年請求被駁回。CAPTCHA的目的是區分計算機和人類的一種程序演算法,是一種區分用戶是計算機和人的計算程序,這種程序必須能生成並評價人類能很容易通過但計算機卻通不過的測試。CAPTCHA的安全性與SPAM數量息息相關,一直以來,是此消彼長。遊戲規則:Captcha方公布一系列的圖片,破譯Captcha的一方提供程序能夠分析這些圖片中的內容,如果破譯方提供的應用程序能夠以高於10%的識別率識別出圖片內容,則判定破譯方獲勝。獲勝方將得到BEA UG禮品一份!

https://baike.baidu.com/item/Captcha/9630117

文本CAPTCHA,也就是驗證碼,是用來防止機器人惡意登錄網站的網路安全軟體。人類是很容易識別出CATPCHA中形狀怪異的文字,但對機器而言CAPTCHA則是看不懂的鬼畫符,所以這也被視為是一種圖靈測試。在2013年,VicariousAI就聲稱已經攻克CAPTCHA,但公司直到2017年10月26日才發表了論文。其中一個主要原因是,當時CAPTCHA還在被廣泛使用,VicariousAI擔心發表論文會引發不小的網路安全問題。現在,依舊使用CAPTCHA作為驗證手段的公司已經不多了,正是發表論文的好時機。

機器學習(MachineLearning/ML)

機器學習(Machine Learning/ML)專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科;是人工智慧的核心,是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。

https://baike.baidu.com/item/機器學習/217599

神經網路(NeuralNetwork)

神經網路分為兩種,一種叫做有導師學習,一種叫做無導師學習。有導師學習是感知器的學習規則;而無導師學習是認知器的學習規則。典型的有導師學習網路有BP網路,Hopfield網路;而典型的無導師學習網路有ART網路,Kohonen網路。所謂的「導師」,是指的「導師信號」,也就是學習過程中的監督信號,是在神經網路學習中由外部提供的模式樣本信號。

及時澍雨Timely,https://blog.csdn.net/ws_20100/article/details/48929383,2015-10-06.

神經網路歷史:①1943年,心理學家W.Mcculloch和數理邏輯學家W. Pitts根據生物神經元功能和結構,提出M-P神經元模型。1957年,Rosenblatt提出感知機MLP模型。Rosenblatt, Frank.x.Principlesof Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. SpartanBooks, Washington DC, 1961.②1981年,Kohonen提出了自組織映射(SOM)網路。T. Kohonen,Self-organizedformationof topologically correct feature maps,Biological Cybernetics. 1982.43: 59-69.③1982年,Hopfield提出Hopfield網路,用於聯想記憶和優化。John J. Hopfield,Neural networks andphysical systems withemergent collective computational abilities,Proc. Natl. Acad. Sci.USA, vol.79 no. 8,pp. 2554–2558, April 1982.④1986年,Rumelhart和McCelland等提出了誤差反向傳播(BP)演算法,用於多層前饋神經網路的優化。迄今為止應用最廣的神經網路學習演算法。Rumelhart, David E.; Hinton, GeoffreyE.; Williams, Ronald J. (8 October 1986).Learning representations by back-propagatingerrors. Nature 323 (6088): 533–536.

卷積神經網路(ConvolutionalNeural Network/CNN)

卷積神經網路(Convolutional NeuralNetwork,CNN)是一種前饋神經網路,其人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型圖像處理有出色表現。它包括卷積層(convolutional layer)和池化層(pooling layer)。https://baike.baidu.com/item/卷積神經網路/17541100

在機器學習machine learning中,卷積神經網路(convolutional neural network,CNN或ConvNet)是一類深度的、前饋的人工神經網路feed-forward artificial neural networks,常用於分析視覺圖像analyzing visual imagery。CNNs使用的是為某種需要設計的最小預處理minimal preprocessing的多層感知器multilayer perceptrons的變體variation。[1]他們也被稱為移位不變shift invariant或空間不變性人工神經網路space invariant artificial neural networks(SIANN),基於它們的共享權重體系結構shared-weights architecture翻譯不變性特徵translationinvariance characteristics。[2][3] 卷積網路由生物過程biological processes啟發[4],由於連通性模式connectivity pattern神經元neurons之間類似動物視覺皮層animal visual cortex的組織。單個皮質神經元cortical neurons只在被稱為接受領域receptive field的視覺領域visual field的禁區restricted region內對刺激反應。不同神經元的接受域receptivefields部分重疊,從而覆蓋整個視覺場。與其他圖像分類演算法image classification algorithms相比,CNNs使用的預處理pre-processing相對較少。這意味著網路學會了手工設計hand-engineered的傳統演算法中的過濾器filters。這種獨立於先驗知識prior knowledge和人類努力human effort的特徵設計feature design是一個主要的優勢。它們在圖像image和視頻識別video recognition、推薦系統recommender systems[5]和自然語言處理natural language processing方面都有應用。[6]

https://en.wikipedia.org/wiki/Convolutional_neural_network

小樣本學習(SmallSample Learning)

在互聯網,我們主要用large-scale方法處理數據,但真實情況下,大部分類別我們沒有數據積累,large-scale方法不完全適用。所以我們希望在學習了一定類別的大量數據後,對於新的類別,我們只需要少量的樣本就能快速學習。one-shotlearning,也可以稱為few-shot learning或low-shot learning領域。One-shot learning的研究主要分為如下幾類:第一類方法是直接基於有監督學習的方法,這是指沒有其他的數據源,不將其作為一個遷移學習的問題看待,只利用這些小樣本,在現有信息上訓練模型,然後做分類;第二個是基於遷移學習的方法,是指有其他數據源時,利用這些輔助數據集去做遷移學習。這是我今年一篇綜述里提到的模型分類。

復旦大學付彥偉教授介紹中小樣本學習領域研究進展http://www.elecfans.com/d/695496.html

生成模型(GenerativeModel)

監督學習又可以分為兩類,判別模型Discriminative model和生成模型generative model,前面提到的SVM和邏輯回歸都屬於判別模型的一種。https://blog.csdn.net/Fishmemory/article/details/51711114

生成模型(generative models)又叫產生式模型,是機器學習(machinelearning)中監督學習技術(supervisedlearning techniques)的一個分支。生成模型估計的是聯合概率分布(joint probability distribution),p(class,context)=p(class|context)*p(context)。為了訓練一個生成模型要先在某些領域收集大量的數據(例如數以百萬計的圖像、句子或聲音等),然後訓練一個模型來生成像它這樣的數據。

https://blog.openai.com/generative-models/

概率圖模型(ProbabilisticGraphical Models/PGMs)/概率生成模型(Probabilistic GenerativeModels/PGM)

概率圖形模型(Probabilistic graphicalmodels/PGMs)是在複雜域complexdomains上編碼概率分布encodingprobability distributions的豐富框架: 在大量隨機變數random variables之間相互作用的聯合(多元multivariate)分布。這些表述是在統計學statistics和計算機科學computer science的交叉點上,依賴於概率論probability theory、圖形演算法graph algorithms、機器學習machine learning等概念。它們是在各種應用中最先進的方法state-of-the-art methods的基礎,如醫學診斷medical diagnosis,圖像理解image understanding,語音識別speech recognition,自然語言處理natural language processing以及更多領域。它們也是制定許多機器學習問題formulating many machine learning problems的基礎工具。本課程描述了兩個基本PGM表示:貝葉斯網路Bayesian Networks(依賴於有向圖directed graph);和馬爾可夫網路Markov networks(使用無向圖undirected graph)。本課程討論這些表述的理論性質theoreticalproperties以及在實踐中的應用。

https://www.coursera.org/learn/probabilistic-graphical-models#%20

生成式組成模型(GenerativeCompositional Model)

從快速一瞥或物體object接觸,我們的大腦將感官信號sensory signals映射到由豐富細緻的形狀和表面rich anddetailed shapes and surfaces組成的場景scenes。與對感知的標準模式認知方法standard pattern recognition approaches to perception不同,我們認為這種映射mapping吸取了外部物理世界outside physical world的內部因果和組合模型internal causal and compositionalmodels, 而這種內部模型internalmodels是人類感知的泛化能力generalization capacity of humanperception的基礎。在這裡,我們提出一個視覺和多重知覺的生成模型generative model ofvisual and multisensory perception, 其中對象潛在變數編碼的內在屬性latentvariables encode intrinsic properties of objects, 如其形狀shapes和表面surfaces, 除了其外在性質extrinsic properties,如姿態pose和遮擋occlusion。這些潛在的變數latent variables可以以新穎的方式組成,並且是對感官特定的因果模型sensory-specificcausal models的輸入,輸出特定感知信號sense-specific signals。我們提出了一個新的認知網路recognition network,在生成模型generative model中執行有效推理efficient inference,計算速度speed類似於在線感知online perception。我們展示了我們的模型,但不是一個替代的基線模型alternativebaseline model或我們模型的損害lesion of our model, 可以說明人的表現human performance在一個閉塞的面孔匹配任務occluded facematching task和在一個跨模態視覺到觸覺的面對面匹配任務cross-modalvisual-to-haptic face matching task。

遞歸皮層網路(RecursiveCortical Network/RCN)

遞歸皮層網路,Recursive Cortical Network縮寫RCN,是根據實驗神經科學設計的機器學習模型。

https://www.zhihu.com/topic/20102999/top-answers

A.1.2腦科學相關背景基礎知識(Basicknowledge of Brain Science relevant background)

腦科學(Brain Science)

腦科學,狹義講就是神經科學,是為了了解神經系統內分子水平、細胞水平、細胞間的變化過程,以及這些過程在中樞功能控制系統內的整合作用而進行的研究。(美國神經科學學會)廣義定義是研究腦的結構和功能的科學,還包括認知神經科學等。

1、基礎神經科學:側重基礎理論

–神經生物學:研究人和動物的神經系統的結構與功能、及其相互關係的科學,是在分子水平上、細胞水平上、神經網路或迴路水平上乃至系統和整體水平上闡明神經系統特別是腦的物質的、能量的、信息的基本活動規律的科學(認識腦)。由六個研究分支:分子神經生物學(化學物質)、細胞神經生物學(細胞、亞細胞)、系統神經生物學、行為神經生物學(學習記憶、情感、睡眠、覺醒等)、發育神經生物學、比較神經生物學。

–計算神經科學:應用數學理論和計算機模擬方法來研究腦功能的學科。(創造腦)

2、臨床神經科學:側重醫學臨床應用

研究與神經系統有關的疾病,及其診斷、治療方法、技術等(保護腦)

https://baike.baidu.com/item/%E8%84%91%E7%A7%91%E5%AD%A6/7652549

大腦皮層(CerebralCortex)

大腦皮層(Cerebral Cortex)結構Structure:層Layers,區Areas,Brodmann Areas區域,厚度Thickness,褶皺Folds,血供排水Blood supply and drainage等組成。功能:連接Connections,皮層區域Cortical areas(知覺區域Sensory areas、監控區域Motor areas、聯合區域Association areas)。cortical英["k?:t?kl]美["k?:t?kl]adj.皮層的,皮質的,有關腦皮層的; [例句]In experiments,using this model we simulated the spiking and bursting behavior ofknown types ofcorticalneurons.在實驗中,應用該模型模擬了大部分已知皮層神經元的脈衝和簇放電行為。

https://en.wikipedia.org/wiki/Cerebral_cortex

大腦皮層cerebral cortex是哺乳動物大腦mammalianbrain中大腦cerebrum的最大區域,在記憶memory、注意力attention、知覺perception、認知cognition、意識awareness、思想thought、語言language和意識consciousness等方面起著關鍵作用。大腦皮層是最前面的anterior(延髓rostral)腦子區域brain region,並且包括神經組織neural tissue的外部區域叫灰質gray matter(包含神經細胞身體neuronalcell bodies)。它也被縱向裂隙longitudinal fissure分為左右腦半球left and right cerebral hemispheres,但兩個半球在中線midline由胼胝體corpus callosum連接。大腦皮層包含大量的神經細胞neuronal和膠質細胞體glialcell bodies,以及它們錯綜複雜的樹突形成dendriticformations和軸突投射axonal projections,它們連接在突觸synapses形成基本功能迴路basic functional circuits。大腦皮層完全由灰質graymatter組成,與底層的白質white matter形成對比,主要由皮層cortex、它們的髓鞘myelinated sheaths和少突膠質oligodendrocytes的細胞體cell bodies組成的軸突axons。[11]

橫向連接(lateralconnections)

在人類的視覺系統中,視覺皮層中的橫向連接(lateral connections)能夠保證人類理解物體輪廓的連續性;將人類視覺的特徵應用到遞歸皮質網路上時,橫向連接允許遞歸皮質網路在池化的過程中不會失去特異性,從而增加不變性。皮質層cortical layers不是簡單地堆積一在其他;有不同的層數layers和神經元類型neuronal types之間的特徵連接characteristic connections,橫跨所有皮層的厚度thicknessof the cortex。這些皮質集成迴路cortical microcircuits分為皮質柱cortical columns和微柱體minicolumns。微柱體 minicolumns被認為是皮質cortex的基本功能單位。[12] 在1957年,弗農·蒙卡斯爾Vernon Mountcastle展示了皮層的功能性質functional properties of the cortex突然改變在側向相鄰點laterally adjacent points之間;然而,它們在垂直於表面的方向上direction perpendicular to the surface是連續的continuous。後來的著作提供了證據顯示,在視覺皮層visual cortex,聽覺皮層auditory cortex和聯想皮層associative cortex存在功能分明的皮質柱functionallydistinct cortical columns (胡貝爾和魏塞爾Hubel andWiesel,1959)。[13]

大腦皮層連接到各種皮質皮層結構(如丘腦thalamus和基底神經節basal ganglia),通過傳出連接向它們發送信息,並通過傳入連接接收信息。大多數感官信息sensory information通過丘腦thalamus傳送到大腦皮層cerebral cortex。然而,嗅覺信息Olfactory information通過嗅球olfactory bulb傳遞到嗅覺皮層olfactory cortex (梨皮質piriform cortex)。大多數的連接是從皮質的一個區域到另一個,而不是皮質皮層區域subcortical areas。在初級感官區域primary sensoryareas的皮層水平the cortical level,輸入纖維input fibres終止,多達20%的突觸synapses由外胚層extracortical的傳入提供,但在其他地區和其他層的百分比可能會更低.(1998,BraitenbergandSchüz)。

A.2矽谷初創公司Vicarious AI簡介

A.2.1公司名稱Vicarious知識(Knowledge of Corporation Name Vicarious)

vicarious英[v??ke?ri?s]美[va??keri?s],adj.(想像別人苦樂情況)間接體驗的; 替代別人的; 代理的; 受委託的;[例句]She invents fantasy lives for her ownvicarious pleasure她幻想過著各種奇妙的生活,從想入非非中獲得樂趣。

A.2.2公司介紹和研究主題(ResearchIntroduction and Themes of Corporation)

Vicarious AI是一家矽谷的人工智慧(A.I.)初創公司,致力於從人腦中獲得啟發,實現擁有高等智能的機器人。公司辦公室里到處可見其標語——Our Frontier,Human-like AI。攻克CAPTCHA是該公司通往Human-like A.I.的一個中繼站,公司CTO說「我們的目標是解決所有人類擅長解決的問題,尤其是在面對自然視覺信號時,如果一生只解決一個問題,我肯定選擇人腦。」公司CEO接受高盛投資公司採訪中說「人腦就是一個通用學習的基礎框架,可以在這個世界裡學習各種各樣的問題。」當時,提出這個想法的公司很少,但矽谷向來不缺慧眼識人的投資家,比如Facebook天使投資人以及Paypal創始人Peter Thiel。Thiel在2010年底給Vicarious AI一筆種子輪融資。到2014年,Vicarious AI完成4000萬美元B輪融資,包括Facebook創始人MarkZuckerberg,Y Combinator的CEO SamAltman,以及Tesla創始人Elon Musk都參與其中。截止目前,Vicarious AI融資總額已超過1.3億美元。和融資額形成強烈反差的是公司至今不過50人的規模以及緩慢的擴張速度。George透露說,直到2013年Vicarious AI團隊才只有六個人。[24]

公司方向是讓機器獲得感知。從幾個訓練例子a few trainingexamples中歸納generalize出來的能力是人類智慧thehallmarks of human intelligence的標誌之一。這種能力ability是機器人robots在不同環境variety of environments下有效工作的必要條件,而無需進行艱苦的重新編程arduous reprogramming。Vicarious是一家發展通用人工智慧機器人artificial general intelligence for robots的公司。通過將生成概率模型generative probabilistic models和系統神經科學systemsneuroscience的洞察力結合起來,我們的體系結構architecture可以更快、更容易地適應和泛化,而不是今天常用的AI方法。

研究主題Researchthemes:數據效率Dataefficiency,任務共性Taskgenerality,神經與認知科學Neuro& cognitive sciences,概念理解Conceptual understanding。

https://www.vicarious.com/ [25]

A.2.3創始人、團隊、顧問和投資者(Founder,Teammates,Advisors and Investors)

斯科特·菲尼克斯D. Scott Phoenix

公司CEO斯科特Scott從賓夕法尼亞大學theUniversity of Pennsylvania獲得計算機科學和企業家精神學位BAS in Computer Science andEntrepreneurship。在共同創立Vicarious AI公司前,斯科特曾有一次創業經歷:Frogmetrics (Y CombinatorS2008)公司CEO,公司被矽谷知名孵化器Y Combinator收購。之後,他加入風投Founders Fund,成為創始人基金合伙人Residence at Founders Fund企業家。還在OnlySecure (由NetShops持有)和MarchingOrder(本富蘭克林Ben Franklin合作夥伴)做CXO。斯科特的設計作品已在16本雜誌和3所博物館,包括費城當代藝術研究所Institute for Contemporary Artin Philadelphia作為其特色。

迪利普·喬治Dileep George

公司CTO迪利普·喬治DileepGeorge本科畢業於印度理工學院,隨後來到美國斯坦福大學就讀電氣工程,同時鑽研機器學習。到了第二年,Dileep開始對神經科學產生興趣,他說「我曾在初中讀過很多心理學的書,在本科的時候全放棄了。這種興趣在研二的時候又突然回來了,這讓我開始側重對神經科學的研究。」George斯坦福大學讀博士期間,遇到《人工智慧的未來》作者JeffHawkins——矽谷掌上電腦公司Palm創始人(Palm在2011年被惠普收購)。Hawkins是神經科學領域的大牛,和George意氣相投,兩人在2005年共同創建了一家致力於機器智能的軟體公司Numenta。George不滿足於對神經科學和機器學習探索,所以2010年準備重新創立一家新公司。碰巧那時D.Scott Phoenix也就是Vicarious AI的現任CEO找到了他。Phoenix看中George在神經科學和工程學上的造詣,決定與他一同創建VicariousAI。公司創立初就有明確目標——從人腦獲得啟發,實現擁有高等智能的A.I.。

顧問Advisors

Prof. Fei-Fei Li李飛飛教授

李飛飛博士是斯坦福AI實驗室主任Director of the Stanford AI Lab,也是斯坦福大學副教授Associate Professor at Stanford。加入斯坦福前,她在普林斯頓大學Princeton University和伊利諾伊大學香檳分校University ofIllinois Urbana-Champaign任教。飛飛和她同事們的研究已發表在頂級期刊和會議top-tierjournals and conferences上,如自然Nature、美國科學院學報PNAS、神經科學雜誌Journal of Neuroscience、計算機視覺和模式識別CVPR、計算機視覺國際會議ICCV、神經信息處理系統大會NIPS、歐洲計算機視覺國際會議ECCV、計算機視覺國際期刊IJCV、國際電子技術與信息科學工程師協會IEEE等。飛飛是2011 Alfred Sloan Faculty Award阿爾弗雷德斯隆特許獎,2012Yahoo Labs FREP award雅虎實驗室教師研究與參與計劃獎,2009 NSF CAREERaward美國國家科學基金會「傑出青年教授獎」獎,2006 Microsoft Research NewFaculty Fellowship微軟研究院新教師獎學金和一些谷歌研究獎Google Research award。

Prof. Bruno Olshausen布魯諾·奧爾斯豪森教授

奧爾斯豪森Olshausen教授是加州大學伯克利分校UC Berkeley理論神經學Theoretical Neuroscience的紅木中心主任Director of the Redwood Center,也是海倫威爾神經系統研究所theHelen Wills Neuroscience Institute的教授。他供職於視覺研究和計算神經科學Vision Researchand theJournal ofComputational Neuroscience雜誌編輯委員會,並在2004年擔任戈登感官編碼和自然環境研究會議the Gordon Research Conference on Sensory Coding and the NaturalEnvironment主席。在2002年,他共同編輯了認知和大腦功能的概率模型Probabilistic Models ofPerception and Brain Function(MIT Press麻省理工學院出版社)。

Prof. Alan Yuille艾倫·尤伊爾教授

尤伊爾Yuille教授是加州大學洛杉磯分校UCLA認知、視覺和學習中心the Center for Cognition,Vision,and Learning主任,也是統計系Department of Statistics教授,並在心理學Psychology、計算機科學Computer Science和精神病學系Psychiatry的禮節性任命courtesy appointments。隸屬於加州大學洛杉磯分校斯塔林認知神經科學中心the UCLA Staglin Center for Cognitive Neuroscience,大腦、心智和機器中心the Center for Brains,Minds and Machines,以及美國國家科學基金計算、視覺的硅皮層考察組the NSF Expedition in Computing,VisualCortex On Silicon。

投資者Investors:馬克·扎克伯格Mark Zuckerberg,傑夫·貝佐斯Jeff Bezos,馬克·貝尼奧夫MarcBenioff,創始人基金FoundersFund,好風投GoodVentures,科斯拉風險投資KhoslaVentures,三星Samsung,瑞士蘇黎世ABB集團ABB。


遞歸皮層網路RCN識別文本CAPTCHAs的Science論文翻譯

文|D.George*,W. Lehrach等,譯|秦隴紀,2018-06-22Fri-07-28Sun綜合彙編

概率生成模型PGM遞歸皮層網路RCN識別文本CAPTCHAS的Science論文的譯文概述、相關程序等,原文網址如下http://science.sciencemag.org/content/early/2017/10/25/science.aag2612。

論文題目:A generative vision model that trains with high data efficiency andbreaks text-based CAPTCHAs高數據效率訓練的和文本CAPTCHAs (CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自動區分計算機和人類的圖靈測試)斷字的生成視覺模型

作者和從屬關係authorsand affiliations:D. George*,W. Lehrach,K. Kansky,M. Lázaro-Gredilla*,C. Laan,B. Marthi,X. Lou,Z. Meng,Y. Liu,H. Wang,A. Lavin,D. S. Phoenix

通訊地址:Vicarious AI, 2 Union Square, Union City,CA 94587, USA.

出版日期和編號:Science 08 Dec 2017: Vol. 358, Issue 6368,eaag2612; DOI: 10.1126/science.aag2612.

摘要Abstract:從很少例子few examples中學習並泛化到戲劇性不同的情況dramaticallydifferentsituations是人類視覺智能human visualintelligence的能力,也與領先的機器學習模式leadingmachine learning models相匹配。通過從系統神經學systems neuroscience中汲取靈感,我們引入了一種視覺概率生成模型probabilistic generative model for vision,採用基於消息傳遞的推理message-passing based inference以統一方式處理識別recognition,分割segmentation和推理reasoning。該模型展示了良好的泛化generalization和遮擋推理occlusion-reasoning能力,在具有挑戰性的場景文本識別基準scene textrecognition benchmark上優於深層神經網路deep neural networks,同時提高了300倍300-fold的數據效率。此外,該模型採用無特定CAPTCHA驗證碼啟發式演算法without CAPTCHA-specific heuristics的生成型分割字元segmentingcharacters,從根本上打破了現代文本CAPTCHAs(text-based CAPTCHAs)的防禦。我們的模型強調了數據效率data efficiency和組合性compositionality的一些方面,在邁向通用人工智慧general artificialintelligence的道路上可能很重要。

Learningfrom few examples and generalizing to dramatically different situations arecapabilities of human visual intelligence that are yet to be matched by leadingmachine learning models. By drawing inspiration from systems neuroscience,we introduce a probabilistic generativemodel for vision in which message-passing based inference handles recognition,segmentation and reasoning in a unifiedway. The model demonstrates excellent generalization and occlusion-reasoningcapabilities,and outperforms deep neural networks on achallenging scene text recognition benchmark while being 300-fold more dataefficient. In addition,the model fundamentally breaks the defenseof modern text-based CAPTCHAs by generatively segmenting characters withoutCAPTCHA-specific heuristics. Our model emphasizes aspects like data efficiencyand compositionality that may be important in the path toward generalartificial intelligence.

出版日期:Science26 Oct 2017:eaag2612;文獻編號:DOI: 10.1126/science.aag2612;科促會AAAS登錄:科技促進會登錄AAAS login為科促會員AAAS members提供訪問科學Science期刊的機會,並向購買了個人訂閱individual subscriptions的用戶訪問科學Science期刊家族中的其他期刊。美國科學促進會(American Association for the Advancementof Science簡稱AAAS科促會)成立於1848年,是世界上最大的科學和工程學協會聯合體,也是最大非盈利性國際科技組織,下設21個專業分會,涉及學科包括數學、物理、化學、天文、地理、生物等自然科學和社會科學。現有265個分支機構和1000萬成員。其年會是科學界重要聚會,近年來,每次年會都能吸引數千名科學家和上千名科學記者參加。美國科學促進會是《科學》雜誌的主辦者、出版者。《科學》雜誌是世界發行量最大的具有同行評議的綜合科學刊物,讀者逾百萬。https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD%E7%A7%91%E5%AD%A6%E4%BF%83%E8%BF%9B%E4%BC%9A/7389689

類似文章SimilarArticles in:PubMed(一個提供生物醫學方面的論文搜尋以及摘要,並且免費搜尋的資料庫。它的資料庫來源為MEDLINE。其核心主題為醫學,但亦包括其他與醫學相關的領域,像是護理學或者其他健康學科。)Google Scholar(谷歌學者)

引用文章CitingArticlesin:Web of Science科學網(2)、Scopus (一個新的導航工具,它涵蓋了世界上最廣泛的科技和醫學文獻的文摘、參考文獻及索引。)(3)

從一些例子中學習learn和泛化generalize能力是人類智慧human intelligence的標誌(1)。CAPTCHAs,網站用來阻止自動交互的圖像,是人類容易但計算機難以解決的問題的個例。CAPTCHAs很難用於演算法,因為它們將雜亂和眾包字母組合在一起,為字元分類器創建雞蛋問題chicken-and-egg problem——分類器適用於已經分割出來的字元,但是對單個字元進行分段需要理解字元,每個都可以按組合數方式呈現(2-5)。最近解析一種特定CAPTCHA風格的深度學習方法需要數以百萬計的標記示例labeled examples(6),而早期方法主要依靠手工特定類型啟發法hand-crafted style-specific heuristics來分割出字元character(3,7);而人類可以在沒有明確訓練的情況下解決新的類型new styles(圖1A)。圖1顯示了各種各樣的字形可以呈現並且仍然被人們理解的方式。

圖1.人類在字母形式上感知的靈活性。(A)人類擅長解析不熟悉的字體。(B)相同的字母可以有很多的表現形式,人類可以從上圖中識別出「A」。(C)常識和上下文信息會影響人類對字體的感知:(i)「m」還是「u」或「n」; (ii)同樣的線條中,不同位置上的遮擋會影響對其理解為「N」還是「S」; (iii)對形狀的感知會幫助識別圖中的「b,i,s,o,n」和「b,i,k,e」。

建立遠遠超出其訓練分布範圍的模型是道格拉斯·霍夫斯塔特DouglasHofstadter所設想的靈活性flexibility的重要一步,他說「對於任何能夠處理具有人類靈活性字形letterforms的程序,它必須擁有全人工智慧full-scale artificial intelligence」(8)。許多研究人員推測,這可以通過利用神經科學neuroscience和認知科學cognitive science研究產生的大量數據來結合視覺皮層visual cortex的誘導偏差inductive biases(9-12)來實現。在哺乳動物大腦mammalian brain中,視覺皮層中的反饋連接feedback connections在圖形-地面-分割figure-ground-segmentation中發揮作用,並在基於對象的自上而下object-based top-down的注意力中,即使當部分透明物體佔據相同空間位置spatial locations時,也會隔離物體的輪廓(13-16)。視覺皮層中的橫向連接Lateral connections與強制輪廓連續性enforcing contour continuity有關(17,18)。輪廓Contours表面surfaces使用相互作用的獨立機制(19-21)來表示,使得能夠識別和想像具有不尋常外觀的物體——例如冰制椅子。皮質激活時間和地域timing and topography of cortical activations提供了關於輪廓表面表徵和推理演算法contoursurfacerepresentations and inference algorithms的線索(22,23)。這些基於皮質功能的見解尚未納入領先的機器學習模型。

我們引入一種稱為遞歸皮層網路Recursive Cortical Network(RCN)的分層模型hierarchical model,該模型將這些神經科學見解neuroscience insights納入結構化概率生成模型structured probabilisticgenerative model框架(5,24-27)。

除了開發RCN及其學習和推理演算法learning and inference algorithms之外,我們還將模型應用於各種視覺認知visual cognition任務,這些任務需要從一個或幾個訓練樣例中進行泛化generalizing:解析CAPTCHAs,一次性one-shot和幾次few-shot識別以及手寫生成數字digits,遮擋推理occlusion reasoning和場景文本識別scene text recognition。然後,我們將其性能與最先進的模型state of the art models進行了比較。

B.1遞歸皮質網路Recursive cortical network

RCN以重要的方式建立在現有組合模型compositional models(24,28-32)上[(33)第6節]。儘管基於語法的模型grammar based models(24)具有基於語言學linguistics中眾所周知的優點,但它們要麼將解釋限制為單個的樹single trees,要麼在使用歸屬關係attributed relations時計算上不可行(32)。關於AND-OR模板AND-ORtemplates和樹狀成分模型tree-structured compositional models(34)的開創性工作seminal work具有簡化推理simplified inference的優點,但由於沒有橫向約束lateral constraints而缺乏選擇性selectivity(35)。來自另一個重要類(25,29)的模型使用橫向約束,但不是通過池化結構pooling structure逐漸建立不變性invariance(36),而是使用參數變換parametrictransformations在每個級別進行完全縮放complete scale,旋轉rotation和平移不變性translation invariance。需要自定義推理演算法Custom inference algorithms,但這些演算法不能有效地傳播橫向約束的影響超出局部交互local interactions。(37)中的輪廓contours和曲面surfaces的表徵representation不對它們的相互作用建模,而是選擇將它們建模為獨立的機制independent mechanisms。RCN和組合機器Composition Machines(CM)(32)分享將組合模型思想compositional modelideas放置在圖形模型公式graphical model formulation中的動機。然而,CM的「組合分布composed distributions」的代表性選擇——使用單層隨機變數來摺疊collapse特徵檢測feature-detection,池化pooling和橫向協調lateral coordination——導致擴展的狀態空間expanded statespace,從而將模型約束為貪心推理greedyinference和解析處理parsingprocess。一般而言,由於表徵選擇representational choices的變化varied和衝突conflicting,組合模型的推理inference依賴於不同模型實例的定製方法custom-crafted methods,包括求解隨機偏微分方程stochastic partial differential equations(30),基於採樣的演算法samplingbased algorithms(24)和修剪動態規劃pruned dynamic programming(29)。

RCN將來自組合模型compositional models的各種思想——分層組合hierarchical composition,漸進構建不變性gradual building of invariances,橫向連接選擇性lateralconnections for selectivity,輪廓表面因子分解contoursurface factorization和基於聯合解釋的解析joint-explanation based parsing——整合併構建到結構化概率圖形模型structured probabilistic graphicalmodel中,使信念傳播Belief Propagation(38)可以用作主要的近似推理引擎approximateinference engine[(33)第6節]。實驗神經科學數據Experimental neuroscience data代表性選擇representationalchoices提供了重要指導[(33)第7節],然後通過實驗研究證實這是有益的。我們現在討論RCN的表徵representation及其推理inference和學習learning演算法。數學細節Mathematical details在(33)第2至5節中討論。

B.2表徵Representation

在RCN中,對象被建模為輪廓contours和曲面surfaces的組合(圖2A)。輪廓出現在曲面的邊界處,包括對象輪廓outline和構成對象的曲面之間的邊界border。表面Surfaces使用條件隨機場Conditional Random Field(CRF)建模,其捕獲表面特性變化variations of surface properties的平滑度smoothness輪廓Contours使用特徵的組合層次compositional hierarchy offeatures結構建模(28,39)。輪廓contours(形狀shape)和表面surfaces(外觀appearance)的因式表示Factoredrepresentation使模型能夠識別具有顯著不同外觀的物體形狀,而無需對每種可能的形狀shape和外觀組合appearance combination進行詳盡的訓練。我們現在詳細描述形狀shape和外觀表徵appearance representations。

圖2. RCN結構。(A)物體邊緣和表面分離建模。層級結構生成對象輪廓,條件隨機場(Conditional Random Field,CRF)生成表觀模型。(B)與節點AND node(實心)表示視覺概念的組成成分,或節點OR node(虛心)表示同一語義的不同變化。(C)使用3層RCN對矩形輪廓建模。第二層的ANDnode用來表示矩形的角,每個角表示為第一層中線條的交匯。(D)使用4層RCN表示字母「A」。

圖2B顯示了RCN輪廓層次contour hierarchy一個級別內的兩個子網subnetworks(黑色black和藍色blue)。圖中填充和空的圓形節點circular nodes是分別對應於特徵features和池pools的二進位隨機變數binary random variables。每個特徵節點feature node對其子池child pools的AND關係進行編碼encodes,每個池變數pool variable對其子特徵child features的OR進行編碼,類似於AND-OR圖graphs(34)。橫向約束Lateral constraints(表示為矩形「因子節點factor nodes」)協調它們連接的池之間的選擇。兩個子網路可以對應兩個對象或對象部分object parts,共享較低級別的功能lower level-features。

圖2C顯示了表示正方形square輪廓的三級網路three-level network。最低lowest,中間intermediate和頂部top的各級特徵分別代表線段linesegments,角corners和整個正方形entiresquare。每個池變數pool variable彙集pools在「居中centered」特徵的不同變形deformations,小翻譯small translations,比例變化scale changes等上,從而引入相應的不變性invariances。在沒有池pools(圖2C中的灰色方塊)之間的橫向連接的情況下,從表示角的特徵節點feature node生成可以產生未對準的線段misaligned line segments,如圖3A所示。池之間的橫向連接Lateralconnections between the pools通過確保一個池中的特徵的選擇影響其連接的池中的特徵的選擇來提供選擇性(35),從而創建輪廓變化更平滑的樣本samples。橫向約束的靈活性通過擾動因子perturb-factor來控制,擾動因子是每級指定的超參數hyperparameter。通過多層特徵池化multiple layers of feature pooling,橫向連接lateral connections和組合compositions,頂層的特徵節點feature node來表示可以通過某種程度的平移translation,縮放scale和變形不變性deformation invariance識別的對象。

圖3.來自RCN的樣本。(A)有無橫向連接的角部特徵的樣本。(B)來自字元「A」的樣本,用於不同的可變形性設置deformability settings,由池化和橫向擾動因子lateralperturb-factors確定,在類似於圖2D的3級層次中,其中最低級別特徵是邊緣。第2列顯示了一個平衡設置,其中可變形性deformability分布在各個級別之間,以產生局部變形和全局平移。其他列顯示了一些極端配置extreme configurations。(C)立方體的表面CRF相互作用surface-CRFinteraction的輪廓。綠色因子:前景到背景邊緣,藍色:對象內邊緣。(D)本圖C中立方體形狀的不同表面外觀樣本。[見(33)第3節中CRF參數]

多對象Multiple objects通過共享它們的部分以相同的形狀層次shape hierarchy表示(圖2B)。當多個父節點multiple parents匯聚converge於單個子特徵(圖2B中的特徵節點feature node「e」)時,當任何父節點處於活動狀態(圖形模型graphical model中的OR門OR-gate)時,這將是活動的,並且允許子特徵成為子節點的一部分。如果證據evidence允許,父母雙方都不同於AND-OR圖形語法中的獨佔共享exclusivesharing(24)。即使兩個較高級別的特徵features共享一些相同的較低級別特徵features和池pools,較高級別特徵的橫向網路lateral networks也會通過為其參與的每個特定更高級別特徵製作較低級別功能的副本而保持獨立separate,如圖2B所示。與成對連接pairwise connections相比,橫向網路的父特定副本Parent-specific copies用於實現更高階的交互,類似於在高階網路higher-order networks中使用的狀態複製機制state copyingmechanism(40)。這也被發現對於消息傳遞message-passing很重要,以獲得準確的結果accurate results,並且讓人聯想reminiscent到雙重分解dual decomposition中使用的技術(41)。RCN網路中的層次結構Hierarchy扮演兩個字元。首先,它能夠逐漸通過多個層次表示變形deformations,從而在層間傳播變化量variation(圖3B)。其次,層次結構通過在不同對象之間共享特徵features來提供效率(42)。這兩者都可以通過共享計算shared computations實現有效的學習learning和推理inference。

表面Surfaces使用成對CRF建模(圖3C)。局部表面貼片屬性Local surface patch properties(如顏色color,紋理texture或表面法線surface normal)由分類變數categorical variables表示,其變化的平滑性smoothness of variation由橫向因子lateral factors(圖2中的灰色方塊gray squares)強制執行。輪廓層次contourhierarchy生成的輪廓Contours以特定的方式與表面CRF相互作用:輪廓表示signal在對象內和對象與其背景之間發生的表面連續性continuity ofsurfaces的斷裂breaks,這是一種受神經生物學neurobiology啟發的表徵選擇representational choice(19)。圖3,B和D顯示了從RCN生成的樣本。

B.3推理Inference

為了解析場景scene,RCN在平鋪場景的多個位置維護多個對象實例object instances的分層圖hierarchicalgraphs。可以通過該複雜圖complexgraph上的最大後驗maximumaposteriori(MAP)推斷來獲得場景的解析,其解釋了包括對象身份objectidentities及其分割segmentations[(33)第4節]的最佳聯節配置jointconfiguration。雖然RCN網路非常循環loopy,但我們發現消息傳遞messagepassing(38),其時間表schedule受到視覺皮層visual cortex激活時間timingofactivations的啟發(9,20),導致快速準確的推斷inference。輸入圖像首先通過PreProc,PreProc使用一組Gabor類濾波器bank of Gabor-like filters將像素值pixelvalues轉換為邊緣似然edgelikelihoods。然後使用在網路中傳遞的前向和後向消息來識別對應於對象假設object hypotheses的部分分配Partial assignments,並且通過解決對象假設圖graph of objecthypotheses上的場景解析問題scene-parsingproblem來找到完整的近似MAP解決方案approximate MAP solution(圖4)。前向傳遞forward pass給出了頂層節點的對數概率logprobability的上限upper-bound。向後傳遞backwardpass以類似於自上而下的關注過程top-downattentionprocess(43,44)的方式逐個訪問高得分的前向傳遞假設high-scoring forward-pass hypotheses,運行條件推斷conditionalinference,假設所有其他節點nodes都關閉以找到近似MAP對象的配置(圖4A)。向後傳遞backward pass可以拒絕許多在前向傳遞中錯誤識別的對象假設object hypotheses。

圖4.RCN推理和學習演算法。(A) (i)通過前向傳遞,包括側連接傳遞,生成字元假設。這裡PreProc是一類Gabor運算元,生成像素上的邊界概率。(ii)反向傳遞和側連接傳遞從之前的假設中選取了「A」。(iii)「A」和「K」之間產生了一個錯誤的假設「K」,可以通過上下文解析消除錯誤假設。(iv)多個假設聯合解釋了圖中的字母,包括對分離、遮擋的推理。(B)第二層上的特徵學習。著色圓圈代表激活的特徵,虛線圓圈代表最終選取的特徵。(C)從邊緣的相鄰結構中學習側連接。

全局MAP配置是從前向和後向傳遞passes生成的所有對象假設objecthypotheses的子集subset。場景scene中的對象數量被推斷為inferred此最大後驗MAP解決方案的一部分。除了搜索一個指數很大的子集數anexponentiallylargenumberofsubsets之外,找到全局MAP還需要推理reasoning不同假設之間的高階交互high-order interactions。我們開發了一種近似動態規劃dynamicprogramming(DP)的方法,可以在線性時間內解決這個問題。DP演算法利用每個對象假設佔據連續區域contiguous region的事實,該連續區域可以在輸入圖像上表示為2d掩模mask。通過考慮在其2d掩模重疊時產生空間連續掩模spatiallycontiguousmasks的對象假設(即,解析parses)的組合,我們通過根據包含在其他掩模中的掩模對它們進行排序來創建解析的拓撲排序topologicalordering。這導致得分的遞歸計算recursivecomputation,其在搜索最佳解析時僅需要評估線性數量的候選解析linearnumberofcandidateparses。有關詳細信息,請參閱(33)第4.7節。

B.4學習Learning

直到網路的倒數第二級penultimatelevel的特徵Features和橫向連接lateralconnections在無人監督的情況下使用通用3D對象數據集generic3Dobjectdataset進行訓練,該通用3D對象數據集是任務不可知的agnostic並且僅被渲染為rendered輪廓圖像contourimages。由此產生的學習特徵learnedfeatures從較低級別的簡單線段simplelinesegments到較高級別的曲線curves和角corners不等。

考慮一個部分學習模型partially learned model,其中在levelk級學習新特徵,其中已經學習並最終確定了達到levelk-1級的特徵,並且已經在levelk級學習了一些特徵(圖4B)。當呈現訓練圖像trainingimage時,第一步是使用級別k處的現有特徵來查找該圖像的輪廓的MAP解釋。這與前面描述的為場景找到MAP解決方案的推理問題相同。使用k-1級的特徵解析仍然無法解釋的輪廓,並從它們的輪廓連續連接contour-continuousconjunctions中提出新特徵。對所有訓練圖像重複該過程累積對級別k處的不同特徵的使用的計數,並且通過優化平衡壓縮balancescompression和重建誤差reconstruction error的目標函數objective function來選擇該級別的最終特徵(31)。同一過程逐級level-by-level重複[見(33)第5.1節]。

橫向圖結構lateralgraphstructure,是從輸入圖像的輪廓連通性contourconnectivity中學習,指定specifies池對pool pairs之間的連通性connectivity。在第一個池化級別pooling level,具有在輸入輪廓inputcontours中相鄰的特徵的池彼此連接adjacent。在層次結構hierarchy中遞歸地recursively重複該過程process,其中較高層的橫向連接lateral connections是從較低層圖中的鄰接adjacency推斷的inferred。

最頂層的特徵Featuresat the topmost level代表整個對象wholeobjects。這些是通過找到直到網路倒數第二級penultimate level的新對象的MAP配置MAPconfiguration而獲得的:根據輸入對象的輪廓連續性contourcontinuity在倒數第二級連接池對pool pairs,然後在倒數第二級存儲storing激活的連接conjunction of activations作為頂層特徵featureinthetop-mostlevel。最頂層的功能。有關詳細信息,請參閱(33)第5節。

一旦訓練了一組較低級別的特徵和橫向連接,就可以通過調整一些超參數hyper-parameters來將它們用於不同的域domains[(33)第8.3節]。根據圖像和對象大小選擇PreProc中的濾波器filter比例scales,並設置橫向連接的靈活性flexibility以匹配數據中的失真distortions。另外,最低級別特徵具有「平滑參數smoothingparameter」,其設置是由於雜訊noise導致邊緣像素edgepixel開啟ON的概率估計estimateontheprobability。可以根據域domain中的雜訊級別noiselevels設置此參數。

B.5結論Results

如果CAPTCHA以高於1%的速率被自動解決,則認為CAPTCHA被破壞(3)。RCN可以用很少的訓練數據trainingdata打破各種文本CAPTCHAs,並且不使用CAPTCHA特定啟發式方法(圖5)。它能夠以66.6%的準確率(字元級準確度為94.3%),BotDetect為64.4%,雅虎Yahoo為57.4%和PayPal為57.1%來解決reCAPTCHAs,遠遠高於CAPTCHA被認為無效的1%率(3)。不同CAPTCHA任務中架構的唯一區別是用於訓練的乾淨字體集sets of clean fonts和一些超參數hyper-parameters的不同選擇,這些參數取決於CAPTCHA圖像的大小以及雜波clutter和變形deformations的數量。這些參數可以直接手動設置,也可以通過帶注釋的CAPTCHA集上的交叉驗證cross validation自動調整。來自CAPTCHA的嘈雜Noisy,混亂cluttered和變形deformed的例子沒有用於訓練,但RCN在泛化generalizing這些變化variations方面是有效的。

圖5.用RCN解析CAPTCHA。(A)代表reCAPTCHA解析兩個不同

亞馬遜機械土耳其工人Amazon Mechanical Turk workers展示的前兩個解決方案,他們的隔斷segmentations和標籤labels。(B) RCN和CNN在控制CAPTCHA數據集上的字詞準確率。CNN很脆弱,當字元間距改變時,RCN很強大。(C)不同CAPTCHA樣式的準確度。代表性的BotDetect解析和分割(由不同的顏色表示)。

對於準確率為66.6%的reCAPTCHA解析parsing,RCN里每個字元character只需要五個乾淨的訓練樣例clean training examples。該模型使用三個參數來影響單個字元如何組合在一起以讀出一串字元,這些參數都與CAPTCHA的長度無關,並且對字元間距spacingof thecharacters很穩健 [圖5B和(33)的8.4節]。除了獲得CAPTCHA轉錄transcription外,該模型還提供對單個字元的高度準確的分割,如圖5A所示。相比之下,reCAPTCHA的人類準確率為87.4%。由於許多輸入圖像具有多種有效解釋validinterpretations(圖5A),因此來自兩個人的解析僅時間內達成在81%的一致agreeonly81%ofthetime。

與RCN相比,最先進的CNN(6)需要大約50,000倍的實際CAPTCHA字元串訓練集,並且對輸入的擾動perturbations不太穩健。由於CNN需要大量標記示例labeledexamples,因此該對照研究control study使用我們創建的CAPTCHA生成器來模擬reCAPTCHAs的外觀[參見(33)的第8.4.3節]。該方法使用了一組特定位置position-specific的CNN,每個CNN都經過訓練以區分特定位置的字母。訓練該CNN以實現89.9%的單詞準確率word-accuracy rate,需要超過230萬個獨特訓練圖像uniquetraining images,用已翻譯詞句translated crops進行數據增加dataaugmentation,從79,000個不同的CAPTCHA單詞創建。由此產生的網路在訓練期間不存在字元串長度string lengths失敗,更重要的是,網路的識別準確性recognition accuracy迅速惡化,甚至對人類幾乎感覺不到的字元間距產生微小擾動minorperturbations——間距增加15%精度降低到38.4%,間距增加25%精度降低到7%。這表明深度學習方法deep-learningmethod學會利用特定CAPTCHA的細節而不是學習隨後用於解析場景parsingthescene的字元模型。對於RCN,增加字元的間距可以提高識別精度recognitionaccuracy(圖5B)。

BotDetect中各種各樣的字元外觀character appearances(圖5C)說明了為什麼輪廓和曲面的分解factorization很重要:沒有這種分解的模型可以鎖定latch字體的特定外觀細節,從而限制了它們的泛化generalization。RCN結果基於對來自BotDetect的10種不同風格的CAPTCHA測試,所有這些都基於每個字元character做24個訓練示例訓練的單個網路進行解析,並且在所有樣式中使用相同的解析參數parsingparameters。儘管BotDetect CAPTCHA可以僅使用輪廓信息contourinformation進行解析,但使用外觀信息appearance information可以將準確率從61.8%提高到64.4%,在所有數據集中使用相同的外觀模型appearancemodel。有關詳細信息,請參閱(33)的8.4.6節。

在標準的MNIST手寫數字數據集handwrittendigitdataset[(33)第8.7節]中,RCN在一次性one-shot和幾次fewshot分類任務classificationtasks上的表現優於其他模型。我們比較了RCN在MNIST上的分類性能classificationperformance,因為我們將每個類別category的訓練樣例數從1改為100。CNN與兩種最先進的模型進行了比較,即LeNet-5(45)和VGG-fc6 CNN(46),其級別使用數百萬張圖像進行ImageNet(47)分類預訓練pre-trained。選擇VGG-CNN的全連接層fully-connected-layerfc6進行比較,因為與其他預訓練水平pre-trainedlevels的VGG-CNN相比,它為此任務提供了最佳結果,並與使用相同數據dataset和邊緣預處理edgepre-processing為RCN[(33)第33節]的其他預先訓練的CNN進行了比較設置。此外,我們還比較了最近報告的關於此任務的最新表現的成分補丁模型Compositional PatchModel(48)。RCN的表現優於CNN和CPM(圖6A)。RCN的單點識別性能oneshotrecognitionperformance為76.6%,CPM為68.9%,VGG-fc6為54.2%。RCN對於在測試期間引入的不同形式的雜波clutter也很穩健,而不必在訓練期間將網路暴露給那些變換transformations。相比之下,這種樣本外的測試實例out-of-sample testexamples對CNN的泛化性能generalizationperformance具有很大的不利影響detrimental effect(圖6B)。為了分離橫向連接,正向傳遞和反向傳遞對RCN準確性的貢獻,我們進行了選擇性地關閉這些機制mechanisms的病變研究lesion studies。結果總結在圖6C中,表明所有這些機制對RCN的性能有顯著貢獻。具有兩級特徵檢測feature detection和池化pooling的RCN網路足以在字元解析任務characterparsing tasks上獲得最佳的準確性性能。增加層次結構中層次數的效果是減少推理時間inference time,如(33)第8.11節所述。

圖6.用個別樣本訓練的MNIST分類結果。(A) RCN,CNN和CPM的MNIST分類準確度。(B)損壞的MNIST測試的分類準確性。插圖顯示訓練樣本總數。(C)不同RCN配置的MNIST分類精度。

作為生成模型generative model,RCN在重建損壞的MNIST圖像時優於變分自動編碼器VariationalAutoEncoders(VAE)(49)和DRAW(50)(圖7,A和B)。DRAW對於乾淨測試集clean test set優於RCN的優勢並不令人驚訝,因為DRAW正在學習一種過於靈活的模型,該模型幾乎在重建reconstruction中複製輸入圖像,這會在更混亂的數據集cluttereddatasets上損害其性能[(33)第8.9節]。在Omniglotdata在線語言文字百科數據(1)上,一次性訓練one-shot training後從RCN生成的示例顯示出顯著變化,同時仍然可以識別為原始類別original category[圖7D和(33)的8.6節]。

圖7.用RCN進行生成,遮擋推理和場景文本解析。在損壞的MNIST上來自RCN,VAE和DRAW的重建(A)和重建誤差(B)的樣本。插圖顯示了訓練樣本數量。(C)遮擋推理。第三列說明了RCN解釋第一個檢測到的對象邊緣後,保留的邊緣。地面實況掩模Ground-truth masks反映了正方形和數字之間的遮擋關係。正方形前面的數字部分用棕色表示,正方形後面部分用橙色表示。最後一列顯示了預測的遮擋掩模。(D)Omniglot一次性生成。在每列中,第1行顯示訓練樣本,其餘行顯示生成樣本。(E)RCN成功解析ICDAR圖像樣本。黃色輪廓顯示分段。

為了測試遮擋推理occlusion reasoning(51–53),我們通過在每個驗證validation/測試test圖像中添加一個矩形來創建MNIST數據集的變體,使得數字digit的某些部分被矩形遮擋,並且矩形的某些部分被數字遮擋[圖7C和(33)的8.8節]。這些圖像中的遮擋關係Occlusionrelationships不能推斷deduced為一個對象在另一個對象前的簡單分層。對該數據集的分類具有挑戰性,因為數字的許多部分被矩形遮擋,並且因為矩形行為雜亂。如果檢測到並分割出矩形,則可以使用RCN生成模型解釋其對特定數字的證據的影響,從而提高分類classification和分割segmentation的準確性。RCN在這個具有挑戰性的數據集上進行了分類準確性和遮擋推理的測試。無解釋的分類準確率為47.0%。解釋矩形可將分類精度提高到80.7%。另外,RCN用於通過推理reasoning矩形和數字之間的遮擋關係來解析場景。該模型成功地預測了測試圖像的精確遮擋關係precise occlusionrelations,如圖7C所示,獲得了在遮擋區域occludedregions上測量的0.353的平均交會intersection overunion(IOU)

最後,RCN在ICDAR-13穩健讀數數據集Robust Readingdata set(54)上進行了測試,這是現實世界圖像中文本識別的基準benchmark(圖7E)。對於此測試,我們增強了解析演算法parsingalgorithm,以包括有關n-gram和單詞統計wordstatistics的先驗知識priorknowledge,以及與場景中字母布局layoutofletters相關的幾何先驗geometric priors,包括間距spacing,相對大小relative sizes和外觀一致性appearance consistency [參見(33)第8.5節]。我們將我們的結果與ICDAR競賽的最高參與者以及最近的深度學習方法(55)進行了比較(表1)。儘管PhotoOCR使用了790萬個訓練圖像,但RCN模型的表現優於頂級競爭者PhotoOCR 1.9%,而RCN使用了來自25,584個字體圖像fontimages的基於模型的聚類model-basedclustering選擇的1,406個訓練圖像。除了提供競爭方法無法提供的字元characters的詳細分段detailed segmentation(圖7E)外,RCN在此任務上實現了更高的準確性,同時數據效率dataefficient提高了300倍。

表1. ICDAR-13魯棒讀數數據集上不同方法的訓練圖像的準確度和數量。r different methods on the ICDAR-13 robust reading data set.

B.6討論Discussion

分段阻抗Segmentation resistance是基於文本CAPTCHA的主要防禦,它是實現自動生成的一般原則general principle(2,3))。儘管在用特定樣式的分段啟發式法style-specific segmentationheuristics前已經破壞了特定CAPTCHA(3,7),但這些攻擊可以通過對CAPTCHA的微小改動minoralterations而輕易地被挫敗。RCN以一種基本方式打破了分段防禦segmentation defense,並且只有非常少的訓練數據,這表明網站應該採用更強大的機制來阻止阻抗機器人程序blocking bots

成分模型Compositional models過去已成功用於通用對象識別generic object recognition和場景解析scene parsing,我們的初步實驗preliminary experiments[(33)第8.12節]表明RCN也可適用於這些領域(圖8)。RCN公式為在圖形模型中開發更廣泛的高級推理inference和學習learning演算法打開了組合模型,可能導致在現實世界場景解析real-world sceneparsing中基於其先前成功的改進(56,57)。儘管作為生成模型的優勢,RCN需要若干改進才能在ImageNet規模(47)數據集上實現卓越性能。靈活地合併多個實例,在前向和後向推理inference期間在層次結構的所有級別使用表面外觀,學習通過3D變形池化更複雜池化結構sophisticated pooling structures,以及場景上下文scene context和背景background的生成建模需要調查investigated並與RCN整合的問題[(33)第8.13節]。

圖8.解析有對象場景的RCN應用。示出了當RCN應用於具有隨機背景上的雜亂場景中的多個真實世界對象的場景解析任務時獲得的檢測和實例分割。我們的實驗表明RCN可在文本解析外進行推廣[參見(33)第8.12節和討論]。

與CNN和VAE等全圖像模型whole-image models相比,RCN的高數據效率源於RCN在其結構中對強假設strong assumptions做編碼encodes的事實。最近的神經網路模型使用空間關注窗口spatial attentionwindow(58)結合了組合性的想法,但是它們的當前實例需要在整潔的設置uncluttered setting中良好地分離對象,因為每個關注窗口使用整個圖像VAE建模。將RCN的對象和基於部分的組合性part-based compositionality結合到神經網路模型中將是一個有趣的研究方向。與神經網路不同,當前版本的RCN學習演算法需要乾淨的訓練數據,這是我們打算使用基於梯度的學習gradient based learning以及基於消息傳遞方法messagepassing based approaches解決的一個弊端drawback(59)。

將RCN與貝葉斯程序學習Bayesian ProgramLearning(BPL)(1)相結合是未來調研的另一種途徑。BPL具有精確建模順序因果機制sequentialcausal mechanisms的優點,例如Omniglot數據集中的筆劃生成stroke generation,但其推斷inference取決於輪廓contours與背景background分離——RCN可以輕鬆提供。更一般地,可以組合BPL和類RCN圖形模型RCN-likegraphical models以獲得模擬涉及感知perception和認知cognition的並行parallel和順序過程sequential processes(60)所需的表達能力expressive power和有效推斷efficient inference。

當然,DouglasHofstadter的挑戰——理解具有相同效率和靈活性的字形letterforms——仍然是人工智慧的宏偉目標。當人們識別字形時,人們會以上下文敏感contextsensitive和動態dynamic的方式使用更多常識知識commonsense knowledge(圖1C,iii)。我們的工作表明,結合系統神經科學的歸納偏差inductivebiases可以產生強大、可泛化的generalizable機器學習模型,展示出高數據效率。我們希望這項工作能夠激發改進的皮層電路模型corticalcircuits(61,62)以及將神經網路和結構化概率模型structuredprobabilisticmodels的功能與通用人工智慧系統generalartificialintelligencesystems相結合的研究。

B.7方法總結Methods summary

對於reCAPTCHA實驗,我們從google.com的reCAPTCHA頁面下載了5500個reCAPTCHA圖像,其中500個用作參數調整parametertuning的驗證集validationset,並在剩餘5000個上報告準確度數字accuracynumbers。圖像按2倍因子放大了比例。通過與本地系統上可用字體的視覺比較,識別出喬治亞GeorgiareCAPTCHA中使用的類似字體similar-lookingfont。RCN接受了這種字體的小寫和大寫字元的幾次旋轉rotations訓練。使用驗證集優化超參數。用美國工人,使用亞馬遜機械土耳其人AmazonMechanicalTurk(AMT)估算reCAPTCHA數據集的人工準確性。

使用Image-Magick創建用於訓練神經網路進行對照實驗control experiments模擬reCAPTCHA數據集,以產生與原始reCAPTCHA定性相似的qualitativelysimilar失真distortions。模擬數據生成器用作無限源unlimited source,以生成用於訓練神經網路的隨機批次。神經網路優化Neural networkoptimization運行了80期epochs,其中數據在每期開始時被置換permuted;通過每期每個基本方向cardinaldirection上最多5像素的隨機翻譯來增強數據。類似方法用於BotDetect,PayPal和YahooCAPTCHAs。對於BotDetect,我們下載了每個CAPTCHA樣式50-100個圖像的數據集,用於確定解析參數parsing parameters和訓練設置training setup,另外100個圖像作為未調整網路的測試數據集。作為系統的訓練圖像,我們通過直觀地比較BotDetect CAPTCHAs的幾個示例,從系統中可用的那些中選擇了一系列字體和比例。BotDetect測試圖像按1.45倍的因子重新調整。使用驗證集優化解析參數,並通過分別適配adapting每種樣式的參數來測試解析參數的可轉移性transferability,然後在其他樣式上測試這些參數。

為了訓練RCN解析ICDAR,我們從谷歌字體中獲得了492種字體,產生了25584個字元的訓練圖像。由此我們使用自動貪婪字體選擇方法automatedgreedyfontselectionapproach選擇了一組訓練圖像。我們為所有字體渲染了二進位圖像,然後使用相同字母的結果圖像來訓練RCN。然後,該RCN用於識別其訓練的精確圖像,為相同字母的所有字體對提供兼容性分數compatibilityscore(在0.0和1.0之間)。最後,使用閾值threshold(=0.8)作為停止標準stoppingcriterion,我們貪婪地選擇最具代表性的字體,直到所有字體的90%被表示,這導致776個獨特的訓練圖像。使用630個單詞圖像訓練解析器,並使用來自維基百科Wikipedia的單詞訓練字元characterngrams

對MNIST數據集的RCN分類實驗classificationexperiments是通過將該圖像按4倍因子上採樣up-sampling來完成的。對於每個訓練設置,使用旋轉的MNIST數字的獨立驗證集independentvalidation set來調整模型的兩個池化超參數pooling hyperparameters。作為基線baselines的一部分,探索了幾種預訓CNN的方法。為了理解網路在嘈雜的MNIST數據上的性能,我們創建了六種雜訊變體,每種變體具有三個嚴重級別levels of severity。對於遮擋推理occlusionreasoning,RCN網路訓練有11個類別:10個MNIST數字類別digitcategories帶20個類別示例,和矩形環類別rectangularringcategory帶一個例子。在MNIST數據集上的重建實驗Reconstructionexperiments使用僅在乾淨的MNIST圖像上訓練的網路,然後測試6種不同雜訊變體noise variants的均方重建誤差meansquaredreconstructionerror,每種雜訊變化具有3個嚴重級別。補充材料supplementalmaterials中提供了完整方法Fullmethods。

B.8參考文獻和筆記REFERENCES AND NOTES

1.B. M. Lake, R. Salakhutdinov, J. B. Tenenbaum,Human-level conceptlearningthrough probabilistic program induction.Science350,1332–1338(2015).doi:10.1126/science.aab3050Medline

2.K.Chellapilla,P.Simard,「Usingmachinelearningtobreakvisualhumaninteractionproofs (HIPs),」 inAdvances in Neural Information ProcessingSystems 17)(2004)pp.265–272.

3.E. Bursztein, M. Martin, J.C. Mitchell, 「Text-based CAPTCHA strengthsandweaknesses,」 inProceedings of the18th ACM Conference on ComputerandCommunicationsSecurity(ACM,2011),pp.125–138.

4.G.Mori,J.Malik,「Recognizingobjectsinadversarialclutter:BreakingavisualCAPTCHA,」in2003IEEEConferenceonComputerVisionandPatternRecognition(IEEEComputerSociety,2003),pp.I-134–I-141.

5.V.Mansinghka,T.D.Kulkarni,Y.N.Perov,J.Tenenbaum,「Approximatebayesianimage interpretation using generative probabilisticgraphics programs,」inAdvances in Neural Information ProcessingSystems 26(2013), pages1520–1528.

6.I.Goodfellow,Y.Bulatov,J.Ibarz,S.Arnoud,V.Shet,「Multi-digitnumberrecognitionfromstreetviewimageryusingdeepconvolutionalneuralnetworks,」 paperpresentedattheInternationalConferenceonLearningRepresentations(ICLR)2014,Banff,Canada,14to16April2014.

(全部108個引文請下載PDF完整版)

下期預告《遞歸皮層網路RCN識別文本CAPTCHAS要點梳理、論文代碼及測試》(有時間細讀此文,並願意繼續研究論文對應代碼,請在https://github.com/vicariousinc/science_rcn自行下載,下期文章重點實現論文代碼及測試。)

遞歸皮層網路RCN不但可以識別文本CAPTCHAs,還可以在其他有邊界或規律特徵的圖像做識別,這是否意味著邁向了通用人工智慧?是否可展望以深度學習為代表的初級人工智慧技術,就此轉型,向著可解釋、通用的人工智慧發展?歡迎大家在主編秦隴紀的「科學Sciences」AI群做討論。

-END-

參考文獻(1068字)

1. 創建者:lirongxu128, 人工智慧.[EB/OL] 百度百科, https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/9180,2018-06-11.

2 Wikipedia, Reasoningsystem.[EB/OL] Wikipedia, https://en.wikipedia.org/wiki/Reasoning_system,2018-06-21(UTC).

(字數限制,其餘請下載PDF完整版)

42.Vicarious AI. Generative Models.[EB/OL] vicarious AI,https://www.vicarious.com/2017/10/26/common-sense-cortex-and-captcha/, 2017-10-26.

43.https://drive.google.com/drive/folders/0B-NDEl5vehB8dEJadmhPellyYWc

概率生成模型PGM遞歸皮層網路RCN識別文本CAPTCHAS的Science論文(35530字)

秦隴紀

簡介:遞歸皮層網路RCN識別文本CAPTCHAS的Science論文基礎知識和譯文。(公號回復「遞歸皮層網路」或「RCN」,文末「閱讀原文」下載22圖70k字28頁PDF典藏版資料)藍色鏈接「數據簡化DataSimp」關注後下方菜單項有文章分類頁。作者:秦隴紀、D. George等。來源:VicariousAI公司、Science論文、維基百科、百度知乎、數據簡化社區秦隴紀微信群聊公眾號,引文出處請看參考文獻。主編譯者:秦隴紀,數據簡化社區、科學Sciences、知識簡化新媒體創立者,數據簡化OS設計師、C/Java/Python/Prolog程序員,IT教師。版權聲明:科普文章僅供學習研究,公開資料?版權歸原作者,請勿用於商業非法目的。秦隴紀2018數據簡化DataSimp綜合匯譯編,投稿合作,或出處有誤、侵權、錯誤或疏漏(包括原文錯誤)等,請聯繫DataSimp@126.com溝通、指正、授權、刪除等。每天十幾萬字中英文閱讀、幾萬字文章匯譯編、時間精力人力有限,歡迎轉發、讚賞、加入支持社區。歡迎轉發:「數據簡化DataSimp、科學Sciences、知識簡化」新媒體聚集專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。秦隴紀發起未覆蓋各領域,期待您參與~~強烈譴責超市銀行、學校醫院、政府公司肆意收集、濫用、倒賣公民姓名、身份證號手機號、單位家庭住址、生物信息等隱私數據!

Appx(626字).數據簡化DataSimp社區簡介

信息社會之數據、信息、知識、理論持續累積,遠超個人認知學習的時間、精力和能力。應對大數據時代的數據爆炸、信息爆炸、知識爆炸,解決之道重在數據簡化(Data Simplification):簡化減少知識、媒體、社交數據,使信息、數據、知識越來越簡單,符合人與設備的負荷。數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques)對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方ose做簡化,應用於信息及數據系統、知識工程、各類資料庫、物理空間表徵、生物醫學數據,數學統計、自然語言處理、機器學習技術、人工智慧等領域。歡迎投稿數據科學技術、簡化實例相關論文提交電子版(最好有PDF格式)。填寫申請表加入數據簡化DataSimp社區成員,應至少一篇數據智能、編程開發IT文章:①高質量原創或翻譯美歐數據科技論文;②社區網站義工或完善S圈型黑白靜態和三彩色動態社區LOGO圖標論文投稿、加入數據簡化社區,詳情訪問www.datasimp.org社區網站,網站維護請投會員郵箱DataSimp@163.com。請關注公眾號「數據簡化DataSimp」留言,或加微信QinlongGEcai(備註:姓名/單位-職務/學校-專業/手機號),免費加入投稿群科學Sciences學術文獻讀者微信群等。長按下圖「識別圖中二維碼」關注三個公眾號(搜名稱也行,關注後底部菜單有文章分類頁鏈接):

數據技術公眾號「數據簡化DataSimp」:

社會教育知識公眾號「知識簡化」:

普及科學知識,分享到朋友圈


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據簡化DataSimp 的精彩文章:

TAG:數據簡化DataSimp |