觸摸心靈-觸覺感知和發展的模型
來源:計算機觸覺
觸覺感知和發展的模型
觸覺感知模型是數學結構,試圖解釋觸覺積累關於環境中的物體和試劑的信息的過程。 由於觸覺是一種主動的感覺,即感覺器官在感覺過程中被移動,所以這些模型經常描述優化感知結果的運動策略。
觸覺發展的模型試圖從更基本的原則來解釋感知的出現和伴隨的運動策略。 這些模型通常涉及到對探索策略的學習,旨在解釋行為的發生髮展。
這些模型有兩個互補的用法。 首先是試圖解釋和預測動物和人類的行為。 為此,嚙齒動物的觸鬚系統經常被使用,因為它是一個在神經科學中被充分研究的系統。Vibrissae(觸鬚)行為,即嚙齒動物的面部毛髮的運動策略,在不同的感知任務中被模擬,試圖揭示潛在的共同原理,以及觸覺感知和發展的神經機制。 同樣的模型也被用於人造結構,例如機器人,試圖既驗證觸覺感覺運動策略的出現,又嘗試和優化新型機器人平台中的觸覺感知。
介紹
觸覺是指在環境中的觸覺物體上收集的信息。該信息可以是對象的位置,形狀,材料或表面紋理。因此,觸覺感知的模型旨在解釋這些信息如何積累,整合和用於觸覺任務,如歧視和本地化。
觸摸是一種主動的感覺,即感覺器官通常被移動以感知環境。因此,建模觸覺感知涉及對導致觸覺信息積累的感覺運動策略建模。換句話說,這些模型描述了感覺器官與觸覺物體相互作用時的行為或運動。 模型試圖描述在動物和人類中觀察到的觸覺導向行為,或者導出最佳的感知策略,然後將它們與觀察到的行為進行比較。
圖1: 主動觸覺感知模型架構
由於觸摸,而不是視覺、聽覺和嗅覺,是近端感,即感官必須與物體接觸才能感知,運動通常是觸覺策略描述的一部分。 在許多嚙齒動物等夜間動物中,觸感系統(一系列可移動的面部毛髮)被用於在黑暗中感知環境。 因此導航和物體識別主要是通過觸覺來完成的。 已經開發了幾種觸覺引導運動的模型來解決這種跨模態的整合。
從其他意義上講,基於代理人的經驗和與環境的相互作用,觸覺知覺在本體論發展過程中發生變化。 這一變化的一部分是探測觸覺物體的感覺運動觸覺策略的出現。 例如,幼仔的觸鬚在成熟到成年時就表現出不同的方式( Grant et al。2012 )。 發展模式試圖用感官指導運動學習的基本原理和內在動機探索來描述這種探索行為的出現。
模型類型
觸覺感知建模通常由兩個主要組成部分組成,即感知和行動。 知覺部分試圖描述觸覺信息整合到一個凝聚力感知。 動作組件試圖描述為了移動感覺器官而使用的動作策略,以便它可以獲取這個信息。
觸覺感知通常通過人工神經網路或貝葉斯推斷來建模。 使用人工神經網路(ANN)來描述感知任務期間的學習過程。 它們與生物神經系統更密切相關,並有許多計算有效的工具來實施它們。 人工神經網路通常以監督學習的方式使用,其目的是通過標記的訓練集來學習觸覺辨別,或者捕捉整個感覺運動因子 - 環境相互作用的連續變數前向模型。 貝葉斯推理模型捕獲新的觀察到的信息到感知更新的單一框架的最佳整合。 來自可能的嘈雜環境的每個新證據被用於以最佳方式更新當前任務中的觸覺感知。 這些模型具有較少的自由參數來調整,並且近年來已經顯示出很好地描述人類和動物中的許多感知任務。
觸覺感知的運動策略通常通過最優控制理論或強化學習來建模。 最優控制理論是一種數學形式主義,其中定義了一個成本函數,然後使用已知的數學技術來找到最小化成本的最佳軌跡或策略。 在觸覺感知任務中,成本函數通常是感知錯誤的組合,例如歧視歧義和移動感官的能量成本。 因此,最優控制解決方案可以給策略或最佳行為,使感知最大化,同時使能量成本最小化。 強化學習是一個計算範式,試圖找到最大化未來累積獎勵的政策或行為。 這是一個循序漸進的學習過程,與環境的重複交互導致收斂到最佳策略。 在觸覺感知任務中,獎勵是任務的完成,並且該模型導致融合感覺觸覺觸覺策略。 最優控制和強化學習的主要區別在於前者是解決「離線」問題,而後者是一種考慮到與環境相互作用的學習演算法 。 雖然兩者都有最佳的策略或政策,但形式主義和數學技術是不同的。
模型應用
觸覺和發展模式可以用幾種方式使用。 第一個是試圖描述,解釋和預測動物和人的觸覺行為。 在每個觸覺任務中,觀察到的行為被記錄和分析。 然後構建模型來嘗試和重新捕獲相同的行為,然後對新任務中的行為進行預測。 然後在這些新的預測任務中驗證模型。
觸覺模型的第二個應用是對基礎神經元機制的理解。 例如,嚙齒動物的觸鬚系統已經研究了數十年,並且已經產生了對導致觸覺感知的潛在神經元網路的深刻理解。 將描述觸覺的模型組件連接到特定的大腦區域或功能可以增加對這些區域的理解,並可能嘗試解釋模型和神經學術語中的異常行為。
觸覺模型的另一個應用是它在人造代理中的實現,例如機器人。 具有觸感的機器人平台受到對生物觸覺感知模型的新理解的啟發。將電機集成到感官中,例如人造晶須機器人或觸覺感測器覆蓋的機器人手指,使得物體感知的新能力成為可能。 然而,控制這些機器人平台變得不平凡,因為在這些以感知為導向的領域中已知的以運動為導向的控制策略失敗。 實施生物啟發的感覺運動模型會導致更好的表演機器人。
主動感應
生物應用
為了正確理解嚙齒動物在眾所周知的稱為極點定位的感知任務期間使用的觸覺感覺運動策略,人類被用作嚙齒動物的模型( Saig 等 ,2012 )。 受試者在他們的指尖配備了人造晶須,並被要求定位一個垂直桿,即確定哪個桿更後,只使用他們從晶須得到的信息,因為他們的視力和試鏡被阻止。 力和位置感測器被放置在手指須連接上,這使得能夠充分訪問進入「系統」(即,人類對象)的信息。 結果表明,人類自發採用類似於嚙齒類動物的策略,即通過同步移動雙手並根據極點位置感知時間差異來與人造晶須「攪動」。 換句話說,他們通過將雙手合在一起並且首先檢測哪一隻手觸摸了一根桿來確定哪一根桿更後。 雖然還有其他可能的非主動策略來解決這個任務,例如通過將他們的手放在杆子上並感應手部之間的角度差異,參與者選擇採用主動感知策略。
為了對這種行為進行建模,貝葉斯推理方法被選擇用於觸覺感知,而最佳控制理論方法被選擇用於運動策略分析。 然後把這個任務描述成一個簡單的二元區分任務,即哪個極點更後驗,並且通過整合兩手之間的感知時間差異來建模貝葉斯更新規則。
高斯雜訊模型被假定為感知的時間差異,引入時間雜訊的參數,即兩個刺激仍然可以被認為是不同的。 在貝葉斯推斷模型中引入的另一個重要參數是置信概率,在該置信概率之上的主題決定報告他們的知覺答案。 換句話說,在與極點重複接觸之後,一個極點更後的概率增加; 超過這個門檻的主體停止互動,並報告的感知結果?
所選擇的這種觸覺感知任務的貝葉斯推理模型只導致了兩個參數,即時間雜訊和置信概率,並且允許基於擬合到實驗結果的估計。 報告之前的聯繫人數量顯示隨著任務難度的增加而增加,這是通過減少兩極之間的距離來衡量的,正如貝葉斯模型預測的那樣。 312ms84%將模型預測擬合到實驗結果使得估計參數:時間雜訊被評估為312ms 和置信概率84 % 。 時間雜訊稍高於先前報道的純粹觸覺時間區分閾值,這是由於這個實驗裝置是一個主動感測裝置,其也引入了電機雜訊。 置信概率與許多其他心理實驗相當,在這些實驗中,受試者在累積信息之後必須報告其感知結果。 因此,觸覺的貝葉斯推理模型雄辯地描述了觸覺信息的積累和整合。
受試者所採用的運動策略也是結構化的,展現出初始更長,更大幅度的運動,然後是越來越短和更小幅度的運動。 為了對這種行為進行建模,採用了最優控制理論方法,其中定義了成本函數,其次是優化技術,從而產生了使成本最小化的最優策略。 成本函數有三個組成部分:表示任務的感知誤差項; 能源成本期限代表費力行動的懲罰; 以及感知成本項,與能源項對稱相同,代表太多信息的成本。 該模型捕捉了主體所表現的行為,並導致一個簡單的原則,即維持一個不變的信息流。 換句話說,最優控制模型將複雜的觸覺感知驅動行為「蒸餾」成單一指導原則。
機器人應用
受到嚙齒動物觸鬚系統的啟發,構建了一個完全控制移動人造晶須的機器人平台( Sullivan, et al。 ,2012 )。 該機器人被用於與嚙齒類動物相似的任務,即表面距離和紋理估計。 換句話說,機器人通過生物啟發的運動策略移動了晶須,並通過位於晶須底部的感測器收集關於表面的信息。 機器人採用基於對生物觸鬚系統的理解而設計的觸覺感知和運動策略模型。
使用樸素貝葉斯方法對觸覺感知進行建模,其中在訓練期間,機器人收集關於每種類型的表面和距離表面的每個距離的感官信息,為每個表面構建標記的概率分布。 然後,在驗證過程中,機器人在表面上whis,,收集信息,並根據最有可能的類別,根據訓練的分布對紋理和距離進行分類。
運動策略採用在嚙齒動物中觀察到的行為,即快速停止牽引(RCP),這意味著嚙齒動物在與物體初始接觸後以較小振幅拂動。 這個策略的結果是在第二次拂動之後和表面上的「輕觸」。 在機器人嚙齒動物中建模和執行相同的行為,在最初感知到與表面接觸之後,攪動的幅度減小。 任務的目標和具體模型是確定嚙齒動物可能有利用這樣一個戰略的好處。
研究結果表明,與未調製的攪拌相比,當使用快速停止甩動(RCP)策略時,機器人對錶面的質地和距離進行更高效和準確的分類。 對結果的進一步分析表明,使用RCP導致較少噪音的感官信息,這反過來導致改善的分類。 因此,這個模型表明,嚙齒動物採用RCP策略不僅保持了晶須的完整性,而且還提高了信噪比和觸覺感知。 它還可以開發更強大,更精確的人造代理,並配備移動的觸覺感測器 。
觸覺導航
生物應用
由於觸覺是一種近端感,所以與環境中的物體的直接接觸對於觸覺是必需的( Gordon 等 ,2014b , Gordon 等 ,2014c )。 為了了解嚙齒動物的探索行為,構建了一個模型,試圖捕捉它們的探索模式的複雜性和結構。 當嚙齒動物被允許自己探索一個新的黑暗競技場時,他們在舞台上移動,並使用他們的鬍鬚來感知它的牆壁。 他們展示了一個複雜的探索模式,他們首先探索競技場的入口,然後沿著競技場的周圍牆走,然後才能探索競技場中心的空地。 他們的探索是由出境探索組成的遊覽和快速撤退部分組成的,他們回到家裡。
這種觸覺驅動的探索策略是使用基於新穎性的方法來模擬的,該方法結合舞台的觸覺感知表示和在探測電機基元和退路之間平衡的電機策略。 對於舞台的觸覺感知,採用貝葉斯推理方法來表示運動的前向模型。 xo換句話說,競技場被表示為在給定的位置和方向上的感覺信息的預測,例如,牆被表示為「在位置x 和方位o ,左晶須被預測經歷觸摸」 。 只要動物在任何位置使用貝葉斯(Bayes)規則感知到新的觸覺,並假設感覺雜訊,即感知的觸覺不一定是正確的,則更新該表示。
採取勘探運動的策略是在勘探運動基元和撤退之間取得平衡,其中新穎性被用作閾值因子。 探索運動基元是根據其感覺觸覺來確定嚙齒動物的機車行為的策略,例如,跟隨的基元是「如果左頰感應到牆壁,向前」的策略,而避開牆壁的原始是策略「如果右頰感覺到一堵牆向左轉「。 對三個電機原型進行了建模,即現場循環,牆體追蹤和避免牆體。 另外一個「退縮原始」被模擬為:在競技場目前估計的情況下,採取從當前位置到家籠的最短路徑。
圖2:觸覺驅動導航的新穎性管理模型架構( Gordon 等 ,2014c )。
這些運動基元之間的平衡是基於新穎性來決定的,測量是在競技場模型被更新的每個時間步驟中的信息增益。 換句話說,無論何時更新競技場的觸覺正向模型,更新的比特數量通過先驗分布和後驗分布之間的Kullback-Leibler散度量化,代表了新穎性。 每當新穎性高於一定的閾值時,就採用退縮原始。 每當新穎度在一定的時間內低於一定的閾值時,就採用下一個勘探運動基元。 這種生成模型捕獲了許多在觸覺驅動的探測嚙齒動物中觀察到的行為,並表明新穎性管理的基本原理可用於建模複雜和結構化的探索行為。
機器人應用
一個機器人平台與致動的人造晶須被用來研究基於觸覺的同時定位和映射(tSLAM)模型( Pearson 等 ,2013 )。 在這個設置中,感知任務是雙重的,即機器人既需要在空間中定位本身,也要映射環境中的對象。 與許多其他的SLAM模型相反,該模型僅使用晶須陣列的測距和觸覺作為其輸入,即沒有視覺。
觸覺驅動的環境探索包括基於佔位映射粒子濾波的觸覺感知模型和基於注意的「定向」運動策略。 觸覺感知模型由佔有圖組成,其中模擬的環境網格中的每個單元具有被對象佔據的概率。 機器人上的人造晶須的每一個刷子都在機器人的估計位置上更新了這個佔用圖,即如果一個晶須與一個物體接觸,那麼該單元中佔用的可能性就增加了。 為了優化位置和映射的同時估計,使用粒子濾波演算法,其中每個粒子具有其自己的佔用圖,其根據來自晶須的「信息流」而被更新。 為了估計,採用後驗概率最高的粒子。
所採用的運動策略控制可移動晶須陣列的運動,並基於執行定向行為的注意模型。 換句話說,基於顯著的晶須信息構造了基於顯著性的注意圖,導致機器人的整個「頭部」朝向顯著的觸覺對象的定向行為。 因此,一旦與環境中的物體接觸,機器人就會更詳細地探索該物體。 這增加了tSLAM演算法所需的信息收集。
研究結果表明,這個機器人在幾個幾何形狀的競技場中進行了幾次探索性的較量,它已經進行了一個同時定位和環境的映射,與高空攝像機測得的地面實況有著令人印象深刻的一致。 該模型顯示了來自其他感官的已知和良好建立的模型如何能夠適應觸覺領域的獨特性質,並告知探測嚙齒動物可能的感知特徵,並且提高基於觸覺的機器人平台的性能。
觸覺的發展
生物應用
發展模式試圖從更基本的原則( Gordon和Ahissar,2012a )解釋觸覺和其伴隨運動策略的出現。 後者假定代理人與其環境之間的反覆交互,從而積累了感官知覺的基本機制的統計表示。 此外,在這些發展模型中學習了最大化感知可信度的最佳感覺運動策略,而不是假定或預先設計的。
圖3:內在獎勵強化學習模型架構( Gordon 等 ,2014c )。
一種發展模式框架是人為的好奇心,其中強化學習範式被用來學習最優策略,而獎勵功能是內在的,與感官知覺的學習進度成正比。 在這個框架的一個實例化的觸覺領域,一個人工神經網路被用來模型的觸覺正向模型,即網路預測下一個感官狀態根據當前狀態和行動執行。 更具體地說,該網路是在觸覺系統上進行的,其中感覺狀態由晶須角度和二元接觸信息組成,並且作用是伸長(增加的鬍鬚角度)或縮回(減小的鬍鬚角度)。 因此,人工神經網路學會了映射在晶須場中的物體,例如,如果晶須長時間會引起接觸(有物體),那麼給定當前的晶須角度並且不接觸。 通過移動鬍鬚,觸覺感知模型了解到環境。
發展模式試圖回答的問題是,如何最大限度地提高映射環境的效率,最好的方法是移動晶須? 為此,使用內在獎勵強化學習,其中獎勵與感知ANN的預測誤差成正比。 因此,預測誤差越多,獎勵就越高,體現「以錯誤學習」的概念。 政策收斂了,把鬍鬚往更不為人知的地方轉移。
這種發展模式的結果顯示了攪動行為的趨同性 ,從隨機運動開始並結束於在成年嚙齒動物中觀察到的行為,例如用於學習自由空間和觸覺誘導泵的周期性攪拌( Deutsch 等人 ,2012 )定位晶須領域的觸覺物體。 該模型表明,這些行為是在發展中學習,並不是先天的嚙齒動物的大腦。 此外,該模型建議發育特異性的大腦連接性 ,感知學習大腦區域,例如桶形皮層和獎勵系統,例如基底節 ,使得前者向後者提供獎勵信號 。
機器人應用
在一個手指機器人平台與觸覺感測器的人工好奇心原則的研究也進行了( Pape 等 ,2012 )。 目標是研究觸覺手指運動的出現,優化表面紋理的觸覺感知。 2×2對於機器人平台,使用了一個機器人手指,該機器人手指具有兩個基於肌腱的致動器和尖端的三維微電子機械系統(MEMS)觸覺感測器。 手指能夠彎曲以便觸摸具有變化紋理的表面。
0.33 s對於觸覺感知,在0.33textrms 期間使用聚類演算法來區分MEMS記錄的結果頻譜。 這種無監督的學習模式代表了將觸覺感覺信息抽象為不連續的觸覺感知。 然而,聚類僅在最近的觀察中進行,並且因此取決於手指的移動,例如,自由移動而不接觸產生與在表面上輕敲不同的光譜。 在這項研究中提出的問題是:「通過固有的動機機器人手指學習不同的觸覺,學習哪些技能?」。
為此,開發了一種獎勵機制,以便在各方面的探索中獲得內在的回報:鼓勵探索的手指位置的未開發狀態的獎勵是高的; 獎勵結束在觸覺感知狀態,從而驅動對特定觸覺的感覺,體現主動感應原理; 獎勵技能仍然在變化,從而注重技能的穩定。 這種複雜的獎勵機制確保了出現一些內在動機穩定的技能,旨在達到特定的觸覺感知。 每一個開發的技能都以一種可重複的方式產生了獨特的感覺。
這項研究導致出現了幾個具有內在動機的技能:
1.避免導致自由空氣觸覺的表面的自由運動;
2.輕敲動作,導致表面獨特的光譜;
3.滑動運動導致紋理特定的光譜。
這些眾所周知和記錄的人類手指驅動的觸覺感知的觸覺策略從內在動機出現並且未被預先設計。 因此,發展模式導致學習與獨特的觸覺感知相關的觸覺技能。


※「機器人之夜」看獵豹跑得快還是五款機器人價格降得快?「鴻門宴」正式上演
※人工智慧除了創造新材料還能預測化學反應性能
TAG:人工智慧學家 |