當前位置:
首頁 > 最新 > 「極簡主義機器學習」演算法可從極小數據中分析圖像

「極簡主義機器學習」演算法可從極小數據中分析圖像

AiTechYun

編輯:nanan

美國能源部勞倫斯伯克利國家實驗室(伯克利實驗室)的數學家們開發了一種新的機器學習方法,旨在實驗成像數據。這種新方法不是依靠典型機器學習方法所使用的數十或數十萬個圖像,而是「更快地學習」,並且極少所需的圖像。

一片小鼠淋巴細胞樣的圖像: a是原始數據,b是相應的手動分段,c是具有100層的MS-D網路的輸出。

伯克利實驗室能源研究應用高級數學中心(CAMERA)的Dani?lPelt和James Sethian通過開發他們稱之為「混合尺度密集卷積神經網路(MS-D)」的方法,將平常的機器學習視角轉變為頭腦,比傳統方法少得多的參數,快速收斂,並且能夠從一個非常小的訓練集「學習」。他們的方法已被用於從細胞中提取生物結構圖像,並將提供一個重要的新計算工具來分析廣泛的研究領域的數據。

當實驗設施以更高的速度生成更高解析度的圖像時,科學家們就很難對得到的數據進行管理和分析,而這些數據通常是手工完成的。2014年,Sethian在伯克利實驗室建立了CAMERA,作為一個綜合性的跨學科中心,開發和提供基本的新數學,以利用美國能源部科學辦公室的用戶設施的實驗調查。CAMERA是實驗室計算研究部門的一部分。

「在許多科學應用中,需要大量的體力勞動來注釋和標記圖像——需要幾周的時間才能製作出幾個精心描繪的圖像,」Sethian說,他也是加州大學伯克利分校的數學教授。「我們的目標是開發一種從非常小的數據集學習的技術。」

該演算法的信息於2017年12月26日在《美國國家科學院院刊》上發表。

「這一突破源自於認識到在不同圖像尺度下通常的縮放和放大拍攝功能可以被處理多個尺度的數學卷積所取代,」Pelt說,他也是Centrum計算成像組的成員。Wiskunde&Informatica,荷蘭數學和計算機科學國家研究機構。

為了使該演算法能夠被廣泛的研究人員所接受,由Olivia Jain和Simon Mo領導的伯克利團隊建立了一個門戶網站「分段標記圖像數據引擎(SlideCAM)」,作為美國能源部實驗設施的CAMERA工具套件的一部分。

使用1024個投影(a)和120個投影(b)重建的纖維增強微型複合材料的斷層圖像。在(c)中,顯示了具有圖像(b)作為輸入的MS-D網路的輸出。在每幅圖像的右下角放大顯示由紅色方塊指示的小區域。

一個有前途的應用是理解生物細胞的內部結構,以及Pelt和Sethian的MS-D方法只需要來自7個細胞的數據來確定細胞結構的項目。

「在我們的實驗室,我們正在研究細胞結構和形態如何影響或控制細胞的行為。」美國國家x射線斷層掃描中心主任、加州大學舊金山分校醫學院的教授Carolyn Larabell說:「我們花了大量的時間來手工分割細胞,以提取結構,並識別出健康與患病細胞之間的差異。」「這種新方法有可能從根本上改變我們理解疾病的能力,並且是我們新的Chan-Zuckerberg贊助的建立Human Cell Atlas項目的關鍵工具,該項目是一項全球合作項目,用於繪製健康人體中所有細胞身體。」

從更少的數據中獲取更多的科學

圖像無處不在。智能手機和感測器已經產生了一批珍貴的圖片,其中很多都帶有相關的信息。使用這個交叉參考圖像的龐大資料庫,卷積神經網路和其他機器學習方法已經徹底改變了我們快速識別那些看起來像之前看到和被分類的自然圖像的能力。

這些方法通過調整一組驚人的隱藏內部參數來「學習」,這些隱藏的內部參數由數以百萬計的被標記的圖像引導,並且需要大量的超級計算機時間。但是如果你沒有那麼多的標記圖像呢?在許多領域,這樣的資料庫是無法實現的奢侈品。生物學家記錄下了細胞的圖像,並煞費苦心地用手勾勒出邊界和結構:一個人花數周時間想出一個完全三維的圖像是很正常的。材料科學家利用斷層重建技術來觀察岩石和材料,然後捲起他們的袖子來標記不同的區域,用手識別裂縫和空隙。不同但重要的結構之間的對比往往非常小,數據中的「噪音」可以掩蓋特徵,混淆了最佳演算法。

這些珍貴的手工製作的圖像在傳統的機器學習方法中還遠遠不夠。為了迎接這一挑戰,CAMERA的數學家們從非常有限的數據中攻克了機器學習的問題。他們試圖用更少的方法做「更多」,他們的目標是找出如何建立一套高效的數學「運算符」,這樣可以大大減少參數的數量。這些數學運算符可能會自然地結合關鍵約束來幫助識別,例如,包括對科學合理形狀和模式的要求。

左圖:具有縮放操作的常見DCNN體系結構的示意圖; 向下箭頭表示縮小操作,向上箭頭表示放大操作,而虛線箭頭表示跳過連接。右圖:w = 2和d = 3的MS-D網路的示意圖; 彩色線代表3×3擴張卷積,每種顏色對應不同的膨脹:所有特徵圖用於最終輸出計算。

混合尺度密集卷積神經網路

機器學習在成像問題上的許多應用都使用深度卷積神經網路(DCNN),其中輸入圖像和中間圖像在大量的連續層中進行卷積,使得網路能夠學習高度非線性的特徵。為了在困難的圖像處理問題上獲得準確的結果,DCNN通常依賴於額外的操作和連接的組合,例如,縮小和放大操作以捕獲各種圖像尺度的特徵。為了訓練更深層和更強大的網路,通常需要額外的圖層類型和連接。最後,DCNN通常使用大量的中間圖像和可訓練的參數(通常超過1億),以達到解決難題的結果。

取而代之的是,新的「混合比例密集」網路結構避免了許多這樣的複雜性,並將擴張的卷積計算為縮放操作的替代,以捕獲各種空間範圍的特徵,在單個層中使用多個尺度,並將所有中間圖像緊密地連接起來。新的演算法獲得精確的結果,中間的圖像和參數很少,同時消除了需要調整超參數和附加的圖層或連接以支持訓練。

從低解析度數據獲取高解析度科學

另一個挑戰是從低解析度輸入產生高解析度圖像。任何試圖放大一張小照片的人都會發現,隨著它越來越大,它變得越來越糟,這聽起來幾乎是不可能的。但是用混合密度密集網路處理的一小部分訓練圖像可以提供真正的進展。舉個例子,想像一下,試著去對纖維增強的微型複合材料的層析重建。在本文描述的實驗中,使用1024個獲得的X射線投影來重建圖像以獲得具有相對低雜訊量的圖像。然後通過使用128個投影重建來獲得同一對象的雜訊圖像。訓練輸入是嘈雜的圖像,相應的無雜訊圖像用作訓練期間的目標輸出。經過訓練的網路能夠有效地獲取雜訊輸入數據並重構更高解析度的圖像。

新應用程序

Pelt和Sethian正在將他們的方法應用到許多新領域,例如快速實時分析來自同步加速器光源的圖像以及生物重建中的重建問題,例如細胞和腦圖。

Pelt說:「這些新方法非常令人興奮,因為它們將使機器學習的應用範圍變得比目前可能出現的多種成像問題多得多,」「通過減少所需訓練圖像的數量,增加可以處理的圖像的大小,新的體系結構可以用來回答許多研究領域的重要問題。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

從香農熵到手推KL散度:一文帶你縱覽機器學習中的資訊理論
新手必備!十大機器學習演算法之旅已啟程

TAG:機器學習 |