當前位置:
首頁 > 最新 > 斯坦福大學將人工智慧技術直接融入攝像頭中

斯坦福大學將人工智慧技術直接融入攝像頭中

本文由騰訊數碼獨家發布

直到最近幾十年,相機的作用才專門為普通人而設計。無論是為了好玩,為了藝術,還是為了記錄歷史。隨著機器人技術的快速發展,以及各種各樣的自動駕駛汽車,需要從自己所處的環境中觀察和學習,許多相機都是專門用於完成機器視覺任務的。其中一些最明顯的,比如自動駕駛汽車,嚴重依賴於物體識別,這幾乎是普遍的意思是神經網路對常見的物體進行訓練。在包括電動汽車在內的許多嵌入式系統中,機器視覺的部署是一個限制,這是必要的計算和電力。因此,重新設計相機的設計,考慮什麼是特定應用程序的理想相機架構,而不是簡單地重新設計現有的相機模型是有意義的。

本著這樣一種精神,來自斯坦福大學由助理教授Gordon Wetzstein和研究生Julie Chang領導的一個團隊,建立了一個系統的原型,將一個物體識別神經網路的第一層直接移動到相機的光學上。這意味著所需的推理的第一部分基本上沒有時間,也沒有權力。雖然他們目前的原型是有限的和笨重的,但它為一些新穎的方法指明了在物聯網、車輛和其他嵌入式應用程序中創建低功耗、高性能、推理解決方案的方法。這項研究從人工智慧、成像和光學上得到了大量的研究,因此我們沒有任何方法可以在一篇文章中詳細描述整個系統。下面我們會帶你去看那些讓原型變得如此有趣的亮點和一些突破。

基本對象識別 神經網路風格

大多數當前的對象識別系統都使用一個多層神經網路。藝術系統的狀態通常包括幾十層,但有可能解決簡單的測試套件,比如MNIST、谷歌的QuickDraw、和Cifar 10,只有一層或兩層。無論網路有多深,第一層或層都是典型的卷積層。卷積是在圖像上傳遞一個矩陣(稱為內核)的過程,在每個位置乘以它,並對結果求和以創建一個激活矩陣。簡單地說,這個過程突出顯示了與內核模式相似的圖像區域。典型的系統涉及多個內核,每個內核都反映了被研究對象中發現的一個特性。當網路被訓練時,這些內核應該開始看起來像那些特性,因此產生的激活映射將幫助稍後的網路級別識別特定的對象,其中包括各種特性的例子。

之後的網路層通常是完全連接的,這比卷積層更容易計算。斯坦福的混合光學數碼相機並沒有解決這些問題,而是用一種光學替代品代替了計算昂貴的初始卷積層,而這個團隊稱之為opt-conv層。傳統的光學系統沒有任何簡單的方法可以在圖像上與任意的內核進行卷積,更不用說多個同步的卷積了。然而,如果圖像首先使用傅里葉變換將其轉換為頻率,那麼快速卷積就有可能成為可能——因為在頻域中相乘就像在傳統的空間域中執行卷積一樣。

為了利用這一特性,研究小組利用傅里葉光學技術,建立了所謂的4F光學系統。一個4F系統依靠一個初始透鏡來呈現圖像的傅里葉變換。該系統允許使用中間過濾器或過濾器處理轉換後的圖像,然後用最後一個鏡頭反轉轉換,並呈現修改後的結果。

光學計算

進入到斯坦福的原型技術中,包含了很多很深奧的光學部分,但是它基本上把一些強大的技術結合在一起我們可以很簡潔地描述(如果沒有完全解釋的話)

首先,它是傅里葉變換的一個眾所周知的特徵(它接受一個信號或圖像,並以頻率的形式呈現它),你也可以翻轉它,把原始圖像放回去。重要的是,你可以用一個簡單的光學系統來做這個,只有幾個透鏡,叫做4F光學系統(這整個光學領域叫做傅里葉光學)。

第二,如果你通過一個部分不透明的表面來過濾圖像的傅里葉變換,這和執行卷積是一樣的。

第三,你可以將多個內核平鋪到一個過濾器中,並將它們應用到原始圖像的填充版本中。這模擬了一個多內核系統的行為,它通常會產生一個多通道輸出,通過創建一個輸出一個平鋪的等效項,如下所示:

所以通過計算所需的內核使用傳統的機器學習技術,他們可以用來創建一個自定義過濾器——的形式階段不同厚度的面具,可以添加到午夜4F系統立即執行玲瓏如光穿過設備。

訓練和實現光學卷積層

建議的光學系統的一個限制是,硬體過濾器必須根據訓練的重量來製造。所以用這個系統來訓練自己是不現實的。培訓是通過對系統的模擬來完成的。一旦確定了所需的最終重量,它們就被用來製造一個相位掩模(一個具有不同厚度的過濾器,它改變了通過它的光的相位),有16個可能的值,可以與4F光管道一起放置。

混合光學電子攝像系統的性能

斯坦福的研究團隊在模擬和使用他們的物理原型時評估了他們的解決方案的性能。他們測試了這兩種方法,既可以使用谷歌的QuickDraw數據集來創建獨立的光學相關器,也可以作為兩層神經網路的第一層,與一個完全連接的層相結合,使用Cifar-10數據集完成基本的對象識別。即使考慮到光學系統的限制,所有的重量都必須是非負的,作為一個相關器,系統的精度在70%到80%之間。

這類似於使用標準機器學習技術創建的更傳統的卷積層,但不需要有驅動計算元素來執行卷積。類似的,使用混合光學電子第一層的兩層解決方案在cifar 10上實現了大約50%的性能,與傳統的兩層網路差不多,但其計算能力的一小部分,以及典型解決方案的電能的一小部分。

雖然目前的原型體積龐大,而且需要單色光源,而且只需要使用灰度圖像,但該團隊已經開始考慮如何在更典型的光照條件下和全彩色圖像進行擴展。類似地,4F系統本身也可以通過使用平面衍射光學元件來代替當前的透鏡來縮小尺寸。

該團隊還表示,他們將針對自己的系統公開提供完整的源代碼。

來源:extremetech

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |