仿照人眼機制等效20萬幀率,NTU終身教授從源頭挑戰機器視覺
撰文 | 四月
你能盯著天花板持續半個小時嗎?
大多數人在不到十分鐘便會走神、發獃或者犯困;但卻能對著電腦屏幕長達數小時。這就是生物神經系統的工作原理之一——依靠電脈衝信號來驅動,而不是基於固定的頻率去看世界。
通過一秒鐘眨幾十次眼睛來記錄圖像,是攝像頭才有的「看法」。
基於半導體的集成電路技術來模擬上述的生物神經系統結構,仿照人腦及感官的運作規則而構建的晶元被稱為類神經形態(Neuromorphic)晶元,在1980 年代晚期由與戈登·摩爾(Gordon Moore)共同定義摩爾定律的卡弗·米德(Carver Mead)教授提出。
陳守順所創立的芯侖科技就是這套理論的忠實踐行者。
「現在大家都在談算力的問題,但從來沒有人反問過算力為什麼會有問題?會不會是前端有問題?
業界對於前端感知設備的迭代只是聚焦在堆積冗餘的這一條路徑上,比如用幀率更高攝像頭,從 30 幀、60 幀到 100 幀……似乎都在不計成本地堆疊更多的數據,然後創造更多的算力,以彌補前端的不足。
有沒有可能從底層原理上顛覆這套技術方案,讓機器像人眼一樣在前端就直接到更有效、更簡潔的數據?」
採訪之初,芯侖 CEO 姚楷祥便拋出了一連串疑問和思考,他和陳守順試圖挖掘出更底層的方案來解決目前人工智慧應用過程中面臨的算力不足問題,尤其在機器視覺領域。
姚楷祥認為,這其中的源頭來自於傳統攝像頭所記錄的數據並非適合機器間的交流,主要體現在兩個方面:
一是攝像頭「是否看得見」,即幀率夠不夠快、能不能清晰識別到高動態的明暗範圍,能不能快速地進行明暗視角的切換。
二是系統「能不能算得過來」,比如我們能夠從相機看到某個人像,但是機器的演算法卻無法識別出來,可能就是非結構數據結構化效率不足或者能效不足。
在記錄運動圖像中常遇到的經典問題——Motion Blur(運動模糊),即幀率不足的體現。運動模糊指在拍攝運動速度非常快的物體時出現拖影現象,其原因在於傳統相機按下一個快門即需要經過重置電荷累計、曝光、讀出、空閑四個流程,但它真正在記錄影像的過程有且僅有曝光階段,只佔總流程的 1/4。
正是由於傳統感測器數據採集存在間隔,攝像頭僅在曝光階段觀察世界,不曝光時便不記錄,造成對物體的追蹤存在盲區,丟失了大量物體運動信息,為後端圖像處理演算法帶來難題。
面對傳統相機存在的數據量過大和運算能力不足兩大難題,芯侖團隊推出動態感測器晶元——CeleX,其核心技術積澱來自於陳守順在香港科技大學、耶魯大學、南洋理工大學等多所高校近二十年的教研成果積累。
據介紹,CeleX 能夠實現每個像素都能連續並行地單獨監測光強波動,並在達到閾值時激發事件被讀出,從而採集到同時具備二維坐標和時間信息的三維數據集。
「我們希望教會所有的 Robotics(機器人)、UAV(無人機)、AGV(物流機器人)像人眼一樣去感知這個世界。」這句話常被視為機器視覺領域研究者們的終極理想,看起來芯侖團隊對其的理解更為深刻。
突破傳統 CMOS 瓶頸
「一輛自動駕駛汽車每天將產生 4TB 的數據」,相信很多自動駕駛從業者對這個數字並不陌生,這是英特爾在一組報告中引述的數據。
但很多人所不了解的是,「這其中 99% 以上的信息跟安全決策無關。」姚楷祥談道。
為了獲取更為有效的數據為後端服務,同時兼容市面上現有的主流方案,芯侖在其感測器晶元上設置了三類輸出碼流方式:
1)圖片模式,和傳統圖像感測器一致的全幅圖像,兼容傳統圖像處理演算法和硬體;
2)動態模式,為芯侖所特有,通過對自然光強變化的判定輸出仿生的動態特徵脈衝信號(X、Y、A、T),類似於激光雷達輸出的點雲圖像;
3)光流模式,為芯侖所特有,無需降維,從晶元上得到光流向量場信息,無需後端演算法處理,直接輸出全解析度運動矢量信息(方向和速度)。
上圖為攝像頭的常見內部結構,其中感測器(sensor)是其核心元件,決定著攝像頭的解析度、幀率等性能。
據陳守順介紹,CeleX 感測器對高速數據的採集指標可等效於:每秒 20 萬幀,像素點時間解析度 5 納秒,動態範圍超過 120dB。
關於 20 萬幀的超高頻率,陳守順解釋道,在傳統感測器中,圖像的記錄存在固定的幀率,即以某個頻率對陣列的所有像素點採樣一次。
但在 CeleX 的動態模式下,只有光強發生變化的像素才會被讀取,即「敵不動,我不動」,因此晶元的輸出數據就不受幀率的影響,運動頻繁的點讀出次數會相應增多,可以完整記錄下運動的過程,目前的接近數值為 20 萬幀/秒。
陳守順表示,曾試驗過,CeleX 最快能捕捉到超過 3000 公里/小時飛過子彈。
補充一個概念,描述相機動態範圍的單位「dB」(並不是聲音響度的單位),指感測器能同時獲取很亮和很暗的物體的能力大小。比如,當我們在背光場景下拍照,經常出現人物太黑,光線太亮,就是因為相機的動態範圍不夠。而在駕駛場景中,當汽車進出隧道、ADAS 面臨強光直射時,則需要匹配到更寬動態範圍的相機才能保證不出現「過曝」或「過黑」的情況。
陳守順介紹,由於 CeleX 像素點單獨獲取數據,並以對數方式進行光電信號的轉換,不再受傳統的成像參數(曝光時間、白平衡等)影響,所以能夠在高動態範圍方面表現更好,這對自動駕駛的意義很大。
採訪期間,芯侖為我們展示了基於 CeleX 攝像頭的光流可視化圖:不同顏色表示不同的運動方向,深淺表示運動的速度,運動軌跡通過脈衝數據格式顯示。在攝像頭前,筆者以不同速度和不同方向揮動手臂,攝像頭均能較準確地識別。
多維度數據的價值
在原理層面,光流和動態模式等數據格式具備明顯優越性,但要落地到具體產品和現場場景,與現有數據的兼容性和匹配度將成為關鍵。
姚楷祥介紹,因為 CeleX 的多碼流格式,不光有全畫幅圖像,也包含動態信息;而在提取到動態特徵後,我們在此基礎上進行光流拆分和標註矢量信息,最大程度低做到數據的預處理。「這是我們後續商業化的保證。」
作為 CeleX 所特有的光流計算,在自動駕駛領域,諸如 KITTI.ai 之類的傳統數據集都是整體系統效能中至關重要的一個維度。
一般來說,光流計算常見的思路是,運用複雜後端演算法通過前後幀全幅圖像的變化對比進行運算和處理,對於普通相機數據而言,計算非常低效。但在 CeleX 上,光流作為一種預先計算已經集成在感測器功能里,可直接生成時間相關數據。
在自動駕駛以及安防領域中常需要基於圖像進行行為分析,而基於深度學習首先面臨參數眾多的前提,數據量一旦過大將對後續計算帶來難題。陳守順表示,如果時間與空間信息都存在,那將是天然刻畫和描述行為分析的數據。
「我們是一家晶元公司」
芯侖第五代晶元視覺處理開發板參考設計,採用 65nm CMOS ImageSensor 工藝。
「基於我們感測器的特性,CeleX 的晶體管數相比傳統晶元要高出 10 倍,所以整個晶元的電路設計需要重新設計,」陳守順說道。
目前,第四代 50 萬像素(768x640)晶元已經完全投入使用,採用 0.18um CMOS Image Sensor 工藝,單像素點尺寸為 18um x18um,100MHz 高速雙讀出通路,目前主要應用到駕駛員疲勞檢測等領域。
像素升級到 100 萬像素的第五代 CeleX-V,採用 65nm CMOS Image Sensor 車規級工藝,已經流片成功,進入到客戶測試 NRE 階段,預計到明年 6 月份實現大規模出貨。
一般來說,深厚的學術派創業很容易遇到前期商業化探索經驗不足的問題,找到一位互補的 Partner 很重要。
左為芯侖科技董事長兼 CTO 陳守順,右為芯侖科技 CEO
2016 年秋,一次業內線下活動,陳守順偶然結實了還在博世新業務拓展部門的姚楷祥。姚楷祥在聽過陳守順的技術方案後十分興奮,兩人對於公司的很多問題一拍即合。
不久,姚楷祥便以合伙人的身份加入到芯侖,擔任 CEO。關於兩位聯合創業人的分工,陳守順說道,「我主管技術,因為我們的方案涉及到十分寬泛的技術領域,從晶元到應用演算法我都能覆蓋,其餘的管理工作主要由 Kevin(姚楷祥)來負責」。
而關於 CeleX 感測器的故事最早要追溯到陳在香港科技大學攻讀博士學位期間,當時他主要研究方向就是神經元形態的圖像感測器。直到 2011 年,他終於將這個設想落實到了一顆 64×64 像素的原型晶元上。經過幾年的迭代更新之後,陳守順博士在 2015 年於新加坡創立了 Hillhouse Technology 公司,這就是芯侖科技的前身。
目前,芯侖團隊約 40 人左右,分設在上海和新加坡,在今年初獲得百度風投領投的 4000 萬 Pre-A 輪投資。
陳守順仍保留南洋理工大學終身教授頭銜,該校同時也是芯侖重要的的人才基地,校友和同事時常有不錯的人才舉薦。在商務團隊方面,則主要由姚楷祥組建,絕大部分來自博世中國,具備對於車企客戶需求的敏銳嗅覺。
探聽客戶需求:「給我一個盒子」
前文中提到,動態感測器面向主流的機器視覺平台均有一定的用武之地。綜合芯侖的團隊背景和市場環境來看,姚楷祥表示,「作為一家底層晶元公司我們無法在所有的細分市場都提供方案」,現階段仍以汽車市場為主,其他市場領域將爭取有銷售和技術能力的合作夥伴。
法國諮詢公司 YOLE 將動態視覺感測器定義為 L4 和 L5 級別的自動駕駛必不可少的感測器之一。姚楷祥認為,現在 L1、L2、L2.5 級自動駕駛已經量產,L5 級更像是終極目標。但 L3、L4 的前端硬體革新勢在必行,尤其中國將成為全球最大的 L3 級市場,而這正是芯侖的機會。
汽車市場作為傳統產業,仍以主流廠商為主導,他們對該類新形態的感測器態度如何?目前,全球範圍內擁有完整動態視覺感測器開發能力的共有三支,除芯侖科技外另一家同樣具備商業化能力的是Prophesee,已經受到博世、英特爾兩輪領投。對於芯侖而言這是一個明顯信號——「大廠看好這項技術,正在加碼。」
Prophesee 在工業自動化和機器人市場的探索(來源:Prophesee)
在商業落地模式上,芯侖提供了多種靈活方案,主要包括集成了不同程度的功能模塊和裸片兩類。對於頭部用戶而言,比如 Tier1 廠商中 ABCD(Autoliv,博世 Bosch,大陸 Continetal,德爾福 Dephi)等量級的合作夥伴,姚楷祥表示,國際大廠技術實力有保障,更樂意在深層次達成合作,包括數據和底層處理邏輯的合作。
目前,芯侖已經和國內知名 Tier-1 廠商達成互為供應商的合作關係,以切入前裝市場。芯侖主要提供動態感測器晶元,而該 Tier-1 廠商可提供從產品到生產和供應鏈等多項豐富資源。姚楷祥表示,這種合作模式將為雙方在後端功能和衍生頂層定義等多維度上產生協同效應。
「此外,對於應用演算法或者技術團隊不夠完整的下游夥伴,交鑰匙方案將是他們的首選」,姚楷祥談道,「絕大部分客戶都會表示,給我一個盒子,所有的事件驅動功能、仿生非同步軟體、演算法、運算邏輯都在裡面。」這在一定程度上對於陳守順帶領的技術團隊提出了更高要求。
在產品的具體功能實現層面,陳守順簡單列舉了使用場景,並表示最終的產品功能更適合由合作夥伴發布。
目前在車內監測場景中,疲勞駕駛預警系統(DMS)所涵蓋的打瞌睡、打電話等行為監控功能已經十分常見。陳守順表示,基於芯侖超高等效幀率的動態模式,針對駕駛員的眨眼頻率能夠進行更準確地識別。
「傳統檢測眨眼的相機需要匹配 40-50 幀率,但同時也會遇到處理器算不過來的矛盾,導致對算力的要求水漲船高」。而芯侖的方案則在更為有效的數據採集前提下降低了算力要求。
在車外場景下,對於採用後裝模式的 ADAS 產品,由於缺少前裝產品與車內方案深度結合的優勢,對其靈敏度和預警功能提出了更高要求,同樣能發揮出 CeleX 的應用特性。
姚楷祥介紹,將在 CES 前後發布多個跨領域下游戰略夥伴及相關合作細節,尤其是在事件驅動型信號處理上已可通過中外方案聯動量化十數倍的帶寬節約的運算速度的提升。
要不要做 Mobileye?
對於大部分以 ADAS 為最終形態的廠商而言,Mobileye 將是他們的最終夢想——掌握這全球超過 80% 的市場份額,擁有豐富的 ADAS 視覺產品線。
但在姚楷祥看來,Mobileye 是傳統路徑的領跑者,芯侖在底層視覺原理上不同,並不想把自己局限在 Mobileye 的替代方案。
他補充道,Mobileye 有很多事情值得後晉廠商學習和參考的思路,比如基於傳統的信號處理和運算邏輯,不光能夠實現 ADAS 的基本功能;還能基於相機單品類產品上建立起豐富的商業模式,比如高精度地圖、眾包、LBS 等。此外,Mobileye 日臻開放的態度也同樣值得借鑒。
「以往大家認為,攝像頭只是個資質平平的學生,只讓他處理最基本的任務」,姚楷祥表示,但我們能讓它的諸多性能指標,鮮度、魯棒性等能夠做得最好,那大家可能會把更核心的任務交給他。
對於芯侖而言,兩位創始人均表示,芯侖動態視覺感測器對傳統的感光 CMOS 不是一個簡單的成像能力的替代,而將改變的是大家對系統和頂層設計的定義。芯侖科技目標將瞄準標準的 L4、L5 級以上的系統和功能,並目標以 L3 級自動駕駛方向落地。
底層技術的雙面性
整體而言,芯侖團隊作為全球範圍內少數掌握動態視覺感測器核心技術的團隊,在技術領先性和商業靈活性上擁有更多話語權,背靠廣闊的市場空間和機會。
但與此同時,更底層和新穎的技術形態預示著市場的未開化,作為第一批吃螃蟹的人,芯侖也註定需要投入更多的努力和時間來完善產品和樹立標杆模式。
成熟市場已成規模但早有巨頭佔領,新興市場則需要更多力量和合作才能開掘,但也蘊含更多可能——商業和技術實則在相互制約中發展。
具體落地到汽車智能化市場,摸爬滾打多年的姚楷祥深知其中的不確定性,「這個行業變化太快,留給創業者的時間並不會太多,三到五年吧。當目光從單車智能轉向車路協同,窗口期將會關閉。」
但他同時相信,正是因為此,出奇招才能制勝,基於動態視覺感測器晶元的市場將在不斷補缺傳統 CMOS 的功能與場景中得到量化和肯定。


※跑分超麒麟980,聯發科即將發布的P90勝在哪?
※聖誕將至,試試這份AI為你準備的創意食譜?
TAG:機器之能 |