躲貓貓遊戲殺手:新技術讓你看到隱藏在角落的物體
近日,計算機視覺科學家在重構視野所不可達的隱藏場景信息領域又有新的進展,科學家通過圖像處理及重構技術,能讓我們看到隱藏在角落周圍的物體以及物體的移動,甚至聽到隔音窗內的密談、看到大霧後的物體等。這些技術的發展,不僅在軍事及間諜領域有吸引人的應用,在無人駕駛汽車、機器人視覺、醫學成像、空間探索以及搜索救援等領域都有潛在的應用。
圖 | 從陰影中重構隱藏在角落周圍的物體。(來源:Quanta Magzine)
早在 2012 年,計算機視覺科學家 Antonio Torralba 在西班牙海岸度假時,就曾注意到酒店房間的牆壁上出現了一些雜散的陰影,但卻並未發現這些陰影的投射來源。最終,Torralba 發現牆壁上那些斑駁的「補丁」並不是什麼陰影,而是他窗外露台的一個暗淡的、倒置的圖像。在這裡,窗戶就像是一個最簡單的針孔相機,窗外光線通過窗戶這個小孔在另一側形成一個倒立的像,但是這個像在室內光亮的牆壁上幾乎不可辨別。然而,這卻讓 Torralba 意識到,這個世界充滿了我們看不到的視覺信息。
圖 | Bill Freeman(左)和Antonio Torralba,MIT計算機視覺科學家。(來源:Lillie Paquette / MIT School of Engineering)
「我們雖然注意不到這些隱藏的圖像,」Torralba 說,「但它們一直都是存在的。」
這一經歷讓麻省理工學院(MIT)的 Torralba 教授及其同事 Bill Freeman 教授對這種無處不在的現象產生了極大的興趣。他們將這些由窗戶、角落、室內植物以及其他常見物體對其周圍場景產生的微弱圖像的現象稱為「意外相機」(accidental camera)。這些圖像要比於正常物體暗差不多 1000 倍,通常無法通過裸眼辨別。Freeman 解釋說:「我們做的就是想辦法把這些圖像提取出來並變得可見。」
圖 | Torrablba教授發現「意外相機」的酒店房間的窗外場景(1)、室內房間牆壁上微弱的圖像(2)、通過硬紙板遮擋窗戶減小「小孔」尺寸所得的更清晰的圖像(3)、倒置圖像後獲得的窗外場景的投影圖像(4)。(來源:Antonio Torralba and William T. Freeman)
隨後,兩人研究了這些「遠在天邊近在眼前」的視覺信息究竟有多少。在 2012 年的第一篇論文中,Freeman 和 Torralba 指出,只需對房間牆壁上的光線進行拍攝,用像 iphone 這樣常見的相機就行,就能通過圖像處理獲得窗外的場景信息。在 2017 年的研究中,該團隊又稱:僅需拍攝街角附近的地面,就能發現街角另一側有人在移動。今年夏天,該團隊展示了他們可以通過拍攝室內植物,然後從植物葉子所投下的不同陰影中,重建出房間其餘地方的三維圖像。此外,他們還能將樹葉變成一個「視覺麥克風」(visual microphone),通過放大它們的振動來聽清人們在說什麼。
該音頻是 2014 年由研究者通過隔音窗戶所拍攝的一個空薯片袋的震動所重構出來的,有趣的是這個的原音最初是由托馬斯·愛迪生在 1877 年用留聲機錄下的第一段音頻。
非視線成像(non-line-of-sight imaging)
自 2012 年 Torralba 和 Freeman 發現「意外相機」,以及同年來自麻省理工學院的 Ramesh Raska 領導的另一獨立研究組所發表的另一篇里程碑式論文以來,這種能夠「看到」盲區並能推斷出那些隱藏信息的技術——稱為「非視線成像」(non-line-of-sight imaging)——便一發不可收拾了。
2016 年,美國國防高級研究計劃局(DARPA)啟動一項價值 2700 萬美元的項目——「利用主動光場根本性提高可見度」(Revolutionary Enhancement of Visibility by Exploiting Active Light-fields,REVEAL),並向美國幾家新實驗室提供充足的資金。這在一定程度上是基於科學家前期的研究成果的。
從那以後,研究者又有了一系列新的見解以及圖像處理上的數學技巧,這讓「非視線成像」這一技術更加的強大和實用。除了顯而易見的軍事及間諜應用之外,研究人員將這項技術應用於自動駕駛汽車、機器人視覺、醫學成像、天文學、空間探索和搜索救援等任務中。
據 Torralba 稱,他們開始進行這項研究的時候並未想過會有什麼特殊的應用,只是單純的想要研究這些圖像形成的基礎以及到底是什麼扮演了相機的作用,沿著這條路走就自然而然走向了對光線行為以及光線如何與環境中的物體及表面相互作用的全面研究。然後,他們就開始看到一些甚至別人從未想過要尋找的視覺信息。Torralba 指出:心理學研究表明,人類真的不擅長解析陰影。原因之一可能是由於我們所看到的許多物體實際上並非陰影,最終我們的眼睛也失去了理解陰影的能力。」
意外相機(Accidental Cameras)
通常,那些攜帶著視野之外的場景信息的光線,不斷地碰到牆壁和其他表面,並最終反射到我們的眼睛裡。但是,為什麼最終的視覺信息會如此微弱呢?原因是有太多這樣的光線信息從四面八方傳來,它們互相掩蓋了彼此。
要想形成一幅圖像,就必須嚴格限制光線落在一個表面上,從而形成對某一特定場景的成像,這就是針孔相機的作用。最初在 2012 年,Torralba 和 Freeman 的看法是我們所處的環境有很多物體和特徵會自然地限制光線,從而形成一些微弱但足以被計算機探測到的圖像。
通常,針孔照相機的孔徑越小,得到的圖像就越清晰,因為這種情況下被成像物體上的每一個點只會發射出一條具有正確角度的光線並通過針孔。Torralba 房間的窗戶(作為針孔)尺寸太大,從而無法產生清晰的圖像。並且,Torralba 和 Freeman 也知道,一般來說這類可用的「意外針孔相機」是非常稀少的。但是,他們發現由任意尺寸較小的、遮光的物體所構成的「逆針孔相機」(anti-pinhole camera, or pinspeck camera),到處都能成像。
設想一下,你正在通過窗帘縫隙拍攝室內的圖像,但是基本上看不到什麼,突然你的視野里出現一個人的手臂。這時,通過比較在有無手臂出現的情況下牆面光線的強度,就能重構出場景的一些信息。因為在第一段視頻中射向牆面的一組光線會在第二段視頻中被手臂短暫地擋住,通過從後一個圖像減去前一個圖像的數據,就能提取出被胳膊擋住的那一組光線,而這正代表了房間某一部分的圖像。
除了通過「意外相機」採集光線微小的強度變化之外,Freeman 他們還設計了檢測及放大微小顏色變化的演算法,比如由於血液流入流出引起的人臉顏色的微小變化以及微小運動等,這就是用空薯片袋「竊聽」的訣竅。現在,研究者能夠很容易識別百分之一像素級別的微小運動,通常這類運動都是湮沒在雜訊中的。他們的方法就是利用數學變換將圖像轉化為正弦波,而在這個轉換的空間中,信號並不受雜訊影響,因為正弦波代表很多個像素的平均值,因此雜訊就被分散開來了。因此,研究者就能檢測到視頻序列中前一幀到後一幀中正弦波位置所發生的變化,然後將這些變化放大,最後把數據再轉換回來。
目前,研究者已經開始著手匯總並集成這些能夠探測「盲區」視覺信息的各種技術。去年 10 月,Freeman 當時的研究生 Katie Bounman(現供職於哈佛史密森天體物理學中心)的研究指出,建築物的各個角落都能作為相機,並能對拐角處的場景信息進行粗略的描繪。
就像針孔相機和「逆針孔相機」中用到針孔和小遮擋物一樣,各種稜角也會限制光線的傳播。只需利用普通的記錄設備,甚至是 iPhones 這樣常見的相機,Bouman 團隊對建築物拐角處的半影區——由拐角另一側盲區傳來的一組光線所形成的陰影區域——進行了拍攝,發現了有趣的現象。如果一個穿紅衣服的人在拐角另一側行走,紅衣服會向半影區投射一部分紅光,當行人走動時,這些紅光也會隨之掃過半影區。這在人的肉眼看來並無明顯變化,但在圖像處理後卻一目了然。
圖 | 通過拍攝(1)中牆角附近地面上模糊的半影區,就能獲得(2)中拐角另一側的場景信息。當盲區中的物體移動時,其向半影區投射的光線會以相對於牆壁的不同角度而掃過。在(3)中,這些細微的強度和顏色的變化通常是肉眼不可見的,但通過演算法來增強,就能獲得物體移動的信息,比如(4)中一個人移動和(5)中兩個人移動。(來源:Antonio Torralba and William T. Freeman 等)
在今年 6 月的突破性工作中,Freeman 團隊從靠近牆壁的葉狀植物所投下的陰影中重構出整個房間的「光場」——即關於整個房間光線強度和方向的圖像。樹葉就像一個個擋光物,每一片都會遮擋不同部分的光線。研究者將每片樹葉的陰影與其餘陰影做對比,就能提取出它所遮擋的那部分光線,從而解開一部分不可見場景的圖像。最後,將視差(parallax)考慮進去後,研究人員就能將這些圖像拼起來實現對整個場景的重構。
這種光場技術所獲得的圖像要比早期「意外相機」的結果清晰很多,因為在演算法中加入了外界場景的先驗知識。比如,已知的室內植物形狀、自然圖像趨於平滑的假設以及其他的先驗知識,使研究人員能夠推斷雜訊信號,從而有助於得到更清晰的圖像。正如 Torralba 所說,光場技術「需要了解大量的環境信息來進行重建,但它同時也(為我們)提供了大量的未知信息」。
散射光
圖:MIT 計算機視覺科學家 Ramesh Raskar 開創了一種主動非視線成像技術。
(來源:Courtesy of ACM SIGGRAPH 2017)
當 Freeman、Torralba 及其團隊沉迷於發現那些我們「視而不見」但卻一直存在的圖像時,在 MIT 校園的另一處,計算機視覺科學家 Ramesh Raskar(曾受邀參加 TED 演講)的目標似乎更加明確。他採用了一種「激光主動成像」(active imaging)的方法:利用昂貴、專門設計的相機-激光系統,實現對拐角處場景的高解析度成像。
圖 | 在主動非視線成像中,激光射向牆面並反射到障礙物後隱藏的物體上,從物體上散射的光反射經過牆壁再次反彈回來的方向,利用這個反射光就可以對物體進行三維重建。(來源: 2018 Stanford Computation Imaging Lab)
2012 年,Raskar 及其團隊終於實現了五年前的想法。他們開創了一項新技術,用激光脈衝照射牆壁,以使一小部分散射光能夠在一些障礙物周圍反射回來。在每一個脈衝後的瞬間,用一個「超高速掃描相機」(streak camera)探測牆壁所反射回來的光子,超高速掃描相機能以每秒數十億幀的幀頻記錄單個光子。通過測量返回光子的飛行時間,研究人員就能計算其飛行距離,從而重建對光子進行散射的障礙物後隱藏物體的三維幾何細節。其中一個複雜的問題是,必須用激光掃描整個牆壁才能形成三維圖像。「舉個例子,角落裡隱藏有一個人,從他的頭部、肩部和膝蓋三個部位各有一個特定的點,這三個點反射的光可能會同時到達相機。但是,當我們稍微調整激光的照射位置,這三個點發射的光到達相機的時間就會不一樣了」,Raskar 說,「所以,必須把所有的信號都整合起來並解出這個『逆問題』,從而重建這個隱藏的三維幾何體」。
圖 | 利用反射光對障礙物另一邊隱藏的兔子進行三維重建。(來源: 2018 Stanford Computation Imaging Lab)
最初,Raskar 團隊用來解決這個「逆問題」的演算法需要大量的計算,光設備就耗資 50 萬美元。現在,他們在簡化計算和削減成本方面已經取得了重大進展。今年 3 月份,Nature 雜誌刊發的一篇論文為高效、低成本的拐角處隱藏物體三維成像定了一條新的標準。文中成功對拐角處的一隻只兔子雕像進行三維成像。該論文的作者,來自斯坦福大學的 Matthew O』Toole、David Lindell 和 Gordon Wetzstein 設計了一種強大的新演算法來解決這類「逆問題」,並且使用的是一種相對便宜的、幀速率較低的 SPAD 相機。作為其中兩位作者早期導師的 Raskar 高興的稱這項工作「非常聰明」,並稱這是「我最喜歡的論文之一。」
先前的演算法都曾被一個過程性細節所拖累:研究者通常選擇從牆上的不同位置探測返回的光子,而不是激光指向的位置,這樣相機就可以避免(收集)激光的後向散射光。但是,斯坦福大學的研究者通過將激光和相機指向幾乎相同的點,能使出射和射入的光子映射出相同的「光錐」(light cone)。每當光從一個表面散射出去後,就會形成一個不斷膨脹的「光子球」,隨著時間的延伸,這個光子球的軌跡就會形成一個光錐。論文作者之一,Matthew O』Toole(已從斯坦福大學轉去卡內基梅隆大學)把物理學的光錐(註:20 世紀早期,由愛因斯坦的老師赫爾曼·明科夫斯基提出)轉換成一個簡明的數學表達,將光子飛行時間與散射表面位置聯繫起來,稱之為「光錐變換」(light cone transform)。
現在,自動駕駛汽車已經部署了用於直接成像的激光雷達系統(LIDAR),可以預想未來有一天也會配置上 SPAD 相機用於對拐角處「盲區」的成像。「在不久的將來,這些(激光-SPAD 相機)感測器將會以手持的形式出現」,Rasker 團隊 2012 年開創性論文的第一作者 Andreas Velten 預言說。目前,Andreas Velten 在威斯康星大學麥迪遜分校(University of Wisconsin, Madison)帶領著一個主動成像的研究小組。
「現在的任務是『進入更複雜的場景』以及真實的場景」,Velten 說,「而不是精心設計一個帶有白色物體和黑色空間的模擬場景。我們要的是一個全自動的』傻瓜相機』」。
找到物體的位置
Freeman 團隊的研究人員已經開始集成被動成像和主動成像這兩種技術,博士後 Christos Thrampoulidis 的一篇論文表明,在用激光進行主動成像時,角落周圍如果有一個已知形狀的物體構成「逆針孔相機」,就能用來重構隱藏的場景而根本不需要光子飛行時間等信息。「這樣的話,我們就可以用普通的 CCD 相機來完成場景重構」,Thrampoulidis 說。
有朝一日,非視線成像技術或許也能用來幫助救援隊、消防隊以及自主機器人。目前,Velten 正在與 NASA 噴氣推進實驗室合作,進行一項旨在對月球上洞穴內部進行遠程成像的項目。與此同時,Raskar 團隊已經利用他們的方法來閱讀一本閉合的書的前幾頁,以及看到濃霧背後一小段距離的場景。
除了音頻重建之外,Freeman 的運動放大演算法在健康和安全設備上可能會派上用場,或者用來檢測微小的天文運動。來自紐約大學和 Flatiron 研究所 (一所由西蒙斯基金會資助的研究機構) 的天文學家和數據科學家 David Hogg 說,這個演算法「是一個非常好的想法」,並且「我們一定要在天文學中應用它」。
當被問及有關隱私的問題時,弗里曼說道:「這是我整個職業生涯都在不斷思考的問題,我想了很多很多」。Freeman 說,當他開啟自己的職業生涯時,他並不想從事任何有關潛在軍事或者間諜應用的工作。但隨著時間的推移,他開始認為,技術是一種工具,而工具能以多種途徑使用。如果你極力避免任何可能用于軍事目的的技術,那麼你將什麼也做不了。即使在軍事應用情況下,工具被如何使用也是一個非常廣泛的選擇。有時候可能會幫助人們免於攻擊者的擊殺。總的來說,能夠找到隱藏物體的位置總是件好事。
不過,讓他興奮的並不是技術的潛力,而僅僅是發現了那些「視而不見」的隱藏信息。他說:「這個世界充滿了許多尚未發現的東西。」


※音樂益處多,鋼琴課可提高孩子的語言能力
※台積電「病毒事件」影響約17億大於市場預期,喚起同業安全意識
TAG:DeepTech深科技 |