當前位置:
首頁 > 知識 > 季順平談「攝影測量與計算機視覺」

季順平談「攝影測量與計算機視覺」

季順平談「攝影測量與計算機視覺」



季順平|武漢大學,遙感信息工程學院,教授

1.波呂斐摩斯


在荷馬史詩《奧德賽》中,波呂斐摩斯是一個獨眼巨人(Cyclops),住在西西里島的巢穴中,殘暴食人。主人翁奧德修斯誤入其中,損失了幾個夥伴後,巧計刺瞎了波呂斐摩斯的眼睛並成功登船逃走。波呂斐摩斯求助其父波塞冬,波塞冬颳起狂風,令航線偏離,奧德修斯因此經受了更多艱險。


圖1 (a)劍水蚤。觸鬚中間的黑色為中眼

季順平談「攝影測量與計算機視覺」


圖1(b)劍水蚤的動畫形象。海綿寶寶中的plankton


無論神話還是自然現實,單眼都是非常罕見的特徵。事實上,地球上的能夠感知陽光的高級動物,都有一對以上的眼睛;極少數低等動物,如草履蟲、水螅等確實只有一隻。圖1(b)中的形象是《海綿寶寶》中的劍水蚤,英文名也叫Cyclops。作為一個Cyclops,有什麼麻煩呢?我們有這樣的常識:單眼很難區分遠近。所謂單目視覺,指根據小孔成像,三維世界被壓縮到二維表面(像片或視網膜),損失的正是深度。


在圖2中,A點的兔子可能出現在虛線的任何一個地方,B點的樹也類似;因為A、B在虛線上移動不會影響眼睛裡的像a、b。獨眼巨人能夠分清A、B的左右位置,但無法確定物體的遠近,以及他們間的相對距離,獵食的難度大大增加。(實際生活中可能沒有特別糟糕。他可以根據常識來判斷遠近(近大遠小);很少有兔子能長到牛那麼大)。

季順平談「攝影測量與計算機視覺」


圖2 獨眼巨人、普通人和兔子


再看看正常人。A、B在左右雙眼分別成像。人能分清兩者的遠近,實際上靠的是「生理視差」Q,Q = a1b1 – a2b2。Q值的正負和大小決定了兩者的相對遠近。我們把左右雙眼的連線叫做眼基線(大概65mm)。生理視差,也可看作眼基線對物體的張角(ra、rb)之差。在物體距離我們非常遠時,兩個角度將非常相近;A、B間的相對距離就很難分辨了。


經驗表明,人眼能分辨遠近點目標的最大距離大概是500m,線目標的最大距離是1km;在更遠的距離上深度已經失去意義。在大海上看日出,你其實分不清海平線和太陽哪個更遙遠。


當我們理解了必須要生理視差才能分辨遠近時,「兩小兒辯日」之類的詰難就簡單許多。「孔子東遊,見兩小兒辯鬥。一兒曰:日初出大如車蓋,及日中則如盤盂,此不為遠者小而近者大乎?一兒曰:……(和我們無關,故省略)?孔子不能決。」事實上,日初出時,周邊滿是參照物,地平線、樹木、遠山。在有參照物時,生理視差傾向於留給你一個比較大的映象;而到日中之時,天上沒有任何參照體。此時生理視覺傾向於認為太陽比較小。這是大腦解譯產生的視覺欺騙現象。與此類似,西方也有類似的爭論,但目標是月亮。至於哪個大小更接近真實?不妨舉起你的照相機,試一試吧?(眼焦距約17mm)

並非兩隻眼睛的動物都有立體視覺。那些善良的被捕食者,為時刻保持警惕,眼睛一般長在兩側,傾向於覆蓋360°的場景,比如牛,羊,兔子等。而大多數捕食者,人類、老虎、鷹等,眼睛長在前面,便於重建深度和掠食。而一些食物鏈中端的小怪獸兩者兼備。比如變蛇龍和椋鳥,根據不同的場景需要,轉動眼球,形成寬廣視野或立體視覺。


人眼的單目視覺和立體視覺行為連接著視神經和腦神經,且深受經驗影響,非常複雜,至今仍在不斷的研究中。目前火熱的深度學習方法,也是部分源於對貓的視神經系統的解剖。我們這裡淺嘗則止。


我們完全可以把兩隻前視雙眼用兩個相機代替,從而組成立體相機。在圖3b中,兩個焦距相同的水平相機分別對兔子成像。根據三角相似,其幾何關係可以表示為:


d/(d+f) = Q/(Q + p2 – p1) (1)

這裡Q是基線,d是物距,f為焦距,p2– p1同樣稱之為視差。(1)建立了視差與深度的一一對應關係。因此,在攝影測量和計算機視覺中談論深度時,有時也轉化為視差表述。在測量學中,根據已知的同名光線o1A與o2A,來交會求得A的位置,叫做三角測量(triangulation)。此外,注意到o1A與o2A,以及基線o1o2共面,將他們看作射線(矢量),我們得到另外一個方程:


(o1A·o2A)×o1o2 = 0 (2)


這裡·是點乘,×是叉積,這個方程叫做共麵條件方程(Coplanarity),由此可導出核線方程(epipolar);這是雙目視覺的幾何基礎。再回到可憐的獨眼巨人,我們列出單視成像的方程(稱為共線條件方程Collinearity,取左邊的光線):


p1/x1 = f/d (3)


由於不存在交會的約束,x1和d都是任意的(d可在豎直方向滑動)。


雖然公式2和3簡單之至(我們後面將其推廣至三維空間,並配備坐標系的轉換),但整個專業的幾何基礎,基本就在這裡了。

季順平談「攝影測量與計算機視覺」



圖3(b)立體相機的幾何關係。

季順平談「攝影測量與計算機視覺」



圖3 (a)簡易立體相機


一般認為是法國測量學家和攝影測量學的先驅Fourcade(1865-1948),首先發現了用立體照片可重建立體視覺,從而促進了攝影測量的誕生。並非對同一物體拍攝的兩張圖片都能形成立體視覺。它們一般需要滿足三個條件:左眼看左片、右眼看右片(即分光條件,可通過鏡筒、紅綠光、偏振光等方法保證。看3D電影帶的紅綠眼鏡或閃閉式眼鏡亦屬此列);眼基線平行於同名像點連線(因此筆者傾向於認為二郎神或者馬二爺的額前豎眼不能與普通的雙眼形成立體視覺);左右像片比例尺接近。


至於立體視覺的交會精度,取決於交會角r的大小。在r = 90°時,精度最高;相反,如果越接近0(或180°)精度越差。在為測圖而進行航拍時,保證足夠的交會角是一項重要指標。


2.阿爾戈斯


同樣是希臘神話中的阿爾戈斯,有一百隻眼睛,睡覺時也總有一些睜著。於是被赫拉派去看守宙斯的情人伊俄。可憐的伊俄已經變成母牛,被拴在樹上。忠誠的赫爾墨斯受風流的父親宙斯之命,唱著悅耳的歌,哄著阿爾戈斯陷入沉睡,並殺死了它,救出伊俄。


理論上說,長100隻眼睛,看上去比一對眼睛更好。事實上,大多數爬行動物,甚至包括人類的祖先,以前都有第三隻眼睛(一般在額頭上)。但在漫長的進化過程中,三隻眼睛似乎是累贅,現存的三眼小怪獸已經所剩無幾。例如圖4(a)中的楔齒蜥,是唯一現存的三眼生物,但中年之後頂眼也會退化。真正厲害的角色是圖4(b)中的海洋小怪獸蝦蛄。跟它相比,人眼可算相當低配。除了可見光,它還能看到紅外線、紫外線和偏振光;更為神奇的是,它具有三目視覺的能力。相當可惜的是,進化的主攻方向不在大腦上,所以淪為了盤中餐。


圖4 (a)楔齒蜥

季順平談「攝影測量與計算機視覺」


季順平談「攝影測量與計算機視覺」



圖4(b)蝦蛄


三目視覺和雙目視覺原理是一致的,只不過交會的光線多了一條。但數學上的表達卻有所區別。上面我們介紹了,立體視覺可以用兩條光線的共面來表達,面是一個二維的空間,基本的代數元素是向量或矩陣。而三目視覺(以及多目視覺)就不太一樣了。由於矩陣無法表達具有3個分量的實體,我們必須藉助新的數學名詞:張量。標量是0維,矢量是1維,矩陣是2維,那麼張量就是3維或更高維度的推廣。


想像一下小時候玩過的魔方,它可以看成一個3×3×3的單元立方體。為表達立方體內的27個元素,具有2個指標的矩陣M = 明顯不夠用了。最直接的方法就是加入一個指標指向第三個方向:T = { Tijk }。我們將T稱作為三維張量。在我們講完「數學基礎」小節後,再詳細介紹新角色「三焦點張量」,它表達了三目視覺的幾何關係。


和蝦蛄一樣,很多昆蟲都有複眼。這些複眼比人眼的光學解析度要差一些;但其時間解析度更高。人的眼睛每秒能分辨24幅圖畫,而昆蟲的複眼則可達240。如果讓昆蟲欣賞每秒24幀的電影,那就是看連環畫的效果。


3.恢復深度的其他方法


即使在自然界,深度的重要性也不言而喻。除了利用雙目(多目)視覺來恢復深度信息外,超聲波是常見的定位和測距系統。和視覺的被動接收光不同,蝙蝠通過口中主動發射超聲波(比人能聽到的聲波頻率更高,人類聽不到),碰到物體後返回,由耳廓接收迴音,以確定目標的大小、距離和方位。蝙蝠利用超聲波的反射特性來測量距離;類似的,同為機械波的聲波、水波,乃至電磁波,在特定情況下都具有反射特性,而廣泛使用的雷達正是利用電磁波。


雷達同樣是主動式系統,從它的英文名Radio Detection and Ranging(RADAR),可看出它的作業方式:發射無線電波,檢測回波,確定物體的距離,其原理即:S = ct/2。S為距離,c為光速,t為電磁波的往返時間。雷達在二戰中催生,當時英國人希望能夠檢測到空中的金屬飛機。此前,爭議性人物特斯拉曾在1917提出過雷達的設想;無線電先驅馬可尼也在1922年提出過利用無線電檢測船隻。


我們知道,電磁波在三維空間的場強隨著距離的平方而衰減;而碰到物體再返回,衰減就是距離的四次方了。為了克服這個缺點,科學家們發展了多種多樣的雷達技術。比如相控陣雷達,類似蜻蜓的複眼,由波束方位可調的輻射單元和接收單元組成陣列;常用于軍事,如美國的「愛國者」防空系統和「宙斯盾」控制系統。合成孔徑雷達(SAR),利用雷達在每個不同位置上接收到的目標回波信號進行相干處理,相當於合成一個「大雷達」。在SAR基礎上發展的干涉合成孔徑雷達(Interferometric syntheticaperture radar,INSAR),在地形測繪中得到重要應用。2000年,美國的「奮進」號太空梭上搭載SRTM (Shuttle Radar Topography Mission)系統,歷時11天,完成了對全球80%陸地的高程採集,後花費2年時間處理,於2003年發布了全球數字高程模型(DEM),解析度可達到30m。目前是攝影測量、遙感等諸多測繪學科不可或缺的基礎地理數據。


激光雷達(Light Detection And Ranging,LiDAR)一般工作在紅外至紫外波段。激光(Light amplification by stimulated emission of radiation,Laser)即受激輻射,港台也稱「鐳射」,電影字幕上常見到;在大陸,激光的中文名是由錢學森命名的,十分確切。其原理由愛因斯坦1917年提出:用某個特定能量的光子去轟擊位於高能態的粒子,粒子可能受激輻射出兩個相位、偏振態、方向一致光子(一個來源於入射光子的能量、另一個是高能級到低能級的躍遷)。


這兩個光子再去激發其餘的高能粒子,二二得四,二四得八。由激光製成的雷達系統,解析度高,抗干擾性強,目前在航空攝影測量、地面移動測圖系統、無人車自動駕駛中得到廣泛的應用。(目前自動駕駛汽車受到來自雷達技術的雙重製約:設備太貴;毫米波雷達和激光雷達在雨天很難作業)


除了蝙蝠外,海豚和鯨魚也利用超聲波捕食和閃避障礙。這些生物進化出超聲波系統都是出於對視覺的補償:蝙蝠在黃昏和夜間捕食;海中光線較暗,尤其是深海。


(1995年正月初二,炮竹不斷。揚州南郊,長江支流,登上二十米高的防洪堤,對岸是隱約的瓜州。驀然之間,江面上千頭涌動,無數江豚越出波光粼粼的水面,用豚類特有的游泳方式波浪前進,十分震撼。短短20年,船隻、水污染、食物匱乏,長江江豚竟頻臨滅絕!少一點人類沙文主義和急功近利,多一點愛護我們美麗、脆弱、唯一的家園)

季順平談「攝影測量與計算機視覺」



圖5 這笑容(以及類似兒童的智商)卻是在控訴罪孽。


除了雷達之外,計算機學科和攝影測量專業有時也用干涉成像的方式得到深度信息(事實上,干涉成像與InSAR非常相似,其原理都可追溯到楊氏雙縫干涉實驗,只是所用的波段一般是可見光,故稱為干涉成像光譜儀)。


干涉成像也是主動成像模式,通過發射兩束可見光波段的激光(選擇激光是因其相干性最好),一束射直接向全息成像面,另一束射向物體並反射回成像面,形成干涉條紋。干涉條紋記錄相位信息以恢復物體的深度;結合物體的反射光,就能恢復真實的3D場景。攝影測量中的干涉成像儀常用來獲取缺乏紋理的三維物體表面,該表面很難通過圖像匹配技術(後面我們再詳細討論)來完成。


此外,還有一種直接從單張二維圖像恢復三維形狀的方法,稱為「從明暗恢復形狀」(Shape from shading),一般用於已知反射率的均勻材質成像(請回顧上一節中的公式1)。


雖然從單張普通二維像片來恢復三維景觀屬於不適定問題(ill-posed problem),但從理論上說,高維事物似乎能夠完全由低一維的事物表達。首先回顧量子力學中的「全息原理」:一個系統可以由它的邊界信息(自由度)完全描述。全息原理不僅適用於光學,同樣適用於X光、微波、聲波,甚至引力。特別是引力全息成像原理,意味著只要研究黑洞表面,就可獲知黑洞的內部構造——後者可能永遠無法直接觀測。


1997年馬爾達西那(Maldacena)提出了AdS/CFT對偶(四維時空的量子場論,對偶於十維反德西特空間中的弦),這是全息原理的最成功的實踐。再回顧微積分中的格林定理:平面閉區域上的「面」積分可由其邊界「曲線」積分表達;有複變函數分析背景的朋友也會聯想到柯西積分公式:任何一個閉合區域上的全純函數在區域內部的取值完全取決於它在區域邊界上的值。可謂異曲同工、數理同源。


後記:本節寫得辛苦,卻很不滿意。要把一門工科從頭至尾寫成科普,超出了我貧瘠的想像力。千里之行,始於足下,無知者無畏。先這樣吧。


請您繼續閱讀更多來自 GeoTalks 的精彩文章:

對現有測量學理論的不同看法
論科學的數學化

TAG:GeoTalks |

您可能感興趣

計算機視覺基礎1——視差與深度信息
無伺服器計算對雲計算運營團隊的影響
如何做好計算機視覺的研究?
UCSB研究發現計算機與人類視覺差異,用人眼搜索策略提升計算機視覺
3D列印觸覺感測器、思想控制計算機、量子區塊鏈技術、列印柔性充電電池、可見光感測納米
為什麼說計算機視覺是機器人的殺手級應用?
科研實力躍進:從「銀河」超級計算機到光量子計算機
順應AI大勢 曠視科技探索計算機視覺更大突破
計算機視覺基礎2——相機成像的幾何描述
谷歌開放量子計算機訪問,推進商用,目的為雲計算?
接觸網工程設計與計算
我的世界在計算機里製造計算機 走進紅石電腦
谷歌開放量子云端計算,讓研究員測試自家量子計算機
教計算機「看」世界:計算機也能當球賽戰術分析員!
計算機「化」系統中的「計算機控制系統」的確認與驗證
通過計算機對器官進行分析可預測患者死亡率
中國量子計算機誕生,超越早期經典計算機能力
計算機是最好的左腦
李飛飛:為什麼計算機視覺對機器人如此重要?