三維視覺會議結束了，論文還值得仔細品味，這裡有三天會議的重點內容

十月十一日

在全國普遍降溫、降雨的情況下，青島依舊晴朗。3DV 2017 國際會議進入第二天的議程。大會議程基本形式和昨天類似，依舊採用特邀報告+口頭報告+短報告+海報展覽的形式。

特邀報告

在上午場的特邀報告環節，北京大學高文院士向我們展示了他們在實時在線3D重建和移動搜索方面的研究。

隨著AR／VR系統、自動駕駛、UAV等領域的發展，在線視覺處理變得越來越重要，但是限於移動端諸如帶寬、存儲大小、電池容量等的限制，實時在線3D重建以及移動端搜索仍然有很大的挑戰。首先就後一個問題，高文院士提出通過interest points匹配來進行移動搜索，這能大大地降低對硬體的要求。報告中高文院士詳述了如何進行interest points的檢測、特徵選擇、特徵聚合、局部特徵描述及定位等技術，同時還介紹了深度學習在這些方面的應用。針對在線3D重建，高文院士提出通過key points以及點雲的方式來解決。在報告的這一部分，高文院士首先詳細介紹了MPEG壓縮演算法應用於點雲壓縮的相關工作，隨後介紹了他們在SLAM方面的研究，提出通過USB（Ultra Short Binary ）描述、提取、匹配以及Polarimetric Multi-View Stereo的方式來解決SLAM中實時、精度以及無特徵場景的問題；最後高文院士介紹了他們應用以上技術搭建的PKU IKING UAV飛行平台，他們通過這個平台使用無人機花3天時間重建了北大校園3cm-13cm精度的三維結構。

下午場特邀報告中，香港科技大學終身教授權龍充滿激情地給我們介紹了他在人工智慧、計算機視覺、3D視覺重建等方面的思考和研究。

權龍教授認為從AI的角度看，相比於語音和文字，視覺大約佔所有信息的80%，所以更為重要，AI的演變主要來自於計算機視覺。權龍教授帶我們簡單地回顧了一下AI的發展歷史，從1998年到2012年15年的時間裡，AI一直沒有很大的變化；但是在這沉默的15年中，計算硬體從CPU發展到了GPU有很大的提升，隨之也帶來AI近幾年迅猛的發展。在對計算機視覺的理解上，權龍教授認為計算機視覺就是對基本視覺特徵的搜索，而特徵則是圖像重構和識別的基礎。這方面通過使用深度學習網路已經有了非常完美的效果，但是仍有許多不足有待改進。例如在識別方面，它仍然只能完成特定任務、不能像人一樣理解圖像。在重構方面，則還面臨著諸如如何在兩張圖中找到相同事物、相關特徵或像素等，如何去除不需要事物（例如天空）等問題。接下來，權龍教授介紹了現代三維重建管道的內容，並相應地提出了「深度三維重建」的概念——包括對傳統上特徵檢測和匹配、來自運動的結構、多視角立體等方面的改進。此外，權龍教授還給我們展示了使用Altiture.com3D重建出的幾個demos，效果非常驚人。

口頭報告

在口頭報告環節共有4場報告。分別為：（內容由3DV 2017新聞組提供）

Graph Match: Efficient Large Scale Graph Construction for Structure from Motion

文章提出了一種類似圖像匹配的方法，可有效的用於大規模運動恢復結構問題（Structure from Motion, SfM）中。不同於現有解決SFM問題中，使用辭彙表（Voc）來避免蠻力搜索並快速構建匹配圖的方法。本文研究人員提出的Graph Match方法，不需要在預處理階段構建繁雜的辭彙表，通過兩方面的先驗數據檢測相似的圖相對，更高效匹配圖像。先驗數據一方面來自與對任意兩幅圖像的Fisher vector即似然函數的梯度向量評估所得數據，另一方面基於對底層匹配圖中頂點之間的圖像距離評估所得。進過研究人員的實驗證明，Graph Match方法與其他相似的圖像匹配演算法相比更加有效。這無疑是在解決計算機視覺大規模運動恢復結構問題方向的又一重大突破。

Fast Incremental Bundle Adjustment with Covariance Recovery

當前由2D圖像進行3D重建的技術已經非常成熟，但是大多都是離線、後驗且對重建後的不確定沒有反饋。作者提出通過一種增強BA（Bundle Adjustment）技術來獲得每次更新後的大小。這種技術不僅能夠計算出最優解，而且能夠計算相關的不確定性，同時能夠反饋重建後的不確定性。

Cascaded Scene Flow Prediction using Semantic Segmentation

該報告帶來了一種新的從一對3D相機給出的兩個連續幀中同時估計被觀測場景中物體的形狀和運動的方法。他們的方法綜合考量了分割、形狀、運動、光流場等可用因素，通過優化對整體的目標函數，取得精準的語義場景流估計。通過在KITTI數據集中的驗證，他們的方法確實精準而有效。

Static and Dynamic Objects Analysis as a 3D Vector Field

（運動分割結果：左上2D-SMR，右上3D-SSC，左下3D-SFC，右下OSF。紅框標註了錯誤的分割）

Jiang Cansen等人則在中提出了一種新的場景分析方法，該方法具有三個卓著貢獻：首先，可以有效地檢測物體的運動；第二，提供了一種質量較高的物體運動分割方法；第三，可以較好地生成靜態地圖和剛性物體。他們的方法在擁擠環境中的精準機器人定位和自動駕駛等方面有著十分廣闊的發展前景。

短報告及海報展示

在今天的短報告中，值得關注的是有兩篇國內文章，分別來自香港科大和中科院自動化所。

Relative Camera Refinement for Accurate Dense Reconstruction

（內容由作者提供）相機幾何重建往往難以達到完美，大規模三維重建的全局相機優化以及實時SLAM系統中的多感測器融合，都會使相機估計整體趨於平滑，導致局部相機極線偏移而影響點雲重建質量。本文在傳統三維重建流程加入了局部相機優化以及全局點雲融合兩個新步驟，在為局部點雲重建提供準確相機參數的同時，提出了一個將局部坐標系中點雲匹配到全局坐標系的快速演算法。該演算法在大規模SfM重建以及實時SLAM重建中都能顯著地提高點雲重建的質量。

Batched Incremental Structure-from-Motion

SfM（Structure-from-Motion）技術在魯棒性和準確性方面都有所提高，但效率和可擴展性仍然是其關鍵挑戰。本文提出了一種新穎的批量增量SfM技術，在包含兩個迭代循環的統一框架中解決這些問題。內循環是軌道三角循環，其中提出了一種新穎的軌道選擇方法來找到用於束調整（BA）的軌道的緊湊子集。外環是相機註冊循環，其中同時添加一批相機以減小漂移風險並減少BA的運行時間。通過軌道選擇和批量攝像機登記，作者發現這兩個迭代循環快速收斂。實驗表明，這個新的SfM系統相比當下許多最先進的SfM系統，在相機校準精度方面表現相似或更好，而對於大規模場景重建而言，它則更有效率、可靠性更高且具有可擴展性。

此外，雷鋒網注意到，在海報展示環節除了前面兩篇短報告參展外，另外還有一篇中科院自動化所的文章入選。

十月十二日

經過兩天內容非常充實，信息量極大的兩日報告會議後，儘管是會議的最後一天，參會人員的熱情依舊不減，大會現場坐滿了人。

特邀報告

上午由倫敦大學的Niloy Mitra教授給我們介紹了場景建模方面的工作。

（內容由3DV 2017新聞組提供）首先，Mitra教授給我們展示了2張場景圖片，其中一張是真實的，另一張是渲染的，但由於渲染得太逼真，大家大都看不出來哪個是渲染。隨後Mitra教授介紹了他們是如何做到的，包括如何重建出三維模型，以及恢復材質紋理和光照的方法。首先根據圖片的數量和質量分了四種情況。第一種情況，當物體圖片很多質量較差時，通過訓練分類器方法或模型對齊的方法，去掉不好的圖片。三維模型加上紋理，經過渲染，就得到了原圖的重建。第二種是物體圖片多質量好的情況。動機是把真實的物體圖片的紋理，轉到相似的三維模型上。其中的關鍵問題包括幾何姿態形狀估計，以及光照建模。Mitra教授給我們展示了他們演算法的結果，把同一紋理貼到了各種椅子模型上。第三種是圖片少質量差的情況。這裡用FNN來回歸渲染顏色，光照合成結果要比PMM要好。第四種情況是圖片少質量好的情況。有時候我們需要編輯物體的漫反射顏色或者高光強度等，但是手動操作時間慢而且複雜。Mitra教授使用CNN卷積神經網路，能夠把物體的顏色分解成不同層，這樣能夠在不同層快速編輯顏色。另外，對於一個視角的顏色編輯，參數可以複製到不同視角，而且進行自用優化，也允許用戶自己調整。Mitra教授舉了個例子，比如想增強視頻中龍的高光，對第一幀處理好後，他們的演算法可以據此自動增強整個視頻的高光。最後Mitra教授介紹了他們在大規模結構化城市重建的工作。Google的街景重建存在很多問題，包括每個視角用的紋理集合不一樣，沒有根據法向渲染，而且沒有結構細節等。Mitra教授團隊解決了這些問題。在對街道進行恢復時，首先得到許多Google的街景圖片，然後計算建築底層分區圖，最後構造出結構化的街區重建。

Mitra教授給我們展示了對一個倫敦街區的重建效果視頻，在重建結果里可以清楚看到窗戶等結構化信息。這種城市建模可以應用於城市規劃和建築設計中，例如在設計一個新建築時，如果有周邊環境的結構化建模，那麼就可以根據這些建模信息（例如窗口位置）來判斷新建築的設計是否合適。如今這種結構化重建的技術得到越來越多的關注。

下午場的特邀報告則有百度深度學習研究院（IDL）首席研發架構師楊睿剛博士介紹了百度在AI領域的布局，並詳細介紹了百度無人駕駛車阿波羅以及機器人方面的研究。

（內容參考3DV 2017新聞組提供資料）據楊睿剛博士介紹，百度認為繼1994年以來的PC互聯網革命、2012年以來的移動互聯網之後，下一個紀元將屬於人工智慧。所以百度在AI領域基於AI開放平台（ai.baidu.com）進行了廣泛的布局，包括NLP、知識圖譜、用戶畫像、語音、圖像、視頻、AR／VR等領域。隨後楊睿剛博士就無人駕駛汽車阿波羅（Apollo）項目的技術架構細節進行了介紹。阿波羅項目是一個無人駕駛的開源平台，其架構由雲服務平台、開放軟體平台、參考硬體平台和參考車輛平台構成。其中環境探知技術的核心是利用感測器收集到的數據進行檢測、場景理解與語義分割，最終預測和規劃車輛的行駛路徑。之後介紹了百度的高清晰度地圖項目，這個是自動駕駛的基礎。另外百度的激光雷達SLAM項目，包括特徵提取、幀間匹配以及滑動窗口優化三步。

楊睿剛博士之後介紹了百度在機器人方面的工作。機器人的主要問題包括導航、地圖繪製以及障礙物躲避三個方面。百度公開了其研發的機器人平台，其中的SDK實現了機器人相關的各種功能。楊睿剛博士又介紹了機器人平台的硬體感測模塊、VIO、重定位、基於雙目視覺的障礙物檢測等內容。

最後楊睿剛博士還展示了百度在視覺其他方面的一些研究和應用，例如臉部識別方面，1:N的搜索和匹配中精度超過了99%。楊睿剛展示了一個例子，輸入他自己現在的照片，度秘很輕鬆地從楊老師初中畢業照中找出他來，而現場的觀眾大多都沒有分辨出來。此外，楊睿剛還展示了百度在AR方面的研究和應用，並介紹了百度開放平台——

阿波羅：http://apollo.auto

機器人視覺：http://ai.baidu.com/solution/roboticvision

口頭報告

四場口頭報告分別為：

Learning Human Motion Models for Long-term Predictions

在長時間尺度上預測人的運動在各個應用領域仍然是一個很具挑戰性的問題。在這個報告中，作者介紹了他們提出一個預測時空運動模型的新架構：Dropout Autoencoder LSTM (DAE-LSTM) ，這個架構能夠在長時間尺度上合成較為自然的運動序列，而不會出現災難性的漂移或退化。據作者介紹，這個模型由兩部分組成：一個三層循環神經網路（用於模擬臨時方面）和一個新型的自動編碼器（通過隨機刪除訓練中關節的信息，對人體骨骼的空間結構進行隱性恢復）。此外作者還提出一種新的評估方案，使用動作分類器來評估合成運動序列的質量。通過報告中的展示，可以看出這項研究相比之前的方法有更好的表現。

Real-time Full-Body Motion Capture from Video and IMUs

實時拍攝人體動作在電影娛樂行業以及生命科學領域都受到很大的關注。報告中作者介紹了他們提出的一種實時的全身運動捕捉系統，該系統只需要使用慣性測量單元（IMUs）的稀疏集加上兩個（或幾個）標準攝像機拍攝的圖像，而不像傳統的需要光學標記和專門的紅外攝像機。他們還提出了一種實時優化框架（包括來自IMU、攝像機以及先前姿態模型的約束等）。報告中作者展示了他們通過視頻加IMU數據的組合，重現完整的6自由度的運動，包括四肢的軸向旋轉以及無漂移的全局位置。其實驗表明該方法在室內、室外都有很好的表現。

Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision

作者提出了一種基於CNN方法，用單張RGB圖像的2D人體姿態數據通過遷移學習生成3D人體姿態，從而構建了一個新的可用於訓練和測試的數據集MPI-INF-3DHP。另外在報告中作者證明從2D姿態數據集遷移到3D會有更好的效果。這種方法在未來仍有許多值得研究之處：1、大尺度自我遮擋的姿勢；2、多人情形；3、表面重建。

Efficient Deformable Shape Correspondence via Kernel Matching

在非剛性形狀之間發現對應關係是計算機視覺、圖形學及模式識別中的一個根本問題。報告中作者提出一種在非等距變形、拓撲變化和偏向度下匹配三維形狀的方法。作者等人將形狀對應的問題看作是逐點、逐對描述符集合的匹配問題，並在映射之前加入連續性，提出一個預測下降優化過程。在多個數據集上的實驗證明，這種方法比之前最好的方法更好。