當前位置:
首頁 > 新聞 > 37 篇!Facebook 今年被 CVPR 收錄的論文都說了啥?

37 篇!Facebook 今年被 CVPR 收錄的論文都說了啥?

雷鋒網AI 科技評論按:CVPR 2019 已於 6 月 16 日至 20 日在美國加利福利亞州長灘市盛大舉辦,吸引了超過萬人參加,雷鋒網 AI 科技評論的記者也前往現場為大家帶來了精彩的大會報道。作為工業界的學術實力幹將之一,Facebook AI 研究院在本次大會上的成果也備受矚目。而 Facebook AI 研究院也對自己今年的戰績進行了統計:共有 37 篇論文被收錄,其中包括 15 篇 Oral 論文。下面就讓我們一起來看看這些成果吧。

Oral 論文一覽

《2.5D 視覺聲音》

2.5D Visual Sound

  • 作者:Ruohan Gao,Kristen Grauman

雙聲道音頻為聽者提供了 3D 的聽覺感受,讓人對場景有豐富的感知體驗。然而,雙聲道錄音幾乎是不可實現的,即使能實現也需要相當水平的專業知識和設備。我們建議利用視頻將普通的單聲道音頻轉換成雙聲道音頻,其關鍵思想是,視覺幀揭示了重要的空間線索:儘管單聲道音頻在完成過程中明顯缺乏這些空間線索,但它們與空間線索緊密相連。我們的多模態方法可以從未經標註的視頻中還原空間線索與單聲道音頻的這一聯繫。我們設計了一個深卷積神經網路,通過注入有關目標和場景配置的視覺信息,將單聲道(單通道)原聲解碼成對應的雙聲道。我們將輸出結果稱之為 2.5D 視覺聲音——視覺流幫助平面的單通道音頻「提升」到空間化的聲音。除了生成聲音,我們的神經網路自監督表徵學習也顯示出對聲源分離的作用。

  • 相關視頻演示鏈接:http://vision.cs.utexas.edu/projects/2.5D_visual_sound/

  • 論文地址:https://research.fb.com/publications/2-5d-visual-sound/

《多語句視頻描述的對抗性推理》

Adversarial Inference for Multi-Sentence Video Description

  • 作者:Jae Sung Park,Marcus Rohrbach,Trevor Darrell,and Anna Rohrbach

儘管圖像標註工作取得了顯著進展,但由於視頻數據的複雜性,視頻描述仍處於起步階段,而為長視頻生成多語句描述則更具挑戰性。其中主要的挑戰包括生成視頻描述的流暢性和連貫性,以及它們與視頻的相關性。近年來,為了改進圖像標註模型,研究者們探索了基於強化和對抗學習的方法,但這兩種方法都存在著許多問題,例如 RL 存在的可讀性差、冗餘度高問題,以及GANs 存在的穩定性問題。在本文中,我們建議在推理過程中應用對抗性技術,設計一種有助於更好地生成多語句視頻描述的鑒別器。此外,我們發現多鑒別器採用的「混合」設計(即每個鑒別器針對視頻描述的某一方面)能夠實現更好的效果。具體而言,我們通過解耦鑒別器從三個標準方面進行評估:(1)視頻的視覺相關性;(2)語言的多樣性和流暢性(3)語句之間的連貫性。我們的方法在通常使用的 ActivityNet Captions 數據集進行自動和人工評估的結果都顯示,可以得到更準確、更多樣、更連貫的多語句視頻描述。

  • 論文地址:https://research.fb.com/publications/adversarial-inference-for-multi-sentence-video-description/

《魯棒可視問答的循環一致性》

Cycle-Consistency for Robust Visual Question Answering

  • 作者:Meet Shah,Xinlei Chen,Marcus Rohrbach,and Devi Parikh

儘管多年來,可視化回答取得了顯著的進展,但今天的 VQA 模型的魯棒性仍有許多不足之處。我們引入了一種新的評估協議和相關數據集(VQARephrasings),並證明了最先進的 VQA 模型對問題中存在的語言變化是相當脆弱的。VQA- rephrasings 包含三個人為提供的 rephrasings(改述),用於解決來自 VQA v2.0 驗證數據集的 4 萬個圖像中的 4 萬個問題。為了提高 VQA 模型的魯棒性,我們提出了一個使用循環一致性的與模型無關的框架。具體來說,我們訓練一個模型,不僅用來回答問題,而且還用來生成以特定答案為前提條件的問題,這樣的話,針對生成問題預測的答案與原始問題的真實答案相同。在不使用額外標註的情況下評估 VQA-Rephrasings 數據集,我們的方法在問題的表述變化方面比最先進的 VQA 模型具有更顯著的魯棒性。此外,在標準 VQA 和在挑戰 VQA v2.0 數據集的可視化問題生成任務上,我們的方法比其他當前最先進的方法的表現都要更好。

  • 論文地址:https://research.fb.com/publications/cycle-consistency-for-robust-visual-question-answering/

《DeepSDF:學慣用於形狀表徵的連續符號距離函數》

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

  • 作者:Jeong Joon Park,Peter Florence,Julian Straub,Richard Newcombe,and Steven Lovegrove

計算機圖形學、3D 計算機視覺和機器人領域的研究者已經提出了多種方法來表示用於 3D 幾何的渲染和重建。這些方法在保真度、有效性和壓縮能力方面進行權衡。本論文引入了 DeepSDF,即一個用於形狀類別表徵的學到的連續符號距離函數(SDF),它能夠基於局部和帶雜訊的 3D 輸入數據實現高質量形狀表徵、插值和補充。比如 DeepSDF 的分類作用,就是通過連續體積場來表示形狀的表面:場中點的大小表示到表面邊界的距離,同時標記(-)和(+)分別表示該區域是在形狀區域內還是在形狀區域外,因此我們的表徵隱式地將形狀邊界編碼為學習到的函數的零水平集(zero-level-set),同時顯式地將空間分類表示為形狀內部/外部區域。雖然經典的 SDF 能夠以解析或離散體素的形式表示單個形狀的表面,但 DeepSDF 可以表示形狀的完整類別。此外,該方法在學習 3D 形狀表徵和補充方面展示出了最先進的性能,和之前的研究相比,模型尺寸減小了一個數量級。

  • 論文地址:https://arxiv.org/pdf/1901.05103.pdf

《使用網路規模近鄰搜索的對抗性圖像的防禦》

Defense Against Adversarial Images Using Web-Scale Nearest-Neighbor Search

  • 作者:Abhimanyu Dubey,Laurens van der Maaten,Zeki Yalniz,Yixuan Li,and Dhruv Mahajan

大量最近的研究表明,卷積網路對敵方圖像不具有魯棒性:通過擾動數據分布中的樣本而產生的圖像,以最大限度地減少擾動示例的損失。在這篇論文中,我們假設對抗性干擾將圖像從圖像流形中移開,因為沒有物理過程可以產生對抗性圖像。這一假設表明,一個能夠成功防禦對抗性圖像的機制應讓圖像設計回歸到圖像流形上。我們研究了這種防禦機制,通過對包含數百億圖像的網路級圖像資料庫進行近鄰搜索來模擬未知圖像流形設計。對 ImageNet 防禦策略的經驗評估表明在攻擊環境中該策略非常有效,即敵對方無法訪問圖像資料庫。我們還提出了兩種新的攻擊方法來破壞近鄰防禦,並給出了近鄰防禦失效的條件。我們進行了一系列的消融實驗,這表明在防禦系統的魯棒性和精確性之間存在著權衡,大型圖像資料庫(包含數億圖像)對於獲得良好的性能至關重要,仔細構建圖像資料庫對於抵禦為規避防禦而定製的攻擊非常重要。

  • 論文地址:https://arxiv.org/pdf/1903.01612.pdf

《具有點雲感知的逼真環境中的具身問答》

Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

  • 作者:Erik Wijmans,Samyak Datta,Oleksandr Maksymets,Abhishek Das,Georgia Gkioxari,Stefan Lee,Irfan Essa,Devi Parikh,Dhruv Batra

為了幫助彌合互聯網視覺風格問題與具身感知的視覺目標之間的差距,我們以一個大規模的導航任務為例——在逼真環境(MatterPort3D)中具身問答[1]。我們深入研究使用 3D 點雲、RGB 圖像或其組合的導航策略。我們對這些模型的分析揭示了幾個關鍵的發現。我們發現,兩個看似簡單的導航基線(僅向前導航和隨機導航)都是強大的導航者,並且由於具身問答所採用的評估設置的特定選擇,它們也很難被超越。我們發現了一種新的損失加權方法,我們稱之為拐點加權法,在用行為克隆訓練循環導航模型時非常重要,並且能夠用這種技術完成基線。我們發現點云為學習障礙規避提供了比 RGB 圖像更豐富的信號,這有助於推動研究者使用(並繼續研究)3D 深度學習模型進行實體導航。

  • 論文地址:https://research.fb.com/publications/embodied-question-answering-in-photorealistic-environments-with-point-cloud-perception/

《基於場景補全的 RGB-D 掃描的極端相對姿態估計》

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion

  • 作者:Zhenpei Yang,Jeffrey Z. Pan,Linjie Luo,Xiaowei Zhou,Kristen Grauman,and Qixing Huang

在相同的底層環境下,評估兩次 RGB-D 掃描之間的相對剛性姿態是計算機視覺、機器人學和計算機圖形學中的一個基本問題。大多數現有的方法只允許有限的相對姿態變化,因為它們在輸入掃描之間有相當大的重疊。我們引入了一種新的方法,在輸入掃描之間很少甚至沒有重疊的情況下,將範圍擴展到極端相對姿態。關鍵思想是推斷出關於底層環境更完整的場景信息,並與完成的掃描相匹配。特別地,我們的方法不是只對每個單獨的掃描執行場景補全,而是在相對姿態估計和場景補全之間進行切換。這使得我們可以在後期迭代中利用來自兩個輸入掃描的信息來執行場景補全,從而為場景補全和相對姿態估計帶來更好的結果。在基準數據集上的實驗結果表明,相對於最先進的相對姿態估計方法,我們的方法有較大的改進。特別是,我們的方法在相對姿態估計甚至在非重疊掃描之間實現了令人興奮的結果。

  • 論文地址:https://arxiv.org/pdf/1901.00063.pdf

《FBNET:基於可微神經網路架構搜索的硬體感知的有效卷積網路設計》

FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search

  • 作者:Bichen Wu,Xiaoliang Dai,Peizhao Zhang,Yanghan Wang,Fei Sun,Yiming Wu,Yuandong Tian,Peter Vajda,Yangqing Jia,and Kurt Keutzer

給移動設備設計又准又快的卷積網路是非常具有挑戰的,因為設計空間太大了。因此,之前的神經網路架構搜索(NAS)方法計算量太大。卷積架構優化依賴的因素有解析度和目標設備等。然而,用現有的方法一個一個去重新設計代價太高。並且,之前的方法主要集中在減少 FLOPs,但是 FLOP 計數並不總是能反映實際延時。基於這些情況,我們提出了一種可微神經架構搜索(DNAS)框架,使用基於梯度的方法去優化卷積網路結構,避免像之前的方法那樣去窮舉和單獨訓練結構。FBNets(Facebook-伯克利-網),是 DNAS 的一種分支模型,超越了人工設計的和自動生成的當前最先進模型。FBNet-B 在 ImageNet 數據集上達到了 74.1% 的 top-1 準確率,在三星 S8 手機上實現了 295M 的 FLOPs 以及 23.1ms 的延時,也就說與 MobileNetV2-1.3 相比,FBNet-B 在準確率差不多的情況下將 FLOPs 減少了 2.4 倍,將響應速度提高了 1.5 倍。儘管 FBNet-B 比 MnasNet[20] 具有更高的準確性和更低的延遲,但我們還評估出 FBNet-B 的搜索成本比 MnasNet 低 420 倍,僅為 216 GPUhours。針對不同解析度和通道大小的搜索,FBNets 比 MobileNetV2 的準確率高了 1.5% 至 6.4%。最小的 FBNet 網路在一台三星 S8 上達到了 50.2% 的準確率和 2.9ms 的延時(每秒 345 幀)。通過使用在三星上優化的 FBNet,iPhone-X-優化模型在 iPhone X 上搜索速度提高了 1.4 倍。

  • FBNet 模型源代碼:https://github.com/facebookresearch/mobile-vision

  • 論文地址:https://research.fb.com/publications/fbnet-hardware-aware-efficient-convnet-design-via-differentiable-neural-architecture-search

《實現貼切的視頻描述》

Grounded Video Description

  • 作者:Luowei Zhou,Yannis Kalantidis,Xinlei Chen,Jason J. Corso,Marcus Rohrbach

視頻描述是視覺和語言理解中最具挑戰性的問題之一,因為視頻和語言都具有很大的可變性。因此,模型通常會簡化識別的難度,生成基於先驗但不一定基於視頻的可信語句。本次研究中,我們通過使用視頻的某個幀中對應的邊框來標註語句中的每個名詞短語,從而明確讓生成的語句與視頻中的顯示畫面掛鉤。我們的數據集 ActivityNet- Entities 增強了這一具有挑戰性的 ActivityNet Captions 數據集,其包含 15.8 萬個邊框標註,其中每個標註都以名詞短語為基礎。這樣的話,就能使用這些數據訓練視頻描述模型,並且非常重要的是,這些數據可以評估該模型對所描述的視頻的合理性或「真實性」。為了生成合理的說明,我們提出了一種能夠利用這些邊框標註的新的視頻描述模型。我們證明了該模型在前述數據集上的有效性,同時也顯示出該模型能用於基於 Flickr30k Entities 數據集的視頻描述。本次研究在視頻描述、視頻片段描述和圖像描述方面實現了最先進的性能,並展示了我們的模型生成的語句,與視頻中顯示的畫面匹配得更貼切。

  • 代碼鏈接:https://github.com/facebookresearch/grounded-videodescription

  • 數據集鏈接:https://github.com/facebookresearch/activityNet-Entities

  • 論文地址:https://research.fb.com/publications/grounded-video-description/

《接縫材料和照明估計的反向路徑跟蹤》

Inverse Path Tracing for Joint Material and Lighting Estimation

  • 作者:Dejan Azinovic,Tzu-Mao Li,Anton Kaplanyan,Matthias Niessner

現代計算機視覺演算法給三維幾何重建帶來了顯著的進步。然而,照明和材料重建的研究仍然較少,目前材料和照明模型的方法假設非常簡單。本文介紹了一種利用可逆的光傳輸模擬來聯合估計室內場景中物體和光源材料性質的新方法——反向路徑跟蹤。我們假設一個粗略的幾何掃描,以及相應的圖像和相機姿態。本次工作的關鍵貢獻是,讓模型能夠精確並同步檢索光源和基於物理的材料屬性(如漫反射、鏡面反射、粗糙度等),以便在新的條件下編輯和重新渲染場景。為此,我們引入了一種新的優化方法,使用可微蒙特卡羅渲染器來計算關於未知照明和材料屬性估計的導數。該方法使用定製的隨機梯度下降對物理正確的光傳輸和材料模型進行了聯合優化。

  • 論文地址:https://research.fb.com/publications/inverse-path-tracing-for-joint-material-and-lighting-estimation/

《用於詳細視頻理解的長期特徵庫》

Long-Term Feature Banks for Detailed Video Understanding

  • 作者:Chao-Yuan Wu,Christoph Feichtenhofer,Haoqi Fan,Kaiming He,Philipp Kr?henbühl,Ross Girshick

為了理解世界,我們人類需要不斷地將現在與過去聯繫起來,並將事件置於語境中。在本文中,我們使現有的視頻模型也能做到這一點。我們提出了長期特徵庫(Long-Term Feature Bank)的方法,即在整個視頻範圍內提取支持性的信息,用以增強最先進的視頻模型——這些模型此前只能查看 2-5 秒的短片段。我們的實驗表明,使用長期特徵庫擴充 3D 卷積網路可以在三個具有挑戰性的視頻數據集上產生最先進的結果:AVA,EPIC-Kitchens 和 Charades。目前,相關代碼可在網上獲取。

  • 論文地址:https://arxiv.org/pdf/1812.05038.pdf

《全景 FPN 網路》

Panoptic Feature Pyramid Networks

  • 作者:Alexander Kirillov,Ross Girshick,Kaiming He,Piotr Dollar

最近引入的全景分割任務使該領域的研究者對統一實例分割任務(對象類)和語義分段任務(材料類)產生了興趣。然而,當前用於該聯合任務的最先進方法使用單獨的和不相似的網路,來進行實例分割和語義分割,而無法讓兩個任務之間共享計算。在這項工作中,我們的目標是在架構層面統一這些方法,為這兩個任務設計單一網路。我們的方法是使用共享的特徵金字塔網路(FPN)主框架來支持 Mask R-CNN(一種熱門的實例分割方法)。令人驚訝的是,該簡單基線不僅在實例分割方面仍然有效,而且還產生了一種輕量級、表現最佳的語義分割方法。在本次工作中,我們對具有 FPN 的 Mask R-CNN 的最小擴展版本進行了詳細研究,我們將其稱為 Panopific FPN,並證明對於這兩個任務而言,它是穩健且準確的基線。鑒於其有效性和概念簡單性,我們希望我們的方法可以作為一個強大的基線,並有助於未來的全景分割研究。

  • 論文地址:https://ai.facebook.com/blog/improving-scene-understanding-through-panoptic-segmentation/

《用於單目性能跟蹤的高保真人臉模型的自監督適應》

Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking

  • 作者:Jae Shin Yoon,Takaaki Shiratori,Shoou-I Yu,and Hyun Soo Park

數據捕獲和人臉建模技術的改進使我們能夠創建高保真的真實人臉模型。但是,驅動這些真實的人臉模型需要特殊的輸入數據,例如 3D 網格和未展開的紋理。此外,這些人臉模型需要在受控實驗室環境下獲得乾淨的輸入數據,這與野外採集的數據顯著不同。所有這些限制使得在日用相機跟蹤中使用高保真模型很困難(所有這些限制使得日用相機在使用高保真模型進行追蹤變得具有挑戰性)。在本文中,我們提出了一種自監督的域適應方法,能夠讓日用相機拍攝到的高逼真人臉模型變成動畫格式。我們的這一方法首先通過訓練一個可以直接從單個二維圖像驅動人臉模型的新網路來規避對特殊輸入數據的需求;然後,在假設人臉在連續幀上的外觀是一致的前提下,基於「連續幀紋理一致性」進行自監督域適應,我們克服了實驗室與非控制環境之間的領域不匹配問題,避免了對照明或背景等新環境建模的必要性,例如調整照明或背景。實驗表明,在不需要任何來自新領域的標記數據的情況下,我們能夠讓手機攝像頭中的高保真人臉模型執行複雜的面部運動。

  • 論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoon_Self-Supervised_Adaptation_of_High-Fidelity_Face_Models_for_Monocular_Performance_Tracking_CVPR_2019_paper.pdf

《微密集 DensePose:從稀少的標註和運動線索中進行精細學習》

Slim DensePose: Thrifty Learning from Sparse Annotations and Motion Cues

  • 作者:Natalia Neverova,James Thewlis,Riza Alp Güler,Iasonas Kokkinos,Andrea Vedaldi

DensePose 通過將圖像像素密集地映射到人體表面坐標,取代了傳統的地標探測器。然而,這種強大的功能帶來了極大的標註成本,因為管理模型需要為每個人體姿態實例手工標註數百個點。因此,在這項工作中,我們尋找方法來顯著減少 DensePose 標註,從而提出更有效的數據收集策略。特別地,我們證明了如果在視頻幀中收集標註,通過使用動作線索可以使它們的效果成倍增加。為了探索這個想法,我們引入了 DensePose-Track,這是一組視頻數據集,其中所選的幀是以傳統的 DensePose 方式進行標註。然後,基於 DensePose 映射的幾何特性,利用視頻動態及時傳送真實有效的標註,並從 Siamese 方差約束中學習。在對各種數據注釋和學習策略進行了詳盡的經驗評估之後,我們證明這樣做可以在強基線上顯著提高姿態估計結果。然而,儘管最近的一些研究工作提出了這樣的建議,但我們發現,僅通過對孤立幀應用幾何變換來合成運動模式的效果要差得多,而從視頻中提取運動線索的效果更好。

  • 論文地址:https://research.fb.com/publications/slim-densepose-thrifty-learning-from-sparse-annotations-and-motion-cues/

《精確到每一縷頭髮的多視圖頭髮捕捉》

Strand-Accurate Multi-View Hair Capture

  • 作者:Giljoo Nam,Chenglei Wu,Min H. Kim,Yaser Sheikh

頭髮由於其微小的尺度結構和大量的重合遮擋,是最具挑戰的重建對象之一。在本文中,我們提出了第一種方法,以精確到每一縷頭髮的方法來捕獲高保真度的頭髮幾何結構。我們的方法分三個階段來實現。第一階段,我們提出了一種新的採用立體傾斜支撐線的多視圖方法來解決不同視角之間的頭髮對應問題。詳細來說,我們提出了一個新的成本函數,它由顏色一致性項和幾何項組成,將每個頭髮像素重建為一個三維線,其通過合併所有深度圖,可以得到一個點雲以及每個點的局部線方向。第二階段,我們提出了一種新的基於均值漂移的髮絲重構方法,將雜訊點數據轉換為一組髮絲。最後,我們使用多視圖幾何約束來精細到沒一縷髮絲,從而拉長短頭髮並恢復缺失的頭髮,從而顯著地提高重建完整性。我們在合成數據和實際採集數據上對這一方法進行了評估,結果表明我們的方法可以在亞毫米精度下重建每一縷髮絲。

  • 論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Nam_Strand-Accurate_Multi-View_Hair_Capture_CVPR_2019_paper.pdf

Poster 論文一覽

3D Human Pose Estimation in Video with Temporal Convolutions and Semisupervised Training

  • 作者:Dario Pavllo,Christoph Feichtenhofer,David Grangier,Michael Auli

  • 代碼鏈接:https://github.com/facebookresearch/VideoPose3D

  • 論文地址:https://research.fb.com/publications/3d-human-pose-estimation-in-video-with-temporal-convolutions-and-semi-supervised-training/

Activity Driven Weakly Supervised Object Detection

  • 作者:Zhenheng Yang,Dhruv Mahajan,Deepti Ghadiyaram,Ram Nevatia,Vignesh Ramanathan

  • 代碼鏈接:https://github.com/facebookresearch/astmt

Attentive Single-Tasking of Multiple Tasks

  • 作者:Kevis-Kokitsi Maninis,Ilija Radosavovic,and Iasonas Kokkinos

  • 代碼及模型鏈接:https://github.com/facebookresearch/astmt

ChamNet: Towards Efficient Network Design Through Platform-Aware Model Adaptation

  • 作者:Xiaoliang Dai,Peizhao Zhang,Bichen Wu,Hongxu Yin,Fei Sun,Yanghan Wang,Marat Dukhan,Yunqing Hu,Yiming Wu,Yangqing Jia,Peter Vajda,Matt Uyttendaele,Niraj K. Jha

  • 論文地址:https://research.fb.com/publications/chamnet-towards-efficient-network-design-through-platform-aware-model-adaptation/

DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition

  • 作者:Zheng Shou,Xudong Lin,Yannis Kalantidis,Laura Sevilla-Lara,Marcus Rohrbach,Shih-Fu Chang,Zhicheng Yan

  • 論文地址:https://research.fb.com/publications/dmc-net-generating-discriminative-motion-cues-for-fast-compressed-video-action-recognition/

Engaging Image Captioning via Personality

  • 作者:Kurt Shuster,Samuel Humeau,Hexiang Hu,Antoine Bordes,Jason Weston

  • 論文地址:https://research.fb.com/publications/engaging-image-captioning-via-personality/

Feature Denoising for Improving Adversarial Robustness

  • 作者:Cihang Xie,Yuxin Wu,Laurens van der Maaten,Alan Yuille,Kaiming He

  • 代碼鏈接:https://github.com/facebookresearch/ImageNet-Adversarial-Training

  • 論文地址:https://research.fb.com/publications/feature-denoising-for-improving-adversarial-robustness

Graph-Based Global Reasoning Networks

  • 作者:Yunpeng Chen,Marcus Rohrbach,Zhicheng Yan,Shuicheng Yan,Jiashi Feng,Yannis Kalantidis

  • 論文地址:https://research.fb.com/publications/graph-based-global-reasoning-networks/

Improved Road Connectivity by Joint Learning of Orientation and Segmentation

  • 作者:Anil Batra,Suriya Singh,Guan Pang,Saikat Basu,C.V. Jawahar,Manohar Paluri

  • 論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Batra_Improved_Road_Connectivity_by_Joint_Learning_of_Orientation_and_Segmentation_CVPR_2019_paper.pdf

Inverse Cooking: Recipe Generation from Food Images

  • 作者:Amaia Salvador,Michal Drozdzal,Xavier Giro-i-Nieto,Adriana Romero

  • 代碼及模型:https://github.com/facebookresearch/inversecooking.

  • 論文地址:https://research.fb.com/publications/inverse-cooking-recipe-generation-from-food-images

Kernel Transformer Networks for Compact Spherical Convolution

  • 作者:Yu-Chuan Su,Kristen Grauman

  • 論文地址:https://research.fb.com/publications/kernel-transformer-networks-for-compact-spherical-convolution/

Large-Scale Weakly Supervised Pretraining for Video Action Recognition

  • 作者:Deepti Ghadiyaram,Matt Feiszli,Du Tran,Xueting Yan,Heng Wang,Dhruv Mahajan

  • 論文地址:https://research.fb.com/publications/large-scale-weakly-supervised-pre-training-for-video-action-recognition/

LBS Autoencoder: Self-Supervised Fitting of Articulated Meshes to Point Clouds

  • 作者:Chun-Liang Li,Tomas Simon,Jason Saragih,Barnabás Póczos,Yaser Sheikh

  • 論文地址:https://arxiv.org/abs/1904.10037

Less Is More: Learning Highlight Detection fromVideo Duration

  • 作者:Bo Xiong,Yannis Kalantidis,Deepti Ghadiyaram,Kristen Grauman

  • 論文地址:https://arxiv.org/abs/1903.00859

LVIS: A Data Set for Large Vocabulary Instance Segmentation

  • 作者:Agrim Gupta,Piotr Dollár,Ross Girshick

  • LVIS 鏈接:http://www.lvisdata set.org

Multi-Target Embodied Question Answering

  • 作者:Licheng Yu,Xinlei Chen,Georgia Gkioxari,Mohit Bansal,Tamara Berg,Dhruv Batra

  • 論文地址:https://arxiv.org/pdf/1904.04686.pdf

Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors

  • 作者:Yedid Hoshen,Jitendra Malik

  • 論文地址:https://arxiv.org/pdf/1812.08985v1.pdf

Panoptic Segmentation

  • 作者:Alexander Kirillov,Kaiming He,Ross Girshick,Carsten Rother,Piotr Dollár

  • 論文地址:https://research.fb.com/publications/panoptic-segmentation/

Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition

  • 作者:Zizhao Zhang,Adriana Romero,Matthew J. Muckley,Pascal Vincent,Lin Yang,Michal Drozdzal

  • 論文地址:https://research.fb.com/publications/reducing-uncertainty-in-undersampled-mri-reconstruction-with-active-acquisition/

StereoDRNet: Dilated Residual StereoNet

  • 作者:Rohan Chabra,Julian Straub,Chris Sweeney,Richard Newcombe,Henry Fuchs

  • 論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Chabra_StereoDRNet_Dilated_Residual_StereoNet_CVPR_2019_paper.pdf

Thinking Outside the Pool: Active Training Image Creation for Relative Attributes

  • 作者:Aron Yu,Kristen Grauman

  • 論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yu_Thinking_Outside_the_Pool_Active_Training_Image_Creation_for_Relative_CVPR_2019_paper.pdf

Towards VQA Models That Can Read

  • 作者:Amanpreet Singh,Vivek Natarajan,Meet Shah,Yu Jiang,Xinlei Chen,Dhruv Batra,Devi Parikh,Marcus Rohrbach

  • 代碼鏈接:https://github.com/facebookresearch/pythia

  • 論文地址:https://research.fb.com/publications/towards-vqa-models-that-can-read/

via https://ai.facebook.com/blog/facebook-research-at-cvpr-2019/雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

三大趨勢看小微企業融資現狀
在粵港澳頂級AI金融論壇,與楊強教授面對面丨CCF-GAIR

TAG:雷鋒網 |