當前位置:
首頁 > 知識 > 賈佳亞等人3D目標檢測新論文;美國20年AI技術路線圖

賈佳亞等人3D目標檢測新論文;美國20年AI技術路線圖

機器之心整理

參與:一鳴

本周值得關注的論文主要有:賈佳亞等推出的利用點雲數據進行 3D 目標檢測新論文、美國 20 年人工智慧技術路線圖、目標檢測演算法回顧,以及一些在變分自編碼器、神經架構搜索、目標函數、注意力機制可解釋性方面的研究。

目錄:

1. Fast Point R-CNN

2. A 20-Year Community Roadmap for Artificial Intelligence Research in the US

3. Recent Advances in Deep Learning for Object Detection

4. Attention is not not Explanation

5. One Model To Rule Them All

6. AutoGAN: Neural Architecture Search for Generative Adversarial Networks

7. On the Variance of the Adaptive Learning Rate and Beyond

論文1:Fast Point R-CNN

作者:Yilun Chen、Shu Liu、Xiaoyong Shen、Jiaya Jia

論文鏈接:https://arxiv.org/pdf/1908.02990v1.pdf

摘要:在本文中,研究者提出了一種統一、高效率和有效的框架,用於基於點雲的 3D 目標檢測。他們提出的兩段式方法利用體素表徵(Voxel Representation)和原始點雲數據來充分發揮各自的優勢。第一階段網路以體素表徵作為輸入,僅包含輕量級卷積運算,並生成了少量的高質量初始預測。初始預測中每個點的坐標和索引卷積特徵實現了與注意力機制的有效融合,並保存了準確的定位和語境信息。第二階段網路對內點(interior point)展開融合,以進一步細化預測結果。本文提出的方法就 3D 和鳥眼觀(Bird"s Eye View,BEV)檢測在 KITTI 數據集上進行了評估,實現了 15FPS 檢測率的 SOTA 結果。

圖 1. 兩階段框架概述。在第一階段,對點雲進行體素化,並將其送入 VoxelRPN,以生成少量的初始預測結構。然後通過融合體素的內點坐標和上下文特徵,生成每個預測的邊界框特徵。邊界框特徵被送入 RefinerNet 以進一步微調。

圖 2.VoxelRPN 網路結構。本圖中 C 層的級聯方式為:(kernel size)(channels) / (stride)。stride 默認為 1,除非以其它方式指定。

圖 3.RefinerNet 網路結構

推薦:本文是由港中文和騰訊優圖實驗室賈佳亞等人完成的最新論文,實現了點雲數據的二階段 3D 檢測。

論文2:A 20-Year Community Roadmap for Artificial Intelligence Research in the US

作者:Yolanda Gil、Bart Selman

論文鏈接:https://arxiv.org/pdf/1908.02624v1.pdf

摘要:現在,人工智慧可以翻譯多種語言、識別圖像和視頻中的目標、簡化製造流程以及控制汽車。人工智慧系統的部署既為業界創造了萬億美元的財富(這一數字預計未來三年將翻三番),也提醒人們需要關注它們的公平性、可解釋性和安全性。未來的人工智慧系統理應能夠有效地判斷出它們(以及人們)所運行的場景,高效併合乎道德地處理複雜任務和承擔相應責任,參與有意義的溝通,並通過實踐提升自我意識。充分發揮人工智慧技術的潛能需要對人工智慧研究企業進行根本性的變革,並通過大量持續的投資加以促進。這些是美國計算社區聯盟(Computing Community Consortium)和人工智慧發展協會(Association for the Advancement of Artificial Intelligence)給出的主要建議,從而為未來二十年的人工智慧研究和發展制定路線圖。

報告目錄。論文介紹了人工智慧發展的目標和場景、首要研究問題、數據和硬體問題等。

推薦:不僅要腳踏實地,也要著眼未來。20 年後的 AI 怎麼發展?數據、演算法、算力、應用落地問題如何解決?美國計算社區聯盟和人工智慧發展協會給出了美國未來的技術路線,適合研究科技趨勢和未來發展的讀者參考。

論文3:Recent Advances in Deep Learning for Object Detection

作者:Xiongwei Wu、Doyen Sahoo、Steven C.H. Hoi

論文鏈接:https://arxiv.org/pdf/1908.03673v1

摘要:目標檢測是計算機視覺中的一個基本視覺識別問題,並在過去幾十年中得到了廣泛的研究。視覺目標檢測是為了在給定圖像中找到具有精確定位的特定目標類目標,並為每個目標實例分配相應的類標籤。基於深度學習的圖像分類取得了巨大的成功,因此近年來利用深度學習的目標檢測技術得到了積極的研究。本文綜述了近年來基於深度學習的視覺目標檢測技術的研究進展。通過查閱大量近期相關文獻,研究者系統地分析了現有的目標檢測框架,並分為三個主要部分:檢測組件;學習策略;應用與基準。研究者詳細討論了影響檢測表現的各種因素,如檢測器架構、特徵學習、提案生成、採樣策略等。最後,他們討論了未來的發展方向,以促進和激勵未來利用深度學習的視覺目標檢測研究。

近年來圖像分割領域的發展一覽。

推薦:目標檢測是計算機視覺領域的主要分支領域。本文回顧了這一領域的研究和發展,向讀者全面介紹了相關的解決方案。

論文4:Attention is not not Explanation

作者:Sarah Wiegreffe、Yuval Pinter

論文鏈接:https://arxiv.org/pdf/1908.04626.pdf

實現地址:https://github.com/successar/AttentionExplanation

摘要:注意力機制在 NLP 系統中起著重要作用,尤其對於循環神經網路 (RNN) 模型。那麼注意力模塊提供的中間表徵能否解釋模型預測的推理過程,進而幫助人們了解模型的決策過程呢?一篇題目為《Attention is not Explanation》的論文表示注意力機制並不能提高模型的可解釋性。來自喬治亞理工學院的 Sarah Wiegreffe 和 Yuval Pinter 挑戰了這篇論文中的諸多假設,認為該論斷依賴「解釋」(explanation)的定義,且判斷該論斷是否正確需要考慮模型的所有元素,使用嚴謹的實驗設計。因此他們提出四種替代性測試方法來決定注意力何時可用作「解釋」、是否能作為「解釋」,這四種方法分別是:簡單的統一權重基線、基於多次隨機種子運行的方差校準、使用預訓練模型固定權重的診斷框架、端到端對抗注意力訓練協議。每一種方法都可以對 RNN 模型中的注意力機製做出有意義的詮釋。研究人員證明,即使存在可靠的對抗分布,它們在簡單的診斷框架上也無法取得很好的性能,這表明《Attention is not Explanation》這項研究並沒有駁倒「注意力機制可用於解釋模型」的說法。

推薦:所以注意力機制是否可解釋?即使是專業研究者也拿不準了,本文從研究注意力可解釋性的方法上入手,提出了新的方法。不管讀者朋友信不信注意力機制是否可解釋,論文提出的針對某種架構的研究分析方法論,值得參考學習。

論文5:One Model To Rule Them All

作者:Felix Berkhahn、Richard Keys、Wajih Ouertani、Nikhil Shetty、Dominik Gei?ler

論文鏈接:https://arxiv.org/pdf/1908.03015

摘要:論文的研究者提出了一種變分自編碼器架構,可以無縫地插入在無監督、半監督和監督學習領域。研究顯示,無標註的數據點不僅可以啟發無監督任務,也可以提升分類性能。反過來,每個標籤不僅可以提升分類任務性能,但也可以用於無監督任務上。論文提出的架構非常簡單:將一個分類層和最高的編碼層連起來,然後和解碼器的重採樣隱層結合。常規的下界損失用一個在分類層上的監督損失目標補充,並且只用於標註過的數據點。這樣一種簡單的架構可以在現有的任何 VAE 架構上進行擴展。在語境分類任務上,研究人員發現這種方法比直接的監督學習設置性能更好。

推薦:論文提出了通用於無監督和監督學習的變分自編碼器架構,適合在圖像處理任務中加入帶標註或無標註數據,以提升模型的性能表現。這種模型性能增強的方法,值得讀者參考。

論文6:AutoGAN: Neural Architecture Search for Generative Adversarial Networks

作者:Xinyu Gong 、Shiyu Chang 、Yifan Jiang、Zhangyang Wang

論文鏈接:https://arxiv.org/pdf/1908.03835v1

實現地址:https://github.com/TAMU-VITA/AutoGAN

摘要:神經架構搜索(NAS)已經在圖像分類和分割任務中顯示出一定的成功。在本文中,研究人員提出了第一種利用神經架構搜索生成生成對抗網路的方法,名為 AutoGAN。研究人員在論文中將搜索空間定義為生成器架構變體,並使用了一個 RNN 控制器指導搜索過程,並且用參數共享和動態重設的方法加速進程。獎勵則使用了 Inception score,並使用了多級別的搜索策略。實驗驗證了 AutoGAN 在無條件圖像生成上的表現。具體而言,研究人員用這一演算法發現了一種新的架構,相比於現有的 SOTA GAN 模型具有很大的優勢,例如在 CIFAR-10 上取得了新的 FID 分數——12.42,以及 STL-10 上 取得了 31.01 的分數。

圖 1:RNN 控制器的架構。在每一個時間步,控制器會輸出一個隱層向量,解碼為一個運算步驟,以及其對應的 softmax 分類器。

推薦:繼圖像分類、預訓練模型之後,神經架構搜索又用在 GAN 上了!這是一個新的架構突破。論文揭示了 NAS 在深度學習領域的廣闊潛力——人們不再需要費心手動設計模型架構,定義搜索空間和策略,一切由模型完成。

論文7:On the Variance of the Adaptive Learning Rate and Beyond

作者:Liyuan Liu、Haoming Jiang、Pengcheng He、Weizhu Chen、Xiaodong Liu、Jianfeng Gao、Jiawei Han

論文地址:https://arxiv.org/abs/1908.03265v1

實現地址:https://github.com/LiyuanLucasLiu/RAdam

摘要:啟發式的學習率預熱方式在穩定訓練、加速收斂和提升適應性隨機目標演算法(RMSprop 和 Adam 等)的泛化能力方面取得了一定的成果。論文中發現了適應性學習率的一個問題——在早期階段有很大的方差,說明預熱起到了方差縮減的作用。論文進一步地提出了 RAdam,一種 Adam 的變體。這一演算法引入了整流適應性學習率的機制。在圖像分類、語言建模和神經機器翻譯方面的實驗說明,這一方法是有效且魯棒的。

推薦:優化演算法也是深度學習的一個研究方向。新的 Adam 變體方法進一步加快了模型收斂的速度和魯棒性,有取代 Adam 的可能,fastai 目前已集成。讀者朋友可以了解下這一領域的進展。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

只聽聲、不識人,武漢理工博士開發基於回聲的人類活動識別系統
Hacker狂歡節,一起來戰鬥:Hackathon、TechPark、極客大會、神秘明星驚喜不斷……

TAG:機器之心 |