計算機視覺論文速遞

最新 03-09

通知：這篇推文有19篇論文速遞信息，涉及圖像分類、目標檢測、目標分割、超解析度SR、姿態估計、行人重識別Re-ID等方向

[1]《A Deep Learning Algorithm for One-step Contour Aware Nuclei Segmentation of Histopathological Images》

Abstract：本文介紹了高解析度組織病理圖像中細胞核分割的任務。我們提出了一種自動化的端到端深度神經網路演算法來分割單個核。引入核 - 邊界模型來使用完全卷積神經網路同時預測核及其邊界。給定顏色歸一化圖像，該模型直接輸出估計的原子核圖和邊界圖。在估計的原子核圖上執行簡單，快速和無參數的後處理過程以產生最終的分割原子核。重疊斑塊提取和組裝方法也被設計為無縫預測大型全幻燈片圖像中的細胞核。我們還展示了用於細胞核分割任務的數據增強方法的有效性。我們的實驗顯示我們的方法優於先前的最先進的方法。而且，一張1000X1000的圖像可以在不到5秒的時間內被分割出來。這樣可以在可接受的時間內精確分割整張幻燈片圖像

arXiv：https://arxiv.org/abs/1803.02786

[2]《Fast and Accurate Semantic Mapping through Geometric-based Incremental Segmentation》

Abstract：我們提出了一種高效可擴展的方法，可以實時構建密集的，語義注釋的3D地圖。所提出的方法向每個區域分配類別概率，而不是通過穩健的SLAM框架構建的3D地圖的每個元素（例如，表面和體素），並且用基於幾何的分割方法遞增地分割。與所有其他方法不同，我們的方法具有運行速度超過30Hz的能力，同時執行所有處理組件，包括SLAM，分割，2D識別以及更新每個傳入幀上每個分割標籤的分類概率，這要歸功於高性能我們框架的計算密集階段。通過使用專門設計的CNN來改善幀分割結果，我們也可以實現高精度。我們通過在準確性和計算效率方面與現有技術水平進行比較，並通過對時間和空間複雜度的分析來驗證我們的NYUv2數據集的方法。

arXiv：https://arxiv.org/abs/1803.02784

[3]《RTSeg: Real-time Semantic Segmentation Comparative Study》

Abstract：語義分割有利於機器人相關的應用，尤其是自動駕駛。大多數關於語義分割的研究只是提高分割模型的準確性，而很少關注計算有效的解決方案。在這方面的工作量較少，目前並沒有提供評估分割不同設計選擇的原則性方法。在本文中，我們通過提出一種實時語義分割基準測試框架來解決這個問題，該基準框架具有用於特徵提取和解碼方法的decoupled 設計。該框架由用於特徵提取的不同網路體系結構組成，如VGG16，Resnet18，MobileNet和ShuffleNet。它還包含多個用於定義解碼方法的分段元結構。這些包括SkipNet，UNet和Dilation Frontend。城市景觀數據集中提供了實驗結果。模塊化設計使得新穎的架構得以實現，與SegNet相比，可減少143x GFLOPs。這個基準測試框架可在「https://github.com/MSiam/TFSegmentation」處公開獲得。

註：語義分割速度benchmark，這裡強關注一波

arXiv：https://arxiv.org/abs/1803.02758

github：https://github.com/MSiam/TFSegmentation

[4]《HENet:A Highly Efficient Convolutional Neural Networks Optimized for Accuracy, Speed and Storage》

Abstract：為了提高卷積神經網路（CNN）的實時性，越來越多的研究者致力於提高CNN的效率。在對ResNet，DenseNet，ShuffleNet等CNN體系結構進行分析的基礎上，結合自己的優勢，提出了一種非常有效的高效網路模型（HENet）。新的架構採用了一種不尋常的方式將ShuffleNet中提到的群組卷積和通道混洗相結合。受ResNet和DenseNet的啟發，我們還提出了一種新的方法，使用每個塊的元素方式添加和串聯連接。為了更好地使用功能映射，彙集操作從HENet中移除。實驗表明，我們的模型的效率比許多開源數據集（如CIFAR-10/100和SVHN）上的ShuffleNet高出1倍以上。

註：不提供源碼的CNN網路都是耍流氓......逃

arXiv：https://arxiv.org/abs/1803.02742

[5]《Deep Back-Projection Networks For Super-Resolution》

To appear in CVPR2018

Abstract：最近提出的深度超解析度網路的前饋體系結構學習低解析度輸入的表示，以及從非線性映射到高解析度輸出。但是，這種方法並沒有完全解決低解析度和高解析度圖像的相互依賴關係。我們提出了Deep Back-Projection Networks（DBPN），它利用迭代上採樣和下採樣層，為每個階段的投影誤差提供錯誤反饋機制。我們構建了相互連接的上採樣和下採樣階段，每個階段代表不同類型的圖像降級和高解析度組件。我們表明，擴展這個想法，允許在上採樣階段和下採樣階段（密集DBPN）中的特徵級聯允許我們重建進一步提高超解析度，產生出眾的結果，並且特別為大比例因子建立新的現有技術結果如跨越多個數據集的8倍。

arXiv：https://arxiv.org/abs/1803.02735

[6]《3D Human Pose Estimation in RGBD Images for Robotic Task Learning》

Accepted to ICRA 2018

Abstract：我們提出了一種從單個RGBD圖像估計真實世界單元中的三維人體姿態的方法，並且表明它超越了單色三維姿態估計方法從顏色表現的性能以及僅從深度進行姿態估計。我們的方法建立在強大的人類關鍵點檢測器的彩色圖像上，並融入了深入3D技術。我們將該系統與我們在演示框架中的學習相結合，指示服務機器人而不需要標記。在現實環境中的實驗表明，我們的方法使PR2機器人能夠模仿人類老師觀察到的操縱行為。

arXiv：https://arxiv.org/abs/1803.02622

[7]《Single View Stereo Matching》

Abstract：先前的單眼深度估計方法採用單一視圖並直接對預期結果進行回歸。雖然最近的進展是通過在訓練期間應用幾何啟發損失函數來進行的，但推理過程並沒有明確強加任何幾何約束。因此這些模型完全依賴於數據的質量和學習的有效性來推廣。這或者導致次優結果或者需要大量標記數據的大量地面實況來產生合理的結果。在本文中，我們首次展示了單眼深度估計問題可以被重新表述為兩個子問題，一個視圖合成過程，然後是立體匹配，具有兩個有趣的特性，即i）在推理過程中可以明確強加幾何約束; ii）對標記的深度數據的需求可以大大減輕。我們表明，整個pipeline仍然可以以端到端的方式進行訓練，而這種方法在提高性能方面起著關鍵作用。通過僅使用少量實際訓練數據，所得模型勝過所有以前的單眼深度估計方法以及具有挑戰性的KITTI數據集中的立體塊匹配方法。該模型也很好地推廣到其他單眼深度估計基準。我們還討論了使用立體方法解決單眼深度估計的含義和優點。

Spotlight in CVPR 2018

註：畫重點！！！單目圖像深度估計在我的推文中已經不低於4次了

arXiv：https://arxiv.org/abs/1803.02612

github：https://github.com/lawy623/SVS

[8]《Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks》

Abstract：Fully convolutional neural networks (F-CNNs) have set the state-of-the-art in image segmentation for a plethora of applications. Architectural innovations within F-CNNs have mainly focused on improving spatial encoding or network connectivity to aid gradient flow. In this paper, we explore an alternate direction of recalibrating the feature maps adaptively, to boost meaningful features, while suppressing weak ones. We draw inspiration from the recently proposed squeeze & excitation (SE) module for channel recalibration of feature maps for image classification. Towards this end, we introduce three variants of SE modules for image segmentation, (i) squeezing spatially and exciting channel-wise (cSE), (ii) squeezing channel-wise and exciting spatially (sSE) and (iii) concurrent spatial and channel squeeze & excitation (scSE). We effectively incorporate these SE modules within three different state-of-the-art F-CNNs (DenseNet, SD-Net, U-Net) and observe consistent improvement of performance across all architectures, while minimally effecting model complexity. Evaluations are performed on two challenging applications: whole brain segmentation on MRI scans (Multi-Atlas Labelling Challenge Dataset) and organ segmentation on whole body contrast enhanced CT scans (Visceral Dataset).（挺硬的文章，我就直接搬原文了）

arXiv：https://arxiv.org/abs/1803.02579

[9]《Decoupled Spatial Neural Attention for Weakly Supervised Semantic Segmentation》

Abstract：弱監督語義分割得到了很多研究的關注，因為它減輕了為訓練圖像獲得大量密集像素地面真實性注釋的需要。與其他形式的弱監督相比，圖像標籤非常有效。在我們的工作中，我們主要關注帶有圖像標註注釋的弱監督語義分割。這項任務的最近進展主要取決於生成的偽標註的質量。在這項受空間神經注意力影響的圖像標題的作品中，我們提出了一個用於生成偽注釋的解耦空間神經關注網路。我們的解耦關注結構可以同時識別對象區域並定位在一條前向路徑中生成高質量偽標註的區分性部分。生成的偽標註導致分割結果，實現弱監督語義分割的最新技術。

註：弱監督的語義分割，哎喲不錯哦！

arXiv：https://arxiv.org/abs/1803.02563

[10]《Multi-Channel Pyramid Person Matching Network for Person Re-Identification》

Accepted by the 32nd AAAI

Abstract：在這項工作中，我們提出了基於語義成分和顏色 - 紋理分布相結合的多通道深層卷積金字塔人匹配網路（MC-PPMN）來解決人重新識別問題。具體來說，我們從兩個人的圖像中分別學習語義成分和顏色紋理分布的深度表示，然後使用金字塔人工匹配網路（PPMN）獲得對應表示。這些對應表示被融合以執行重新識別任務。此外，所提出的框架通過統一的端到端深度學習方案進行了優化。對幾個基準數據集進行的大量實驗證明了我們的方法對最先進的文獻的有效性，特別是對一級識別率的影響。

arXiv：https://arxiv.org/abs/1803.02558

[11]《Object cosegmentation using deep Siamese network》

Appears in ICPRAI 2018

Abstract：Object cosegmentation解決了從多個圖像中發現類似對象並將它們同時分割為前景的問題。在本文中，我們提出了一種新穎的端到端流水線，使用監督學習通過深度學習框架，從相關圖像集中同時分割相似對象。我們嘗試了多套對象建議生成技術，並通過使用生成的對象建議來訓練暹羅網路來執行大量的數字評估。使用ANNOY（近似最近鄰居）庫來檢索用於測試圖像的類似對象建議，並且對它們執行深度語義分割。最後，我們根據對象的相對重要性，從分割的相似對象中形成拼貼畫。

arXiv：https://arxiv.org/abs/1803.02555

[12]《Pyramid Person Matching Network for Person Re-identification》

Acceped by ACML2017

Abstract：在這項工作中，我們提出了一個深度卷積金字塔行人匹配網路（PPMN）和專門設計的金字塔匹配模塊來解決行人重識別問題。該架構以一對RGB圖像作為輸入，並輸出指示兩個輸入圖像是否代表同一人物的相似度值。在深度卷積神經網路的基礎上，我們的方法首先利用人的語義成分感知特徵來學習區分性語義表示，然後使用金字塔匹配模塊來匹配行人的共同語義成分，這對於空間變化由視點變化造成的地點尺度和偏差。上述兩個流程通過統一的端到端深度學習方案進行聯合優化。對幾個基準數據集進行的大量實驗證明了我們的方法對付最先進的方法的有效性，特別是在一級識別率方面。

arXiv：https://arxiv.org/abs/1803.02547

[13]《Visual Explanations From Deep 3D Convolutional Neural Networks for Alzheimer"s Disease Classification》

Abstract：論文提出了三種有效的方法來從三維卷積神經網路（3D-CNN）生成阿爾茨海默病分類的視覺解釋。一種方法對分級3D圖像分割進行靈敏度分析，另一種方法在空間圖上可視化網路激活。視覺檢查和定量定位基準表明，此方法都可以確定阿爾茨海默病診斷的重要腦部分。對比分析表明，基於敏感性分析的方法難以處理鬆散分布的大腦皮層，基於激活可視化的方法受卷積層解析度的限制。這些方法的互補性從不同的角度提高了對阿爾茨海默病分類中3D-CNNs的理解。

arXiv：https://arxiv.org/abs/1803.02544

[14]《Rigid Point Registration with Expectation Conditional Maximization》

Abstract：本文針對在計算機模擬圖像中基於最大似然原理通過點配准將剛性三維物體點與二維圖像點進行匹配的問題。將三維坐標轉換為二維時需要透視投影。然後問題重新陷入缺失的數據框架，未知的對應關係通過混合模型處理。採用期望條件最大化點註冊（ECMPR），本文比較了兩種不同的旋轉和平移優化演算法。我們從理論上和實驗上詳細分析了配准參數估計方面的相關後果。

arXiv：https://arxiv.org/abs/1803.02518

[15]《Exponential Discriminative Metric Embedding in Deep Learning》

Abstract：近來，由於卷積神經網路（CNN）在物體識別領域取得的巨大成功，深度學習在計算機視覺領域得到了廣泛的應用。深度度量學習（DML）將深度學習與傳統度量學習相結合，在許多領域創造了新的記錄，特別是在分類任務中。在本文中，我們提出了一個可複製的DML方法，稱為包含和排除（IE）損失，以強制樣本與其指定類中心之間的距離遠離此樣本的平均距離，指數特徵投影空間。在IE損失的監督下，我們可以通過訓練CNN來提高intra-class的緊湊性和inter-class的可分離性，從而從對象識別到面部驗證等多個公共數據集都得到了很大的改進。我們在三種不同容量的網路上對幾種典型的DML方法進行了比較研究。在三個目標識別數據集和兩個人臉識別數據集上進行的大量實驗表明，IE損失總是優於其他主流DML方法，並且接近最新的結果。

註：距離度量Deep Metric Learning (DML)，先Mark！

arXiv：https://arxiv.org/abs/1803.02504

[16]《Categorical Mixture Models on VGGNet activations》

Abstract：在這個項目中，我使用無監督學習技術，以便在有意義的主題下聚集一組yelp餐廳照片。為了做到這一點，我從受歡迎的VGGNet卷積神經網路的預訓練實施中提取層激活。首先，我將探索使用卷積層激活的LDA作為特徵。其次，我探索使用在ImageNet上訓練的VGGNet的對象識別功能，以便從照片中提取有意義的對象，然後執行LDA將主題 - 原型下的照片分組。我發現第二種方法找到了有意義的原型，它們與餐廳，食物和飲料等照片主題的人類直覺相匹配。此外，這些群集與實際的yelp照片標籤很好地清晰對齊。

arXiv：https://arxiv.org/abs/1803.02446

[17]《Fast Cylinder and Plane Extraction from Depth Cameras for Visual Odometry》

Abstract：This paper presents CAPE, a method to extract planes and cylinder segments from organized point clouds, which processes 640x480 depth images on a single CPU core at an average of 300 Hz, by operating on a grid of planar cells. While, compared to state-of-the-art plane extraction, the latency of CAPE is more consistent and 4-10 times faster, depending on the scene, we also demonstrate empirically that applying CAPE to visual odometry can improve trajectory estimation on scenes made of cylindrical surfaces (e.g. tunnels), whereas using a plane extraction approach that is not curve-aware deteriorates performance on these scenes.

To use these geometric primitives in visual odometry, we propose extending a probabilistic RGB-D odometry framework based on points, lines and planes to cylinder primitives. Following this framework, CAPE runs on fused depth maps and the parameters of cylinders are modelled probabilistically to account for uncertainty and weight accordingly the pose optimization residuals.（看不懂，搬原文，沒毛病）

arXiv：https://arxiv.org/abs/1803.02380

github：https://github.com/pedropro/CAPE

[18]《TRLG: Fragile blind quad watermarking for image tamper detection and recovery by providing compact digests with quality optimized using LWT and GA》

Abstract：In this paper, an efficient fragile blind quad watermarking scheme for image tamper detection and recovery based on lifting wavelet transform and genetic algorithm is proposed. TRLG generates four compact digests with super quality based on lifting wavelet transform and halftoning technique by distinguishing the types of image blocks. In other words, for each 2*2 non-overlap blocks, four chances for recovering destroyed blocks are considered. A special parameter estimation technique based on genetic algorithm is performed to improve and optimize the quality of digests and watermarked image. Furthermore, CCS map is used to determine the mapping block for embedding information, encrypting and confusing the embedded information. In order to improve the recovery rate, Mirror-aside and Partner-block are proposed. The experiments that have been conducted to evaluate the performance of TRLG proved the superiority in terms of quality of the watermarked and recovered image, tamper localization and security compared with state-of-the-art methods. The results indicate that the PSNR and SSIM of the watermarked image are about 46 dB and approximately one, respectively. Also, the mean of PSNR and SSIM of several recovered images which has been destroyed about 90% is reached to 24 dB and 0.86, respectively.（很硬的文章，直接搬原文較為合適）

註：圖像篡改檢測，哎喲不錯哦！

arXiv：https://arxiv.org/abs/1803.02623

[19]《Learning Spectral-Spatial-Temporal Features via a Recurrent Convolutional Neural Network for Change Detection in Multispectral Imagery》

Abstract：變化檢測是地球觀測中的核心問題之一，近幾十年來得到了廣泛的研究。在本文中，我們提出了一種新穎的遞歸卷積神經網路（ReCNN）體系結構，該體系結構在多光譜圖像變化檢測的統一框架中進行訓練，以學習聯合光譜 - 空間 - 時間特徵表示。為此，我們將卷積神經網路（CNN）和遞歸神經網路（RNN）集成到一個端到端網路中。前者能夠生成豐富的光譜空間特徵表示，而後者能夠有效地分析雙時間圖像中的時間依賴性。與以前的變化檢測方法相比，所提出的網路體系結構具有三個獨特的性質：1）它是端到端可訓練的，與大多數現有方法的組成部分分別被訓練或計算; 2）它自然利用已被證明有利於改變檢測任務的空間信息; 3）它能夠自適應地學習多時相圖像之間的時間依賴性，這與大多數使用像圖像差異或疊加等相當簡單的操作的演算法不同。據我們所知，這是第一次提出經常性的卷積網路架構用於多時相遙感影像分析。提出的網路在真實的多光譜數據集上進行驗證。視覺和定量分析的實驗結果表明在提出的模式下具有競爭力的表現。

arXiv：https://arxiv.org/abs/1803.02642

-------我還是分割線-------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CVer 的精彩文章:

TAG:CVer |