當我們談論 NLP、CV和DL 的時候，我們在讀什麼？

知識 04-21

Coupled Deep Learning for Heterogeneous Face Recognition

不同模態（例如近紅外 NIR 和可見光 VIS）採集的人臉照片的匹配問題被稱為異構人臉匹配（Heterogeneous face matching，HFM）問題。不同模態的數據之間具有互補性，例如 NIR 數據受光照影響小，網路上有大量的 VIS 數據等。不同模態的數據之間差異較大，並且缺失足夠的訓練樣本對。本文提出了一種新的方法（coupled deep learning, CDL）來解決 HFM 問題。其主要的想法是對 NIR 的投影矩陣和 VIS 的投影矩陣引入組合跡範數（trace norm）來一方面使得兩個投影矩陣之間具有相關性，另一方面作為正則項限制模型空間的複雜度；此外引入 Triplet ranking loss 來迫使類間的大間距，並給出了合理的 Triplet 選擇方法。CDL 的性能在 CASIA NIR-VIS 2.0 數據集和 CUFS, CUFSF 上超過了目前最好的演算法。不過本文仍然有一些地方沒有很好研究：例如為什麼組合 trace norm 可以迫使投影矩陣相關，沒有做 ablation study，好的性能會不會是由於海量數據的預訓練帶來的，而不是 CDL 方法帶來的？

論文鏈接：https://arxiv.org/abs/1704.02450

推薦人：吳沐，北京航空航天大學（PaperWeekly arXiv組志願者）

Exploring Question Understanding and Adaptation in Neural-Network-Based Question Answering

近年來，隨著斯坦福問答數據集（SQuAD）的推出，機器理解有了長足的進展，本文在前人工作的基礎上，對問題的表徵做了深入的的研究，獲得更優的結果。首先，本文在前人工作的基礎上做了一些小的改動，並以之做為實驗的 baseline，具體來說，在注意力的雙向計算上，本文使用 max pooling 和 mean pooling 兩種機制來計算 question based filter passage embedding。使得最後的 passage 表示信息更為豐富。在 prediction layer 中，本文使用前向與後向兩個 pointer network，預測出兩個結果再進行平均。使預測結果更穩定可靠。

在 baseline 的基礎上，本文重點研究了對於 question 的表徵。首先文章將 question representation 餵給一個 TreeLSTM，並以此 TreeLSTM 的根結點向量作為新的 question 的表示，從而在 question 的表示中加入了語法結構信息。另一方面，由於問答數據集中的問題，可以分為了 why, what, how 等類別，如果能夠捕獲到問題所屬的類別，然後進行自適應訓練（adaptation training），這樣不同的問題既共享同樣的模型，在需要的時候又能夠進行區分，就可以在更細的粒度上捕獲到數據的更多特徵。在這樣的考慮下，文章引入一個 11 維的 one-hot 向量來標識問題所屬的類別，並用一個中心向量來代表這個問題類別，在訓練過程中更新這個中心向量，從而自適應地將不同類的問題區別開。

通過這一系列做法，在 SQuAD 數據集上，取得了 77% 的 EM-score 和 68% 的 F1-score。

論文鏈接：https://arxiv.org/abs/1703.04617

推薦人：於翮，北京航空航天大學（PaperWeekly arXiv組志願者）

Not All Pixels Are Equal: Difficulty-aware Semantic Segmentation via Deep Layer Cascade

本文認為針對語義分割任務，圖像中的像素不應該平等對待，而是存在難易區別的。所以，經統計，本文將圖片上的像素分成了簡單，中等，困難三種集合。其中 70% 的困難像素分布在物體邊界。據此，本文提出了一種新的模型 Deep Layer Cascade 來針對性地處理不同難易程度的像素從而提高語義分割的準確率和速度。Deep Layer Cascade (LC) 是在 Inception-Resnet-v2 的基礎上改進的。它將模型分為了三個階段，每個階段都會額外添加兩層卷積層和 softmax 損失函數。同時每個階段引入了一個概率閾值 ρ，利用 ρ 來控制每個階段處理哪些像素，預測概率大於 ρ 的就在本階段處理，小於 ρ 的就傳遞至下一階段，從而針對性處理像素並且提高計算速度。為了實現針對性處理像素，本文還提出了一種 Region Convolution 來只處理每個階段感興趣的區域，忽視其他區域。Region Convolution 通過二值 mask 來實現，感興趣的區域置 1，其他區域置 0。

經測試，LC 在 VOC12 test set 上 mIoU 達到 80.3，在 COCO 上預訓練可達到 82.7；在 Cityscapes test set 上可得到 71.1 的 mIoU。

論文鏈接：https://arxiv.org/abs/1704.01344

推薦人：余昌黔，華中科技大學（PaperWeekly arXiv組志願者）

#增量式#

#word2vec#

Incremental Skip-gram Model with Negative Sampling

本文的最大亮點在於提出了一種增量式的詞向量學習模型，並且通過數學和實驗證明驗證了演算法的有效性。

論文鏈接：https://arxiv.org/abs/1703.10960

推薦人：大俊，PaperWeekly 首席客服

#Goal-Oriented Dialog#

Learning End-to-end Goal-Oriented Dialog

端到端（end-to-end）的對話系統目前只能進行一些閑聊（chit-chat）式對話。而為了完成特定領域任務，對話系統採用槽填充，意圖識別和手工編碼特徵等多個模型的 pipeline。考慮到端到端對話系統的普適性，作者研究端到端系統在目標導向的對話應用中的優缺點，提出一個訓練端到端目標導向對話系統的數據集，同時把對話任務分解成幾個子任務分別進行分析。

領域對話數據集和統一評價標準的缺乏制約端到端模型在目標導向對話任務上的發展，像 DSTC2 等還是主要用於狀態跟蹤（state: a user intent + slots），數據規模偏小。為此，作者首先在餐廳預定這個任務上，通過查詢知識庫（KB），填充語言模板模擬（simulate）出部分對話語料，加上通過 DSTC2 轉換來的真實人機對話語料，構成餐廳預定服務數據集。為了驗證模型遷移到其他真實場景的能力，作者收集禮賓服務語料。在餐廳預定模擬的語料上，為了驗證處理 Out-of-Vocabulary 等能力, 作者進一步把菜系和地點實體詞分成兩份，然後根據兩份實體詞把 KB 分成兩個，一個 KB 用於產生訓練集，測試集和驗證集，另一個 KB 只產生測試集（OOV test sets）。然後把對話任務分解成 5 個子任務，在這個模擬語料上訓練，用 per-response accuracy and per-dialog accuracy 作為評價標準。

模型方面，作者對比四種方法作為數據集的 baseline。其中 Memory Network 為了處理新出現的餐廳名等實體詞（OOV）缺失 word embbeding 或者不同電話號碼的 embeddings 不可區分問題, 作者對實體詞添加 7 種預定義的類型詞（type word），取得不錯效果。作者也提出 baseline 模型在解釋從知識庫中返回的實體知識並展現給用戶上有改進空間，這篇論文更多是領路式（大牛挖坑）。