AI所有領域最優論文+代碼查找神器：966個ML任務、8500+論文任你選

科技 02-04

機器之心報道

參與：曉坤、路雪

查找論文及對應源碼的神器 Papers With Code 剛剛推出了最新版本，可以用圖形界面查找你想要的 SOTA 實現，從應用領域到具體任務再到實現代碼一步到位。據網站開發者介紹，裡面包含了 966 個機器學習任務、515 個評估排行榜（以及當前最優結果）、8625 篇論文（帶源碼）、704 個數據集。

網站地址：

https://paperswithcode.com/sota

Papers With Code 簡介

Papers With Code 由 Reddit 用戶 rstoj 開發，旨在提供免費、開源的機器學習論文資源、代碼和評估排行榜。目前該網站已經完成了代碼與論文的自動化鏈接，正在研究自動提取論文中的評估數據。

該網站將 ArXiv 上的最新機器學習論文與 GitHub 上的代碼（TensorFlow/PyTorch/MXNet 等）對應起來。用戶可以按標題關鍵詞查詢，或者按流行程度、GitHub 收藏數排列「熱門研究」。

據了解，Papers With Code 網站上的所有內容都是可編輯的，而且是版本化的。用戶可以從中發現好的任務和最優結果，甚至發現一些以前不知道的研究精華。開發者還開源了整個數據集。

數據下載

論文摘要：https://paperswithcode.com/media/about/papers-with-abstracts.json.gz

論文與代碼之間的鏈接：https://paperswithcode.com/media/about/links-between-papers-and-code.json.gz

評估排行榜：https://paperswithcode.com/media/about/evaluation-tables.json.gz

數據源

大部分數據來自於開發者的論文標註。為了確保廣泛覆蓋機器學習任務，開發者解析了 6 萬多篇論文的標題（命名為「Method X for Task Y」）。此外，開發者還在 2018 年最後一個季度的 1600 篇 arXiv 論文摘要中手動標註了任務和數據集。

開發者還 follow 了以下項目的數據：

NLP 進展：https://github.com/sebastianruder/NLP-progress

EFF AI metrics：https://github.com/AI-metrics/AI-metrics

SQuAD：https://rajpurkar.github.io/SQuAD-explorer/

RedditSota：https://github.com/RedditSota/state-of-the-art-result-for-machine-learning-problems

抓取和導入數據的代碼也已開源，詳見：paperswithcode/sota-extractor 。

覆蓋類別

Papers With Code 網站涉及廣泛的機器學習任務，目前包含 966 個機器學習任務、515 個評估排行榜（以及當前最優結果）、8625 篇論文（帶源碼）、704 個數據集，其中光是計算機視覺就覆蓋了多達 552 種任務。這些機器學習任務具體分類是：計算機視覺、自然語言處理、醫療、方法（Methodology）、語音、遊戲、圖、時序、音頻、機器人、音樂、推理、計算機代碼、知識庫、對抗等。

圖源：https://paperswithcode.com/sota

除此之外，我們還可以在該網站上查看「Trending Research」、「Latest Research」和「Top Papers」。每一個分類下面所列出的項目包含：論文標題、機構、發表日期、摘要、任務分類等信息。

使用

現在，我們來看看這個 ML SOTA 瀏覽器怎麼用吧。

如果你進入了主頁而不是上圖頁面，那麼只要在原來的主頁點擊搜索框旁邊的 Browse state-of-the-art，就可以看到上圖的界面了。

以計算機視覺中的語義分割（Semantic Segmentation）任務為例。從 Browse state-of-the-art 主頁視圖中可以直接看到，語義分割任務中包含了 9 個排行榜以及 299 篇論文。

點進去之後就能看到這 9 個排行榜。不過 9 這個數字好像對不上，算了這不重要。我們可以看到 5 個數據集的 SOTA 論文，每一行分別列出了數據集名稱、SOTA 模型名稱、論文、源代碼等。例如，第一行展示了在 PASCAL VOC 2012 數據集上的當前最佳模型是 DeepLabv3+ (Xception-JFT)，源論文是《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》。點擊「See all」，就能查看排行榜的更多細節，我們點擊第一行的「See all」。

如下圖所示，點擊「See all」之後，頁面跳轉到在 PASCAL VOC 2012 數據集上的排行榜詳細信息，如下圖所示，圖中綠色點為曾經的 SOTA 論文，圖中折線表示趨勢圖，灰色點表示性能較弱的其他論文。上圖中「趨勢」欄中的小圖即各排行榜的 SOTA 趨勢圖。滑鼠落在圖中的點就能顯示相應的模型和性能信息，點擊即可直達論文詳情頁面（Papers With Code 頁面）。

在趨勢圖下方則列出了完整的數據表格，按照評估指標從大到小排序。DeepLabv3+ (Xception-JFT) 在語義分割任務中排名第一，Mean IoU 分數為 89.0%。

接下來，我們點擊 DeepLabv3+ (Xception-JFT) 行中的超鏈，就能到達該模型的 Papers With Code 頁面，上面顯示了論文標題、摘要、arXiv 鏈接，以及最重要也是 Papers with Code 最讓人心水的地方——直接提供實現代碼的 GitHub 鏈接，還不止一個。在 DeepLabv3+ (Xception-JFT) 的頁面中就提供了多達 15 個實現，這些實現按照 GitHub 收藏量排序，並顯示基於什麼框架實現。

終於找到想要的實現了嗎？請慢用......

代碼實現列表下方還展示了這個模型在其他任務上的排行榜排名和性能。從下表可以看到，

DeepLabv3+ (Xception-JFT) 還在 Cityscapes 上實現了 82.1% 的當前最佳 Mean IoU。

到此，Papers With Code 的功能就介紹得差不多了。我們再看看其中一些讓人驚喜的地方。在所有數據集的排行榜頁面下方還可以看到，有非常良心的子任務分類。也就是說在語義分割頁面，你還能看到和語義分割相關的其它子任務的排行榜，有實時語義分割、場景分割、弱監督分割等。點進去能查看的信息類型和上述例子一致，此處不再贅述。