AI研究新利器Etymo，媽媽再也不用擔心我找不到論文！

最新 02-04

作者｜W Zhang 等

譯者｜馬卓奇

編輯｜Emily

AI 前線導讀：Etymo（https://etymo.io），為促進人工智慧的研究和開發而設計的發現引擎。它旨在幫助讀者瀏覽每周發布的大量與人工智慧相關的論文。它使用一種新穎的搜索形式，在圖形界面中查找並顯示相關論文。Etymo 構建並維護了一個自適應的基於相似性的論文網路，將其作為一個通用的知識圖譜來進行排序、推薦和可視化。這個網路會不斷進化，可以從用戶的反饋中學習並自我調整。

更多乾貨內容請關注微信公眾號「AI 前線」，（ID：ai-front）

論文標題：

Etymo: A New Discovery Engine for AI Research

作者：W Zhang, J Deakin, N J. Higham, S Wang [The University of Manchester & JD.com]

全球科研產出的快速增長給信息檢索帶來了新的挑戰。這個問題在 AI 研究領域尤為嚴重。例如在 arXiv (https://arxiv.og) 上，每周大約有 500 篇與 AI 相關的新論文出現。新論文的激增使研究人員很難跟進 AI 領域最新的進展。為了應對這一挑戰，作者開發了 Etymo，一個面向學術搜索的全新發現引擎。

學術論文的影響力一般都用引用率來衡量，然而最新發表的論文是幾乎沒有引用的，所以很難判斷他們的含金量。作者通過建立一個基於相似性的網路，並且利用網路的信息來完成信息索引的任務。那麼如何對非超文本進行連接呢？作者從論文全文的分布向量表示中推斷連接，即如果兩篇論文的向量表示之間的夾角餘弦相似度較高，就將這兩篇文章連接起來。推斷連接與引用網路較相似，但是超鏈接和生成連接之間的類比並不完美。自動生成的連接是雜訊更多的信息源，並且更容易失效。

作者通過探索論文在社交媒體上的活動（例如在 Twitter 上被轉發的數量），以及用戶反饋的信息，對網路的連接進行增強或減弱，來提升排序演算法，並且過濾掉不需要的論文。產生的結果圖用於排序、推薦和可視化。作者結合 PageRank 和 Reverse PageRank（反向 PageRank）對論文進行排序。在反向 PageRank 中，作者將圖的邊進行方向反轉，再計算 PageRank。作者設計了一個新的搜索界面，將搜索結果顯示為一個項目列表和項目關係圖。該新界面可以讓讀者快速鎖定相關文獻。

結構概覽

下圖顯示了 Etymo 的依賴圖。

Etymo 用幾個網路爬蟲從不同的期刊網站下載論文。資料庫中的每篇論文既有 PDF 版，也有 metaData 版本，包括作者姓名、期刊名、論文摘要以及發表日期。

在分析（Analysis）階段，首先用 pdftotext 將 PDF 全文轉換成文本，然後用 Doc2Vec 演算法和 TF-IDF 演算法將文檔 d 表示為一個數學向量。內容類似的論文在向量空間中距離相近。該內容相似性信息隨後被用於構建針對資料庫中所有論文的基於相似性的網路（Similarity-based Network）。作者用這兩種演算法分別構建了兩個網路，實驗證明兩個網路的結合具有最好的效果。作者使用 t-SNE 來確定論文位置（Paper Location），利用網路中心性演算法對論文排序（Paper Ranking），一篇論文在網路中的節點度（和該節點相關聯的邊的條數）越高，該論文就越重要。TF-IDF 的全局詞條權重生成了一個詞庫（Lexicon），隨後應用於搜索中。Etymo 主要由一個搜索引擎（Search）和一個反饋引擎（Feed）構成，兩個引擎的結果分別顯示成列表和圖示。

系統特性

Etymo 有兩個重要特性，能夠幫助它產生更有用的搜索結果。

首先，Etymo 利用文檔的向量表示來構建基於相似性的網路，在網路中論文作為節點，相似的論文互相連接。網路是自適應的，通過用戶反饋機制：用戶評分、點擊以及 Twitter 轉發次數來強化「正確的」連接，弱化「不重要的」連接。得到的網路隨後用於排序和推薦。其次，作者設計了一個新的搜索界面，搜索結果不只通過傳統的項目列表顯示，還有反映論文之間關係的可視化圖，以幫助讀者快速找到相關論文，並對研究領域有一個整體的了解。

基於相似性的網路

構建基於相似性網路的第一步是用數學向量表示文檔。作者使用了文檔的分散式表示演算法 Doc2Vec，和詞袋模型 TF-IDF，採用向量間的夾角餘弦相似度來構建網路。該方法的一個潛在問題是它無法衡量論文質量的好壞，於是作者利用用戶反饋來調整網路結構，為重要的論文賦予更高的權重。

自適應網路排序

資料庫中每一個論文對都對應著一個相似度的值，如果相似度高於給定閾值，則將這兩篇論文連接起來。對於新加入的論文，直接計算論文與資料庫中全部論文的相似度，計算量過大，因此新加入的論文只與前 k 篇高質量論文計算相似度。

如果一篇論文含有大量與 AI 領域相關的關鍵詞，那麼即使論文質量不高，它在網路中的節點度也很高，在排序中也能得到很高的評分。針對這一問題，作者用投票來調整網路結構：（1）利用用戶打星來增加節點連接邊的權重，從而增加連接邊的數量（節點度）。也就是說，得到用戶評星多的論文，與其他論文的連接更多。（2）利用用戶庫來推斷節點度：增加在某個用戶的庫中出現的論文之間的連接權重。（3）對於排序很靠前，但點擊量很少的論文，弱化其節點度。

利用論文發表日期這一信息，將經過調整之後的無向網路轉化成有向網路。這樣，當網路中出現新論文時，如果這篇新論文與以前的論文有相似的內容，或者用戶數據顯示他們相關，那麼界面就會同步「推薦」一篇以前的論文。

關係圖可視化

Etymo 的搜索結果不僅僅有列表，還有論文內容相似關係的可視化圖。

可視化結果節省了查找相關研究的時間。一般搜索結果顯示的是搜索排名前 10 的論文，以及與他們相關的論文，但是傳統的列表界面不能很好的顯示出全部的信息，在 Etymo 中，用戶可以同時查看列表中排名前 10 的論文並且在圖示中找到相關論文。

實驗

Etymo 資料庫中有超過 36000 篇文章，而且還在以每周 500 篇新文章的數量增長。分析階段用的是 Amazon Elastic 雲計算（Amazon EC2）m4.xlarge 平台實例，有 16 個 vCPU 和 64GB 內存。

Etymo 的資料庫每天更新。更新時，首先用 Doc2Vec 和 TF-IDF 演算法對每篇新文章建立表示向量。然後用 t-SNE 找到文章的位置，將 1000 維的表示向量降維到 2 維，即文章的坐標（x，y）。基於相似性的網路的節點數量對應資料庫中文章的數量。實驗中發現，基於網路的評分可以通過高亮重要文章來優化搜索結果。

表 1：輸入「t-sne」顯示的前5個搜索結果。該結果中包括了PageRank和反向PageRank排序演算法的結合。

表 2：輸入「t-sne」顯示的前5個搜索結果。該結果沒有使用任何基於網路的排序。

表 3：在Google Scholar中輸入「t-sne」顯示的前5個搜索結果。

表 1 是在基於相似性的網路中採用 PageRank 和反向 PageRank 進行排序的，搜索關鍵詞「t-sne」的前 5 個搜索結果。表 2 是不採用相似性網路的結果。Maaten 和 Hinton 的「Visualizing Data using t-SNE」是最早提出 t-SNE 的文章，可以認為是該關鍵詞下重要性很高的文章。可以看出，採用基於相似性網路的搜索對於更重要的文章給出了更多權重。表 3 是 Google Scholar 搜索結果，與之相比，作者的搜索方法包括了最近新發表的論文。

總結

科研過程中，在新論文被別的論文引用前，很難判斷它的價值。Etymo 通過利用論文的完整內容和社交媒體數據，提出了一個基於相似性網路的方法來優化新發表論文的搜索結果。用戶界面將結果列表和關係圖結合起來，為研究人員發現感興趣的新論文節省了大量時間。

https://arxiv.org/abs/1801.08573

https://etymo.io

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI漫遊 的精彩文章:

※伯克利AI研究：深度神經網路的物理對抗實例
※AAAI 2018最佳論文出爐，中國留學生再下一城

TAG:AI漫遊 |