TF-Ranking：最先進的排序學習TensorFlow庫

科技 03-06

全文共1662字，預計學習時長3分鐘

排序，是以將整個列表效用最大化的方式來排序項目的過程，適用於廣泛的領域，從搜索引擎、推薦系統到機器翻譯、對話系統甚至計算生物學等等。

在這些應用程序中，研究人員經常使用一組被稱為排序學習的監督機器學習技術。在許多情況下，這些排序學習的技術適用於非常大的數據集。其中，TensorFlow的可擴展性也許是一個優勢，但是目前還沒有現成的技術支持將排序學習技術應用於TensorFlow中。據不完全統計，目前還沒有其他的開源庫專門應用大規模的排序學習技術。

為此，本文推薦TF-Ranking——一個可擴展的用於排序學習的TensorFlow庫。TF-Ranking提供了一個統一的框架，其中包括一套最先進的排序學習演算法，並支持成對或列表損失函數、多項目評分、排名度量優化和無偏見的排序學習。

TF-Ranking快速且易於使用，並能創建高質量的排序模型。統一框架使ML研究人員、從業者和愛好者能夠在單個庫中評估和選擇一系列不同的排序模型。

此外，一個實用開源庫的關鍵不僅在於能夠提供合理的默認值，還應授權用戶能夠開發自己的自定義模型。因此，TF-Ranking提供靈活的API，用戶可以在其中定義和插入自己的自定義損失函數，評分函數和指標。

現有的演算法和度量支持

排序學習演算法的目的是使項目列表上定義的損失函數最小化，從而優化所有給定應用程序的列表排序的效用。TF-Ranking支持廣泛的標準點態，配對和列表損失函數。

這確保了使用TF-Ranking庫的研究人員能夠複製和擴展以前發布的基線，並且從業者可以為他們的應用做出最明智的選擇。

此外，TF-Ranking可以通過嵌入和擴展到數億個訓練實例來處理稀疏特徵（如原始文本）。

因此，任何對構建真實世界數據密集型排名系統（如網路搜索或新聞推薦）感興趣的人都可以將TF-Ranking用為一個強大且可擴展的解決方案。

經驗評估是所有機器學習或信息檢索研究的重要組成部分。為了確保與先前工作的兼容性，TF-Ranking支持許多常用的排名指標，包括即平均到數排名Mean Reciprocal Rank（MRR）和標準化貼現累積收益NormalizedDiscounted Cumulative Gain （NDCG）。TF-Ranking也可以在TensorBoard（一個開源TensorFlow可視化儀錶板）的訓練時很輕鬆地可視化這些指標。

根據TensorBoard中展示的訓練步驟（X軸）的NDCG度量（Y軸）的示例所顯示，訓練期間指標的總體進度。可以直接在儀錶板上比較不同的方法。也可以根據指標選擇最佳模型。

多項評分

TF-Ranking支持一種全新的評分機制，其中多個項目（如網頁）可以聯合評分，這是對傳統評分模式的擴展，其中單個項目被獨立評分。

多項目評分的一個挑戰是難以進行判斷，其中項目必須在子組中進行分組和評分。然後，每個項目的分數進行累計，並用於排序。

為了使這些複雜的項目累積分數對用戶透明，TF-Ranking提供了一個List-In-List-Out（LILO）API以將所有這些邏輯包裝在導出的TF模型中。

TF-Ranking庫支持多項目評分體系結構，這是對傳統單項評分模式的擴展。

多項目評分在公共LETORbenchmark上與最先進的排序學習模型（例如RankNet，MART和LambdaMART）相比更具有競爭力。

排序指標優化

排序學習中一個重要的研究挑戰是排序指標的直接優化（例如前面提到的NDCG和MRR）。這些指標雖然能夠比標準分類指標（如曲線下面積（AUC））更好地衡量排名系統的性能，但卻具有不連續或不穩定的缺點。因此，這些指標的標準隨機梯度下降優化是存在著一些問題的。

在最近的工作中，Google AI 提出了一種新方法，即LambdaLoss，它為排序指標優化提供了一個原則性的概率框架。

在此框架中，可以通過期望最大化程序來設計和優化指標驅動的損失函數。TF-Ranking庫的最新進展是集成了直接度量優化框架，並提供了LambdaLoss的實現。這將鼓勵和推進我們在排序指標優化這樣的重要領域進行更深入研究。

無偏見的排序學習

先前的研究表明，給定排序的項目列表，用戶更有可能與前幾個結果進行交互，無論其相關性如何。這一觀察結果激發了研究人員對無偏見的排序學習的興趣，並且基於訓練實例重新加權，開發了無偏見的評估和幾種無偏見的學習演算法。

在TF-Ranking庫中，實施指標來支持無偏估計，並且通過本機支持重新加權來克服用戶交互數據集中的固有偏差，彌補無偏見學習的損失。

TF-Ranking入門

TF-Ranking實現了TensorFlow Estimator介面，通過封裝訓練、評估、預測和導出服務，大大簡化了機器學習的編程難度。TF-Ranking與豐富的TensorFlow生態系統完美集成。

如上所述，你可以使用Tensorboard來可視化排序指標，如NDCG和MRR等，以及使用這些指標選擇最佳模型檢查點。一旦你的模型準備就緒，使用TensorFlow服務很容易將其部署到生產中。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※2019五大頂尖數據科學GitHub項目和Reddit熱帖
※今日芯聲：矽谷漸患「大城市」病，世界創新中心或將外移

TAG:讀芯術 |