高維空間最近鄰逼近搜索演算法評測

最新 05-28

來源：GitHub

編譯：weakish

最近鄰方法是機器學習中一個非常流行的方法，它的原理很容易理解：鄰近的數據點是相似的數據點，更可能屬於同一分類。然而，在高維空間中快速地應用最近鄰方法，卻是非常有挑戰性的工作。

全球最大的流媒體音樂服務商Spotify需要向上面的海量用戶推薦音樂，其中就用到了最近鄰方法。也就是在高維空間、大型數據集上應用最近鄰方法。

由於維度高、數據規模大，直接應用最近鄰方法並不可行，因此，最佳實踐是使用逼近方法搜索最近鄰。這方面有不少開源庫，比如Spotify開源的Annoy庫。Annoy庫的作者Erik Bernhardsson在開發Annoy的過程中發現，儘管有成百上千的使用逼近方法搜索最近鄰的論文，卻很少能找到實踐方面的比較。因此，Erik開發了ANN-benchmarks，用來評測逼近最近鄰（approximate nearest neighbor，ANN）演算法。

評估的實現

Annoy Spotify自家的C++庫（提供Python綁定）。Annoy最突出的特性是支持使用靜態索引文件，這意味著不同進程可以共享索引。

FLANN 加拿大英屬哥倫比亞大學出品的C++庫，提供C、MATLAB、Python、Ruby綁定。

scikit-learn 知名的Python機器學習庫scikit-learn提供了、、實現。

PANNS 純Python實現。已「退休」，作者建議使用MRPT。

NearPy 純Python實現。基於局部敏感哈希（Locality-sensitive hashing，簡稱LSH，一種降維方法）。

KGraph C++庫，提供Python綁定。基於圖（graph）演算法。

NMSLIB (Non-Metric Space Library) C++庫，提供Python綁定，並且支持通過Java或其他任何支持Apache Thrift協議的語言查詢。提供了SWGraph、HNSW、BallTree、MPLSH實現。

hnswlib（NMSLIB項目的一部分）相比當前NMSLIB版本，hnswlib內存佔用更少。

RPForest 純Python實現。主要特性是不需要在模型中儲存所有索引的向量。

FAISS Facebook出品的C++庫，提供可選的GPU支持（基於CUDA）和Python綁定。包含支持搜尋任意大小向量的演算法（甚至包括可能無法在RAM中容納的向量）。

DolphinnPy 純Python實現。基於超平面局部敏感哈希演算法。