利用餘弦定理計算中文文本相似度
餘弦定理計算相似度解釋:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
本次測試,得出的結果如下:
(結果又重複,需去重)
完整代碼如下:
註:
1、核心代碼借鑒brooks;
2、參考資料:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
3、依舊是有重複問題;
※利用gensim計算兩個中文文檔/字元串的相似度
※解決頁面不收錄方法之爬蟲頁上線效果記錄
TAG:python民工 |