當前位置:
首頁 > 最新 > 利用餘弦定理計算中文文本相似度

利用餘弦定理計算中文文本相似度

餘弦定理計算相似度解釋:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

本次測試,得出的結果如下:

(結果又重複,需去重)

完整代碼如下:

註:

1、核心代碼借鑒brooks;

2、參考資料:

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

3、依舊是有重複問題;

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python民工 的精彩文章:

利用gensim計算兩個中文文檔/字元串的相似度
解決頁面不收錄方法之爬蟲頁上線效果記錄

TAG:python民工 |