當前位置：

首頁 > 最新 > 利用gensim計算兩個中文文檔/字元串的相似度

利用gensim計算兩個中文文檔/字元串的相似度

最新 10-06

背景：網站標題重複度非常嚴重，需要將重複標題提取出來，然後進行統一修改。

步驟：

1、從資料庫中導出某個類目下的所有標題，title.txt；

2、從title.txt文件中，找出相似度為0.6以上的標題；

流程圖：

結果如下所示：

完整代碼如下：

註：

1、這個方法適用於比較兩個文檔，而同一個文檔中比較相似度，會造成大量重複。如上圖所示，寫的時候沒發現，還需要改進下；

3、後續如果有機會深究下去的話，再來補充代碼中幾個問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 python民工 的精彩文章:

※解決頁面不收錄方法之爬蟲頁上線效果記錄

TAG:python民工 |