當前位置:
首頁 > 最新 > 利用gensim計算兩個中文文檔/字元串的相似度

利用gensim計算兩個中文文檔/字元串的相似度

背景:網站標題重複度非常嚴重,需要將重複標題提取出來,然後進行統一修改。

步驟:

1、從資料庫中導出某個類目下的所有標題,title.txt;

2、從title.txt文件中,找出相似度為0.6以上的標題;

流程圖:

結果如下所示:

完整代碼如下:

註:

1、這個方法適用於比較兩個文檔,而同一個文檔中比較相似度,會造成大量重複。如上圖所示,寫的時候沒發現,還需要改進下;

3、後續如果有機會深究下去的話,再來補充代碼中幾個問題。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python民工 的精彩文章:

解決頁面不收錄方法之爬蟲頁上線效果記錄

TAG:python民工 |