利用gensim計算兩個中文文檔/字元串的相似度
背景:網站標題重複度非常嚴重,需要將重複標題提取出來,然後進行統一修改。
步驟:
1、從資料庫中導出某個類目下的所有標題,title.txt;
2、從title.txt文件中,找出相似度為0.6以上的標題;
流程圖:
結果如下所示:
完整代碼如下:
註:
1、這個方法適用於比較兩個文檔,而同一個文檔中比較相似度,會造成大量重複。如上圖所示,寫的時候沒發現,還需要改進下;
3、後續如果有機會深究下去的話,再來補充代碼中幾個問題。


TAG:python民工 |