解決頁面不收錄方法之爬蟲頁上線效果記錄
最新
09-22
距爬蟲頁上線已有兩周時間。
此前網站每天產生的新頁面幾乎不收錄,此後針對搜索引擎爬蟲單獨為站點某一個類目下的頁面做了一套爬蟲頁。幾分鐘前查詢這個類目下的最近新頁面的收錄情況,驚喜地發現該類目下的頁面竟然有日收!
本次查詢頁面總數:9783
收錄的頁面總數:480
收錄率為:4.9%
雖然整體收錄率效果依然不理想,不過說明此前的猜想方向是正確的。
之後將本次查詢頁面的標題採集下來,發現一個非常嚴重的問題:標題重複度非常高!並且有一批頁面標題竟然是一模一樣的。如圖:
之後的優化流程,按照上圖所示,一步步實驗、觀察、調整、再觀察。
點擊展開全文
TAG:python民工 |