當前位置:
首頁 > 最新 > 解決頁面不收錄方法之爬蟲頁上線效果記錄

解決頁面不收錄方法之爬蟲頁上線效果記錄

距爬蟲頁上線已有兩周時間。

此前網站每天產生的新頁面幾乎不收錄,此後針對搜索引擎爬蟲單獨為站點某一個類目下的頁面做了一套爬蟲頁。幾分鐘前查詢這個類目下的最近新頁面的收錄情況,驚喜地發現該類目下的頁面竟然有日收!

本次查詢頁面總數:9783

收錄的頁面總數:480

收錄率為:4.9%

雖然整體收錄率效果依然不理想,不過說明此前的猜想方向是正確的。

之後將本次查詢頁面的標題採集下來,發現一個非常嚴重的問題:標題重複度非常高!並且有一批頁面標題竟然是一模一樣的。如圖:

之後的優化流程,按照上圖所示,一步步實驗、觀察、調整、再觀察。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python民工 的精彩文章:

TAG:python民工 |