被網站判斷為爬蟲封鎖之後怎麼辦？

最新 03-01

很多時候迫於工作需要，可能會用到很多的資料，這個時候如果採用爬蟲程序抓取就可以大大節省工作時間、提高工作效率，但是偶爾也會遇到被網站禁止訪問的情況。

現在網上有很多公開教程和程序，可以有一些參考意見，如果不是專業的程序人員，也可以使用專業的數據採集工具。當然不是有了工具就能安穩無憂的，比如說在你抓取了一些資料之後，突然發現自己被網站屏蔽了，同樣的鏈接正常的訪問可以進行，但是爬蟲卻無能為力，只能等幾個小時之後再去嘗試，所以這種情況下應該怎麼辦呢？

第一、查看一下請求連接的request、response。最好將爬蟲的header和fiddler攔截里的header設置成一樣，爬蟲的頭信息中需要帶上referer，很多網站是根據這個做驗證的。檢查一下請求中的各個參數是否都正確，嘗試修改一些參數信息，也可以多對比一些其他的爬蟲程序，找出其中的規律，運用到自己的爬蟲程序中。編碼格式也需要符合網站要求。

第二、設置好時間間隔，畢竟伺服器也有一定的承壓範圍，太頻繁的抓取很容易導致網站伺服器崩潰，為了維護自己的伺服器，這種短時間大量採集數據的方式自然就會被屏蔽。

第三、嘗試更換ip地址之後再進行請求，有的網站會根據你當前ip地址的信息來判斷是否是爬蟲程序，所以可以換一下代理ip的信息再進行操作。在這裡提醒一下大家，網上的免費ip穩定性和可用性不高，還是要找正規的提供商，比如說芝麻HTTP代理等等。

最後給大家提個醒，抓取信息要用在正確的途徑，不要做一些違法的事情。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 芝麻軟體 的精彩文章:

※談一談爬蟲工作中HTTP代理ip的重要性

TAG:芝麻軟體 |