當前位置:
首頁 > 最新 > 被網站判斷為爬蟲封鎖之後怎麼辦?

被網站判斷為爬蟲封鎖之後怎麼辦?

很多時候迫於工作需要,可能會用到很多的資料,這個時候如果採用爬蟲程序抓取就可以大大節省工作時間、提高工作效率,但是偶爾也會遇到被網站禁止訪問的情況。

現在網上有很多公開教程和程序,可以有一些參考意見,如果不是專業的程序人員,也可以使用專業的數據採集工具。當然不是有了工具就能安穩無憂的,比如說在你抓取了一些資料之後,突然發現自己被網站屏蔽了,同樣的鏈接正常的訪問可以進行,但是爬蟲卻無能為力,只能等幾個小時之後再去嘗試,所以這種情況下應該怎麼辦呢?

第一、查看一下請求連接的request、response。最好將爬蟲的header和fiddler攔截里的header設置成一樣,爬蟲的頭信息中需要帶上referer,很多網站是根據這個做驗證的。檢查一下請求中的各個參數是否都正確,嘗試修改一些參數信息,也可以多對比一些其他的爬蟲程序,找出其中的規律,運用到自己的爬蟲程序中。編碼格式也需要符合網站要求。

第二、設置好時間間隔,畢竟伺服器也有一定的承壓範圍,太頻繁的抓取很容易導致網站伺服器崩潰,為了維護自己的伺服器,這種短時間大量採集數據的方式自然就會被屏蔽。

第三、嘗試更換ip地址之後再進行請求,有的網站會根據你當前ip地址的信息來判斷是否是爬蟲程序,所以可以換一下代理ip的信息再進行操作。在這裡提醒一下大家,網上的免費ip穩定性和可用性不高,還是要找正規的提供商,比如說芝麻HTTP代理等等。

最後給大家提個醒,抓取信息要用在正確的途徑,不要做一些違法的事情。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 芝麻軟體 的精彩文章:

談一談爬蟲工作中HTTP代理ip的重要性

TAG:芝麻軟體 |