被網站判斷為爬蟲封鎖之後怎麼辦?
最新
03-01
很多時候迫於工作需要,可能會用到很多的資料,這個時候如果採用爬蟲程序抓取就可以大大節省工作時間、提高工作效率,但是偶爾也會遇到被網站禁止訪問的情況。
現在網上有很多公開教程和程序,可以有一些參考意見,如果不是專業的程序人員,也可以使用專業的數據採集工具。當然不是有了工具就能安穩無憂的,比如說在你抓取了一些資料之後,突然發現自己被網站屏蔽了,同樣的鏈接正常的訪問可以進行,但是爬蟲卻無能為力,只能等幾個小時之後再去嘗試,所以這種情況下應該怎麼辦呢?
第一、查看一下請求連接的request、response。最好將爬蟲的header和fiddler攔截里的header設置成一樣,爬蟲的頭信息中需要帶上referer,很多網站是根據這個做驗證的。檢查一下請求中的各個參數是否都正確,嘗試修改一些參數信息,也可以多對比一些其他的爬蟲程序,找出其中的規律,運用到自己的爬蟲程序中。編碼格式也需要符合網站要求。
第二、設置好時間間隔,畢竟伺服器也有一定的承壓範圍,太頻繁的抓取很容易導致網站伺服器崩潰,為了維護自己的伺服器,這種短時間大量採集數據的方式自然就會被屏蔽。
第三、嘗試更換ip地址之後再進行請求,有的網站會根據你當前ip地址的信息來判斷是否是爬蟲程序,所以可以換一下代理ip的信息再進行操作。在這裡提醒一下大家,網上的免費ip穩定性和可用性不高,還是要找正規的提供商,比如說芝麻HTTP代理等等。
最後給大家提個醒,抓取信息要用在正確的途徑,不要做一些違法的事情。
TAG:芝麻軟體 |