打算屏蔽百度蜘蛛,可以嘗試以下方法
好像現在屏蔽baiduspider已經成為一種時尚,難道這玩意也跟著納斯達克變?
首先我自己不會屏蔽baiduspider,也不大相信baiduspider會故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可嘗試以下方法:
1. 上傳一個robots.txt到根目錄,內容為:
User-agent: baiduspider
Disallow: /
一個搜索引擎爬蟲工作前首先應該訪問/robots.txt制定排除列表,baiduspider還無法高級到故意忽略某些網站的robots.txt,不知道baiduspider怎麼折騰才能讓robots.txt失效。
2. 如果僅僅因為伺服器吃不消,不防按照的指示寫信給百度。估計很多人試過得不到回復(Google基本都是2個工作日內回復)。
3. 如果還沒有辦法,可嘗試.htaccess屏蔽,上傳一個.htaccess文件到根目錄,內容為:
SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
deny from env=ban_bot
還可以擴大這個列表,屏蔽那些Email提取爬蟲、網站克隆爬蟲等(小偷一般不守法,但總比自己什麼都不做強):
SetEnvIfNoCase User-Agent "^baiduspider" ban_bot
SetEnvIfNoCase User-Agent "^HTTrack" ban_bot
SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot
SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot
SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot
SetEnvIfNoCase User-Agent "^Offline" ban_bot
SetEnvIfNoCase User-Agent "^WebCopier" ban_bot
SetEnvIfNoCase User-Agent "^Webdupe" ban_bot
SetEnvIfNoCase User-Agent "^WebZIP" ban_bot
SetEnvIfNoCase User-Agent "^Web Downloader" ban_bot
SetEnvIfNoCase User-Agent "^WebAuto" ban_bot
SetEnvIfNoCase User-Agent "^WebCapture" ban_bot
SetEnvIfNoCase User-Agent "^WebMirror" ban_bot
SetEnvIfNoCase User-Agent "^WebStripper" ban_bot
deny from env=ban_bot
.htaccess要用文本方式上傳,有些Apache配置比較怪異,防止引起衝突建議上傳後立刻看看是否影響普通用戶的訪問。如果瀏覽正常,再用FlashGet模擬baiduspider測試這個.htaccess是否工作,方法是:
FlashGet->工具->選項->協議,把HTTP用戶代理改成用戶自定義:baiduspider;然後用FlashGet下載該網站任意頁面,在FlashGet的下載日誌里得到HTTP/1.1 403 Forbidden則成功.


TAG:開世 |
※難以捉摸的「纏繞蜘蛛」,它可以無縫偽裝在樹木中
※這種蜘蛛會哺乳,是不是以後可以喝「蜘蛛奶」了?
※雖然無法治癒糖尿病,但這種蜘蛛網式方法可以徹底預防糖尿病!
※八隻腳的機器蜘蛛會「後手翻」,還可以縮成一個球
※蜘蛛俠能力到底算強還是算弱?是跟誰都能打兩下的五五開嗎
※可以為視頻添加全息圖的相機,能跟蜘蛛俠同台飆戲了
※花長紅蜘蛛怎麼辦?不要怕,用下面方法很快就滅光
※親試這個處理方法,真的可以讓受紅蜘蛛侵害的月季重新復活哦!
※看得到的地方都能爬,這款手游里人人都是蜘蛛俠
※再也不用打蜘蛛獲得線了!圓石就可以養蠶來收線!
※蜘蛛怕怕,那這種顏色,你可以放棄了
※蜘蛛俠的蜘蛛感應無敵?有一種方法能讓它失效,網友:你是魔鬼吧
※我們提前看了毒液 裡面沒有蜘蛛俠
※沒有人可以成為下一個鋼鐵俠,可小蜘蛛可以成長為真正的蜘蛛俠
※正常人能有蜘蛛俠那樣的反應能力嗎?或許可以通過技術實現
※蜘蛛防彈衣,不是用蜘蛛做防彈衣,而是用蜘蛛的絲做,效果還不錯
※這種蜘蛛喜歡戴帽子,還有「隱身」能力,敵人在它面前都看不到它
※復聯四團戰時蜘蛛俠為何能懸浮?看細節這配合作戰也是沒誰了!
※想要避免植物感染紅蜘蛛很容易,用這些方法還能防治
※這野果酷似蜘蛛,過去以為有毒不敢吃,如今才知它的價值好高