Win10環境下的Scrapy結合Tor進行匿名爬取
原文:http://www.cnblogs.com/kylinlin/p/5242266.html
在使用Scrapy的時候,一旦進行高頻率的爬取就容易被封IP,此時可以通過使用TOR來進行匿名爬取,同時要安裝Polipo代理伺服器。
注意:要進行下面的操作的前提是,你能FQ
安裝TOR
下載地址:
下載Expert Bundle並解壓到一個目錄下,例如:D:Tor,這個版本並沒有一個圖形化的操作界面,要修改配置十分麻煩,可以通過下載Vidalia來使用TOR,Vidalia的下載地址: ,下載該頁面的最下面那個即可:vidalia-standalone-0.2.21-win32-1_zh-CN.exe,安裝完成之後,以管理員許可權運行Start Vidalia.exe,進行下面的設定
點擊啟動Tor
過一陣子後顯示連接成功
下載安裝Polipo
下載地址:
選擇polipo-1.1.0-win32.zip,下載並解壓,然後編輯解壓後的文件config.sample,在文件的開頭加上以下配置
使用cmd命令運行該目錄下的程序:polipo.exe -c config.sample
打開edge瀏覽器,設置代理
然後在瀏覽器中訪問:
看到以下的界面意味著配置成功
配置Scrapy
在settings.py文件中加入下面的內容
在scrapy項目的根目錄新建一個middlewares.py文件,並輸入以下內容
至此,scrapy與tro的整合完成了,本文不對任何人使用這個方法所造成的後果負責
配置Tor瀏覽器
下面的內容與上面無關,只是記錄一下如何使用Tor瀏覽器,在我們下載tor的頁面上,還有一個下載選項(第一個就是一個瀏覽器,通過該瀏覽器可以匿名訪問網頁,Tor Browser會自動通過Tor網路啟動Tor的後台進程連接網路。一旦關閉程序的便會自動刪除隱私敏感數據,如HTTP cookie和瀏覽歷史記錄,以避免竊聽並保留在互聯網上的隱私)
下載了第一個Tor Browser並安裝後,進行下面的配置
由於Tor的連接被牆掉了,所以要配置網橋
獲取網橋:
將網橋複製下來,粘貼到tor瀏覽器上
有時候連接不成功,就要再申請新的網橋來嘗試
題圖:pexels,CC0 授權。
點擊展開全文
※如何從開發者成長為雲端架構師
※Flask 源碼解析:請求
※Flask源碼解析:上下文
※爬蟲進階:反爬策略的應對機制
※Flask 源碼解析:路由
TAG:編程派 |
※FPGA與ASIC的完美結合,Achronix Speedster 7t系列詳解
※Nike x Balenciaga聯名?Triple S結合VaporMax要逆天?
※歷代Corvette結合一身 2018 Equus Throwback
※SUP經典聯名與嘻哈結合!Supreme x Undercover 或將下周發售
※復古與現代的結合!Bristol Studio x adidas Crazy BYW 入手難度不小!
※iPhoneX+iPhone5的結合體
※兩大經典再次結合 Nike AF1 Foamposite Pro Cup
※復古與現代的結合!Bristol Studio x adidas Crazy BYW 入手難度不小!
※阿甘鞋與Vapor Street結合!Nike Moon Racer 登場!
※6.1寸新iPhone外觀曝光:iPhoneX+iPhone8的結合體!
※數控加工結合3D列印,看看Materialize與HCL Technologies碰出什麼火花
※蘋果計划到2021年結合iPhone、iPad和Mac應用
※小清新與科幻結合!adidas Micropacer XR1 即將發售
※ActiveMQ 結合 Spring 收發
※BYW和Yeezy 500 結合體?Harden Vol.4 全新配色曝光
※BYW 和 Yeezy 500 結合體?Harden Vol.4 全新配色曝光
※結合南海岸風和 Concord !全新 Jordan 6 Rings 現已發售
※黑紅與芝加哥的結合,Air Jordan 1「Homage to Home」
※Cobbler與Django結合
※一份中外結合的 Machine Learning 自學計劃