當前位置:
首頁 > 最新 > Python爬蟲準備:認識urllib/urllib2與requests

Python爬蟲準備:認識urllib/urllib2與requests

首先說明一下我的爬蟲環境是基於的, 為什麼用這個版本呢,因為的版本支持的多,而且一般會使用環境,基本在也沒有太大問題,好了,進入正題!

urllib 與 urllib2

與2是內置的,要實現請求,以為主,為輔.

** 構建一個請求與響應模型**

這樣就獲取了整個網頁內容.

說明

Get與Post傳送數據

post與get傳送數據是兩個比較常用的數據傳送方式,一般只需要掌握這兩種方式就可以了.

Get方式傳送數據

post數據傳送方式

兩種請求方式差異點:

與方式的數據傳輸時注意這裡面的數據傳輸

注意處理請求的headers

很多時候我們伺服器會檢驗請求是否來自於瀏覽器,所以我們需要在請求的頭部偽裝成瀏覽器來請求伺服器.一般做請求的時候,最好都要偽裝成瀏覽器,防止出現拒絕訪問等錯誤,這也是一種反爬蟲的一種策略

在瀏覽器上打開然後按F12,查看:

User-Agent : 有些伺服器或 Proxy 會通過該值來判斷是否是瀏覽器發出的請求

Content-Type : 在使用 REST 介面時,伺服器會檢查該值,用來確定 HTTP Body 中的內容該怎樣解析。

application/xml : 在 XML RPC,如 RESTful/SOAP 調用時使用

application/json : 在 JSON RPC 調用時使用

application/x-www-form-urlencoded : 瀏覽器提交 Web 表單時使用

在使用伺服器提供的 RESTful 或 SOAP 服務時, Content-Type 設置錯誤會導致伺服器拒絕服務

requests

是Python最為常用的請求庫,也是極其簡單的.使用的時候,首先需要對進行安裝,直接使用Pycharm進行一鍵安裝。

1.響應與編碼

2.Get請求方式

3.Post請求方式

4.請求頭headers處理

5.響應碼code與響應頭headers處理

6.cookie處理

7重定向與歷史消息

處理重定向只是需要設置一下欄位即可,將設置為則是允許重定向的,設置為則禁止重定向的

8.超時設置

超時選項是通過參數來設置的

9.代理設置


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

CSV文件在Python中的幾種處理方式

TAG:Python |