爬蟲入門

知識 09-28

網路爬蟲（Web crawler），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本，它們被廣泛用於互聯網搜索引擎或其他類似網站，可以自動採集所有其能夠訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。從功能上來講，爬蟲一般分為數據採集，處理，儲存三個部分。

一.什麼是爬蟲

爬蟲就像是一直蜘蛛一樣，而互聯網是就像是一張大大的蜘蛛網一樣。簡單的說爬蟲就是請求網站並提取數據的自動化程序。

請求：我們打開瀏覽器輸入關鍵詞敲擊回車，這就叫做是請求。我們做的爬蟲就是模擬瀏覽器進行對伺服器發送請求，然後獲取這些網路資源。

提取：我們得到這些網路資源都是一些HTML代碼，或者是一些文本文字。我們下一步做的工作就是在這些數據中提取出我們想要的東西。比如一個手機號。存在資料庫或者文檔裡面。

自動化：程序就能代替人工不停的大量的進行提取數據。

二：爬蟲的基本流程

1.發起請求：通過http庫向目標站發起請求，即發送一個Request，請求可以包含額外的headers等信息，等待伺服器響應。

2.獲取響應的內容：如果伺服器能正常的響應，會得到一個Request的內容便是所要獲取的頁面內容、類型可能有HTML,Json字元轉，二進位數據等類型

3.解析內容：得到的內容可能是HTML可以用正則表達式，網頁解析庫進行解析。可能是json，可以直接轉為json對象解析，可能是二進位數據，可以做保存或者進一步處理。

4.保存數據:保存格式多樣化，可以存為文本，也可以保存至資料庫，或者保存特定格式的文件。

三：什麼是Request和Response

1.瀏覽器就發送消息給該網址所在的伺服器，這個過程叫做HTTP Request。

2.伺服器收到瀏覽器發送的消息後，能夠根據瀏覽器發送消息的內容，做相應處理，然後把消息回傳給瀏覽器。這個過程叫做HTTP Response。

3.瀏覽器收到伺服器的Response信息後，會對信息進行相應處理，然後展示。

四：Request包含什麼

1.請求方式：主要有Get，Post兩種類型，另外還有Head，put，delete，options等。

最主要的就是get和pose兩種請求方式。pose請求的方式大多是用在登陸的請求上，他將許多的請求參數封裝在一起，進行保密。get則是需要很多的參數才可以，用於搜索。

2.請求URL

URL全稱統一資源定位符，如一個網頁文檔、一張圖片，一個視頻等都可以用URL唯來確定。

3.請求頭：包含請求時的頭部信息，如User-Agent，Host，Cookie等信息。

五：Response包含什麼

1.響應狀態：200代表成功，300以上的狀態時用來做頁面跳轉的，400以上是用來說明伺服器找不到資源的，500以上時表示伺服器處理錯誤。

2.響應頭：如內容的類型，內容的長度，伺服器信息，，設置Cookie信息等等

3.響應體：最主要的部分，包含了請求資源的內容，如網頁的HTML,圖片二進位數據等

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Linux資訊速推 的精彩文章: