當前位置:
首頁 > 知識 > Python爬蟲之基本原理

Python爬蟲之基本原理

爬蟲簡介

網路爬蟲(Web crawler),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用於互聯網搜索引擎或其他類似網站,可以自動採集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,爬蟲一般分為數據採集,處理,儲存三個部分。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重複上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

爬蟲原理

Web網路爬蟲系統的功能是下載網頁數據,為搜索引擎系統提供數據來源。很多大型的網路搜索引擎系統都被稱為基於 Web數據採集的搜索引擎系統,比如 Google、Baidu。由此可見Web 網路爬蟲系統在搜索引擎中的重要性。網頁中除了包含供用戶閱讀的文字信息外,還包含一些超鏈接信息。Web網路爬蟲系統正是通過網頁中的超連接信息不斷獲得網路上的其它網頁。正是因為這種採集過程像一個爬蟲或者蜘蛛在網路上漫遊,所以它才被稱為網路爬蟲系統或者網路蜘蛛系統,在英文中稱為Spider或者Crawler

爬蟲基本流程

  1. 發起請求

    :通過HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,等待伺服器響應。
  2. 獲取響應內容

    :如果伺服器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能有HTML,Json字元串,二進位數據(如圖片視頻)等類型。

  3. 解析內容

    :得到的內容可能是HTML,可以用正則表達式、網頁解析庫進行解析。可能是Json,可以直接轉為Json對象解析,可能是二進位數據,可以做保存或者進一步的處理。
  4. 保存數據

    :保存形式多樣,可以存為文本,也可以保存至資料庫,或者保存特定格式的文件。

Request和Response

Request:瀏覽器就發送消息給該網址所在的伺服器,這個過程叫做HTTP Request。

Response:伺服器收到瀏覽器發送的消息後,能夠根據瀏覽器發送消息的內容,做相應處理,然後把消息回傳給瀏覽器。這個過程叫做HTTP Response。瀏覽器收到伺服器的Response信息後,會對信息進行相應處理,然後展示。

Request詳解

請求方式:主要有GET、POST兩種類型,另外還有HEAD、PUT、DELETE、OPTIONS等。

請求URL:URL全稱統一資源定位符,如一個網頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。

請求頭:包含請求時的頭部信息,如User-Agent、Host、Cookies等信息。

請求體:請求時額外攜帶的數據如表單提交時的表單數據。

Response詳解

響應狀態:有多種響應狀態,如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤。

響應頭:如內容類型、內容長度、伺服器信息、設置Cookie等等。

響應體:最主要的部分,包含了請求資源的內容,如網頁HTML、圖片二進位數據等。

能抓取哪些數據

網頁文本:如HTML文檔、Json格式文本等。

圖片:獲取到的是二進位文件,保存為圖片格式。

視頻:同為二進位文件,保存為視頻格式即可。

And so on:只要是能請求到的,都能獲取。

解析方式

  1. 直接處理
  2. Json解析
  3. 正則表達式
  4. BeautifulSoup
  5. PyQuery
  6. XPath

抓取中出現的問題

問:為什麼我抓到的和瀏覽器看到的不一樣?

答:網頁通過瀏覽器的解析,載入CSS與JS等文件對網頁進行解析渲染,達到我們看到絢麗的網頁,而我們抓到的文件只是一些代碼,css文件無法調用,使得樣式不能表現出來,那麼網頁就會出現錯位等等問題。

問:怎樣解決JavaScript渲染的問題?

答:分析Ajax請求、Selenium/WebDriver、Splash、PyV8、Ghost.py等庫

保存數據

文本:純文本、Json、Xml等。

關係型資料庫:如MySQL、Oracle、SQL Server等具有結構化表結構形式存儲。

非關係型資料庫:如MongoDB、Redis等Key-Value形式存儲。

二進位文件:如圖片、視頻、音頻等等直接保存成特定格式即可。

Python爬蟲之基本原理


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 程序員小新人學習 的精彩文章:

Kotlin 擴展
SQLite AND/OR 運算符

TAG:程序員小新人學習 |