爬蟲可能都會用，但是背後的架構你真的懂了嗎？

知識 03-26

點擊上方

「

Python開發

」，選擇「置頂公眾號」

關鍵時刻，第一時間送達！

最近在學 Python ，同時也在學如何使用 python 抓取數據，於是就被我發現了這個非常受歡迎的 Python 抓取框架 Scrapy ，下面一起學習下 Scrapy 的架構，便於更好的使用這個工具。

一、概述

下圖顯示了 Scrapy 的大體架構，其中包含了它的主要組件及系統的數據處理流程（綠色箭頭所示）。下面就來一個個解釋每個組件的作用及數據的處理過程。

二、組件

1、 Scrapy Engine （ Scrapy 引擎）

Scrapy 引擎是用來控制整個系統的數據處理流程，並進行事務處理的觸發。更多的詳細內容可以看下面的數據處理流程。

2、 Scheduler （調度）

調度程序從 Scrapy 引擎接受請求並排序列入隊列，並在 Scrapy 引擎發出請求後返還給他們。

3、 Downloader （下載器）

下載器的主要職責是抓取網頁並將網頁內容返還給蜘蛛 ( Spiders )。

4、 Spiders （蜘蛛）

蜘蛛是有 Scrapy 用戶自己定義用來解析網頁並抓取制定 URL 返回的內容的類，每個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網站的抓取和解析規則。

蜘蛛的整個抓取流程（周期）是這樣的：

首先獲取第一個 URL 的初始請求，當請求返回後調取一個回調函數。第一個請求是通過調用 start_requests ( )方法。該方法默認從 start_urls 中的 Url 中生成請求，並執行解析來調用回調函數。

在回調函數中，你可以解析網頁響應並返回項目對象和請求對象或兩者的迭代。這些請求也將包含一個回調，然後被 Scrapy 下載，然後有指定的回調處理。

在回調函數中，你解析網站的內容，同程使用的是 Xpath 選擇器（但是你也可以使用 BeautifuSoup , lxml 或其他任何你喜歡的程序），並生成解析的數據項。

最後，從蜘蛛返回的項目通常會進駐到項目管道。

5、 Item Pipeline （項目管道）

項目管道的主要責任是負責處理有蜘蛛從網頁中抽取的項目，他的主要任務是清晰、驗證和存儲數據。當頁面被蜘蛛解析後，將被發送到項目管道，並經過幾個特定的次序處理數據。每個項目管道的組件都是有一個簡單的方法組成的 Python 類。他們獲取了項目並執行他們的方法，同時他們還需要確定的是是否需要在項目管道中繼續執行下一步或是直接丟棄掉不處理。

項目管道通常執行的過程有：