Python爬蟲從入門到出門（三）

最新 01-14

動態網頁爬蟲技術

個人公眾號：經管人學數據分析

知乎專欄：經管人學數據分析

這一講，我將會為大家講解稍微複雜一點的爬蟲，即動態網頁的爬蟲。

動態網頁技術介紹

動態網頁爬蟲技術一之API請求法

動態網頁爬蟲技術二之模擬瀏覽器法

安裝selenium模塊下載

Google Chrome Driver安裝

ChromeDriver以某寶某隻松鼠店鋪為例爬取"堅果炒貨"的商品名稱、價格、銷量以及評論數量

課後作業

關於作者

動態網頁技術介紹

所謂的動態網頁，是指跟靜態網頁相對的一種網頁編程技術。靜態網頁，隨著html代碼的生成，頁面的內容和顯示效果就基本上不會發生變化了——除非你修改頁面代碼。而動態網頁則不然，頁面代碼雖然沒有變，但是顯示的內容卻是可以隨著時間、環境或者資料庫操作的結果而發生改變的。

值得強調的是，不要將動態網頁和頁面內容是否有動感混為一談。這裡說的動態網頁，與網頁上的各種動畫、滾動字幕等視覺上的動態效果沒有直接關係，動態網頁也可以是純文字內容的，也可以是包含各種動畫的內容，這些只是網頁具體內容的表現形式，無論網頁是否具有動態效果，只要是採用了動態網站技術生成的網頁都可以稱為動態網頁。(解釋來源：百度百科 - 「動態網頁」，若鏈接失效請訪問：https://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E7%BD%91%E9%A1%B5/6327050?fr=aladdin)

互聯網每天都在蓬勃的發展，數以萬計的在線平台如雨後春筍般不斷湧現，不同平台對不同用戶的許可權、喜好推出不同的個性化內容，傳統的靜態網頁似乎早已不能滿足社會的需求。於是，動態網頁技術應運而生，當然，在如今人們對網頁載入速度的要求越來越高的要求下，非同步載入成為了許多大的站點的首選。比如各大電商平台、知識型網站、社交平台等，都廣泛採用了非同步載入的動態技術。簡單來說，就是把一些根據時間、請求而變化的內容，比如某寶的商品價格、評論，比如某瓣的熱門電影評論，再比如某訊的視頻等，採用先載入網頁整體框架，後載入動態內容的方式呈現。

對於這一類動態頁面，如果我們採用前面所說的對付靜態網頁的爬蟲方式去爬，可能收穫不到任何結果，因為這些非同步載入的內容所在的位置大多是一段請求內容的JS代碼。在某些觸發操作下，這些JS代碼開始工作，從資料庫中提取對應的數據，將其放置到網頁框架中相對應的位置，從而最終拼接成我們所能看到的完整的一張頁面。

動態網頁爬蟲技術一之API請求法

看似更加複雜的操作似乎給我們的爬蟲帶來了很大的困擾，但其實也可能給我們帶來極大的便利。我們只需要找到JS請求的API，並按照一定的要求發送帶有有效參數的請求，便能獲得最為整潔的數據，而不用像以前那樣從層層嵌套的HTML代碼中慢慢解析出我們想要的數據。

這裡我們以上面提到的豆瓣電影(若鏈接失效請訪問：https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0)為例做一個分析，提取出熱度排名前100的電影名稱和評分以及在豆瓣的地址。

這是最近熱門電影按熱度排序的一個截圖，每個月都有不同的新電影上映，每部電影會隨著口碑效應每天呈現不同的熱度排序，如果這頁面是個靜態網頁，那麼豆瓣的程序員豈不是很辛苦，每天都要上線修改這個頁面。所以，我們可以大膽的猜測，這是個動態頁面。但是光猜不行，我們還得證實。這裡就要用到第二講講到的谷歌開發者工具了。按下或者在網頁空白處右鍵選擇，或者在鍵盤上按下組合鍵，召喚出我們的神器。如下圖所示：

今天我們不再使用左上角的滑鼠按鈕了，而是使用紅色框中的Network，這裡顯示的是網頁載入出來的所有的文件，如下圖所示：

如果下方沒有任何結果，需要在打開谷歌開發者工具的情況下刷新網頁。

我們可以看到，這個鏈接里包含的內容是以JSON格式展示出來的，這時我們便有了一個大概的思路，那就是將這個鏈接的內容用requests模塊下載後，再用Python的json模塊進行解析。

但是，這好像是一頁的內容，數一數也只有20部電影，我們想要的是排名前100的電影，這怎麼辦呢？

不方，畢竟是動態網頁，內容都是可以根據請求改變的，而且這裡也沒有登陸啥的操作，打開網頁就能看到，那我們是不是可以改變一下URL從而獲取到下一頁甚至下下頁的內容咧？當然可以，不然我就寫不下去了！

我們仔細觀察一下這個URL里傳遞的參數：

到這裡我們可能還不知道這五個參數是幹嘛的，但我們可以找規律啊，於是現在回到原始的網頁，點擊頁面下方的"載入更多"，再返回到開發者工具，哇，多出了一個URL，長的跟剛才說的那個好像，內容也長的好像：

這個URL同樣傳遞了五個參數：

唯一的不同就是一個叫"page_start"的關鍵字的值改變了，簡單翻譯一下大概是頁面起點的意思，再看上面的"page_limit"，大概就是頁面限制的意思，看右邊的響應內容，這一個頁面傳遞了20個條目，也就是說"page_limit"是一個頁面里條目數量的限制，也就是20條，這個數據是不變的，而"page_start"是這一頁開始的條目序號，那麼我們要獲取後面的內容，豈不是只要改變一下這個"page_start"就好了？是的。老規矩，先寫個代碼壓壓驚

最後的話，大家可以採用標準輸入流寫入txt文件，也可以採用xlwt模塊寫入EXCEL，還可以使用比如pymysql模塊寫入Mysql資料庫，具體的方式大家隨意，使用方法請自行百度。

到這裡，這種採用尋找API並傳遞有效參數重放API的方法便為大家介紹完了，這是個很通用的方法，在很多網站都可以這樣使用，並且速度很快，結果最精簡。

動態網頁爬蟲技術二之模擬瀏覽器法

上面我們所講的API請求法雖然好用且快，但是並不是所有的網站都會採用這種非同步載入的方式來實現網站，同時還有部分網站會針對爬蟲採取反爬蟲措施，比如常見的驗證碼，雖然驗證碼主要是用來防止CSRF攻擊的，但也有網站用來處理爬蟲，比如某寶。這時候，就要為大家介紹另一個神器了，Python的Selenium模塊。

Selenium是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。支持的瀏覽器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。這個工具的主要功能包括：測試與瀏覽器的兼容性——測試你的應用程序看是否能夠很好得工作在不同瀏覽器和操作系統之上。測試系統功能——創建回歸測試檢驗軟體功能和用戶需求。支持自動錄製動作和自動生成 .Net、Java、Perl等不同語言的測試腳本。(解釋來自：百度百科 - 「Selenium」，若鏈接失效請點擊https://baike.baidu.com/item/Selenium/18266?fr=aladdin)

安裝selenium模塊

要使用Selenium這種第三方的工具，我們首先要進行安裝，這裡依然用到pip工具。在管理員許可權下運行命令行，輸入，稍等片刻後便可以完成安裝，如果覺得網路連接官方pypi鏡像速度較慢，可以使用國內豆瓣的鏡像源，，加上這個-i參數和豆瓣pypi鏡像的地址就可以了，如果想要默認使用豆瓣鏡像源，請自行百度修改方法。

下載Google Chrome Driver

在安裝成功後，我們就需要安裝下一個必要的東西了，瀏覽器驅動，前面說過，selenium需要配合瀏覽器驅動運行，因此我們以安裝Google Chrome Driver為例。

作者的瀏覽器是更新到當前最新的版本63的，舊版本的操作方法大致一致。

點開關於信息後，我們可以看到當前的Chrome版本，以下圖為例：

Chrome一直在升級，因此對應的驅動也得不斷升級，並且與Chrome版本相適應。這裡我們需要查找相應的ChromeDriver版本映射，給大家推薦一個持續更新的CSDN博客(若鏈接失效請點擊：http://blog.csdn.net/huilan_same/article/details/51896672)，根據版本映射表，下載對應版本的ChromeDriver，下載地址1 (http://chromedriver.storage.googleapis.com/index.html)(若鏈接失效請訪問：http://chromedriver.storage.googleapis.com/index.html)，下載地址2(http://npm.taobao.org/mirrors/chromedriver/)(若鏈接失效請訪問：http://npm.taobao.org/mirrors/chromedriver/)。

安裝ChromeDriver

這裡需要進行環境變數的配置，如第一講所說，為」Path」添加一行值。

首先，我們需要找到Chrome的安裝位置，最為簡單的辦法是，在桌面找到Google Chrome的快捷方式，右鍵選擇」打開文件所在的位置「，就能打開了。比如我這裡打開的路徑為，那麼我就將這個路徑添加到Path里。然後，需要我們將下載的ChromeDriver解壓到exe程序，將單獨的exe程序複製到剛才這個路徑里，如下圖所示：

到這裡，ChromeDriver便完成了安裝，我們可以在命令行輸入命令，進入到python交互環境進行測試，如下圖所示：

如果你的谷歌瀏覽器自動打開，並且跳轉到百度首頁，那麼Congratulations~

以某寶某隻松鼠店鋪為例爬取」堅果炒貨」的商品名稱、價格、銷量以及評論數量

該頁面的URL為：https://sanzhisongshu.tmall.com/category-1124487841.htm?spm=a1z10.1-b-s.w5003-17763072511.42.6995d6732XB8Of&tsearch=y&scene=taobao_shop#TmshopSrchNav

老規矩，先放一段代碼：

注釋1：實例化了一個webdriver的Chrome對象，命名為driver，這時會有一個Chrome窗口自動打開。
注釋2：調用了driver的maximize_window()方法，直接翻譯就是最大化窗口，也就是這個功能，這句寫不寫不重要，作者寫只是覺得看的清楚點。
注釋3：調用了driver的get()方法，以get方式請求URL。
注釋4：這裡開始是重點，webdriver主要有八種查找元素的方式，這一行是採用class_name的形式進行查找，並且注意到elements這裡的複數，這個方法用來查找頁面上所有的符合條件的元素，如果是沒有s的方法就只能找到首個符合條件的元素，這一行是使用谷歌開發者工具的左上角小箭頭工具對元素進行審核，並找出所有的商品條目，其中一個條目範圍如下圖所示：
注釋5：同注釋4，但這裡採用的是css_selector，即css選擇器的方式進行查找，因為這裡的類名」item-name J_TGoldData」是個複合結構，而find_element_by_class_name()方法不支持複合結構的查找，所以只能採用css_selector這種方式。
注釋6：同注釋4，這裡是單數，即在一個商品條目的範圍內查找一次。
注釋7：同注釋6。
注釋8：同注釋4，但這裡採用的是xpath的方式查找。
XPath即為XML路徑語言，它是一種用來確定XML（標準通用標記語言的子集）文檔中某部分位置的語言。XPath基於XML的樹狀結構，有不同類型的節點，包括元素節點，屬性節點和文本節點，提供在數據結構樹中找尋節點的能力。起初 XPath 的提出的初衷是將其作為一個通用的、介於XPointer與XSLT間的語法模型。但是 XPath 很快的被開發者採用來當作小型查詢語言。(解釋來自：百度百科 - 「XPath」，若鏈接失效請訪問：https://baike.baidu.com/item/XPath/5574064?fr=aladdin)
獲得元素xpath的方法有幾種，最為簡單的一種，即在谷歌開發者工具面板上選擇要查找的元素，右鍵選擇，如下圖所示：
當然這種方式可能存在缺陷，即獲得的XPath可能過於繁瑣，也可能獲取的XPath無法正確查找到相應的元素，這都需要手動的依據XPath的語法去修改。
注釋9：最後一定要記得關閉實例化的對象，這時候由程序打開的瀏覽器也會隨之關閉。

這個例子最後的結果如下圖：

大家依然可以自由的選擇數據存儲方式。

這裡要注意的是：使用selenium進行數據爬取相比前面的API請求法可能會慢的多，在打開到對應的窗口後，也可能窗口很長時間沒有任何動作，但這不一定是出錯或者是程序卡死的表現，也可能是程序在瘋狂的查找網頁元素，在這個過程中，如果不確定是否出錯，請最好不要進行其他操作，避免有些時候造成元素失去焦點，導致莫名的錯誤。

當然了，selenium的功能遠不止如此，幾乎人能在網頁上做出的行為，它都能模擬，包括點擊、輸入等各種行為，這個比較適用於某些網站要填寫驗證碼的情況，更多有趣的內容大家可以自行發現。本講就寫到這裡。感謝大家的耐心閱讀。

課後作業

這裡給大家留兩個小作業，感興趣的可以自行測試。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python 的精彩文章:

※Python 從Zero到Hero（一）

TAG:Python |