python編程學習之面向函數初接觸！這次我們來抓取QQgame信息吧！

最新 03-05

作為一個長期坐辦公室的閑人來說，QQ遊戲一度是我們的主要消磨時間的工具，當然現在改成python了，哈哈。

今天我們就來抓取下QQgame下所有遊戲的頁面地址和簡介，然後分類保存本地吧！

這裡我們用面向函數的模式試試寫我們的爬蟲。

首先是分析url，主頁地址：http://qqgame.qq.com/，打開F12開發者工具，

這裡我們可以看到有很多的分頁，仔細看看就會發現主要是分2大塊：熱門遊戲/最新遊戲（這倆url竟然是一樣的，騰訊的程序員你們是有多懶。。。）和分類遊戲（棋牌、網頁、單機、街機等等），其實只需要爬後者就可以，但是各個分類下遊戲頁面並不多，熱門遊戲裡面有500多款呢，所以乾脆一起抓取下來，然後分類保存就好！

找到遊戲分類後，再進入隨便一個分類頁面，來看看網頁構成。

非常簡單的網頁，這裡我們可以很容易獲取遊戲的url和相關信息

我們提取中間的遊戲名字，簡介，鏈接就可以了（大型遊戲並不在QQgame裡面）。Ok，我們開工！

2、代碼實現

這次我們用到了requests、time、random、json和lxml模塊，其中我們的最終結果要保存為json文件，所以這裡導入了json模塊

構造一個函數作為主體函數main(),把url寫入進去，新建一個空字典，用於接收相關信息，我們這次採用xpath模塊來匹配相應標籤內容，簡單快捷。

最後5行是做為主程序執行，加入了開始和結束時間，用於統計用時，並顯示出來

這裡我們新建了2個函數，一個是get_html函數，用於獲取網頁源碼，UA部分填寫自己的就可以。在函數內做一個判斷，如果沒有訪問成功則返回False，用於判斷網頁是否可訪問！後面會多次用到。

還有一個就是save函數用於存儲數據，它接收main函數傳入的分類字典，字典內含有分類名字和url對應的各個元素，將key值取出做循環遍歷字典，然後用dic[key]來取出對應的url。因為存在每個分類的翻頁，所有在下面做一個while循環，並新建2個函數，1個獲取當前頁相應內容的函數，1個是獲取下一頁url的函數，用if判斷，如果下一頁存在，則繼續循環，不存在則跳出循環並顯示相應信息。然後將返回的頁面信息寫入文件！

注意while循環下先用if函數判斷傳入的url是否可訪問，來決定是否執行獲取信息！