當前位置:
首頁 > 最新 > Python爬蟲抓取某院網站MM照片,15分鐘教你爬取心目中的女神!

Python爬蟲抓取某院網站MM照片,15分鐘教你爬取心目中的女神!

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

Scrapy主要包括了以下組件:

引擎(Scrapy)

用來處理整個系統的數據流處理, 觸發事務(框架核心)

調度器(Scheduler)

用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

下載器(Downloader)

用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)

爬蟲(Spiders)

爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

項目管道(Pipeline)

負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後,將被發送到項目管道,並經過幾個特定的次序處理數據。

下載器中間件(Downloader Middlewares)

位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。

爬蟲中間件(Spider Middlewares)

介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

下面小編給大家分享一個問卷星刷票項目實例,在分享之前小編還是要推薦自己建立的裙Python學習:五七七九零一二九四 這裡有推薦的學習路線,基礎視頻學習資料和電子教程文檔和Python安裝工具及Python技術學習交流和分享

調度中間件(Scheduler Middewares)

介於Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。下面我們用Python爬取

1 、抓取某院網站MM照片MM的照片

2.抓取每一個MM的資料簡介以及寫真圖片

3.把每一個MM的寫真圖片按照文件夾保存到本地

4.熟悉文件保存的過程

1.URL的格式

在這裡我們用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,問號前面是基地址,後面的參數page是代表第幾頁,可以隨意更換地址。點擊開之後,會發現有一些淘寶MM的簡介,並附有超鏈接鏈接到個人詳情頁面。

我們需要抓取本頁面的頭像地址,MM姓名,MM年齡,MM居住地,以及MM的個人詳情頁面地址。

2.抓取簡要信息

相信大家經過上幾次的實戰,對抓取和提取頁面的地址已經非常熟悉了,這裡沒有什麼難度了,我們首先抓取本頁面的MM詳情頁面地址,姓名,年齡等等的信息列印出來,直接貼代碼如下

Python

運行結果如下

2.文件寫入簡介

在這裡,我們有寫入圖片和寫入文本兩種方式

1)寫入圖片

Python

2)寫入文本

Python

3)創建新目錄

Python

3.代碼完善

主要的知識點已經在前面都涉及到了,如果大家前面的文章都已經看了,完成這個爬蟲不在話下,具體的詳情在此不再贅述,直接帖代碼啦。

Python

Python

Python

Python

以上兩個文件就是所有的代碼內容,運行一下試試看,那叫一個爽啊

python對於小白來說,爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python,然後系統學習 Python 的每個知識點,很久之後發現仍然爬不了數據;有的人則認為先要掌握網頁的知識,遂開始 HTMLCSS,結果入了前端的坑,好了,知識今天就分享到這裡,想學習了解更多,歡迎在下面評論區留言和小編交流。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

day02.Linux、編輯器、伺服器Python教程
Python中的數字

TAG:Python |