當前位置:
首頁 > 知識 > 一個全球最大成人網站的爬蟲

一個全球最大成人網站的爬蟲

簡介

項目主要是爬取全球最大成人網站PornHub的視頻標題、時長、mp4鏈接、封面URL和具體的PornHub鏈接

項目爬的是PornHub.com,結構簡單,速度飛快

爬取PornHub視頻的速度可以達到500萬/天以上。具體視個人網路情況,因為我是家庭網路,所以相對慢一點。

10個線程同時請求,可達到如上速度。若個人網路環境更好,可啟動更多線程來請求,具體配置方法見 [啟動前配置]

環境、架構

開發環境: MacOS系統、4G內存

資料庫: MongoDB

主要使用 scrapy 爬蟲框架

從Cookie池和UA池中隨機抽取一個加入到Spider

start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。

並支持分頁爬取數據,並加入到待爬隊列。

使用說明啟動前配置

安裝MongoDB,並啟動,不需要配置

安裝Python的依賴模塊:Scrapy, pymongo, requests 或

根據自己需要修改 Scrapy 中關於 間隔時間、啟動Requests線程數等得配置

啟動

python PornHub/quickstart.py

運行截圖

資料庫說明

資料庫中保存數據的表是 PhRes。以下是欄位說明:

PhRes 表:

項目地址:https://github.com/xiyouMc/WebHubBot/

題圖:pexels,CC0 授權。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 編程派 的精彩文章:

利用Tesseract圖片文字識別初探
雲伺服器彈性、安全、穩定背後的技術秘密
如何利用 Celery 執行定時任務並設置優先順序?
Flask 進階:如何實現 HTTPS?

TAG:編程派 |

您可能感興趣

暴雪再次重創全球最大外掛團隊 懟到網站關閉
全球點擊量最高的十個網站,被美國和中國包攬了,中國佔了四個!
2018年全球十大熱門網站,中國有兩個,看看他們的創始人都是誰
個人網站要成功必走這三條路
全球點擊量最高的4個網站,被美國和中國包攬了,中國佔了四個!
暑期檔大劇復盤:視頻網站全面崛起、愛奇藝成最大贏家、小而美反超大IP
全球最大的眾籌網站上,人氣最高的中國產品竟然是它……
一個神奇的網站 每次刷新都會由AI生成一張肖像圖
全球最厲害的4位黑客:最後一位是中國人,並把國旗插在美國網站
全球三大頂尖黑客,這個中國人赫然在列,曾將國旗放到美國網站上
自媒體最愛,最大最全搜索網站推薦 讓你一次愛個夠
波蘭最大的門戶網站 Logo 只是一個黃色的圓
「每刷新一次生成一副假臉」的網站,迎來眾多模仿者
國外的網站盤點世界橋樑!前十個橋樑中,中國就擁有8個幾乎霸榜!
外國網站公布全球最恐怖景點,中國僅有一個上榜,網友:外國人是不是有什麼誤會
我終於還是給世界最大的動作片網站貢獻了一個點擊
工作中十一個極其方便的網站
網站榮耀四個越到後期越強的被動 第一個都趕上一個大件了
中國最牛兩大黑客:一位將國旗插在美國網站,一位讓日本網路癱瘓
這才是一個神奇的網站