當前位置:
首頁 > 知識 > 從數據角度探究《前任3》為什麼這麼火爆

從數據角度探究《前任3》為什麼這麼火爆


採集豆瓣影評

流程如下:

創建一個Scrapy項目;

定義提取的Item;

編寫爬取網站的 spider 並提取 Item;

編寫 Item Pipeline 來存儲提取到的Item(即數據)。

提取資料庫數據,處理展示

創建項目,終端輸入

項目結構(不包括後續配置)

scrapy中cookies的寫法,可以與request中cookie的寫法對比下

這裡我用了兩種方法解決這個問題,第一個是加cookie,效果不太理想,我換了第二種採用登錄的方式。

由於在登錄過程中可能需要輸入驗證碼,目前採用把驗證碼圖片保存至本地手動輸入

(藉助一些打碼平台可以實現自動識別驗證碼輸入,收費)


詞雲和分布圖展示

本來是想用至尊寶做一個詞雲圖的,找了好久沒找到素材,就用了之前我的一張壁紙

話說,詞雲圖好像並不能看出什麼~而分布圖表達的結果也並不直觀,那就代表本次的結果沒有什麼卵用,個人覺得是因為數據量太小了,而且詞雲圖本身對數據展示的結果只能看出高頻詞而已...

時光無法回頭,人生也不能重來,珍惜眼前人。

千萬不要得到的時候在毀,失去的時候在悔!

作者:_知幾

源自:https://ask.hellobi.com/blog/zhiji/11170

聲明:文章著作權歸作者所有,如有侵權,請聯繫小編刪除

Github地址:https://github.com/ReainL/douban_qrs


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python 的精彩文章:

Python與數據分析《一》

TAG:python |