從數據角度探究《前任3》為什麼這麼火爆
知識
01-19
採集豆瓣影評
流程如下:
創建一個Scrapy項目;
定義提取的Item;
編寫爬取網站的 spider 並提取 Item;
編寫 Item Pipeline 來存儲提取到的Item(即數據)。
提取資料庫數據,處理展示
創建項目,終端輸入
項目結構(不包括後續配置)
scrapy中cookies的寫法,可以與request中cookie的寫法對比下
這裡我用了兩種方法解決這個問題,第一個是加cookie,效果不太理想,我換了第二種採用登錄的方式。
由於在登錄過程中可能需要輸入驗證碼,目前採用把驗證碼圖片保存至本地手動輸入
(藉助一些打碼平台可以實現自動識別驗證碼輸入,收費)
詞雲和分布圖展示
本來是想用至尊寶做一個詞雲圖的,找了好久沒找到素材,就用了之前我的一張壁紙
話說,詞雲圖好像並不能看出什麼~而分布圖表達的結果也並不直觀,那就代表本次的結果沒有什麼卵用,個人覺得是因為數據量太小了,而且詞雲圖本身對數據展示的結果只能看出高頻詞而已...
時光無法回頭,人生也不能重來,珍惜眼前人。
千萬不要得到的時候在毀,失去的時候在悔!
作者:_知幾
源自:https://ask.hellobi.com/blog/zhiji/11170
聲明:文章著作權歸作者所有,如有侵權,請聯繫小編刪除
Github地址:https://github.com/ReainL/douban_qrs
TAG:python |