當前位置:
首頁 > 知識 > 爬取知乎60萬用戶信息之後的簡單分析

爬取知乎60萬用戶信息之後的簡單分析

來自:Brian s Homepage


已獲轉載授權


使用 Java+Elasticsearch+Kibana 爬取了知乎 60 萬用戶數據,做了簡單的可視化分析。

項目源碼GitHub - webporterhttps://github.com/brianway/webporter


動機


在知乎上看到有個叫 @路人甲 的大神每隔一段時間就爬爬豆瓣/B站等等網站,做了很多有意思的分析,加上之前因為實驗室項目接觸過 Nutch,淺嘗輒止了,所以一直想好好玩玩爬蟲。


網上 Python 的爬蟲教程很多,而自己的主語言是 Java,本著宣傳 Java,以練促學的目的,我使用 Java 爬取了知乎 60 萬用戶信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,標配常青藤/年薪百萬是不是真的啊,等等。

思路


為了保證數據的質量,避免爬到一些殭屍號什麼的,我選擇爬取關注列表而非粉絲列表。我隨機挑選了一位粉絲過千的優秀回答者作為起始,爬取他的關注列表,再對列表中的每個人爬取其關注列表,以此類推……


下載了大概 7 個小時,爬了 40 多萬用戶的關注列表,拿到了 10G 的數據,如圖所示:

爬取知乎60萬用戶信息之後的簡單分析


理論上有 800 多萬用戶,可惜有很多重複的,去重後將數據導入 Elasticsearch,得到 60+ 萬用戶數據:


數據驗證


接下來簡單看看下載下來的數據靠不靠譜,隨手在知乎和我的 Kibana 分別搜了下輪子哥 @vczh

爬取知乎60萬用戶信息之後的簡單分析


爬取知乎60萬用戶信息之後的簡單分析



可以看到,連同名的都搜出來是一樣的,數據沒啥問題。


然後使用 Elastichearch 的聚合查詢配合 Kibana 對數據進行可視化展示。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 程序猿 的精彩文章:

程序猿,才是世間最寂寞的情聖
行走在消失中的5種編程語言
程序猿遇到問題去哪裡問?
從Visual Studio看微軟20年技術變遷
程序猿到哪裡接外包

TAG:程序猿 |

您可能感興趣

1500億的知識付費大蛋糕,得到、知乎們該怎麼吃?
知乎上的100條簡短深刻的回答
知乎:蘋果將收取iOS用戶32%的讚賞手續費
知乎上萬贊回答:年薪百萬的程序員背後到底有多艱辛?
20萬一個!今日頭條一口氣買300多知乎大V所為何事?
王者榮耀年終獎達100個月工資消息不屬實;昨天用戶暫時無法登陸知乎
知乎被告,摩拜索賠 10 萬元
知乎官方公告:蘋果將收取iOS用戶32%的讚賞手續費
知乎被今日頭條挖角300多名大V 被訴質量每況愈下
知乎宣布註冊用戶數超1億 並開放機構號註冊
匿名爆料高管貪污上億!摩拜起訴知乎僅索賠10萬
知乎宣布註冊用戶數超1億後,宣布開放機構號註冊
人民日報批今日頭條;知乎宣布註冊用戶數超1億
今日頭條挖知乎300大V,知乎「藥丸」?
蘋果正式規定用戶打賞要分成30%,微信抵制知乎妥協
12日最後期限,蘋果抽成30%,微信關閉打賞,知乎等軟體妥協
100條知乎神回復,毒舌是這樣煉成的
回答17個問題、獲得186170贊的「知乎老張」張譯:我不具備明星屬性,但也沒有離開世俗
蘋果要分走「讚賞」的30%,知乎映客已更改付費規則