爬取知乎60萬用戶信息之後的簡單分析
來自:Brian s Homepage
已獲轉載授權
使用 Java+Elasticsearch+Kibana 爬取了知乎 60 萬用戶數據,做了簡單的可視化分析。
項目源碼GitHub - webporterhttps://github.com/brianway/webporter
動機
在知乎上看到有個叫 @路人甲 的大神每隔一段時間就爬爬豆瓣/B站等等網站,做了很多有意思的分析,加上之前因為實驗室項目接觸過 Nutch,淺嘗輒止了,所以一直想好好玩玩爬蟲。
網上 Python 的爬蟲教程很多,而自己的主語言是 Java,本著宣傳 Java,以練促學的目的,我使用 Java 爬取了知乎 60 萬用戶信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,標配常青藤/年薪百萬是不是真的啊,等等。
思路
為了保證數據的質量,避免爬到一些殭屍號什麼的,我選擇爬取關注列表而非粉絲列表。我隨機挑選了一位粉絲過千的優秀回答者作為起始,爬取他的關注列表,再對列表中的每個人爬取其關注列表,以此類推……
下載了大概 7 個小時,爬了 40 多萬用戶的關注列表,拿到了 10G 的數據,如圖所示:
理論上有 800 多萬用戶,可惜有很多重複的,去重後將數據導入 Elasticsearch,得到 60+ 萬用戶數據:
數據驗證
接下來簡單看看下載下來的數據靠不靠譜,隨手在知乎和我的 Kibana 分別搜了下輪子哥 @vczh
可以看到,連同名的都搜出來是一樣的,數據沒啥問題。
然後使用 Elastichearch 的聚合查詢配合 Kibana 對數據進行可視化展示。
※程序猿,才是世間最寂寞的情聖
※行走在消失中的5種編程語言
※程序猿遇到問題去哪裡問?
※從Visual Studio看微軟20年技術變遷
※程序猿到哪裡接外包
TAG:程序猿 |
※1500億的知識付費大蛋糕,得到、知乎們該怎麼吃?
※知乎上的100條簡短深刻的回答
※知乎:蘋果將收取iOS用戶32%的讚賞手續費
※知乎上萬贊回答:年薪百萬的程序員背後到底有多艱辛?
※20萬一個!今日頭條一口氣買300多知乎大V所為何事?
※王者榮耀年終獎達100個月工資消息不屬實;昨天用戶暫時無法登陸知乎
※知乎被告,摩拜索賠 10 萬元
※知乎官方公告:蘋果將收取iOS用戶32%的讚賞手續費
※知乎被今日頭條挖角300多名大V 被訴質量每況愈下
※知乎宣布註冊用戶數超1億 並開放機構號註冊
※匿名爆料高管貪污上億!摩拜起訴知乎僅索賠10萬
※知乎宣布註冊用戶數超1億後,宣布開放機構號註冊
※人民日報批今日頭條;知乎宣布註冊用戶數超1億
※今日頭條挖知乎300大V,知乎「藥丸」?
※蘋果正式規定用戶打賞要分成30%,微信抵制知乎妥協
※12日最後期限,蘋果抽成30%,微信關閉打賞,知乎等軟體妥協
※100條知乎神回復,毒舌是這樣煉成的
※回答17個問題、獲得186170贊的「知乎老張」張譯:我不具備明星屬性,但也沒有離開世俗
※蘋果要分走「讚賞」的30%,知乎映客已更改付費規則