尋找推特的關注者

最新 09-05

你在Twitter或者Instagram上被你不認識的人關注過嘛？不知道你們的情況，但是至少我總是被很多不認識的人關注。為了避免被認為是不禮貌的人，我只能也開始關注他們。後來，我厭倦了這麼做，因為我發現這些關注我的帳戶中有一些帳戶只想增加被關注的人數而並沒有發任何東西或者做任何事情。那麼問題就來了，為什麼會有人不辭辛苦的來關注你，然後希望你因此能回粉他？而且為什麼會有人會為了這件事情而在網上浪費這麼多時間？

後來呢，我發現了這些帳戶大部分都不是個人賬戶，這才意識到了問題的答案。很多這些帳戶的內容都是關於食物，關於海灘度假，或者有時候還是關於一些有傷風化的內容。

廣告已經開始滲透我們的社交網路。以前公司想做廣告的時候，一般都是會拉橫幅上或者在廣告牌上寫一些標語，但現在一些新的公司開始在社交媒體上聘請人來轉發或者傳播他們的產品或活動。這些公司花大價錢去聘請一些名人，想吸引這些名人的粉絲群，從而得以提高它們品牌的知名度。比如說，一個公司在2013的時候通過一個Kloe Kardashian的推文，賺到了高達13,000美元。

名人有眾多粉絲團體，而且他們可以通過幫助贊助商發廣告而得到大筆收入。所以人們可能會想到創建社交網路帳戶然後積累粉絲，這樣他們也許最終能夠得到一些公司的贊助，靠發廣告來賺錢。從這個現象中，我們可以看出這些贊助商可能會尋找除了粉絲數量之外的其他一些因素。

在一個社交網路中，一個鏈接可以代表Facebook中的一個人際關係，或者是在Twitter中轉發的一個推文。這些鏈接決定了信息的流動，因此是用來判斷一個用戶的影響力的良好指標。現在我將來介紹兩種在網路中找到潛在的很有影響力的人的方法。一個是通過提取單個用戶的影響力來尋找，另一個是通過使用網路圖來尋找。

我在Followthehashtag.com上發現了一個大型資料庫。該資料庫包含一系列推特上的數據，其中包括從2016年3月28日至2016年6月15日期間，從推特網上提取的跟納斯達克100股股票話題相關的推特。我收集了這些數據，因為它很好地包含融合了組織和個人的帳戶。這個資料庫同樣也包含了其他數據，比如一條推特信息（tweet）被轉發了多少次，以及最開始這個tweet是誰發出來的等有關這條推特的來源信息。在眾多數據流中，轉發的信息可以被識別出來：它們的開頭有「RT @user」或「via @ user」。這個數據流還包含有關「提到xx」的信息。在推特中，「提到xx」指的是用戶們之間的公開對話。一個用戶通過在tweet中提到另一個用戶，是想來引起這另一個用戶的注意。「提到xx」的推文一般是含有由以「@user」開頭的推文。

從數據流中我們可以提取的一些標杆來衡量一個人的影響力，比如說：粉絲（數量），轉發（數量）和被他人提及的（數量）。我們選擇這些標杆是因為它們影響網路信息流動的方式。粉絲的數量可以用來衡量用戶的知名度。這點可以很容易從數據中提取出來，就是數據裡面一個用戶擁有的粉絲數量。一個賬號的關注者的數量可以顯示出這個用戶的粉絲群體的大小。而轉發數量顯示出這個用戶有能力創造一些能被其他人認為值得他們去轉發和分享的內容。當另一個用戶轉發分享一個推文時，這個推文就會被一個更大的用戶關係網裡的人們看到，從而再一次被轉發。對於這項數據，我們是通過計算每個用戶的轉發消息數量來得到的。第三個因素是被他人提及的次數，這個是通過計算提及某個用戶的推特的數量而得出的。這種影響因素可以體現出這名用戶與其他人溝通交談的能力。

在我們的數據中，這段時間內，共有96,613名用戶的推特是有關納斯達克100股股票的。在他們之間，播出了超過68萬條推文。這些數據展示出在納斯達克市場上蘋果公司和它的股票AAPL是被提及最多的，這表明在這個群體裡面，這隻股票是在推特中上鏡率最高的股票。

圖1：股票的代碼們的圖股票符號圖

4月27號是用戶們最活躍的一天，他們大概發了20800個相關推特。這是因為那天AAPL股票的股價大幅下跌，而下跌的原因是有人猜測，與去年同期相比，iPhone手機銷售量可能會下降多達6000萬台。蘋果股票的下跌拖累了科技股納斯達克股市的上漲。

圖2. tweet的頻率圖。

這個圖顯示出推特用戶在這一天中最活躍的時候是在股票交易市場開盤的時段，即13:30至20:30 UTC。

圖3. 2016年4月27日的頻率圖。

每個用戶在三個影響值里的綜合排名是通過分別看它在三項影響值中單獨的排名得來的。例如，在研究粉絲數目的排名時，第一名的用戶指的是有最多粉絲的的用戶，而具有相同數量的追隨者的用戶獲得相同的排名。表1顯示了三個影響因素中的前30名用戶。每個影響因素中我們可以看到會出現一些重疊。第一個出現在所有三個影響值的是「華爾街日報」。

表1.基於粉絲數目，轉發數量和提及數量的排名

為了知道三個影響因素中有多少用戶是重疊的，我們用排名中前100名的用戶畫一個維恩圖。圖4顯示，在排名列表中的239位用戶中，只有10位用戶是在這三個因素中都有排名的。

圖4.三個影響因素的維恩圖。

下面的圖5是一個相關矩陣圖，它展現出用戶的排名在三種不同的影響因素之間如何變化。相關矩陣表示兩種排名之間關聯的強度。該矩陣是通過比較資料庫中所有96,613個用戶的相對影響級別得出的。

圖5.三項影響因素的相關圖。

這個圖顯示出轉發因素和提及因素之間有很強的相關性。粉絲數目這項和其他兩項措施之間的低相關性表明，按照粉絲數量的排名標準可能與其他排名標準不大相關。

從相關圖還可以得出其他的一些結論。首先，我們可以說，在大多數情況下，經常被轉發的用戶也經常被提及，反之亦然。然後，我們可以說，粉絲最多的用戶可能不是最具吸引力的用戶。因此，用戶的受歡迎程度並不能代表這個用戶散播信息的能力。

轉發和被提到是有方向的。轉發呈現了用戶A到用戶B的思想傳遞的路徑。用戶A發布了推特，然後用戶B讀到了這個推文。用戶B認為這篇推文是值得分享的，於是轉發了這個推文。這篇推文會被其他那些跟用戶A沒有直接好友關係的，也不能直接訪問A的用戶看到和轉發。當用戶A提及用戶B時，這又是從用戶A到用戶B的鏈接。考慮到這一點，我們有足夠的數據將我們的twitter流轉換為方向性的網狀圖。所有用戶將成為我們圖中的一個結點，所有方向性的鏈接都將是一條邊。 igraph將被用來提取我們得到的網路圖的信息。

快速瀏覽一番從全部數據流得到的網路圖，我們發現我們能夠創造一個有96613個結點和168519條邊的圖。因為這個圖太大，我們將不會展示最後得到的圖。這是因為產生這個圖所需要花費的時間和計算能力實在太多了。實在要展現出來，這個圖也只不過是一系列混亂的點和線段。即便如此，我們還是可以從這個圖中得到一些信息。

網路的密度指的是現有的邊在所有可能的邊中占的百分比。我們現有的圖的密度是2.799118e-05.這樣一個非常低的密度代表了我們的用戶間的互動很少。

網路圖的直徑指的是所有獨特的結點和邊之間的最長路徑。考慮到鏈接的方向，我們的網路直徑是14。這個說明了我們可以在15個用戶間找到一條沒有斷裂的路徑。

John kleinberg 開發了樞紐結點和權威性演算法，用來檢驗一個網頁內容的相關性。他把網頁分成了樞紐結點和權威性網頁。樞紐結點有更多的向外的鏈接，它們就像是互聯網的目錄。這就像是早期的雅虎，當時雅虎自誇是互聯網的黃頁。權威性網頁則有更多的導向自己的鏈接，而這應該是因為它們有高質量的網頁內容。把這些概念放在推特活動這個範疇來看的話，樞紐結點網頁就像是一個有著極高轉推影響力的用戶，而權威性網頁就類似於一個有著高提及影響力的用戶。

樞紐結點和權威性評分是由一個簡單的igraph函數推導出來的。最後，得到最高的樞紐結點評分的是"markbsiegel"，而得到最高權威性評分的是"Benzinga". 這個和排名表格正好相反，：在表格中，被再推送最多的是"philstockworld"，被提及最多的是"jimcramer".

為了能夠找到不協調性的來源，我們調查了每個結點。雖然，如果我們考慮並且加起來所有的獨特邊的比重，看起來"markbspiegel" 比"philstockworld" 有更多獨特的邊，但最後"philstockworld" 仍然打敗了"markbspiegel"。當比較這兩者的邊時，我們可以觀察到同樣的結果。這個不協調性和網路評估的方法相一致，這種方法認為鏈接的數目比每個鏈接被激活的次數更重要。樞紐結點和權威評分也沒有考慮結點的比重特徵。

為了能夠看到一個真正的網路圖，我們把選擇範圍變小，只選擇了推文關於CA技術的推特用戶流。

表2展示了從我們的排名方法得到的前幾名有影響的用戶。第一個囊括三個影響力範疇的用戶是"Benzinga".

表格2. CA數據流的前幾名有影響力的用戶