當前位置:
首頁 > 新聞 > 馬蜂窩造假始末 這是最完整的8千字報告:主打2100萬真實點評 85%造假

馬蜂窩造假始末 這是最完整的8千字報告:主打2100萬真實點評 85%造假

近日,馬蜂窩「造假門」事件進一步發酵。昨日晚間,鉛筆道記者收到的乎睿數據團隊發來的,關於揭露馬蜂窩數據造假的完整報告,該報道從最初的75頁精簡為25頁。根據報告中內容,該團隊在馬蜂窩上發現了7454個抄襲賬號,這些抄襲賬號平均每個人從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評、1221萬條酒店點評,佔到馬蜂窩所有點評總數的85%。

乎睿數據負責人對鉛筆道表示,其實發現馬蜂窩的問題完全是一個巧合,團隊自5月份才組建,恰逢創業大賽準備參加,不成想叫外賣吃壞了肚子,去差評那家餐館才發現評論很多都是刷單刷出來的。間接發現了馬蜂窩造假事件,最初是因為興趣覺得好玩,後面越挖越深,由於價值觀和性格使然,所以花了四個月完成了這份揭露報告。

10月23日凌晨,乎睿數據就馬蜂窩數據造假及起訴一事發表官方聲明。聲明表示,其團隊已對大量可疑行為進行視頻錄屏,截屏截圖和司法公證,並掌握了一些接管抄襲賬號的馬蜂窩內部員工信息,所有了解和確定的分析內容和點評消失賬號鏈接全部收錄在其官網上。聲明強調,馬蜂窩事件純屬順手為之,沒有針對任何個人或企業。

一天前, 馬蜂窩起訴深圳乎睿數據有限公司、丁子荃名譽侵權案已獲立案。

此次馬蜂窩「造假門」事件始發於10月20日,自媒體「小聲比比」發布一篇文章,題為《估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》。文中指出,旅遊社交分享網站馬蜂窩上的2100萬條「真實點評」中,有1800萬條都是「通過機器人和從點評和攜程等競爭對手那裡抄襲過來的」。次日晚間,該自媒體發布了第二篇直指馬蜂窩充斥殭屍和水軍的數據報告,指出馬蜂窩疑似存在評論搬運、遊記摻水、問答抄襲的現象。

以下為乎睿數據報告全文,個別用詞和標點符號經過鉛筆道編輯。

報告目錄:

一. 以馬蜂窩官方賬號為代表的大量賬號存在嚴重侵權,九成內容或為抄襲。

二.官方推廣活動獎品獎勵多被機器人和內部員工獲得。

三. 增長黑客的邪門玩法:使用機器人來回復用戶,以提高社區活躍度。

四. 內容發布時間詭異,通常為為朝九晚五,有雙休、午休且不加班。

五.用戶精心編寫的內容屢遭利益集團盜用、篡改,用戶維權乏術。

六. 虛假商業內容充斥推薦系統,用戶難得真實的消費信息。

馬蜂窩的核心價值就是為用戶提供真實有效的信息。實現該價值的方式是通過無數用戶的真實分享,這也是內容能夠源源不斷產生的根基。

馬蜂窩用戶+社交+個性

近年來,互聯網行業野蠻生長的負面效應在世界範圍內受到廣泛關注。從Facebook用戶隱私數據泄露到滴滴順風車命案,科技企業的商業邊界與法律責任引 起了社會各界的重視和討論。除了掀起輿論風暴的惡性事件,業內還普遍存在抄襲侵權、數據造假、欺騙誤導消費者等違法違規行為,而被侵害的普通用戶在信息不對等的情況下維權乏術,無從分辨真偽。

經過世界盃期間巨額廣告的投放,講求真實分享的旅遊社區的「馬蜂窩」猛然進入大眾視野。這隻獨角獸將點評、遊記、問答、小組等UGC(用戶貢獻內容)版塊與社交電商功能整合形成商業閉環,其2017年度成交總額已達近百億人民幣,並於同年12月完成了1.33億美元的D輪融資,是近年中國成長最快的在線旅遊公司之一(1)。

但用戶貢獻的內容是否就比其它信息更為可靠呢?乎睿數據團隊初步探索了馬蜂窩UGC和用戶數據並與競品比照,結果發現包括官方帳號在內的許多馬蜂窩用戶竟然人均抄襲了數百名大眾點評網用戶的評價以及大量來自攜程、藝龍乃至Yelp、Agoda等知名跨國網站的用戶內容,甚至還屢次在官方有獎活動中拔得頭籌。

如上圖所示,我們發現馬蜂窩官方賬號——問答小班長1-11號以及其它一些發布官方信息的賬號人均抄襲了數百位不同大眾點評網友以及大量其它競品與行業巨頭的用戶內容。

這些詭異現象若只說是巧合實在難以令人信服,它們背後究竟是平台運營的增長黑客還是利益推手的暗箱操作?為繼續深入調查,乎睿數據團隊搜集整理了相關平台的海量數據,嘗試通過多維度的用戶挖掘分析從各版塊著眼,揭開馬蜂窩的蓋子。

真實的點評,這才是大家做點評最重要的參考和依據。

馬蜂窩創始人陳罡參加黑馬會旅遊分會沙龍分享(3)

根據官網數字,馬蜂窩目前共有2100萬條真實點評,覆蓋全球200多個國家和地區。截至17年末,馬蜂窩已擁有1.2億用戶,月均活躍用戶數達1億4。本次分析包含了馬蜂窩近726萬條餐飲點評、約1320萬條酒店點評,與其官方數據基本持平。

為求公正,我們從官網收集到的約116萬餐飲POI(Points Of Interest)中隨機抽取三分之一作為樣本,參照官方賬號的侵權習慣並放低標準以至少完整抄襲150名大眾點評網用戶為限,竟篩選出7454例馬蜂窩抄襲賬號。其中除了多個官方性質賬號,還有的直接被馬蜂窩內部員工掌管。

平均下來,每個抄襲賬號都一字不差地照抄了212位不同大眾點評用戶的餐飲評價(每位至少被抄一條),海外餐飲點評則抄襲或使用谷歌翻譯自Yelp,還有大量酒店評價也可直接追溯到攜程、藝龍、TripAdvisor、Agoda等網站。

不考慮從他人點評里截取中間段落或者拼接不同用戶內容等「抄襲升級」現象,也忽略旅遊產品、景點、娛樂等版塊中的侵權行為,單單這七千餘抄襲賬號在餐飲、酒店兩部分就生產了近1800萬條點評,以不到馬蜂窩1.2億用戶萬分之一的體量貢獻了總數85%以上的評價內容。(後文以"抄襲帳號"、"抄襲團 伙"代指這7454例抄襲賬號)

與其他常見的「空白頭像」點評不同,這些帶著照片和語氣的點評,來自社區活躍用戶及其遊記,真實、生動,富有畫面感。

馬蜂窩CEO陳罡撰文:如何顛覆酒店預訂的用戶體驗(5)

如此瘋狂地搬運站外UGC也導致了很多奇妙的現象,比如抄襲中複製粘貼了谷歌翻譯的Bug, 用戶個人歷史信息矛盾,順帶抄到擦邊球小廣告,用戶旅行過於頻繁等等。相關細節會在文末附錄中詳細闡釋,回到抄襲賬號本身,它們橫向的抄襲規模現已掌握, 我們再縱向來看抄襲歷史:

可以看出多年以來,馬蜂窩抄襲賬號們一直在活躍著。那麼官方抄襲賬號是否有什麼黑歷史呢?我們通過WebArchive搜索了馬蜂窩問答小班長們,得到以下內容:

例如上圖點評中出現性別矛盾的官方抄襲賬號之一——問答小班長10號,在去年之前還不是官方賬號,名曰「Roger」,其用戶活動可以追溯回2009年。

研究過程中我們還發現抄襲賬號存在點評時間戳出錯的問題,一共找到12,947條時間戳錯誤的點評,絕大多數發生在「0000」與「1970」年,大概是後端數據轉儲讀寫的問題。

值得一提的是,時間戳為"0000"年的點評內容發布者除了經典抄襲賬號,都是疑似由商家控制的馬甲小號,內容很少且專門集中好評那批商戶…… 個中細節容後再表,至此我們基本可以推斷馬蜂窩的巨量抄襲侵權行為與官方賬號有極強的關聯。

然而比海量抄襲更弔詭的事出現了——我們從馬蜂窩官方小組抽取的100餘份官方活動獲獎名單中發現了612名抄襲賬號獲獎者和大量殭屍空號幸運兒。它們不僅多次以特、大獎得主的身份拔得頭籌,還佔據著數量上的優勢,在一份含451位獲獎用戶的名單中就有281名屬於抄襲賬號。

有趣的是,該空號有史以來僅有四名訪客:官方賬號、空號、抄襲賬號,以及喚作「風聲」的疑似商業馬甲號——其遊記抄襲與原創並存,而問答、點評又都指向了免稅店和三亞海鮮等頻繁在馬蜂窩內容中刷臉的商家……

抄襲賬號與空號之外,還有很多專從他人點評截取中間段落或拼接不同用戶內容以規避審查的非典型智能抄襲賬號。只是我們參照官方抄襲習慣制定的篩選條 件過於嚴格,要求近100%複製整條點評才算「抄襲」,因而並未將此類賬號納入分析,但這並不影響它們也來瓜分豐厚的獎品福利。

賬號「火爆辣椒」(UID:90313588,曾用名「野牛狂奔」)就是這樣一位智能抄襲者,打開它的馬蜂窩主頁,最先映入眼帘的數條點評全部節選抄襲自大眾點評網。而它卻在多達12次有獎活動中均有斬獲,其中不乏旅行基金、希爾頓奧運大禮包等大獎。

除了抽獎,馬蜂窩還會舉辦大促搶購活動與各類競賽。相關受益和獲勝者中,竟有馬蜂窩內部員工赫然在列…… 而對於真實的用戶而言,馬蜂窩中獎難,兌獎更難於上青天的情況已經上了新聞(26)。

作為旅遊社區,馬蜂窩的出類拔萃離不開它的UGC能力,而支撐UGC的根源來自社區氛圍。在這裡,幾百萬的旅行達人牢牢聚集在一起並積極製造內容。

社交矩陣堆砌出馬蜂窩(6)

然而,抄襲與中獎並非這七千餘經典抄襲賬號的全部日常。它們還是用來實施「增長黑客」(Growth Hacking)的社區運營利器——用戶新發布了遊記,它們會爭取在第一時間進行回復、點贊、收藏等操作,只為增加作者成就感,為其營造備受關注的社區氛圍。

乎睿數據親自通過馬蜂窩手機APP編輯發布了幾篇粗製濫造的遊記,居然連續得到好幾個經典抄襲賬號的頂帖和收藏,並於當天獲得數條從內容到標點都一模一樣的回復。

我們從近160萬篇遊記中發現了抄襲賬號上千種諸如「真羨慕樓主能去這裡玩呀」、「看完內心波動了一下哈哈」等內容重複、針對遊記發布者的回復,而收到這些留言的遊記作者對真相併不知情,甚至還會嘗試回應抄襲賬號,只有少量細心用戶發現了蹊蹺:

類似的增長黑客在問答版塊也屢見不鮮。實際上,「問題生成」如今已是知識類社區的常規操作。近日知乎參展谷歌開發者大會時也展示了自動生成站內問題的場景,旨在迅速搶佔熱點以激發用戶創作慾望(7)。然而從馬蜂窩抄襲賬號在問答中的表現來看,實際效果並不如人意。

團隊從約175萬個問題中找出了抄襲賬號的提問,如上圖所示,很多問題按照統一模式創建,又由其它抄襲賬號使用公開的酒店簡介、地圖導航等內容生成回答。這些語義重複嚴重、同質化泛濫的內容必然難以提供有價值的信息。

也許背後的運營組織終於發現機械化的問答不能滿足用戶的真實需求,抄襲賬號對問答的參與在2014年中告一段落。我們無從考證馬蜂窩之後是否僱傭了寫手進行內容編輯以助推社區增長,但抄襲賬號之外的馬蜂窩其它用戶的確在答題、點評等行為時間上高度一致。

以上兩幅熱力圖描繪了馬蜂窩非抄襲賬號中最活躍的一萬五千名用戶的活動軌跡,每一行代表一名用戶,按註冊早晚至上而下排列。橫軸從左到右代表 2012年至今的日期。每一行的明暗變化表示了一位用戶的答題或點評作息規律——亮色說明該賬號在橫坐標對應日期有內容發布,暗色意味著該用戶當天沒有活動。可以看出用戶們的發布規律十分統一,甚至產生了黃金分割一般妖異的美感……那麼其它非抄襲賬號是如何表現的呢?

可以看出,馬蜂窩上所有非抄襲賬號即「普通用戶」發布餐飲點評的作息習慣都與大眾點評網網友大相徑庭,每天、每周創作周期的高峰和低谷都很不同。那麼酒店點評呢?

不得不說,種種差異頗為令人玩味。此外,非抄襲賬號中還存在多名用戶在同一時間以同樣內容評論不同POI的奇異現象,可謂用戶內容之量子糾纏:

記者:隨著用戶量增加和知名度提升,馬蜂窩如何保持旅遊攻略的真實性和不具商業色彩?

陳罡:隨著用戶的增加,知名度的增加,能讓旅遊攻略的真實性和實時性這個優勢發揮的更加淋漓盡致,因為我們可選擇的信息更多了,信息也不再是一個人或是一個機構主導,所以整個旅遊攻略信息體系進入更加良性的循環。

今年是在線旅遊的重要分水嶺-訪馬蜂窩CEO陳罡(8)

除了上面提到的現象,馬蜂窩


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 鉛筆道 的精彩文章:

幣安將推十個法幣交易數幣平台
家庭醫生服務平台「醫+」獲得連力創投新一輪融資

TAG:鉛筆道 |