當前位置:
首頁 > 新聞 > 深度 大數據之殤

深度 大數據之殤

毫無疑問,作為技術概念的「大數據」擁有光明的前途,它是人工智慧的基石,是未來世界的「石油」。但作為生意的「大數據」,在中國正走到一個關鍵的轉折點。

從業者都很焦慮。對大眾來說,2019年3月以來,圍繞著「大數據」而密集發生的醜聞似乎是一種監管加緊的信號——前有「315」晚會上集中曝光的大數據黑色產業鏈,後有號稱擁有8億國人真實信息的「大數據公司」——巧達科技被查。但對於一向嗅覺靈敏的中國大數據行業的從業者們來說,這並不突然。

從2017年底開始,中央網信辦、工信部、公安部和國家標準委等部門就開始密集合作,針對國內大數據行業野蠻生長中的各種亂象展開各種行動。進入2018年,相關工作組先後多次對微信和淘寶等「國民級」應用進行隱私保護評估,提出整改意見。同時,重點垂直行業和地方監管機構也明顯提高了約談頻率。2019年2月,銀監會和保監會約談銀行高管,談及app收集信息的問題;上海網信辦連續約談轄區內應用程序,而北京市公安部門也在「凈網2019」行動中將「非法爬取數據」作為整治重點。

2019年1月,中央網信辦、工信部和公安部牽頭的多個機構開始對違規收集數據信息進行專項治理,被業內形容為「史上力度最大」的治理行動。此後,相關部門還著手制定「大眾化應用基本業務功能及必要信息規範」,3月,工作組更直接在微信上開通公眾號「App 個人信息舉報」,直接接受用戶的侵權舉報,並在4月就對30多款應用提出整改要求。

在PingWest品玩與近10名來自大型互聯網公司數據部門以及「大數據公司」的從業者的接觸中,他們普遍認為,315晚會「抓典型」和「巧達數據」被整治,更像是一系列行動的結果,而非開始。

「其實能感受到所有的環境都跟兩年前不同了,美國有Facebook出的事,歐洲又有GDPR(《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR,為歐盟條例——PingWest品玩注),以前覺得這都不影響我們國內的業務,但去年以來一扭頭卻發現,國內管得也更嚴了。」一家總部在杭州的電商公司相關數據演算法部門的團隊高層對PingWest品玩說。

然而,無比焦慮的從業者們似乎仍然沒有意識到,監管層面的變化背後,本質還是國內廣大用戶們數據隱私意識的覺醒。

「我們最近的政策法規研究以及行動的節奏很大程度是受到大眾對隱私保護的意識覺醒的影響。」一名接近公安第三研究所網路安全法律研究中心的人士對PingWest品玩透露。他們正參與到多部委聯合推進的個人信息保護法律法規研究中。3月上線的「App 個人信息舉報」微信公號投訴平台,某種意義上就是在幫助法規制定者們更直接的感受大眾的態度。新華社的一篇報道介紹這個公眾號處理投訴的方式:「對於用戶實名舉報的信息,工作組逐一與舉報人溝通。」

很明顯,在監管者以及廣大用戶看來,「大數據」在中國作為一門生意,如今在各個環節都已出現必須糾正的問題。


誰的數據,被誰拿走了?

2018年4月23日晚,北京市公安部門公布了此前「巧達數據」被查案件的細節。這也與PingWest品玩與多位從業者探討時的判斷接近:一家被巧達數據爬取過簡曆數據的公司,向公安舉報了巧達。之後北京警方在數個月的調查取證後,將其作為」凈網2019「行動中的典型,予以處理並拘捕了公司實際控制人。

圖片來源:北京市公安局海淀分局公眾號

根據警方通報:「嫌疑人通過利用大量代理IP地址、偽造設備標識等技術手段,繞過該公司伺服器防護策略,大量竊取存放在伺服器上的用戶數據…… 經初步查明,巧達科技公司採用技術手段在未經授權的情況下,惡意竊取上述報案公司的用戶數據,並將其用於自身經營。」

也就是說,巧達的問題首先出在其過激的「爬蟲」行為上。

「爬蟲」指的是開發者設計一套程式讓它按照一定規則,自動抓取互聯網上的海量信息。一位曾在巧達數據短暫工作的員工對PingWest品玩表示,他們的團隊有不少來自主流招聘平台的員工,他們往往對前公司的系統比較熟悉,能夠更高效地爬取平台上的簡歷,在反爬蟲措施出現之前完成足夠多的抓取。據他介紹,這種爬取招聘網站簡歷的方式,在所謂的「簡歷大數據」公司是一種常態。

與巧達數據收集數據方式相似的還有許多,比如總部位於上海的e成數據。e成數據的員工對PingWest品玩透露:這家公司的數據來自獵聘和智聯招聘等網站爬取,其官方網站聲稱「積累了1.3億份有效簡歷」。今年3月,e成再次獲得C輪8000萬人民幣的融資。

總部在武漢的「簡尋」,同樣主打爬取公開簡歷的生意,其官網顯示「產品可通過自然語義處理的技術爬取簡歷」,實質也是通過爬蟲技術爬取幾家主要的招聘網站,這家公司在去年完成千萬級A輪融資。

此外從事類似生意的創業公司還有很多,多數處於天使輪階段。

「從這個角度看,巧達數據像是被當作典型給抓了。或者也是因為它做的太大了。」上述員工說。

此外,雖然此次的公告中沒有提及,但據PingWest品玩了解,巧達數據還涉及購買「非法獲取的數據」的問題。上述員工對PingWest品玩透露:他多次參與過團隊在一些業務領域的競標活動,也就是多家「大數據公司」競爭同一個服務客戶,嘗試為其提供數據分析等服務。而在競標前,他們往往會密集從黑市上買進大批數據。

「巧達自己有許多介面能拿到簡歷,並不會將大部分精力放到撞庫等做法上。但那些數據中介可就不是了,他們每天就是撞庫,什麼數據都有。」

「撞庫」指的是利用已經泄露的用戶信息,去嘗試批量破解用戶在其他網站上的賬號。據巧達離職員工介紹,在特定的招標前,他們會購買與此次競標貼合的特定類型的數據,用於提供更多維度的交叉驗證,讓自己的數據能力在競標時看起來更強。

根據多家媒體此前的報道,這類提供敏感數據的「數據掮客」大量活躍在暗網中,鏈條大致是「黑客通過攻擊獲取數據,之後在暗網賣給一些數據中介,數據中介再轉手多次,賣到那些需要這些數據進行精準營銷的公司手裡。」一位從事數據埋點的工程人員表示。

「所以,當你看到最後這些公司花了多少錢買來這些高度隱私的真實數據時,其實價格已經翻了幾倍,而且這些數據只是露出水面的冰山一角,下面藏著的被獲取和交易的數據,隱私和敏感度還要更高。」

這種生意隨著「精準營銷」和「個性推送」的走紅而需求大增,一些「明星公司」也開始做起類似的生意。最典型的當屬新三板上市的數據公司「數據堂」。

2018年7月,新華社報道,山東省破獲的「特大侵犯公民個人信息案」中,數據堂「在8個月時間內,日均傳輸公民個人信息1億3000萬餘條,累計傳輸數據壓縮後約為4000G」,這些數據包括手機號碼、上網基站代碼等40餘項信息要素,「記錄手機用戶具體的上網行為,甚至部分數據能夠直接進入公民個人賬號主頁」。 而將這些數據以產品的形式出售,是數據堂這類「大數據公司」的重要業務形式和收入來源。

據上述巧達員工透露,巧達數據自己其實也在扮演著」數據中介「的角色,其CEO曾高調地表示:「簡歷是最有價值的自然人數據。巧達數據通過大數據及人工智慧技術研發的認知引擎,能夠快速還原網上自然人的清晰畫像。」本質上這部分生意就是在販賣「真實數據」,這與大部分的「數據中介」所從事的地下業務十分相似。

隨著大數據概念的興起,中國誕生了一大批自稱為大數據公司的初創企業,它們為那些不具備數據採集、分析能力的大量的中小互聯網企業提供數據服務,並藉此積累起自己的數據。這種長尾效應讓他們的資料庫也十分可觀,他們往往像巧達數據一樣,一邊會從其他渠道購買數據,一邊也會以同樣方式銷售自己收集來的數據。這些大數據公司和以BAT為代表的本身擁有海量用戶數據的公司一同,成為數據最主要的歸處。

而據PingWest品玩接觸的包括百分點和同盾等在近幾年高調地將自己定義為「大數據公司」的數名現員工以及前員工證實,他們普遍都購入過來自「黑市」的數據,且多發生在一些競標之前。

這種事實上違法的獲取方式,在這些大數據公司的PPT中,搖身一變以「外部購買」的名義曖昧呈現。「其實業內的人都知道這是什麼意思,你能從哪買啊,最大的數據要麼就在BAT手裡,人家沒必要賣給你賺這點錢,要麼在政府手裡,不會賣給你。你能買到的有用的數據,就只有那些渠道。」

這背後的數據歸屬明顯存在嚴重問題。黑產市場的數據掮客,一向是警方嚴打的對象,他們在非法售賣公民個人信息上的犯罪事實比較明顯,尤其在《網路安全法》發布並實施之後,整治和懲罰都更加嚴格。與此同時,通過爬蟲進行數據爬取的行為,在近些年也在產生越來越多的糾紛,監管者也在處理過程中逐漸建立應對的邏輯。

2015年,新浪微博將職場社交app脈脈告上法庭,指責後者在合作協議之外爬取了大量微博平台上用戶數據,並在合作終止後拒絕刪除數據。案件經過近兩年審理後,在2017年初終審判決,脈脈被判「不正當競爭」。這起案件被許多律師視作標杆性的判罰。其中明確的爬取其他平台用戶數據時的「三原則」,在之後貫穿於國內的各類判罰中——當兩個平台希望就數據進行分享合作時,數據提供方應首先取得自己用戶的同意,之後當數據獲取方收集數據時,應獲得數據提供分的授權,並且還需要再次告知用戶,並再次獲得他們的授權。也就是「用戶授權 平台授權 用戶再授權」三原則。

在這種邏輯下,2017年大眾點評起訴百度爬取其網站數據的案子中,百度敗訴;2019年3月,天津市濱海新區人民法院就微信起訴抖音擅自獲取微信用戶數據一案作出判決,要求抖音立即停止將微信/QQ開放平台授權登錄服務提供給多閃,停用此前獲得的微信用戶頭像和昵稱等,而今日頭條決定繼續上訴。

儘管沒有直接對爬蟲行為進行約束的法律法規,但在這些案例中,最常用到的法規包括《反不正當競爭法》中,第十二條第二款規定的「經營者不得利用技術手段……破壞其他經營者合法提供的網路產品或服務正常運行的行為」。而涉及刑事犯罪時,往往觸犯了《刑法》第285條規定的「非法入侵計算機系統」罪。

爬蟲的問題在美國互聯網界也屢屢成為爭議的焦點,其中《1986年計算機欺詐與濫用法》(CFAA)是經常被援引的條款。CFAA規定,未經授權及超過授權故意訪問計算機,並從有保護的計算機獲取信息,都構成犯罪。嚴重者甚至可能是刑事犯罪。

不過,2017年著名的「hiQ VS Linkedin」 的判決,卻顯示出與國內大部分判決不同的思路。Linkedin指責創業公司hiQ爬取其網站數據時違法其使用條款,但hiQ認為其爬取的都是公開數據。最終加州法院「站」在了爬蟲方一邊,認為Linkedin被爬取的數據都是網站上的「公開數據」,且單靠Linkedin單方面的條款和事後發出的警告,都不足以觸發《計算機欺詐與濫用法》,反而是LinkedIn有利用市場領先地位不正當競爭的嫌疑,法院要求它解除對hiQ爬蟲設置的臨時禁令和IP封鎖。

但仔細觀察這些案例會發現,無論是在國內的案例還是美國案例中,更多的關注點在於平台之間的數據歸屬爭議,卻往往有意無意迴避了一個更重要的問題:在平台彼此爭奪數據歸屬的背後,真正產生數據的用戶對數據的歸屬擁有怎樣的權利?

要回答這個問題,就需要弄明白用戶的數據究竟是如何被互聯網公司獲取的。


用戶知情權與「低隱私社會」之爭

「如果需要,其實我們可以還原你使用我們app時在屏幕上的所有操作。」一名總部在上海的O2O公司數據部門相關負責人對PingWest品玩表示。「你先點了哪裡後點了哪裡,你上下滑動屏幕的速度,你停留在哪個產品時間較久,我們在後台都知道。相當於給你的所有操作錄屏,並且傳回了我們這裡。」

當然,這些app並沒有真的給你錄屏,實現這種「恐怖」的數據收集,依靠的是「埋點」技術。也就是在特定的位置加入相應代碼,收集用戶在這些位置的操作行為,並發回到後端進行收集分析。這種技術早已是互聯網公司的標配,如今常常以一個SDK(軟體開發工具包)的形式添加在應用程序里。用戶在使用應用的過程中,不知不覺地就被應用收集了所有數據。

「今日頭條的SDK除了收集用戶在使用中記錄下的關鍵詞和閱讀行為外,還會通過獲取你的第三方社交產品賬號,來分析你的性別,通過獲取你的機型信息來分析你的年齡,另外還有地理信息,用來推出你的工作地點和生活住所等。」 今日頭條資深演算法架構師曹歡歡在一次公開分享中表示。

而隨著精準推薦的需求越來越高,採集數據的需求也跟著增加。「到最後,數據採集的埋點越來越多,幾乎成了全範圍的埋點,管它有用沒用都先採集回來再說。」上述O2O公司員工說。而在這樣的思路下,許多對用戶來說十分敏感的數據信息,也成了採集信息的目標。據兩名知情人士對PingWest品玩稱,今日頭條已經開始採集用戶安裝應用的列表,用於分析用戶的特徵。而這樣的許可權在其他一些大廠的數據採集中是「不敢碰」的。

而對於那些沒有能力自己埋點,或自己埋點性價比不高的中小企業來說,則普遍選擇使用第三方的SDK(軟體開發工具包),這些SDK由近年來誕生的「大數據公司」提供。

由於這些埋點和SDK的行為都是由互聯網應用自己決定,缺少技術知識的用戶很難反過來進行監督,無法搞明白自己到底哪些信息被收集。更多時候,是分發這些應用的應用商店來對應用的程序包進行審核。其中,由於蘋果的封閉生態,iOS系統的應用都只能通過蘋果App Store分發,蘋果對應用調取的許可權等規定更加嚴格,iOS系統向這些應用分享的底層數據也較少。但作為開源的Android系統,可以獲取的底層數據許可權相對更多。

「比如,同樣的一個應用,Android版的往往能更加準確地獲得用戶的位置數據,就是因為它底層的Wi-Fi列表數據是可以獲得的,我通過分析Wi-Fi屬於哪個店鋪,結合GPS就能獲得更準確定位,但iOS的Wi-Fi列表許可權不開放給第三方應用。」一名資深App開發人員表示。

而且,國內各類應用商店也更加魚龍混雜,在審核上尺度不一。這些因素在一起造成許多安卓應用,在獲取許可權和收集數據上變得十分貪婪。而儘可能多的獲取用戶各種行為數據,也成了第三方大數據公司們競爭的焦點。他們推出的SDK要求的許可權不斷增加。

據了解Talking Data相關業務的人士介紹,其提供的SDK 有能力收集與用戶藍牙配對的其他移動設備的信息,能夠收集Android用戶設備上的安裝程序列表,一方面可以用於藉此分析用戶的喜好,另一方面也藉此統計各類app的市場佔有率,後者是其數據分析業務的重要組成。

類似的模式普遍存在於這類通過提供SDK而進行數據採集和分析業務的公司中。關注移動互聯網行業的人會經常看到如TalkingData、易觀和個推等企業發布的行業份額類的數據報告,這背後就是基於它們廣泛提供的SDK。

而近幾年,這些公司都開始主打「可視化無埋點SDK」技術,讓購買服務的公司可以通過直觀的可視化操作頁面完成數據採集——「使用者不需要有太多代碼知識」。

但這也引起一些技術人員的質疑。「所謂無埋點,其實是全埋點,能埋的都埋了,能收集的都先收集走再說。」一家在杭州某電商類創業公司從事數據分析的工程師對PingWest品玩表示。「而且,我認為這種傻瓜化的產品和宣傳,其實造成的一個更危險的問題是,那些真的不懂或者不去關注這些第三方SDK的使用者,一方面不知道自己平台的哪些數據共享給了這些第三方公司,另一方面甚至有時候不知道自己觸碰了用戶的哪些許可權和數據。」

每個提供SDK服務的大數據公司,都會把收集來的數據中的一些「佔為己有」,從而豐富自己的數據資源,然後再把這些資源反過來集成到所謂的數據分析平台上,賣給客戶。也就是說,這些數據並不是只用於收集者自己的平台,而是作為某種商品進行了出售。

大數據公司百分點為此提出一個新的概念——「第二方數據」:「指企業和合作夥伴共同擁有的數據,所有權如何分配是商談出來的。在使用這些數據時,也要遵循雙方共同的利益」。

但在這過程中,用戶卻完全缺席,這些數據採集過程中,很多都沒有經過用戶的同意授權,甚至是沒有明確告知用戶。最近頻頻出現的懷疑app「監聽」自己,指責輸入法泄露自己隱私等新聞,就都是來源於用戶的不知情。

在2016年時,Google Play就曾集中下架一批使用TalkingData SDK的應用,原因正是過度收集用戶數據。之後TalkingData對外表示這是「溝通誤會」,並在之後單獨為Google Play 設計了一個改良版本。而據上述知情人士介紹,對國內各大Android應用市場的版本,依然可以獲取被視為高度隱私的許可權。「這樣的現象不只是TalkingData,類似個推等其他提供SDK服務的第三方公司,其實都有這樣的現象。」而絕大多數國內Android用戶的app正是來自這些應用市場。

talking data 為Google play商店版提供的sdk介紹頁面

對於這些數據採集的行為,大數據公司們的一個常用解釋是,數據已經「脫敏」。但目前全行業並沒有關於脫敏的統一標準,也沒有相關詳細法規。脫敏與否,完全成了大數據公司們的一種自覺,全靠一家公司的「底線」和價值觀來決定。

而與此同時,隨著各類公司對精準營銷和個性化推送等效果的更高要求,對「用戶畫像」的極度痴迷,客觀上形成了誰越能無限逼近用戶的真實身份,誰的數據服務就更有吸引力的事實。這種商業上的動力和脫敏的安全考量之間出現了明顯矛盾。很多漏洞也因此出現和被利用。

比如,在目前的許多第三方大數據公司的資料庫中,在脫敏處理後,用戶數據也依然會被分配各自的獨立ID。但是很多app其實同時都在收集用戶的設備號,其中主要的是手機的Mac地址和機器的IMEI號。前者全稱Media Access Control,是手機網卡的ID,用來定義網路設備的位置。後者是 International Mobile Equipment Identity,相當於機器的身份證。兩者都具有唯一性。儘管第三方公司將自己分配的獨立ID形容為一種將用戶真實身份去掉的方式,但顯然,只要將兩者對應,這些ID本身依然是一種真實信息。

而在電信實名制的當下,想要讓ID直接變成真人,只需要一步:當這兩個數據與電話號數據對應上時,用戶的真實身份就會徹底暴露。

今年315晚會上曝光的「探針盒子」,就是用來完成這最後一步。據央視的調查,這個設備能在發現用戶手機信號後,識別出用戶手機的MAC地址和IMEI號,並利用背後的「大數據技術」,將這些設備號轉換成手機號碼。

隨著用戶被收集的數據種類越來越多,用戶的隱私變成了一張拼圖,要不要把用戶的真實信息「拼」出來,完全取決手握這些拼圖的大數據公司們自己。

「目前很多案例都是集中在釐清平台之間互相爭奪數據的問題,但之後肯定不可避免的要深入到,用戶自己對個人數據的權利的問題。」 接近公安部第三研究所的人士透露。

最近一年,各類公司過度收集用戶數據成為整治的重點。據新華社報道,中央網信辦、工信部、公安部和市場監管總局在今年年初成立app違法違規收集使用個人信息專項治理工作組,「截至4月16日,舉報信息超過3480條,涉及1300餘款app。對於30款用戶量大、問題嚴重的app,工作組已向其運營者發送了整改通知。」

這些舉動像是一種鋪墊,背後是相關部門對個人數據權利的思考。

上述人士表示,在個人數據權利方面,相關部門一直在密切研究歐盟的GDPR,也就是歐盟去年5月開始實行的《通用數據保護條例》,它是全球現行的最嚴格的數據保護法案。而研究者對其過於嚴格的監管仍存異議。

比如,GDPR中提到用戶的數據可攜權,要求Facebook和Google等主要網路將用戶的數據「還給」用戶,由用戶直接跨平台掌握自己的所有數據。「這顯得過於激進。」

「過去的那種寬鬆,事實上是兩方面原因,一是監管跟不上業內的技術;另一個也是因為,監管方面還是有些傾向於管的太嚴會扼殺創新的觀點。」上述人士表示,這種傾向依然會繼續存在下去。

再比如,GDPR里的引言部分直接提出的「匿名化」的概念,規定個人數據要移除可識別的個人信息,與此同時在法案中對個人數據作出詳細羅列,位置數據、IP地址、MAC地址都屬於個人數據。這些數據在匿名化中必須抹去。

但作為對比,2019年4月10日,公安部第三研究所等機構聯合發布的《互聯網個人信息安全保護指南》中,在提到個人信息的保護時,則避免了使用「匿名化」這個比較激進的概念。「我們的概念還是和歐盟GDPR的匿名化有些不同的,最後我們只是直接引用《網路安全法》里的概念。」 相關人士表示。在這份指南中,對個人信息的保護要求的描述為「經過處理無法識別特定個人且不能復原」 。

「總體上你能看到有兩個思路,保證用戶隱私肯定是第一位的,二則是,數據只在用戶手裡是沒有價值的,所以還是要鼓勵公司對數據的合規處理。」上述人士透露。

最高人民法院司法案例研究院4月的一篇文章也透露出這樣的思路。文章指出,解決用戶個人數據保護的關鍵在於「區分包含用戶個人信息的原始數據與處理加工形成數據產品後的衍生數據,並分別判斷歸屬」。文章認為,原始數據歸屬於用戶,而衍生數據則歸屬於運營公司。這樣不僅能合理平衡雙方利益,更能「鼓勵網路企業不斷進行技術創新和產能創造,促進社會總體財富增加的需要。」

這些年這種客觀上「先發展再監管」的環境,導致許多互聯網公司根本的商業模式有很大一部分已經是基於這種野蠻的數據收集以及分享的基礎上。此外,人工智慧發展中最為關鍵的演算法模型,也極度依賴這些數據。

海銀資本創始人王煜全就認為:在人工智慧的競爭中,焦點就落在數據上,隨著企業越來越多的把數據拿出來給機器訓練,人類正進入一個低隱私社會,這成為一種不可逆轉的趨勢。

而這就導致事到如今,大數據從業者們對「隱私」的理解與用戶產生了差距,一提到保障隱私,大數據行業給出的應對往往是「不再和其他平台分享數據」,而用戶希望的則是連你這個平台自己也乾脆不要收集我的數據,出現了明顯的溝通障礙。

在這種情況下,監管部門也不可避免的要面對兩難的處境。一個可能的方式是,首先讓用戶和大數據公司們回到一個能夠溝通的狀態中去。比如要求這些大數據公司用普通人聽得懂的話向用戶說明白每個數據採集行為的目的,獲得用戶的正式許可,並且通過一定的方式讓用戶分享利用他們數據生成的收益。同時,在法律層面很難明確對數據歸屬進行明確確權的情況下,可以通過更加嚴厲的事後懲罰機制,來提高過度收取用戶信息以及販賣用戶信息等行為的成本,也為用戶提供某種類似遺忘權的權利,讓他們擁有更強的事後防禦能力。

在大數據時代,數據的確是擁有巨大潛質的新石油,但若在用戶權利和行業發展之間無法正確權衡,這種新石油也一樣能帶來巨大的污染。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 pingwest中文網 的精彩文章:

雲集IPO發行價定為11美元,最多籌資1.39億美元
手機業務轉交小米後,美圖進軍線下護膚市場

TAG:pingwest中文網 |