當前位置:
首頁 > 最新 > 互聯網數據工作者的一天

互聯網數據工作者的一天

鍾平順(筆名),任職於某互聯網廣告公司,現居北京。

感謝鍾同學投稿!

1勤勉樸素乏善可陳

零點,電腦桌面右下腳的日期跳動了一下。

再調試調試訓練流程。代碼半小時,運行半小時。提交代碼,改相關設置。徒掛 title,多少熬夜,終於有些成果。。

一點多。還可看書。翻蔡東藩的《南北史演義》。滿紙驕佞荒淫,依然千秋萬世。讀了個把小時,意猶未盡。但還有因寫科普文擱置的The Elements Of Statistical Learning等著。

四點了,筋疲力竭,睡覺。

九點四十,鬧鐘響。拿起手機看一眼微信。有報警,起床,開機,

登陸,定位,通報一聲問題。

洗漱,吃飯,看天。天藍自行車,天灰公交。上班。

2雞毛蒜皮做職業人

安卓平台 SDK(Software Development Kit,軟體開發工具包)新增訂閱 Google Play API 功能: 收集設備正在下載的文件名。在用戶數據這一環有所補強,看來模型優化有望。[1]

[1] 做模型是為了提升廣告的轉化率,為廣告主降低獲客成本。一般數據收集越多越全,模型就更容易做好。

產品經理提出需求,對發回的日誌建立報表,分析用戶下載內容,以建立所謂的「用戶畫像「[2],方便向廣告主兜售流量……即使不論產品的藍圖,數據解析整理[3]仍是必要的。但解析任務屢屢失敗,解決問題需下一番功夫。

[2] 用戶畫像是互聯網常見的營銷方式,比如將用戶按性別、年齡分類,這樣廣告投放的時候可以選擇只投女性用戶之類的。

[3] 數據收集的下一步就是數據清洗,把有用的部分提取出來,驗證有沒有問題。

產品要求在數據介面里添加區分廣告類型投放數據的欄位。照著需求做了十來個判斷,臨了驗收又加了兩個。

輸入文件解壓後上 G,每次運行調試都耗時數分鐘。運行時間隙刷票圈,看到互聯網許可權問題被關心了起來,隨手評論了幾句。

新功能發回的日誌包含了從谷歌郵箱下載的文件名。面試通知,銀行賬單,新聞圖片,各式各樣的 pdf……[4]看來極難歸類整理。並且來自郵箱的信息包含大量不可見和編碼控制的字元,常常超過資料庫長度規範。這些數據簡直可以稱作智齒。可惜。

[4] 隱私泄露的一大途徑,過於開放的系統許可權。Android 系統為甚。

午飯便利店,能吃上 20 塊錢的番茄雞蛋加土豆牛肉套餐,就算幸福。

數據處理集群負載異常,似乎被入侵了。[5]

[5] 隱私泄露另一大途徑,系統漏洞。。

運營同事反饋某個廣告投放時無法顯示下載頁面,需要排查鏈接故障。

iOS 端負責分析競品的同事發現某大 SDK 跳轉時判斷了應用是否安裝。獲取全量應用安裝數據雖然有系統 API 可實現,但屬於 AppStore 高壓線,一經發現就可能下架。iOS11 後,獲取全量安裝列表的功能也失去了,高壓線收縮到只能查詢某應用是否已安裝。[6]若競品有高招繞過高壓線,再好不過。興趣始終是教科書模型中的一環。

[6] Apple 的許可權較為嚴格,但是強有力的數據帶來的收益足以支撐犯險。

大廣告商認為轉化效率低,要扣款,需要原始日誌。[7]

[7] 廣告商的 KPI 壓力就是犯險的動力。

手動換過所有感染節點,同時禁止外部用戶提交任務。

查詢網路請求日誌,發現最後跳轉的地址看起來都是以 lazada:// 之類開頭的——原始日誌正在下載——看來是寫在開發文檔里的特性——估計競品 sdk 判斷的技術與此類似——日誌下載完成——集群節點更換完畢——搜索 AppStore 官方文檔關於 schema 的內容[8]——整理下載好的日誌,發給運營同事——集群負載暫時正常——因為轉化效率低廣告主要關停推廣[9]——讀 AppStore 開發文檔,與我所料相近——查看集群開放埠——關閉可疑的埠——轉發文檔——為早上提交的代碼添加監控——檢查集群的密鑰和文件是否泄露——檢查模型的代碼是否正常運行——該提升數據的實時性還是該用新演算法——檢查集群數據是否有異常訪問……

[8] 大部分許可權和對應的功能在文檔里都會有描述。獨闢蹊徑成本很高,且基本是高壓線。不過利之所在,屢禁不止。

[9] 繁瑣的 KPI 處理。

看來集群入侵者只想用機器挖礦,對集群存儲的數據並無興趣。

偷偷摸摸踩著高壓線拿到的數據還在伺服器上,一直沒空看上一眼。這還是春節前趕著發出的版本,節後好分析數據。[10]只能留待來日了。

[10] 廠商想方設法搞小動作。

3徒言壯語空懷激烈

八點了。到家九點。練吉他。十一點。

想看書,想看數據,想看模型。想起今天好像說要寫點什麼。

接上相伴多年的 cherry 鍵盤[11]:

哪裡有什麼隱私?!汲汲營營,無非效率,心心念念,只是特徵。兢兢業業,唯唯諾諾,蝸居斗米。誰復記取虛無縹緲的權利。這虛擬世界中的大屠殺,權勢資本永是上座,權利技術俱是奴役。互相殘殺,無一生還。它發生過,在血肉之軀的世上。何曾有過溫柔敦厚的資本,何曾有垂拱無為的權力?血肉之軀,尚且奉為犧牲,如何為空權留有餘地?身臨瓮釜鼎鑊,還要嫌羹湯太熱——只能嫌羹湯太熱。

[11] 寫完又是一個勤懇的收集數據的好碼農。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 一粒X豌豆 的精彩文章:

TAG:一粒X豌豆 |