黑產用「未來武器」破解驗證碼,打碼小工都哭了
當我們正討論如何用AI推動產業升級、改變未來生活時,不法分子也在研究AI技術,並通過各種手段非法牟利。近日,騰訊守護者計劃安全團隊協助警方打掉市面上最大打碼平台「快啊答題」,挖掘出一條從撞庫盜號、破解驗證碼到販賣公民信息、實施網路詐騙的全鏈條黑產。而在識別驗證碼這一關鍵環節,黑產竟已用上AI人工智慧技術。該團伙運用AI技術訓練機器,極大提升了單位時間內識別驗證碼的數量,2017年一季度打碼量達到259億次,且識別驗證碼的精準度超過80%。藉此案件,我們也深入研究AI打碼平台黑產領域,對其犯罪模式進行剖析。
打碼平台:對抗驗證碼系統而生
對於「驗證碼」,大家並不陌生。在登錄各網站、平台、APP時,經常見到。常見的「驗證碼」有「字元式」、「字元+點選式」、「滑塊拼圖式」和難度逆天的「12306式」。
字元式 字元+點選式
滑塊拼圖式 12306式
驗證碼
(CAPTCHA ,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自動區分計算機和人類的圖靈測試),是區分計算機和人類的一種程序演算法,簡單解釋是一個答題的驗證。系統向請求發起方提問,能正確回答的即是人類,反之則為機器。從安全形度講,CAPTCHA經過不斷演化,已成為目前國內外各大互聯網公司用於對抗網路黑產惡意行為(如惡意登錄)的驗證碼安全策略,即我們現在俗稱的驗證碼系統。在網路黑產中,不法分子竊取網站資料庫後,需要確認帳號對應的密碼是否正確,將有價值的數據通過驗證的方式篩選出來,這一過程黑話叫「曬密」,意即撞庫。而「曬密」最核心的障礙就是互聯網公司設置的驗證碼安全體系。每天面對數以億計的「曬密」需求,黑產分子不可能人工逐個識別,而是需要提高「曬密」效率,批量識別。「打碼平台」這一專業服務便應運而生。
「打碼平台」會與「曬密」軟體作者合作:
1) 黑產團伙把盜取的帳號密碼信息導入到「曬密」軟體,「曬密」軟體模擬登錄協議,向互聯網公司伺服器發送登錄請求。
2) 伺服器檢測到登錄異常時,會下發驗證碼,進行安全策略攔截。
3) 「曬密」軟體將收到的驗證碼圖片發送給「打碼平台」,請求將圖片轉化為字元。
4) 打碼平台後台破解驗證碼,將字元結果返回「曬密」軟體,完成「曬密」(撞庫)流程。
5) 這些「曬密」後得到的用戶信息,則可能被騙子直接用於實施詐騙犯罪。
下面這張圖,可以看到「快啊答題」打碼平台所涉及的從撞庫到曬密再到打碼的整個黑色產業鏈:
早期的打碼平台,對驗證碼的識別基本是通過「人工+OCR降維識別圖片」完成。但是,互聯網公司的驗證碼安全策略升級後,包括出現像12306這樣識別難度高的驗證碼體系,「人工+OCR」方式的識別效率降低、成本升高,一段時期內,確實降低了黑產犯罪。
但是,黑產人員並不會因為一條路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應對。目前市面上最大的 「快啊答題」 打碼平台就是典型代表,他們運用目前最流行的人工智慧AI技術訓練機器,大大提高了識別驗證碼的精準度,也極大提升了犯罪嫌疑人在單位時間內識別驗證碼的數量。通過這個打碼平台管理後台的統計信息顯示,2017年1-3月,其打碼量達到259億次,平台累計打碼量超過1700億次。這套AI系統識別驗證碼成功率非常高,以下圖紅框標識處為例,當天的整體識別率會輸出成日誌文件,通過隨機調取某日的日誌文件,該日整體驗證碼識別率高達83.4%。
AI技術破解「曬密」低效難題
「快啊答題」打碼平台基於主流AI深度學習Caffe框架,使用vgg16卷積核神經網路模型,可以直接輸入原始圖像(避免了對圖像的複雜前期預處理),並能通過深度的機器學習來獲得較高的驗證碼識別率。
(分布式AI驗證碼識別系統簡易流程介紹)
由於不同方式生成的驗證碼風格迥異,且經常變換,為了實現精準識別,提高準確度,「快啊答題」收集了大量不同風格的樣本,並開發了驗證碼接收與分發模塊,輸入端對接打碼平台,輸出端根據驗證碼類型輪詢選擇並推送到相應的驗證碼識別模型,驗證碼識別完成,返回驗證碼字元串到打碼平台,打碼平台確認是否識別正確,並將結果反饋至該分布式AI驗證碼識別系統進行進一步優化。
(圖為識別平台自身的管理界面)
1、生成方法
打碼平台犯罪團伙通過以下步驟,迅速低成本地獲得海量驗證碼訓練數據:
(1)從互聯網公開渠道獲取字體樣本,輸出數字、字母、字母+數字、中文等不同類型驗證碼識別模型,獲得的公開字體庫,並且搜集背景圖片,如壁紙/風景類圖片。
(2)通過工具將不同字體的驗證碼進行加工處理(加干擾、變形等)後,寫入到背景圖片中,生成帶標定的訓練樣本。
由於目標問題是不定長度的字元序列識別,生成的訓練樣本的字元個數也是不定長度的,可以是1-6個任意字元,最多支持6個標籤的識別。黑產人員用一系列的驗證碼生成工具,來生成不同風格的驗證碼圖片,如下圖:
(作者通過工具生成的訓練樣本示例)
(3)打碼平台犯罪團伙基於收集到的超過10000個字體庫,通過網路採集和字型檔背景生成訓練樣本,針對驗證碼識別業務,積累超過5000萬的樣本庫,覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性,即便新型的驗證碼變種,也可達到較高識別率。
2、多標籤訓練
「快啊答題」打碼平台的AI系統,能將一張驗證碼圖片作為一個整體,將單字識別轉換成單圖多標籤、端到端的識別出驗證碼中的所有字元。
針對網路上主流驗證碼圖片一般不超過6個字元的特點,該AI系統設計6個標籤的分類,對於少於6個字元的驗證碼圖片,未含字元的標籤會判定為負樣本不予輸出。因此,最終的輸出結果只包含給定字元的有效標籤。也就是,原本的OCR識別只能簡單識別圖形上的文字,而在文字變化後識別率就大大降低。而使用Caffe框架,就可以對圖形內的局部特徵進行分類提取。
「快啊答題」打碼平台基於海量訓練樣本,建立了多標籤分類網路來訓練驗證碼的識別網路。漢字的網路訓練周期為1個月左右,而英文+數字的網路訓練周期則只需要1個星期。
另外,
「快啊答題」打碼平台還會通過搜集反饋回來的失敗樣本,以及人工打碼的標定數據,來實時訓練和更新識別網路,不斷迭代訓練進行優化,進一步提高神經網路模型的識別能力。
在以往的對抗黑產過程中,由於犯罪行為認定、法律適用等問題,即使對下游從事詐騙的團伙開展打擊,但在針對「打碼平台」這一犯罪上游環節上,能真正認定為共同犯罪,形成的實際判例非常少,無法實現全鏈條打擊。下游團伙藉助「打碼平台」死灰復燃,也是多類網路黑灰產屢禁不止的原因之一。在市場上,「快啊答題」打碼平台通過對接曬密軟體,根據打碼數量收取下游使用曬密軟體的黑產犯罪團伙費用,而後再按比例進行分成。
像 「快啊答題」 這類的打碼平台,不僅破壞了互聯網公司的驗證碼安全體系,也直接或間接的為更多網路黑產提供了幫助。在騰訊守護者計劃安全團隊和警方的共同努力下, 「快啊答題」 平台負責人及核心人員被公安機關以提供侵入、非法控制計算機信息系統程序工具罪批准逮捕。
*本文作者:守護者觀察,轉載請註明來自 FreeBuf.COM


※更適合作為主系統使用的Parrot Security簡介
※維基解密更新:CIA新工具HighRise可輕鬆竊取安卓設備簡訊
※Android病毒CopyCat已經感染全球1400萬台設備,幕後推手又是中國廣告公司?
※Apache CVE-2017-7659漏洞重現及利用分析
TAG:FreeBuf |
※不用密碼!驗證碼騙局可直接轉走你的錢
※簡訊驗證碼是做什麼用的
※將驗證碼識別功能集成到現有的爬蟲框架
※遭遇連環驗證碼簡訊轟炸?這時你的財產可能被「盜取」了
※雲賬戶被破解,簡訊驗證碼被盜怎麼辦?華為:我們的沒事
※一個驗證碼讓你「傾家蕩產」?這個碼你可得守好了……
※從構建分散式秒殺系統聊聊驗證碼
※半夜收到百條驗證碼,賬戶里的錢都沒了!新型盜刷太可怕!
※睡一覺就一無所有了,手機驗證碼是怎麼泄露的?
※廈門發生多起!手機收到一堆驗證碼,幾萬塊不翼而飛!警方這樣說…
※人人都討厭驗證碼,但我們為什麼離不開它?
※為什麼有的時候手機收不到驗證碼?原來是這些原因……
※總要簡訊驗證碼太麻煩了,那還有更好的方案嗎?
※注意!手機收到他人驗證碼,當心被騙
※最新詐騙手法曝光:發幾個驗證碼,就能掏空你的錢!
※一夜之間錢包被黑,簡訊驗證碼並不安全
※手機上了鎖為啥還丟錢?簡訊驗證碼的鍋!教你鎖SIM卡保平安
※大同人慎防騙子陷阱!親們看到這些驗證碼簡訊不要無所謂!
※簡訊驗證碼如此不安全!蘋果雙重驗證好太多
※簡訊驗證碼:是時候說再見了