當前位置:
首頁 > 科技 > 微軟發布「史無前例」的惡意軟體數據集,設17萬獎金徵集預測演算法

微軟發布「史無前例」的惡意軟體數據集,設17萬獎金徵集預測演算法

夏乙 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

一個「史無前例」的惡意軟體感染數據集亮相了。

這個數據集來自微軟,畢竟,他們的重要產品Windows,大概是全球遭受病蟲害最頻繁的軟體了。

同時推出的,還有一場Kaggle競賽:讓你訓練機器學習演算法,來預測一台電腦是不是感染了惡意軟體,俗稱「中毒了沒」。

我們先來看看這份數據集究竟有多「史無前例」。

它包含的信息相當全面,共有60多項。

每一行數據都對應著一個MachineIdentifier,相當於設備ID,也都包含一個代表著真實值的標籤HasDetections,顯示這台設備有沒有感染惡意軟體。

同時,還包含大量可能能用來判斷中沒中毒的信息,比如設備的運行狀況指標,以及本身軟硬體環境,比如:系統、防火牆版本、裝了幾個殺毒軟體、默認瀏覽器是哪一款、是個電腦還是個手機、顯示器解析度多少、處理器幾核什麼架構、內存多大、用的是不是固態硬碟……

甚至還包含這台機器是不是用來打遊戲的、是不是觸摸屏、帶不帶手寫筆,以及代表國家和城市的數字代碼等等。

這樣的數據一共有多少條呢?答案是,在訓練集里有近900萬條測試集里近800萬條。也就是說,微軟提供了來自1600萬台設備的信息,給你訓練演算法。

如果你對這麼大的數字不敏感……我們換個衡量大小的方式。這個數據集以csv形態存儲,一共8.47GB

這些數據,都來自Windows用戶,由Windows系統本身記錄和默認防火牆Windows Defender採集而來。當然,數據經過清洗,並不包含隱私信息。

龐大的數據集準備就緒,辦競賽也順理成章。於是,也就有了Kaggle上的微軟惡意軟體預測競賽

這個競賽,由微軟、美國東北大學、喬治亞理工大學聯合主辦。

參賽者需要做的,就是訓練一個演算法,為測試集里的每一台電腦,預測一個感染惡意軟體的概率,範圍在[0, 1]區間。

競賽設置了2.5萬美元(大約17萬元)的獎金池。其中,第一名獎金1.2萬美元,第二名7000美元,第三四五名分別是3000、2000、1000美元。

這個獎金設置,對安全界人士來說可能太低了點。英特爾安全研究員Marco Figueroa就在Twitter上說:

微軟你是認真的嗎?一個惡意軟體預測競賽才給2.5萬美元獎金?應該至少30萬美元起!

不過,參賽者們依然很熱情。

從上周啟動到量子位發稿時,已經有551支隊伍參加了。

現在距離競賽結束,還有兩個多月,新隊伍還在源源不斷地湧進來。昨天才殺入戰局的南京大學小哥哥(隊名叫「殺」的那位),一次提交就排到了榜首。

感興趣?競賽地址在這裡:

https://www.kaggle.com/c/microsoft-malware-prediction/

年度評選報名

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡就點「好看」吧 !


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

TAG:量子位 |