10萬人的1000萬張圖像，微軟悄然刪除最大公開人臉數據集

科技 06-14

作者 | 神經小姐姐

轉載自HyperAI超神經（ID：HyperAI）

前幾日，微軟靜悄悄地刪除了一個公開的名人圖片數據集。這個本為世界上最大的公開人臉識別數據集，現在已經不能通過微軟的渠道訪問。

這個數據集包含了 10 萬張名人面部圖像，常被用來作為人臉識別的訓練。對於微軟刪除的真實原因，我們不得而知，但其背後牽扯到的數據隱私問題，包括人臉識別技術的安全規範，都值得一番深思。

在這次「靜默」刪除行為背後，又牽扯到了哪些問題呢？

微軟想解決的麻煩：MS Celeb 名人數據集

MS Celeb 1M 數據集，最早是微軟在 2016 年發布，其中共包含了 10 萬個名人，近 1000 萬張面部圖片，而這些數據都是從網路上搜集而來。

從網路中 100 萬個名人中，根據受歡迎程選出 10 萬個，然後利用搜索引擎，跳出每個人的大約 100 張圖片，就得到了這個龐大的數據集。

而這個數據集最初是用來服務比賽的。MSR IRC 是世界上最高水平的圖像識別賽事之一，MS Celeb 1M 數據集最初就是這個賽事所用。

MS Celeb 1M 常被用來做面部識別的訓練。但對於這些圖片均來自網路，所以也曾受到了質疑。而微軟則表示，是根據「知識共享許可 C.C 協議」，來抓取和獲得這些圖像的。

包括 IBM，松下，阿里巴巴，Nvidia 和日立等公司，都存在使用這個數據集的情況。

而這就涉及到了數據集使用的一些規範性問題，一位研究人員還指出，這涉及到人臉識別圖像數據集的倫理，起源和個人隱私等問題。

微軟為何悄然刪除公開人臉識別數據集

微軟已經在線上默默地刪除了MS Celeb 1M，並沒有特別的說明原因。

在金融時報的報道中，微軟表示，「該網站主要目的是用於學術，由一名前員工負責運營，之後我們移除了該網站。」

我們都相信肯定有其他原因，可能也有數據集圖片存在的問題。雖然微軟稱數據集均來自於公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者，對微軟使用他們的名稱和圖像信息，曾提出過質疑和批評。

還有技術人員推測，微軟可能會因違反歐盟《通用數據保護條例》（GDPR）而刪除數據，該法規於去年生效，旨在建立起數據安全的保護措施。

但微軟表示，它們沒有涉及到 GDPR 的條款，數據集相關網站退役只是因為，「曾經的競賽已經結束」。

當然，此次微軟移除 MS Celeb 數據集，並不妨礙它在學術研究等途徑的正常使用。那些用於處理資料庫的工具，現在也可正常訪問。

常用公開數據集，也可能有隱私問題

在英國「金融時報」調查之後，還有另外兩個學術單位也刪除了相關的數據集：分別是杜克大學的 Duke MTMC 監控數據集，和斯坦福大學的 Brainwash 數據集。

關於數據集和隱私問題，這不是第一次進入人們的視野。在今年 1 月底，IBM 發布了百萬級別的無偏見「人臉多樣性」數據集，就曾引發了廣泛的爭議。

雖然 IBM 強調此舉是為減少面部識別中的「偏見」問題，但數據集的來源，人物的是知情度等問題，都引發了不少質疑聲。

有媒體還報道， IBM 表示會按照被攝影者的意願，刪除數據集里的相關照片，但都只是一面之詞，並沒有實際的行動。

對於數據集的採集和使用規則，還是一個很不太明確的區域，尤其是網路便利之後，很多機構都能輕易地獲得大量圖片，用於面部識別等用途。

其實，對於數據集涉及的隱私問題，解決方案可以很簡單：關乎到用戶個人隱私信息時，應保證用戶的知情權，確保用戶是否願意貢獻數據。

但似乎缺少的從來都不是方法，而是意識。

（*本文為 AI科技大本營轉載文章，轉載請聯繫原作者）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技大本營 的精彩文章: