當前位置:
首頁 > 科技 > 10萬人的1000萬張圖像,微軟悄然刪除最大公開人臉數據集

10萬人的1000萬張圖像,微軟悄然刪除最大公開人臉數據集

作者 | 神經小姐姐

轉載自HyperAI超神經(ID:HyperAI)

前幾日,微軟靜悄悄地刪除了一個公開的名人圖片數據集。這個本為世界上最大的公開人臉識別數據集,現在已經不能通過微軟的渠道訪問。

這個數據集包含了 10 萬張名人面部圖像,常被用來作為人臉識別的訓練。對於微軟刪除的真實原因,我們不得而知,但其背後牽扯到的數據隱私問題,包括人臉識別技術的安全規範,都值得一番深思。

在這次「靜默」刪除行為背後,又牽扯到了哪些問題呢?

微軟想解決的麻煩:MS Celeb 名人數據集

MS Celeb 1M 數據集,最早是微軟在 2016 年發布,其中共包含了 10 萬個名人,近 1000 萬張面部圖片,而這些數據都是從網路上搜集而來。

從網路中 100 萬個名人中,根據受歡迎程選出 10 萬個,然後利用搜索引擎,跳出每個人的大約 100 張圖片,就得到了這個龐大的數據集。

而這個數據集最初是用來服務比賽的。MSR IRC 是世界上最高水平的圖像識別賽事之一,MS Celeb 1M 數據集最初就是這個賽事所用。

MS Celeb 1M 常被用來做面部識別的訓練。但對於這些圖片均來自網路,所以也曾受到了質疑。而微軟則表示,是根據「知識共享許可 C.C 協議」,來抓取和獲得這些圖像的。

根據協議,可以將照片重新用於學術研究,(照片中的人物並不一定授權許可,而是版權所有者授權。)但微軟發布數據集後,卻並不能掌管它的使用。英國「金融時報」進行了一項深入調查,結果表明數據被大量的用在了多個企業測試中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用這個數據集的情況。

而這就涉及到了數據集使用的一些規範性問題,一位研究人員還指出,這涉及到人臉識別圖像數據集的倫理,起源和個人隱私等問題。

微軟為何悄然刪除公開人臉識別數據集

微軟已經在線上默默地刪除了MS Celeb 1M,並沒有特別的說明原因。

在金融時報的報道中,微軟表示,「該網站主要目的是用於學術,由一名前員工負責運營,之後我們移除了該網站。」

我們都相信肯定有其他原因,可能也有數據集圖片存在的問題。雖然微軟稱數據集均來自於公眾人物的照片。但其中還包括少量非知名人物。這部分人臉照片的所有者,對微軟使用他們的名稱和圖像信息,曾提出過質疑和批評。

還有技術人員推測,微軟可能會因違反歐盟《通用數據保護條例》(GDPR)而刪除數據,該法規於去年生效,旨在建立起數據安全的保護措施。

但微軟表示,它們沒有涉及到 GDPR 的條款,數據集相關網站退役只是因為,「曾經的競賽已經結束」。

當然,此次微軟移除 MS Celeb 數據集,並不妨礙它在學術研究等途徑的正常使用。那些用於處理資料庫的工具,現在也可正常訪問。

常用公開數據集,也可能有隱私問題

在英國「金融時報」調查之後,還有另外兩個學術單位也刪除了相關的數據集:分別是杜克大學的 Duke MTMC 監控數據集,和斯坦福大學的 Brainwash 數據集。

關於數據集和隱私問題,這不是第一次進入人們的視野。在今年 1 月底,IBM 發布了百萬級別的無偏見「人臉多樣性」數據集,就曾引發了廣泛的爭議。

雖然 IBM 強調此舉是為減少面部識別中的「偏見」問題,但數據集的來源,人物的是知情度等問題,都引發了不少質疑聲。

有媒體還報道, IBM 表示會按照被攝影者的意願,刪除數據集里的相關照片,但都只是一面之詞,並沒有實際的行動。

對於數據集的採集和使用規則,還是一個很不太明確的區域,尤其是網路便利之後,很多機構都能輕易地獲得大量圖片,用於面部識別等用途。

其實,對於數據集涉及的隱私問題,解決方案可以很簡單:關乎到用戶個人隱私信息時,應保證用戶的知情權,確保用戶是否願意貢獻數據。

但似乎缺少的從來都不是方法,而是意識。

(*本文為 AI科技大本營轉載文章,轉載請聯繫原作者)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

推薦系統產品與演算法概述
老碼農冒死揭開真相:「別吹了,Python無用!」

TAG:AI科技大本營 |