Nature:AI為什麼總是歧視重重?
大數據文摘出品
編譯:胡笳、王一丁、小七、CoolBoy
當使用谷歌翻譯將西班牙語的新聞翻譯為英語時,涉及到女性的短語通常都會翻譯為「他說」或「他寫道」。
常用於處理和分析大量自然語言數據的詞嵌入(Word Embedding)演算法通常會將歐美名字預測為令人愉快的人物形象,而將非裔美國人名預測為令人不愉快的人物形象。
這些只是AI應用歧視特定人群中的一小部分案例,還有更多未被發現。
正如很多學者所指出的,偏頗決策並非AI獨有,但隨著AI的影響範圍逐漸擴大,使得這個問題的解決變得尤為重要。
實際上,偏見問題的普遍性意味著我們需要系統的解決方案,下文我們列出了幾種可能的策略。
有偏數據
無論是在學術界還是工業界,從發行的出版物和媒體等公開刊物和報道來看,計算機科學家們均傾向於通過訓練更加複雜的演算法而獲得榮譽,而對於數據收集、數據處理和數據組織相對關注較少。
AI產生偏差的主要原因在於訓練數據。大部分機器學習任務都基於大規模的、帶標註的數據集進行訓練。例如,針對圖片分類的深度神經網路通常基於ImageNet進行訓練,而ImageNet上有著超過1400萬張的標註圖像集。
在自然語言處理中,標準演算法一般基於具有數十億個單詞的語料庫進行訓練。研究人員通常使用特定查詢關鍵詞通過爬取類似谷歌圖像、谷歌新聞等網頁來搜集數據,或者通過整合例如維基百科等比較容易獲取的數據源上的信息來構建數據集。
這些數據集後續通常由研究生或眾包平台,如亞馬遜眾包平台(Amazon Mechanical Turk)進行標註處理。
這些處理方法可能會無意識地讓數據產生性別、種族和文化偏見。
通常來說,數據中包含的某些群體佔比較高,而另一些群體則佔比較少。ImageNet作為推動計算機視覺研究的訓練數據源,其中超過45% 的數據來源於美國用戶,而這些數據提供者僅佔全世界人口的 4%。
相比之下,中國和印度用戶總共貢獻了 3% 的數據,而這些國家的人口佔據了全世界人口的36% 。
這種地理多樣性的缺乏從某種情況下解釋了為何計算機視覺演算法會將一張美國傳統新娘的照片標記為「新娘」、「禮服」、「女人」、「婚禮」,而將另一張北印度新娘的照片則標記為「表演藝術」和「服裝」。
在醫學領域,機器學習預測器可能特別容易受到有偏數據集的影響,因為醫學數據的生產和標註成本非常高。去年,研究人員使用深度學習從照片中識別皮膚癌。
他們在129,450張圖片集上進行模型訓練,其中60% 的圖片來源於從谷歌圖片。但是其中有不到5%的圖片是屬於深色皮膚人群的,並且該演算法並未在深色皮膚人群上進行過測試。因此這個分類器對不同人群的性能可能會有顯著變化。
造成偏差的另一個原因是演算法本身。
典型的機器學習程序會嘗試最大化訓練數據的整體預測準確性。如果訓練數據中一組特定群體的出現頻率明顯超過其他群體,則程序將會針對此類群體的數據進行優化來提供整體準確率。
一般計算機科學家基於「測試數據集」進行演算法評估,但測試集通常是原始訓練集的隨機子樣本,所以也有可能存在同樣的偏差。
有缺陷的演算法可以通過循環反饋放大偏差。想像一下根據統計學訓練的系統,例如谷歌翻譯,其默認使用的是男性代名詞。
這種模式是由英語語料庫中男性與女性代名詞比例2:1的情況造成的。更糟的是,每一次翻譯程序默認翻譯為「他說」,都會增加相應男性代名詞出現在網頁上的幾率——這可能會潛在地影響來之不易數據糾偏進展。
得益於大規模的社會變革,才使得男女代名詞的比例從20世紀60年代的4:1下降到現在的2:1。
平衡傾斜
數據中的偏差常常會反映出制度建設和社會權利關係的深層次和隱性失衡。以維基百科為例,它似乎是一個豐富多樣的數據源。


※德國本屆世界盃勝算最大?帕紹大學基於ELO評級預測
※教機器遺忘或許比學習更重要:讓AI健忘的三種方式
TAG:大數據文摘 |