當前位置:
首頁 > 科技 > DeepMind提出特定路徑的反事實公平,減少敏感屬性對決策系統的影響

DeepMind提出特定路徑的反事實公平,減少敏感屬性對決策系統的影響

圖:unsplash

原文來源:arXiv

作者:Silvia Chiappa、Thomas P. S. Gillam

「雷克世界」編譯:嗯~阿童木呀、KABUDA

我們認為,學習公平決策系統所面臨的問題在於場景的複雜性,其中,一個敏感屬性可能影響公平和不公平路徑的決策。我們引入一種因果方法,它能夠忽略那些沿著不公平路徑所產生的影響,從而對以往的研究成果進行簡化和概括。我們的方法對受敏感屬性所影響的觀察結果進行了糾正,並將其用於形成一個決策。這能夠避免忽視公平信息,而且也不需要對通常難以進行的、特定於路徑的影響進行計算。我們利用深度學習和近似推理方面的最新發展來實現一個廣泛適用於複雜的、非線性場景的解決方案。

現如今,機器學習越來越多地被用來作出可能嚴重影響人們生活的決策,例如在警務、教育、招聘(Hoffman等人於2015年提出)、貸款和刑事風險評估(Dieterich等人於2016年提出)等領域。然而,大多數情況下,訓練數據中包含了我們社會中常見的偏見。這種偏見可能被系統吸收甚至放大,從而導致在涉及敏感屬性方面(例如種族和性別)做出不公平的決策。

為了響應政府和機構的呼籲,研究界最近開始通過各種觀點和框架來解決公平問題。解決這一挑戰的最簡單方法是降低或放棄敏感屬性(Zeng等人於2016年提出)。這可能會對模型的精確度產生不利影響,並且通常不會產生一個公平的過程,因為這個敏感屬性可能與其他屬性相關聯。一個更為複雜的方法是對數據進行預處理或提取不包含敏感屬性信息的表示(Zemel等人於2013年、Feldman等人於2015年、Edwards和Storkey於2016年、Louizos等人於2016年、Calmon等人於2017年提出)。兩種類型的方法都假定敏感屬性對決策所產生的影響都是完全不公平的。

為了使各種不同的公平觀念更具標準化,社區引入了一些統計標準以確定決策系統是否公平,並且已經開發了一種演算法,通過對優化施加約束或通過使用攻擊者從而獲得給定的公平標準。但是,對於給定的決策問題來說,哪種標準最適合往往並不清楚。更為棘手的問題是,直覺上似乎與類似公平相對應的標準並不總是能夠在數據集上同時得到滿足。最後,基於觀測值之間統計關係的方法存在著不能區分因果關係的危險,並且不能區分敏感屬性可能影響決策的各種不同的方式。

最近有人提出,使用因果框架將導致一個更為直觀、更有力、而且不太容易出錯的關於公平的推理方式。這一建議是將不公平性視為敏感屬性對決策所產生的不公平的因果效應,正如Pearl(於2000年)和Pearl等人(於2016年)所做的那樣,例如,分析伯克利在研究生入學時的所謂性別偏見的情況。

最近,Kusner等人(於2017年)引入了一個關於公平的因果定義,稱為反事實的公平性(counterfactual fairness),它指出,如果一個決策與一個在敏感屬性不同的反事實世界中所採取的決策相一致,那麼該決策對於個體是公平的,並提出了一個用於實現這個概念的通用演算法。該定義認為敏感屬性對決策的整體影響是有問題的。但是,在許多實際場景下,情況並非如此。例如,在伯克利所謂的性別偏見案例中,相較於男性申請者來說,女性申請者更頻繁地遭到拒絕,這是因為更多時候,她們申請的是入學率較低的學院。通過學院選擇而產生的性別影響並不公平。

圖1.(a)帶有混淆因子C的GCM導致A對Y產生因果效應(b)GCM具有從A到Y的一條直接和一條間接因果路徑(C)帶有混淆因子C的GCM導致M對Y產生影響

針對這種情況,我們提供了一種新的公平定義,並稱之為特定路徑的反事實公平(path-specific counterfactual fairness),其中規定,如果一個決策與在反事實的世界(在這個世界中,沿著不公平路徑的敏感屬性是不同的)中所做出的決策一致,那麼它對公眾個體而言就是公平的。

為了實現特定路徑特定的反事實公平,決策系統需要能夠辨別敏感屬性沿公平和不公平路徑對決策產生的影響,並忽視沿後者路徑所產生的影響。Kilbertus等人於2017年,Nabi和Shpitser於2018年提出限制模型參數的學習,以減小或消除不公平的影響,但這種方法有幾點限制和局限性:

?它需要規定約束條件。Nabi和Shpitser於2018年明確地計算了不公平效應的近似值,並在此約束條件下對模型參數進行了優化,以使效應必須存在於一個很小的範圍內。相反,Killbertus等人於2017年直接提出了決策變數在條件分布下的一組約束條件下決策變數的條件分布,從而消除了不公平影響。這兩種方法都有賴於模型中隨機變數之間線性關係的局限性。此外,對模型參數施加約束會扭曲潛在的數據的生成過程。

?為了做出決定,Nabi和Shpitser於2018年提出的系統要求通過不公平路徑對敏感屬性後代的所有變數進行平均。這會對系統的預測精準度產生負面影響。Killbertus等人於2017年從這類後代的子集中刪除了信息,儘管這不是必要的。

我們提出了一種不同的方法,該方法不是通過對模型參數施加約束來消除不公平影響,而是通過不公平的途徑修正敏感屬性後代的變數,從而做出公平的決策。修正的目的在於消除由敏感屬性印發所引發的後代中的不公平信息,同時保留剩餘的公平信息。這種方法更自然地實現了特定路徑特定的反事實公平,而不完全忽略來自有問題後代的信息。通過利用近期深度學習和近似推理方面的發展成果,我們提出了一種廣泛適用於複雜、非線性場景的方法。

我們引入了一種潛在的推理投影方法來實現特定路徑特定的反事實公平,這簡化、推廣並超越了以往的文獻研究成果。公平的決策是通過沿著不公平的路徑修正作為受保護屬性後代的變數實現的,而不是通過對模型參數施加約束來實現。這使我們能夠保留存在問題的後代中所包含的公平信息,並保持原有的數據生成機制不變。未來,我們計劃研究替代MMD的技術,以加強潛在空間和敏感屬性之間的獨立性。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

卡內基梅隆大學使用主題模型,提出了基於知識型的詞義消歧方法
為什麼數據科學家需要掌握「遷移學習」?一文詳解

TAG:雷克世界 |