演算法替代人類做決策越來越多,誰來監督它是否公平?
來源:Nature自然科研
隨著機器學習滲透到社會,科學家們正試圖幫助防範不公正。
2015年,一位憂心忡忡的父親問了一個至今仍在Rhema Vaithianathan心頭盤桓的問題。那天幾個人聚集在匹茲堡的一間地下室,聽Vaithianathan解釋軟體可以如何解決兒童虐待問題。
每天,這片區域的熱線都會接到數十通懷疑兒童處於危險中的電話;之後,部分電話會被中心工作人員標記出來,進行調查。但這一系統並不能發現所有虐童事件。那時,Vaithianathan和同事剛拿下50萬美元的合同,合同內容是搭建一套演算法來解決這個問題。
Mario Wagner
Vaithianathan是一名衛生經濟學家,也是奧克蘭理工大學社會數據分析中心的聯合主管。她對幾位聽眾解釋了演算法該如何運作。比方說,在接到電話的時候,一套經過大量數據(包括家庭背景和犯罪記錄)訓練的工具可以進行風險評分,幫助工作人員標記需要調查的家庭。
在Vaithianathan邀請聽眾提問時,這位父親站起來開口了。他說自己曾經有毒癮,一個孩子已經被社工從家裡帶走,但在那之後他已經不再碰毒品,如果讓計算機來評估他的記錄,那麼他的改過自新是否只是白費?換句話說,演算法能對他做出公正的判斷嗎?
Vaithianathan向他保證,永遠會有人工參與其中,這樣他所付出的努力就不會被忽視。但現在自動工具已經部署後,她還是想到了這位父親的問題。計算機運算越來越多地用於指導可能改變生活的決定,包括哪些人被指控犯罪後應該被拘留;哪些家庭可能存在虐童情況而需要調查,以及在所謂的「預測性警務」中,警察應當關注哪些社區。
這些工具能讓決策更統一、精確、嚴謹。但對於它們的監管是有限的,誰都不知道有多少工具在使用中。比方說2016年,美國記者稱有一套被用來評估未來犯罪活動風險的系統歧視黑人被告。
紐約大學研究中心——AI Now研究所的聯合創辦人Kate Crawford說:「最讓我擔心的是,我們用來改善問題的系統,卻反過來使問題加劇了。」該中心主要研究人工智慧對社會的影響。
Crawford和其他人的警告,促使政府開始著手讓軟體承擔起更多責任。去年12月,紐約市議會通過了一項法案,成立一個工作組,專門就如何公開分享有關演算法的信息以及進行偏見調查出謀劃策。
今年,法國總統馬克龍表示,法國政府將公開所有使用的演算法。在本月發布的指導意見中,英國政府要求公共行業和數據打交道的部門都要做到透明、負責。5月底開始生效的GDPR(歐洲通用數據保護條例)也有望促進演算法問責制。
Rhema Vaithianathan開發相關演算法來標記潛在的虐童案件。來源:奧克蘭理工大學
在這些活動中,科學家們面臨著許多複雜的問題,總結來說就是,何為演算法公平。像Vaithianathan這樣的研究人員,在公共機構工作,他們在開發負責、高效的軟體時,必須努力解決自動化工具可能帶來的偏見或加劇現有不公平現象的問題——尤其是這些工具用在本就存在歧視的社會系統中時。
猶他大學的理論計算機科學家Suresh Venkatasubramanian指出,自動決策工具引發的問題並非新聞。用於評估犯罪或信用風險的精算工具已經存在數十年,但隨著大型數據集和複雜模型越來越普及,人們無法再忽視這些工具的倫理影響。「計算機科學家別無選擇,只能參與其中。我們不能再像以前一樣,把演算法丟出去,不管不顧。」
公平交換
2014年,當匹茲堡所在的阿利根尼縣人力服務部門提議用自動化工具時,還沒有決定如何使用,但他們知道,他們想要公開透明。該部門數據分析、研究和評估辦公室副主任Erin Dalton說:「我非常反對用政府的錢做黑箱解決方案,而不能告訴我們的社區我們正在做什麼。」
這個部門有一個1999年建的中央數據倉庫,裡面存著大量個人信息——包括住房、心理健康和犯罪記錄。Dalton說,Vaithianathan的團隊非常注重兒童福利。
AFST(阿利根尼縣家庭篩查工具)創建於2016年8月,熱線每接到一個電話,呼叫中心的人員都能看到自動風險評估系統生成的得分,分數在1-20之間,20代表最高風險,也就是AFST預測孩子將在兩年內被帶走的家庭,或孩子被疑遭虐待而被再次轉接到該縣的家庭(現在該縣正在逐步放棄第二個指標,因為這一指標未能精準反映需要進一步調查的案例)。
加州斯坦福大學的獨立研究人員Jeremy Goldhaber-Fiebert仍在評估這一工具。但Dalton表示,初步結果表明該工具是有幫助的。在呼叫中心工作人員提交給調查人員的案例中,理由合理的情況更多了。對於情況類似的案例,篩查人員的判斷似乎前後更一致了。當然了,他們的判斷並不一定吻合演算法的風險得分,該縣希望能使二者進一步統一起來。
伴隨著AFST的部署,Dalton希望得到更多幫助,來判斷它是否存在偏見。2016年,Dalton邀請卡內基梅隆大學的統計學家Alexandra Chouldechova來分析該軟體是否歧視特定群體。Chouldechova之前已經在思考演算法中的偏見,正準備就該話題引發的廣泛討論發表自己的意見。
當年5月,新聞網站ProPublica的記者報道了佛羅里達州法官使用商業軟體來幫助決定被控犯罪的人是否應該在審判前釋放。這款叫做COMPAS的軟體的作用是:預測一個人如果被釋放,在接下來兩年內再次犯罪的可能性,進而生成相應得分。記者稱該軟體對黑人被告存有偏見。
ProPublica團隊調查了數千名被告的COMPAS得分,並將黑人和白人被告的相對比,發現許多黑人被告是「假陽性」:他們被COMPAS歸類為高風險人群,但之後並未被指控犯其它罪行。
開發該演算法的密歇根公司Northpointe(也就是現在俄亥俄州的Equivant)稱,COMPAS不存在偏見,在預測被歸類為高風險的白人或黑人被告會否再次犯罪方面(所謂「預測性平等」概念的一個例子),這款工具同等有效。
Chouldechova很快表明,Northpointe和ProPublica對公平的度量存在偏差。預測性平等、相等的假陽性錯誤率以及相等的假陰性錯誤率都是「公平」的方式,但如果兩個組別之間存在差異——例如白人和黑人被再次逮捕的比率,那麼在統計上就無法調和。
倫敦大學學院負責機器學習的研究員Michael Veale說:「魚和熊掌不能兼得。如果你想實現這種方式的公平,那麼從另一個角度看未必公平,雖然另一個角度也很合理。」
如何定義「公平」
研究演算法偏見的研究人員表示,定義公平的方式很多,有時候還相互矛盾。
想像在刑事司法系統中使用的一套演算法,根據再次被逮捕的風險,給兩組對象(藍色和紫色)生成得分。歷史數據顯示,紫色一組的逮捕率較高,所以演算法模型會把更多紫色組的人歸類為高風險(如圖所示)。即使模型開發人員試圖通過不直接告訴模型誰是藍色組人,誰是紫色組人來避免偏見,但偏見還是可能發生。那是因為,用於訓練中的其它數據可能暗示了某個人屬於哪一組。
高風險狀態並不能完美預測再次逮捕,但演算法開發人員想要讓預測更公平:對於兩組人來說,「高風險」等同於兩年內被再次逮捕的概率為2/3。(這種公平性被稱為預測性平等。)未來逮捕的比例可能不會遵循過去的模式。
但在這個簡單的例子中,假設未來逮捕與過去模式相同,那麼:如預測的那樣,藍色組10個人當中的3個和紫色組10個人當中的6個(以及每組被標記為高風險中的2/3的人)會被再次逮捕(圖中帶灰色豎條的)。
該演算法確實實現了預測性平等,但有個問題。在藍色組中,7個人中的1個(14%)被誤列為高風險;在紫色組中,4個人中的2個(50%)被誤列為高風險。因此,紫色組更容易出現「假陽性」:也就是被列為高風險。
只要藍色組和紫色組成員的重新逮捕率不同,那麼就很難實現預測性平等和相等的假陽性率。從數學上也不可能在實現這一點的同時,滿足第三個公平度:相等的假陰性率(被列為低風險但再次被逮捕的人;在上述例子中,藍色組和紫色組的這一概率恰巧相等)。
有人會認為,紫色組假陽性率較高是歧視。但其他研究人員認為,這並不能證明演算法存在偏見。並且,這一不平衡可能由更深層的原因導致:紫色組可能從一開始就被不公平地當作逮捕目標。演算法根據過去的數據準確預測紫色組被重新逮捕的人數更多,這可能是演算法在重現——或鞏固——早已存在的社會偏見。
事實上,從數學角度來說,還有更多定義公平的方法:在今年2月的一次會議上,計算機科學家Arvind Narayanan發表了題為「21種公平定義及其政治學」的演講,並且他指出還有其它定義。
一些調查過ProPublica案例的研究人員(包括Chouldechova)表示,不相等的錯誤率是否反映偏見還不明確。相反,斯坦福大學的計算機科學家Sharad Goel認為,它們反映的是一個群體比另一個群體更難預測。「事實證明,這多多少少是一種統計假象。」
對於一些人來說,ProPublica案例突出了這樣一個事實,即許多機構缺乏資源來正確評估演算法工具。 「如果(這個案例)說明了什麼的話,那就是聘請Northpointe的政府機構沒有給他們一個明確的公平定義。」
芝加哥大學數據科學和公共政策中心主任Rayid Ghani說道,「我認為政府需要學習、接受培訓以了解如何使用這些系統,如何定義他們所應衡量的指標,確保供應商、顧問和研究人員所給的系統是公平的。」
阿利根尼縣的經驗表明了解決這些問題是多麼困難。當Chouldechova按照要求於2017年年初開始挖掘該縣的數據時,她發現她的工具也遇到了類似的統計失衡。她說該模型有一些「非常不合需要的特性」,在種族和族群中的錯誤率差異比預期高很多。
另外,由於未知原因,在同樣得到最高風險得分的情況下,被虐待的白人兒童轉移率要低於黑人兒童。阿利根尼和Vaithianathan的團隊目前正在考慮轉向另一種模型。Chouldechova說,新模型可能有助於減少不公平現象。
儘管統計失衡是一個問題,但演算法中潛藏著更深的危險——即它們可能會加劇社會不公正。舉例來說,諸如COMPAS之類的演算法,其開發初心是預測未來犯罪活動的可能性,但它依賴於可度量的指標,例如被被捕。
而警務的差異可能意味著,某些社區不相稱地被警方列為重點監控目標,因而在其它社區可能被忽視的罪行,在這些社區卻會被逮捕。
華盛頓特區非營利性社會公正組織Upturn的董事總經理David Robinson表示:「即使我們能夠準確預測什麼事情,我們所預測的事情也可能是不公正的。」在很大程度上,公正取決於法官依賴這些演算法做決定的程度——而這一點我們知之甚少。
新澤西州警方使用自動工具來幫助確定哪些區域需要巡邏。來源:Timothy Clary/AFP/Getty
阿利根尼縣的工具受到了類似的批評。作家兼政治學者Virginia Eubanks認為,無論演算法是否準確,它所依賴的都是有偏見的數據,因為黑人和種族混合家庭被報告的幾率更大。此外,由於演算法依賴阿利根尼縣系統中的公共服務信息——並且因為使用此類服務的家庭通常很貧困——因此演算法使他們要受到更嚴格的審查,事實上這是一種不公平的懲罰。
Dalton承認缺乏可用數據是一種限制,但這個工具還是必要的。今年早些時候,阿利根尼縣在AFST網站上回應Eubanks說:「不幸的社會貧困問題並不能否認我們有責任提高決策能力,服務於那些孩子。」
透明度及其限制
雖然有一些機構會開發自己的工具或使用商業軟體,但學術界發現需要開發一些服務公共部門的演算法。芝加哥大學的Ghani一直在和許多部門——包括芝加哥公共衛生部門合作,開發用於預測哪些房屋可能含有有毒鉛的工具。
在英國,劍橋大學的研究人員與達勒姆縣的警察合作建立了一套模型,幫助確定誰適用干預計劃,而不用起訴。今年,Goel和他的同事成立了斯坦福計算政策實驗室,正在與包括舊金山地方檢察官辦公室在內的政府機構合作。
該辦公室的分析師Maria McKee表示,與外部研究人員合作至關重要。「我們都知道什麼是正確的,什麼是公平的,」她說,「但經常沒有工具或研究來準確、系統地告訴我們如何實現。」
人們對提高透明度的需求很大,阿利根尼縣採取開放的政策,讓利益相關者參與其中,對記者常開大門。AI Now研究所的Crawford說,當演算法「是一個閉環,無法進行審計、審查或公開討論」時,通常會加劇問題。但目前還不清楚應當以何種方式使演算法更開放。
Ghani說,簡單地發布模型的所有參數並不能使相關人員了解演算法的運作方式,透明度也可能與保護隱私相衝突。在某些情況下,透露過多演算法運作信息還有可能導致系統被操縱。
Goel坦言,問責制的一個重大障礙是,機構通常不會收集有關工具使用方式或性能的數據。「很多時候沒有透明度可言,因為沒什麼可分享的。」
比方說,加州立法機構有一項草案,要求風險評估工具幫助減少被告必須支付保釋金的頻率——這種做法一直受到批評,因為它是對低收入被告的一種懲罰。Goel希望該法案規定,只有當法官與工具決策及特定細節——包括判決結果意見相左時才能收集數據,每一件案子都是如此。
「我們的目的是從根本上減少監禁,同時維護公共安全,」他說,「所以我們必須要知道——這套工具有用嗎?」
Crawford表示,我們需要一系列「法定程序」來確保演算法負責。今年4月,AI Now 研究所為有意負責任地採用演算法決策工具的公共機構搭建了一個框架;此外,它還呼籲徵求公眾意見,並讓人們能夠對演算法做出的決策提出上訴。
許多人希望法律能夠實現這些目標。Solon Barocas是康奈爾大學研究人工智慧倫理與政策問題的研究員,他說這方面早有一些先例。Veale說,美國的一些消費者保護條例在對消費者信用做出不利判定時會給予解釋;早在上世紀70年代,法國就有賦予公民解釋權和反駁自動化決策的立法。
不過,最大的考驗還是5月25日生效的歐洲GDPR。GDPR的一些條款——如賦予用戶了解自動化決策案例中涉及的邏輯信息的權利——似乎可以促進演算法問責制。
但英國牛津互聯網研究所的數據倫理學家Brent Mittelstadt表示,GDPR或許為那些想要評估公平性的人創造了一個「合法雷區」,進而阻礙演算法問責制的發展。
要測試一種演算法是否存在偏見(例如是否偏袒某一種族),最佳方法是了解進入系統的人的相關特徵。但Mittelstadt表示,GDPR對使用此類敏感數據的約束非常嚴厲,懲罰很高,因此有能力評估演算法的公司可能沒有動力處理這些信息。「這似乎會對我們評估公平性能力造成限制。」Mittlestadt說。
GDPR條款能在多大程度上讓公眾了解演算法並對決策進行上訴,也還是個問題。如上所述,一些GDPR條款僅適用於完全自動化的系統,也就是說,受演算法影響、但最終決策權在人類手中的情況被排除在外。Mittelstadt說,相關細節最終應該在法庭上澄清。
審查演算法
與此同時,針對尚未開放供公眾審查的演算法,研究人員也在提出各種檢測偏見的策略。Barocas認為,企業可能不願意討論他們是如何努力解決公平問題的,因為這意味著首先你要承認存在問題。
而即便他們願意討論,其措施也可能是緩解偏見,但無法消除偏見。「所以任何關於這一話題的聲明,都將不可避免地承認問題仍然存在。」不過,最近幾個月,微軟和Facebook都宣布將開發檢測偏見的工具。
一些研究人員,如波士頓東北大學的計算機科學家Christo Wilson,試圖從外部發現商業演算法的偏見。比方說,Wilson創建了叫Uber的虛擬乘客,又將虛擬簡歷上傳到求職網站,檢測是否存在性別偏見。
其他研究人員也都在開發相關軟體,希望可以用於一般的自我評估。今年5月,Ghani和他的同事發布了名為Aequitas的開源軟體,幫助工程師、決策者和分析師審查機器學習模型的偏見;一向對演算法決策危險性直言不諱的數學家Cathy O『Neil也成立了一家公司,和企業進行私下合作,審查它們的演算法。
一些研究人員呼籲在刑事司法應用和其他領域退後一步,不要只專註開發預測演算法。演算法工具或許善於預測誰不會出庭,但是搞清楚人們為何不出庭,或者設計干預方式,例如發簡訊提醒或安排交通,幫助提高出庭率,豈不更好?
「這些工具常做的是修修補補,但我們需要的是全面的改變。」紐約大學法學院民權律師和種族平等倡導者Vincent Southerland說道。他認為圍繞演算法的激烈辯論「迫使我們所有人都要開口,就我們正在使用的系統及其所運行的方式提出一些非常嚴肅的基本問題,並做出回答」。
Vaithianathan現在正致力於將她的虐童預測模型推廣到科羅拉多州道格拉斯縣和拉里默縣,即使模型所嵌入的總體系統存在缺陷,但她依然能夠看到優化演算法的價值。即便如此,她說「不能冒冒失失地將演算法丟入複雜系統中」,必須有了解大背景的人幫助才能落實。
即便是最優的演算法也會面臨挑戰,因此,在缺乏直接答案和完美解決方案的情況下,保證透明度是最好的辦法。「我總是說:如果做不到正確,至少要誠實。
科普百分百·助力科普中國,讓科學知識在網上和生活中流行起來。溫馨提示:以上為科普百分百網上閱讀所瀏覽內容,轉載分享只為知識傳播和學習宣傳,本文內容僅代表原作者觀點,如有意見建議,請私信留言,我們會及時處理。歡迎關注,謝謝。


TAG:科普百分百 |