人工智慧時代該如何奪回我們的「不知情權」

最新 07-05

據國外媒體報道，柏林牆倒塌後，東德公民終於有機會閱讀到斯塔西（Stasi，東德的國家安全機構，被認為是當時世界上最有效率的情報和秘密警察機構之一）保存的關於他們的資料。然而迄今為止，只有大約10%的人真的去查閱了這些資料。

2007年，脫氧核糖核酸（DNA）結構的發現者之一詹姆斯·沃森（James Watson）表示，他並不想知道自己的載脂蛋白E（ApoE）基因信息。該等位基因被認為是阿爾茨海默症的風險因子。

矽谷崇尚快速試錯的文化，但這可能不是我們想要的對待個人信息的方式。

民意調查顯示，如果有選擇的話，大多數人寧願不知道自己的死亡日期————甚至是快樂事件的發生日期也不想知道。

以上這些都是故意選擇不知道的例子。蘇格拉底可能會提出，未經審視的生活不值得過；而霍布斯則會爭論稱，好奇心是人類最主要的激情；但還有許多古老的故事向我們描述了知道太多也會帶來危險。從亞當、夏娃和智慧樹，到盜取取火秘密的普羅米修斯，這些故事告訴我們，現實生活中需要在選擇知道和不知道之間達成微妙的平衡。

然而，如果出現一種技術，能以無法預知的方式改變這種平衡，同時讓我們在決定什麼時候保持不知情的問題上變得複雜的話，又會帶來什麼後果？這種技術其實已經出現了，那就是人工智慧。

人工智慧可以利用相對較少的數據來找到模式並做出推論。例如，只需要幾個Facebook上的點贊就可以預測出你的個性、種族和性別。還有一種計算機演算法聲稱，只需根據人們的照片，就能以81%的準確率區分同性戀和異性戀男性，而區分同性戀和異性戀女性的準確率為71%。另一種名為「替代性制裁的懲罰性罪犯管理分析」（Correctional Offender Management Profiling for Alternative Sanctions，COMPAS）的演算法則可以通過青少年被捕記錄、家庭犯罪記錄、教育、社會隔離和休閑活動等數據，來預測犯罪者再犯的可能性，準確率達到65%。

在這些例子中，結論和所用的數據可能在本質上存在著驚人的偏差（即使某些結果的有效性仍在爭論中）。這使得控制我們所知道的內容十分困難，而且也沒有什麼法規來幫助我們保持不知道的狀態：不存在受保護的「不知情權」。

於是，這就創造了一種氛圍，用Facebook的早期座右銘來說，我們很容易「快速行動，破除陳規」（move fast and break things）。但是，當涉及到我們私人生活的細節時，「破除陳規」是否就是我們想要的呢？

幾十年來，政府和立法者都知道「潘多拉的盒子」有時候最好還是不要打開。至少在20世紀90年代，保護個人不知情權利的法律就已經出台。例如，1997年的「歐洲人權和生物醫學公約」（European Convention on Human Rights and Biomedicine）規定：「每個人都有權了解其被收集的有關健康狀況的任何信息。但是，應當遵從個人不希望被告知的意願。」類似的，1995年世界醫學協會的「患者權利宣言」（Rights of the Patient）中指出：「患者有權利明確要求不被告知（醫療數據），除非是為了保護其他人的生命。」

然而，為人工智慧制定「不知情權」法規是完全不同的問題。雖然醫療數據受到嚴格管制，但人工智慧所使用的數據往往掌握在名聲不佳的盈利性科技公司手中。人工智慧處理的數據類型也更廣泛，因此任何相應的法律都需要對什麼是「不知情權」有更深入的理解。研究故意不知情的心理將有助於設計適用於人工智慧的不知情權法律。不過，令人驚訝的是，這一嚴謹的科學研究話題長期以來一直被忽略，或許是因為某種隱含的假設，即故意忽略信息是不理性的。

心理學家拉爾夫·赫特維格（Ralph Hertwig）和法律學者克里斯托弗·恩格爾（Christoph Engel）近期發表了一篇文章，對故意選擇不知情的動機進行了細緻分類。在他們識別出的動機中，有兩組尤其與面對人工智慧時對不知情的需求密切相關。

第一組動機圍繞公正和公平展開。簡而言之，知識有時會破壞判斷力，而我們往往選擇以故意不知情作為回應。例如，學術論文的同行評議通常是匿名的。大多數國家的保險公司在登記之前不得獲取有關客戶健康狀況的細節；他們只能知道一般的健康風險因素。這種考慮尤其與人工智慧關係密切，因為人工智慧可以產生極具偏見的信息。

第二組相關的動機是情緒調節和避免遺憾。赫特維格和恩格爾寫道，刻意的不知情可以幫助人們維持「珍視的信仰」，並避免「精神不適、恐懼和認知失調」。故意不知情其實非常盛行。調查中大約90%的德國人希望避免可能由於「預知諸如死亡和離婚等負面事件」而產生的負面情緒，40%到70%的人也不想知道正面事件，以幫助保持「對驚喜和懸念的積極感受」，比如不知道未出生孩子的性別。

這兩組動機能幫助我們理解在人工智慧面前保護不知情權的必要性。舉例來說，人工智慧「同志雷達」（gaydar）演算法的潛在收益似乎接近於零，但是在公正性和公平性方面的潛在成本卻很高。正如《經濟學人》（The Economist）所說的那樣，「在世界上同性戀社交不被接受或被認為非法的部分地區，這樣的演算法可能對安全構成嚴重威脅。」同樣的，NtechLab目前正在開發的種族識別人工智慧系統所能帶來的潛在收益，與其對公正性和公平性的負面影響相比顯得蒼白許多。COMPAS累犯預測軟體具有比人類更高的準確性，但正如Dressel和Farid所寫，這「並不像我們想要的那種準確，尤其是從未來還懸而未決的被告者的角度來看」。預測個人預期壽命的演算法，比如Aspire Health正在開發的演算法，並不一定會讓人們的情緒調節變得更容易。

這些例子說明了識別個體不知情動機的影響，並且展示了知識和無知的問題可以有多複雜，特別是在涉及人工智慧的時候。關於集體不知情在什麼時候有益處，或者在道德上合理的問題，沒有現成的答案。理想的做法是單獨考慮每個案例，進行風險收益分析。理想情況下，鑒於爭論的複雜性和後果的重要性，這一分析將公開進行，考慮各種利益相關者和專家意見，並考慮所有可能的未來結果，包括最壞的情況。

這其中涉及的問題太多了……事實上，理想做法在大多數情況下都是行不通的。那麼，我們又該如何做呢？

一種方法是控制和限制機器根據已採集數據進行的推理。例如，我們可以「禁止」使用種族作為預測變數的司法演算法，或者從潛在求職者的預測分析中排除性別。但是，這種方法也存在問題。

首先，限制大公司使用信息的成本太高，技術難度也很大。這需要這些公司將演算法開源，同時要求大型政府機構不斷對其審查。另一方面，一旦採集到大量的數據集，總是會有很多迂迴的方法來推理出「禁止的知識」。假設政府宣布使用性別信息來預測學術成功是非法的，那就可能出現使用「擁有汽車類型」和「最喜歡的音樂流派」作為性別替代指標，直接進行替代指標的二級推理。有時候，儘管一家公司的意圖是好的，但有關性別的推理也可能意外地嵌入到演算法中。這些二級推理導致對演算法的審查更加困難。一個分析中包含的變數越多，發生二級推理的可能性就越大。

麻省理工學院的研究者在網站（moralmachine.mit.edu）上根據人們自己選擇的數據類型，測試他們在機器即將做出決定的情況下表現出的道德直覺。

保護不知情權權更激進————也可能更有效————的方法是第一時間防止數據被收集。2017年，德國做出了一項開創性的舉措，立法禁止自動駕駛汽車通過種族、年齡和性別來識別道路上的人。這意味著汽車將無法通過這些類別的數據來做出駕駛決策，尤其是在事故不可避免時需要做出的決策。

基於相同的思維方式，歐盟推出了新的《通用數據保護條例》（General Data Protection Regulation，GDPR），並於2018年5月生效。該條例規定，只允許公司在提供明確的指定服務時，收集和存儲必需的最少量數據，並且獲得客戶對其數據使用方式的同意。這種對數據獲取的限制可能也會阻止二級推理。但《通用數據保護條例》的一個重要局限是，公司可以為自己設定非常寬泛的目標。例如，如今已經關門的劍橋分析（Cambridge Analytica）公司的明確目標是評估用戶的個性，因此在技術上，它對Facebook數據的收集符合《通用數據保護條例》的規定。同樣的，只要用戶同意————許多人即使在獎勵相當微薄的情況下也會同意分享自己的數據————《通用數據保護條例》對數據和給定服務之間一致性的關注就無法排除道德上有問題的數據類別，也不能完全阻止公司從數據中介那裡購買被排除的數據。研究人員發現，麻省理工學院的一些學生會分享他們朋友的聯繫數據，只為了獲得一小片披薩。顯然，我們還需要更多的限制手段，但究竟需要多少呢？

美國程序員、自由軟體活動家理查德·斯托曼（Richard Stallman）說：「利用數據來害人的方法太多了，以至於唯一安全的資料庫就是從未被收集過的資料庫。」然而，如果對數據採集的限制過於嚴厲，又可能會阻礙人工智慧的發展，並減少我們從中獲得的收益。

誰應該權衡其中的利弊？首先應該是我們自己。

在大多數情況下，我們談論的其實是你我作為個人所擁有的數據。我們一直都很粗心大意，將這些數據拱手讓給各種閃亮的app，絲毫不考慮後果。事實上，我們一直在放棄我們的數據，以至於忘記了一開始它就是屬於我們的。收回數據將使我們每個人都能決定哪些事情想知道，哪些不想知道。讓數據回到合適的人————也就是我們自己————手中，就可以巧妙地解決我們討論的許多艱巨問題。我們不再需要制定通用的預見性指導規範，相反的，數以百萬計的個體將根據自己的是非觀來決定自身數據的用途。我們可以對公司如何使用數據做出實時反應，根據他們對待數據的方式來進行懲罰或獎勵。

關於把數據放回人們手中，計算機科學哲學家杰倫·拉尼爾（Jaron Lanier）提出了一個經濟學上的論據。他指出，通過將我們自己的個人數據賣給大公司，我們應該都能從中受益。這種方法存在著兩個問題。首先，它混淆了數據使用和所有權的道德規範。在回答數據應該如何被使用的問題時，免費提供數據的意願在道德完整性上是很好的試金石。一個小眾群體中有多少人會願意免費提供數據，以創建一個像「同志雷達」這樣的面部識別應用程序？又有多少人會願意為此付費？另一方面，大多數人會很樂意貢獻他們的數據來尋找治療癌症的方法。第二個問題是，賦予個人數據（較高的）經濟價值可能會迫使人們分享他們的數據，並使數據隱私成為富人的特權。

這並不是說個人的單獨行動就足夠了，社會機構的集體行動也是必需的。即使只有小部分人口分享他們的敏感數據，其結果也可能具有大多數人反對的高預測準確性。並不是所有人都明白這一點。為了防止不必要的後果，我們需要更多的法律和公共討論。

《經濟學人》曾寫道，世界上最寶貴的資源不再是石油，而是數據。然而，數據與石油有著很大不同。數據是無限的資源，由個人所有，並且通常是在沒有交易價值的情況下進行交換。從石油中獲利便殺死了石油市場。作為第一步，從數據中獲取利潤將為我們提供空間，用於創造和維持能在人工智慧到來之後延續的道德標準，並為管理集體的不知情權鋪平道路。換句話說，在數據成為現代世界最有用的商品之一的同時，它也需要成為最便宜的商品之一。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 C114中國通信網 的精彩文章:

※小米CDR招股說明書：募集資金的40％用於全球擴張
※諾基亞貝爾與中國生態農業產業技術創新戰略聯盟合作領先技術跨入生態農業領域＃MWCS18

TAG:C114中國通信網 |