不要一棍子打翻所有黑盒模型，其實可以讓它們發揮作用

新聞 04-14

雷鋒網 AI 科技評論按：一直以來大家都對深度學習這樣的黑盒系統多有詬病，即便深度學習的可解釋性方面已經有所建樹，懷疑和抵制之聲仍然很多。但 CMU 材料科學與工程系教授 Elizabeth A. Holm 近期在《科學》雜誌發表了一篇短評文章，少見地為黑盒系統給予一些肯定。這篇文章的視角也提醒我們重新考慮一下，一聽說是黑盒系統就敬而遠之是否是最好的做法。雷鋒網 AI 科技評論全文編譯如下。

打開今日頭條，查看更多圖片

曾經，科幻小說作家 Douglas Adams 假想人類建造出了有史以來最厲害的計算機，它的名字叫 Deep Thought，它上面運行的程序可以解答人類能夠提出的最深刻的問題「生命的意義是什麼」、「宇宙為什麼存在」，以及其它所有問題。在計算了 750 萬年以後，Deep Thought 給出了一個回答：數字「42」。隨著人工智慧系統已經開始進入所有人類努力探索的領域，包括科學、工程以及醫療保健，如今人類也必須面對 Douglas Adams 在這個故事裡巧妙地隱含的問題：當我們不理解為什麼會出現這個答案的時候，我們還有沒有必要知道這個答案？一個黑盒系統到底好還是不好？

在我們學校大多數的物理科學和工學的教授同事們眼中，不使用深度學習這樣的 AI 方法的最大原因就是他們不知道如何解釋 AI 給出的答案是如何產生的。這個反對意見非常有力，其中隱含的顧慮可以包括實踐、可以包括道德、甚至還可以包括法律。科學家們的使命、以及工程師們的職責都要求不僅僅能夠預測會發生什麼，還要理解它為什麼會發生。一個工程師能夠學會預測一座橋是否會倒塌，AI 系統其實也可以學會做同樣的事情，但只有工程師才能通過物理模型解釋清楚他的決定是如何做出的，然後和別人溝通交流、讓他們評價他的思路。假設有兩座橋，人類工程師認為一座橋不會塌，AI 認為另一座橋不會塌，那你會對哪一座橋更放心呢？

黑箱系統給出的答案無法完全令人信服的事情並不只發生在科學家和工程師身上。2018 年提出的「歐盟一般數據保護條例」GDPR 中就要求基於個人數據的自動決策系統能夠為決策對象提供「對於涉及的決策邏輯的有意義的解釋」。目前人們仍然在討論這條要求如何在司法實踐中落實，但是我們已經可以看到司法系統對於無法解釋的系統的不信任。

在這種整個社會的懷疑氛圍下，AI 研究人員們的行動很好理解，他們不再公開宣揚黑盒決策系統，但他們展開更多研究，嘗試更好地理解黑盒系統是如何做出決策的——這也就是我們常說的「可解釋性」問題。實際上，這也是計算機科學領域當今最大的挑戰之一。

不過，一刀切地拒絕所有的黑盒系統也許魯莽了一點。在現實中，科學家和工程師們，作為人類、也和所有其他人一樣地，根據自己已有的判斷和經驗做出決策，就好像是來自他們自己大腦中的「深度學習系統」。所以，腦神經科學也遇到了和計算機科學一樣的可解釋性挑戰。然而，對於人類做出的決策、給出的結論，我們常常不加防備地直接接受，也不去試著完全了解它們的來源過程。這樣說來，AI 系統給出的答案也許值得考慮一下，它們也許也能發揮類似的益處；如果能確認的話，那我們還應該使用它們。

首當其中可以說的，也是最明顯的，就是當錯誤答案帶來的代價比正確答案帶來的價值低很多的時候。定向廣告投放就是一個典型的例子。從廣告商的角度講，投放了廣告但是目標群體不想看的成本是很小的，但是成功的廣告卻能帶來可觀的收益。以我自己的研究領域，材料科學來說，圖像分割任務通常都需要人類把材料圖像中感興趣的部分的複雜內部結構的邊界手動勾畫出來。這個過程成本很高，以至於不論是博士論文還是工業級的質量控制系統中一旦有需要圖像分割的部分，都要讓這部分所需的圖像儘可能地少。如果換成 AI 系統，它就能很快完成大批量的圖像分割任務，同時還具有很高的保真度（雖然並不完美）。在這裡，完美的圖像分割結果對於這些系統並不是必需的，因為出現那麼一些誤分類的像素的代價要比沒有 AI 系統時研究生們付出的時間精力低太多了。

第二個可以使用黑盒系統的例子也很明顯，不過要更有活力一些。如果一個黑盒系統能產生最佳的結果，那我們就應當使用它。比如，在評估標準的平面醫學影像時，經過訓練的 AI 系統可以幫助人類影像科醫生得到更準確的癌症評估結果。雖然這種情況下出現一個錯誤答案（不論是假正例還是假負例）的代價並不低，但在黑盒系統的幫助下我們可以達到其它任何方案都無法達到的高準確率，這就成為了當前最佳的解決方案。當然了，有人會說讓 AI 看 X 光片本來就可以接受，部分原因是因為總會有人類醫生檢查 AI 給出的結果；讓 AI 開車就會讓人有更多顧慮，因為這個黑盒系統做出的決策能影響人的生死，但同時它卻沒有給人類留出干預的機會。即便這樣，自動駕駛汽車也總有一天會比人類駕駛的汽車更安全，它們將會在事故率和死亡率上都做得比人類司機更好。如果取一些合理的指標來衡量，那麼那一天一旦到來我們馬上就會知道，但是是否讓人類司機讓位給 AI 司機會是整個社會的決定，需要考慮到人類道德觀念、公平性、非人類實體的追責等許多方面。

但是需要說明的是，我們能列出這些情況並不代表黑盒模型在這些場景中就直接得到許可了。在上面兩種情況中我們都假設了一個理想的黑盒子，有人對它的運行負責，而且能夠它的代價，或者能夠明確無誤地定義什麼是最好的結果。這兩個假設都有落入誤區的可能。AI 系統可能會有一系列的缺點，包括偏倚、在訓練的領域外不適用、脆弱性（很容易被欺騙）。更重要的是，評估代價和最佳結果是一個複雜的決策問題，需要在經濟性、個體需求、社會文化、道德考量等許多方面之中做出權衡。更糟糕的是，這些因素可能是一環套一環的：一個有偏倚的模型可能會隱含著一些代價，可以表現為模型自己做出錯的預測，也可以表現為外人對模型的公平性的評估不準確。一個脆弱的模型可能會包含一些盲點，在某些時候會產生錯的離譜的糟糕決定。就像面對任何決策系統一樣，使用黑盒系統的時候仍然要配合知識、判斷力和責任心。

不要一棍子打翻所有黑盒模型，其實可以讓它們發揮作用

根據定義，人類無法解釋一個黑盒演算法是如何給出某個具體的答案的。但是，當黑盒系統能夠帶來最佳的產出，或者給出錯誤答案的代價很小，或者能夠啟發新的思維的時候，它們仍然可以為我們帶來價值。

雖然 AI 的思考過程是帶有限制的、可能包含偏倚甚至可能直接就是錯誤的，但它們畢竟和人類的思考方式有很大的區別，有可能可以揭示新的聯繫和新的方法。這樣一來，黑盒系統就有了第三種可以使用的場景：作為引導人類思考和質疑的工具。比如在某項突破性的醫學影像研究中，科學家們訓練了一個深度學習系統來根據眼部照片診斷糖尿病性視網膜病變，得到的結果能夠近似或者超過一組眼科專家的表現。更令人驚奇的是，這個系統還可以一併分析得出眼科診斷中不會涉及的別的信息，包括心臟病風險高低、年齡、性別等等。在此之前從來沒有人注意過不同性別的視網膜之間會有什麼區別，所以這個黑盒子系統的發現就給科研人員們提供了新的線索，可以進一步探究不同性別的視網膜之間到底有何區別。對於這些引發的問題的研究也就不再繼續屬於可解釋的 AI 系統以及人類智慧的黑盒系統領域。

說了一圈，我們可以再來看看一開始提到的 Deep Thought 給出的答案「42」。我們沒法用黑盒 AI 系統尋找因果關係、構建知識和邏輯系統以及達成理解，一個黑盒系統也沒辦法告訴我們橋為什麼會塌、生命和宇宙的種種問題的答案是什麼、以及解釋世間的一切。至少目前，這些問題都屬於人類智慧和逐漸發展的可解釋 AI 的領域。但同時，我們也仍然可以用適當的方式接受黑盒系統。黑盒系統可以對科學、技術、工程、數學等等領域產生潛在且正面的影響，可以產生價值、優化結果以及啟發創新。

via science.sciencemag.org/content/364/6435/26，Science 05 Apr 2019: Vol. 364, Issue 6435, pp. 26-27。雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※誕生於三十年前的 IDx-DR 為何會成為 FDA 首個批准的 AI 自主診斷產品？
※加速研發自動駕駛卡車，戴姆勒買下Torc Robotics多數股權

TAG:雷鋒網 |