《紐約客》深度長文：當人工智慧遇上醫生

新聞 04-06

《紐約客》深度長文：當人工智慧遇上醫生

新智元推薦

《紐約客》深度長文：當人工智慧遇上醫生

本文作者穆克吉博士是一名醫生，也是一名優秀的作家。他曾獲得普利策獎（圖片來源：紐約時報）

2016年11月的一個晚上，美國紐約布朗克斯區（Bronx）的一名54歲女子因為嚴重頭痛被送至哥倫比亞大學（Columbia University）醫療中心的急診室。她對急診室醫生說自己視力變得模糊，左手感到麻木無力。醫生安排了CT檢查。

過了幾個月後，1月的某個上午，4名放射科醫師擠在醫院三樓一間房子的電腦前，房間黑暗無窗，只有屏幕的光，看起來好像被海水過濾。哥倫比亞大學神經放射科主任Angela Lignelli-Dipple博士拿著鉛筆和平板電腦站在一群住院醫師身後。她正在訓練他們讀CT片子。

《紐約客》深度長文：當人工智慧遇上醫生

Angela Lignelli-Dipple博士（圖片來源：columbiadoctors）

Lignelli-Dipple博士說：「一旦大腦顯示出死亡和灰色，診斷中風很容易。關鍵是在大多數神經細胞死亡之前診斷出中風。」中風通常是由血管堵塞或出血引起的，神經放射學家大約有45分鐘的窗口時間，這樣醫生才能夠及時進行醫學干預，溶解血凝塊。「想像你現在就在急診室，」Lignelli-Dipple博士繼續說道，「每一分鐘過去，大腦的某一部分也死去。失去時間就意味著失去大腦。」

她瞥了一眼牆上的時鐘，秒針滴答響。她問這些醫生，「問題到底在哪裡呢？」

中風通常發生在單側。血液進入大腦後分別流向左右兩側，然後再流到血管分支。血凝塊或出血通常只會影響這些分支中的一個，導致大腦單側的功能缺陷。當神經細胞失去供血並死亡時，組織會稍微膨脹。CT影像上，解剖結構的邊界可能變得模糊。最終，組織收縮，尾隨著陰影。但是，這種陰影通常會在CT掃描幾個小時甚至幾天之後才會出現，這時候早就過了干預窗口期。「在此之前，」Lignelli-Dipple博士告訴我：「CT上只會出現少許暗示。」這是中風的預兆。

電腦屏幕上顯示著這名布朗克斯區女子的腦部CT圖像，從頭骨底部到頂部水平掃描，看起來像是一個切開的瓜。住院醫師們快速過每一張圖片，彷彿快速翻閱一本書，同時說出每一個解剖結構：小腦、海馬體、島狀皮層、紋狀體、胼胝體、腦室。突然，一名20多歲的住院醫師停在一張片子上，用筆尖指著右側腦部的一塊區域說：「這裡有些東西。邊界看起來模糊。」對我來說，整個圖像看起來都那麼不協調和模糊——模糊的像素——但他顯然看到一些不尋常的東西。

《紐約客》深度長文：當人工智慧遇上醫生

大腦CT圖片，紅圈處為中風區域（圖片來源：brainpictures）

「模糊？」Lignelli-Dipple博士提高聲音，「你能描述清楚一點嗎？」

這名住院醫師在努力搜索辭彙。他停頓住，就像進入自己大腦的解剖結構考慮各種可能。最後他說「這裡不連續。」然後聳了聳肩，「我不知道，只是看起來很有意思。」

接著，Lignelli-Dipple博士拿出20小時後的第二次CT掃描結果，這名住院醫師指的地方變得混沌和膨脹。幾天後的一系列掃描結果說明了後面發生的事，一個明顯的楔形場灰色出現了。實際上，這名婦女到達急診室後不久，神經科醫生就試著用藥物疏通堵塞的動脈，但是她到得太晚了。第一次CT掃描幾個小時過後，她開始失去意識，馬上被送進ICU病房。過了2個月，她還在住院治療，身體的左側從上臂到腿全部癱瘓。

我和Lignelli-Dipple博士起去了她的辦公室。我就從那裡學到了「學習」：醫生如何學習診斷？機器也能學會診斷嗎？

我對診斷的認識是從1997年秋天開始，當時我在波士頓的醫院進行臨床實習輪轉。準備實習時，我讀了一本經典的醫學教科書，上面將診斷行為分為四個階段。首先，醫生通過患者的病史和身體檢查來收集患者主訴或身體狀況。接下來，整理這些信息以生成潛在原因列表。然後，通過問診和初步檢測幫助消除某些假設，並加強其他假設，這就是所謂的「鑒別診斷」。醫生權衡疾病的發病率、患者的病史、風險和暴露情況等因素（就像俗話說的，「當你聽到蹄聲時，應該想到馬而不是斑馬」）。通過把清單項目一個個排除，醫生優化自己的判斷。最後，醫生會採用實驗室檢驗，比如X射線或CT掃描來進一步確認假設並得出診斷結論。這種逐步判斷的過程在醫學教科書中傳授了數十年，診斷從癥狀到病因嚴格的方法學被逐漸印在了幾代醫學生身上。

《紐約客》深度長文：當人工智慧遇上醫生

但是，我很快意識到真正的診斷藝術並沒那麼簡單。我的醫學院主任是一個優雅的新英格蘭人，常穿一雙光亮的鞋，口音僵硬。他深以自己為診斷專家而自豪。他會要求病人展示出一種癥狀，比如咳嗽，然後靠到椅子里，說出一串形容詞。他可能會說「刺耳尖銳的」，或者說「沉悶的」，彷彿在描述一瓶波爾多葡萄酒。對我來說，所有的咳嗽都聽起來完全一樣，但是我會跟著一起說「是的，刺耳」，就像一個憂慮的葡萄酒品酒師。

對咳嗽的分類會立即縮小診斷的可能性。他可能會說，「聽起來好像是一種肺炎」，或者說是「充血性心力衰竭的濕疹」。接著，他會問一大堆問題。病人最近體重是否增加？有沒有接觸石棉？他會要求病人再次咳嗽，俯身用聽診器仔細聆聽。根據回答，他可能會判斷另外的可能性。然後，他會像路邊魔術師那樣突然宣布診斷結果「心力衰竭！」——並開出檢驗單來驗證。結果通常都沒錯。

幾年前，巴西的研究人員研究了放射科專家的大腦，以了解他們如何做出診斷。這些經驗豐富的診斷醫師到底是用精神的「規則手冊」，還是「模式識別或非分析推理」對圖像進行識別？

參加實驗的25名放射科醫生被要求觀看肺部X射線片子，MRI用來跟蹤他們大腦的活動。X射線圖像在他們之前閃過。一組圖像包含常見的單一病理損傷，可能是肺部的棕櫚狀陰影，或者積聚在肺內襯層後面的沉悶，不透明的流體壁。第二組圖像是動物線條圖; 第三組是字母輪廓。三種類型的圖像隨機展示，放射科醫生需要儘快說出病灶，動物或字母的名稱，而MRI機器追蹤他們大腦的活動。放射科醫生平均需要1.33秒才能做出診斷。在所有三種情況下，大腦相同的區域亮起：左耳附近的神經元寬三角洲，還有顱骨後基上方的蛾形帶。

研究人員最後總結：當醫生識別出某種特徵或以前已知的病變時，大腦過程與識別日常生活的事物相似。識別病變類似於識別動物的過程。當你認識犀牛時，你不會考慮其他動物。你也不會認為是獨角獸，穿山甲和小象組成的動物。你是從整體認知犀牛的——作為一種模式。放射科醫生也是如此。他們沒有經過沉思，回憶，區分，而是看到一個普通的東西。我的老師也一樣，那些濕漉漉的聲音也像一個熟悉的叮噹聲一樣被認出。

1945年，英國哲學家Gilbert Ryle先生做了一場很有影響力的報告，關於兩種知識類型。一個孩子知道自行車有兩個輪子，它的輪胎充滿了空氣，踩著腳踏板轉圈車子會向前走。Ryle先生將這種知識稱為事實的、命題的類別—— 即「知道是什麼」。但是學習騎自行車涉及另一個學習領域。一個孩子通過摔跤，在兩輪上平衡，走坑窪路而學會騎車。Ryle先生將這種知識成為隱含的，體驗式的，基於技能的——即「知道怎麼做」。

《紐約客》深度長文：當人工智慧遇上醫生

英國哲學家Gilbert Ryle先生（圖片來源：philosophybasics）

這兩種知識似乎是相互依賴的：你可以使用事實知識來深化你的體驗知識，反之亦然。但是，Ryle先生也提出，不能從「知道是什麼」簡單推導出「知道怎麼做」，正如一本教導手冊無法教會孩子騎自行車。他說，只有當我們知道怎麼運用規則時，規則才有意義：「規則就像鳥兒一樣，在做成標本之前必須活著。」一天下午，我看著7歲的女兒騎著自行車越過一座小坡。她第一次在斜坡最陡峭的地方摔了下來。第二次，我看到她稍微向前傾斜，然後更加傾斜，她不斷根據斜坡的減緩調整身體重量在座位上的分布。但是我並沒有教過她騎車上坡的規則。我認為她也不會教她的女兒騎車上坡的規則。我們教給大腦一些常識，讓它自己去解決剩下的問題。

在參加Lignelli-Dipple博士給放射科學員的培訓之後，我和Steffen Haider先生談過，他就是那個在CT片子上發現早期卒中的年輕人。他是怎麼發現病變的？是「知道是那樣」還是「知道怎麼做」？他開始告訴我有關學習的規則——中風往往是單邊的，它們導致組織微妙的「變灰」，組織常表現出微腫，造成解剖邊界的模糊。他說：「大腦中有供血特別脆弱的地方。為了識別病變，他必須在單側腦室搜索跟另一側不一樣的地方。

我提醒他，有很多不對稱的影像他都忽略了。事實上大多數CT片子上都會有很多隻出現在單側腦室的陰影，他是怎麼把注意力縮小到那個正確的部位？他停下來想了很久回答，「我不知道，有些潛意識的感覺。」

他的老師Lignelli-Dipple博士告訴我，「這就是放射科醫生的成長和學習」。問題是，機器能否以同樣的方式「成長和學習」？

2015年1月，計算機科學家Sebastian Thrun博士對醫學診斷的難題感興趣。Thrun博士在德國長大，精瘦的，剃著光頭，有一種喜感，看起來像Michel Foucault（法國哲學家）先生和憨豆先生的組合。他曾是斯坦福大學（Stanford University）教授，研究方向是人工智慧；隨後去了Google公司，在那裡發起了Google X項目，從事自學機器人和無人駕駛汽車的研究工作。後來，他的興趣又轉向醫學中的機器學習。其母49歲死於乳腺癌。現在Thrun博士也正好49歲。他談到「大多數癌症患者是沒有癥狀的，我媽媽就是這樣。當她去看醫生時，癌症已經轉移了。所以，我很想在還可以進行手術的早期階段發現癌症。我一直在想，機器學習演算法能做到嗎？」

《紐約客》深度長文：當人工智慧遇上醫生

計算機科學家Sebastian Thrun博士（圖片來源：斯坦福大學官網）

自動化診斷的早期研究是讓機器學習教科書的顯性知識。在過去20年中，電腦解讀是自動化診斷的一大特點，解決方案往往比較簡單。比如記錄心電圖，這是一種在紙或屏幕上顯示心臟活動的線條。心電圖的特徵波形與各種疾病相關——心房顫動或血管阻塞。將識別波形的規則輸入到應用中，當機器識別波形時，就給這部分心跳標記，例如「心房顫動」。

在乳腺X線照相術中，「計算機輔助檢測」也很常見。模式識別軟體突出顯示可疑部位，放射科醫師審查結果。但是，識別軟體依然是典型地使用基於規則的系統來識別可疑病變。這樣的程序沒有內置的學習機制，一台已經看過3000張X光片的機器並不比僅僅看過4張的更聰明。2007年的一項研究比較了採用計算機輔助診斷前後乳房X線照相術的準確性。人們可能覺得在加入計算機之後，診斷的準確性會顯著增加。事實是，雖然計算機輔助組的活檢比例迅速上升，但是腫瘤學家最希望發現的小的浸潤性乳腺癌比例，反而減少了。後來還發現假陽性的問題。

Thrun博士相信他可以超越這些第一代診斷設備，將它們從基於規則的演算法轉變為基於學習的演算法來——從「知道怎麼做」而不是「知道是什麼」來做出診斷結論。跟Thrun博士類似的學習演算法越來越多地採用了「神經網路」的計算策略，因為它們的設計靈感來自於大腦功能模型。在大腦中，神經突觸通過反覆激活得到加強或減弱，這些演算法也希望採用數學手段實現類似的認知方式，不斷調整判斷依據的「權重」，使輸出結果逐漸走向準確。另一種更強大學習演算法則類似大腦神經元層，每層處理輸入數據並將結果發送到下一層。因此，也被稱為「深度學習」。

可以教會機器通過掃描照片區分皮膚癌與良性皮膚疾病——痤瘡，皮疹或痣嗎？Thrun博士推理，「如果皮膚科醫生可以做到這一點，那麼機器也應該能夠做到。也許機器還可以做得更好。」Thrun博士從皮膚癌開始進行研究。他選了角化細胞惡性腫瘤（美國最常見的一類癌症）和黑色素瘤（惡性程度最高的皮膚癌）。

傳統上，皮膚病學教學黑色素瘤從認識基本規則開始，就像醫學生學習的口訣：ABCD。黑色素瘤通常是不對稱的（「A」，asymmetrical ），邊界（「B」，borders ）不均勻，顏色（「C」，color）是斑塊狀或雜色的，並且直徑（「D」，diameter ）通常大於6毫米。但是，當Thrun博士在醫學教科書和網路上查看黑素瘤標本時，發現了不符合以上規則的病例。

當時在斯坦福大學任兼職教授的Thrun博士招募了2名學生Andre Esteva先生和Brett Kuprel先生來開展工作。他們的第一個任務是編一個所謂的「教材包」——收集大量的圖片用於教導機器識別惡性腫瘤。學生在網上搜了18個皮膚病例圖像分類庫，含有13萬張圖片，包括各種皮膚狀況，涉及2000種疾病，包括痤瘡，皮疹，昆蟲叮咬，過敏反應和癌症等。值得注意的是，有一組2000個病變已經過病理學活檢確診。

接下來Esteva先生和Kuprel先生開始培訓系統。他們沒有用規則編程，沒有教ABCD原則。相反，他們只是將這些圖像資料及診斷分類標準提供給神經網路。我請Thrun描述一下這樣一個網路。

《紐約客》深度長文：當人工智慧遇上醫生

他說：「想像一下老式的程序怎麼識別狗。軟體工程師會寫1000行if-then-else的邏輯代碼：如果有耳朵，豬嘴，並有頭髮，則不是老鼠……等等無限的判斷語句。但是，這顯然不是小孩認識狗的方式。起初，小孩通過看見狗，被教導這是狗而認識狗；她會認錯，然後糾正自己。比如她會把狼認成狗，然後被大人糾正這兩種動物不是同一類。她一次次調整自我認知：這是「狗」，那是「狼」。

機器學習也是這樣。它會從已分類的訓練中提取信息。這張圖是狗，那張圖不是狗。它會從不同類別中歸納出特徵。通過觀察成百上千張歸類的圖片，它最終形成自己認狗的方法，這和小孩認狗的方法一樣。他們只是知道怎麼做。

2015年6月，Thrun博士的團隊通過「驗證包」來測試機器從教材圖像的學習成果。採用由皮膚科醫生給出診斷（不一定是活檢）結果的大約14,000張圖像，測試機器能否將圖像正確歸到以下三類——良性病變，惡性病變和非腫瘤學增生。系統得到了72%的正確率（演算法實際輸出的判斷不是「是」或「否」，而是某種病變的概率）。2名經過斯坦福大學董事會認證的皮膚科醫生同時參加測試，他們只得到66%的正確率。

接著，Thrun博士、Esteva先生和Kuprel先生又將研究範圍擴大到25名皮膚科醫師，這次他們使用了金標準「測試包」，經過活檢驗證的約2000張圖片。在幾乎每一次測試中，機器的敏感性（不會錯過陽性樣本）和特異性（不會誤認陰性樣本）都更高。該團隊在自然雜誌發表的一篇論文中得出這樣的結論：「在每次測試中，演算法均優於專業的皮膚科醫師。」

在這篇文章中沒有被完全強調的一點是，在研究的第一次迭代中，Thrun博士的團隊使用了一個嶄新的神經網路。但是他們發現，如果一開始使用的是已經受訓並能識別一些不相關的特徵（比如狗與貓）的神經網路，它會學得更快並且更好。也許我們的大腦也有類似功能。那些讓人心煩的高中習題——多項式因子分解，動詞的共軛形式，記憶元素周期表，可能是相反類型的知識。我們的意識非常敏感。

Thrun博士希望人們有一天可以簡單用智能手機提交令人擔憂的病變照片，這意味著系統需要能夠識別各種角度和光線。但是，在教機器時，需要對圖像進行仔細處理。他提到「在一些圖片中，黑色素瘤已被標記為黃色。我們不得不把這些圖片剔除，否則機器就會學到黃色是癌症的一種特徵。」

這是一個古老的難題：一個世紀前，德國公眾被聰明的漢斯（一匹可以做加減法的馬）吸引——它可以通過踏蹄來表達出答案。事實證明，聰明的漢斯實際上是感覺到它的訓練者的表情。隨著馬的蹄頭接近正確答案，訓練者的表情和姿勢就會放鬆。動物的神經網路沒有學過算術，但它學會識別人身體語言的變化。Thrun博士說，「這就是神經網路奇特的地方，你不知道它們會接受什麼。它們就像黑匣子，裡面的工作是神秘的。」

「黑匣子」問題在深度學習中很流行。Thrun博士研發的演算法系統不是由明確的醫學知識庫和診斷規則列表引導的，它通過進行大量的內部調整，有效地自學如何區分痣與黑素瘤，類似於加強和削弱大腦中的神經突觸連接。究竟它是如何確定病變是黑色素瘤的？我們不知道，它也不能告訴我們。神經網路學習時的內部修正和處理過程均不受我們控制。正如我們自己的大腦一樣。當你在自行車上慢慢轉彎時，你會傾斜向相反的方向。我的女兒知道要這麼做，但她沒意識到她在這麼做。黑素瘤學習機肯定從圖像中提取了某些特徵，但它沒法告訴我們是哪個特徵，這重要嗎？這就像知識上帝在微笑。機器學習要做到這一點，可以從動物如何讀懂人的思維得到啟示：這也就是「只可意會不可言傳」。

關於未來，Thrun博士構想了一個人類不斷被診斷監視的世界。我們的手機將分析移動的語音模式來診斷阿茲海默病；方向盤會通過微小的猶豫和震顫來識別初期的帕金森病；浴缸在你洗澡時通過無害的超聲波或磁共振對身體掃描，以確定卵巢中是否有異常。大數據將觀察、記錄和評估你：我們穿梭於一個又一個演算法中。進入Thrun博士的浴缸和方向盤的世界就像進入一個布滿皮膚科診療鏡的大廳，每個鏡子都督促我們做更多測試。

真的很難不被這個願景吸引。一個不間斷地掃描我們（甚至細胞層面）的醫學程序，通過比較每一天圖像的變化，能夠發現最早期的癌症嗎？它能否為癌症檢測提供突破？這場景聽起來令人印象深刻，但有一點要知道的是：許多癌症始終是自限性的（不會發展成惡性腫瘤），我們可能帶癌死亡，不是因癌死亡。這種隨時隨地的診斷機器會不會導致數百萬次不必要的活檢？在醫學上，有些病例早期診斷出來可以挽救或延長生命。還有一些情況，你只會擔心更長，但不會活得更長。要了解到什麼程度，這是個難題。

當我問他這種系統對診斷學家的影響。Thrun博士回答道，「我對放大人類能力感興趣。你說現代農業是否消除了一些原始的耕種方式？絕對是的，但它同時也擴大了我們生產農產品的能力。並不是說現代農業的一切都是好的，但它確實使我們能夠養活更多的人。工業革命放大了人類的體力。手機放大了人類的言語能力。過去你不能從紐約對著加州的人喊話——我們倆確實通過這個距離對話——而你手中的這個長方形的設備可以讓人的聲音傳播三千里。手機取代了人聲嗎？不，手機是一個增強裝置。認知革命將使計算機以同樣的方式放大人類的思維能力。正如機器使人類肌肉的強度提高了一千倍，機器也將使人類的腦力變得更強大。」Thrun博士堅持認為，這些深入學習儀器將不會取代皮膚科醫生和放射科醫生。它們會提供專業知識和幫助，使專業人員的能力增強。

多倫多大學（University of Toronto）計算機科學家Geoffrey Hinton博士談到學習機在臨床醫學中所起的作用就沒那麼客氣了。他的曾曾祖父George Boole先生髮明的Boole代數是數字計算的基石，因此也被譽為深度學習之父。Hinton博士從1970年代末就開始研究深度學習，他的許多學生今天已經成為這個領域的專家。

《紐約客》深度長文：當人工智慧遇上醫生

計算機科學家Geoffrey Hinton博士（圖片來源：多倫多大學官網）

Hinton博士告訴我，「我認為放射科醫生就像卡通漫畫里的歪心狼一樣（Wile E. Coyote），已經在懸崖的邊緣，卻沒看到下面已經沒有路了。」乳房和心臟影像方面已經有深度學習產品面世。Hinton博士曾在一家醫院直言不諱地說，「5到10年內深度學習超越放射醫師是顯而易見的。現在就不應該繼續培養放射科醫生。」

當我問放射科醫生Angela Lignelli-Dipple博士這個挑戰性的問題，她指出，診斷放射科醫生的作用不僅僅是某種疾病類別判斷是或否。他們不只是找到引起中風的栓塞部位，還會注意到其他部位的少量出血，這種情況用凝血葯會帶來災難性的後果；此外還可能意外地發現尚無癥狀的腫瘤。

《紐約客》深度長文：當人工智慧遇上醫生

Geoffrey Hinton博士認為，「歪心狼」的處境也許和目前的放射科醫生有些相似（圖片來源：The Fiscal Times）

Hinton博士現在有挑釁的資格，他對自動化醫學未來的預測是基於簡單的原則：「深度學習可以解決海量數據的分類問題。未來會有數千種深度學習的應用程序。」他想要把學習演算法應用到讀各種X射線，CT和MRI的影像圖片，這也是短期的應用價值。談到未來，他表示「學習演算法會用於病理診斷。」它們可能會閱讀巴氏塗片，聽心臟聲音或預測精神病人的複發。Hinton博士說：「將來，放射科醫生的角色將從完成感知事情（一隻經過良好訓練的鴿子也能做到），演變到完成更多的認知事情。」

我們還討論了黑箱問題。雖然計算機科學家正在努力，但是Hinton博士承認打開黑匣子的挑戰，試圖了解這些強大的學習系統掌握的知識以和思考的方式極其重要。不過，他認為黑匣子是我們可以接受的一個問題。他說：「想像一下，讓棒球運動員和物理學家比一比判斷落球位置。棒球運動員可能不知道任何方程式，但他投擲了上百萬次，所以會清楚地知道球會升多高，速度多快，以及會落到地面的什麼位置。物理學家則可以通過解方程來計算相同的東西。但是，最終到達的點是完全相同的。」

我提到上一代計算機輔助檢測和診斷在乳腺X照相術上的表現不佳。Hinton博士承認任何新技術都需要通過嚴格的臨床試驗進行評估。但他強調，新的智能系統設計為從錯誤中學習——隨著時間的推移而改進。「我們內建一個系統記錄每次誤診——比如一個最終得肺癌的病人記錄，再把數據重新輸入機器。我們可以問機器，你在這裡弄錯了什麼？你可以優化診斷嗎？如果醫生診斷錯誤，這名患者5年後癌症發病，現行的醫療體系中很難有常規方式告訴醫生如何更正。但是我們可以建一個系統來教計算機來精準地實現這一點。」

有些雄心勃勃的機器學習演算法想要整合自然語言處理（讀患者醫療記錄）、百科全書知識、期刊文獻和醫學資料庫。麻省劍橋的IBM沃森系統（Watson Health）和倫敦的DeepMind公司都希望創建這樣一個全面的系統。我在試運行場合看過一些這樣系統演示，發現其中許多功能，特別是深入學習的組件，仍在開發中。

Hinton博士對深度學習在診斷中的未來十分著迷，部分源自他的自身經歷。就在開發這種演算法時，他的妻子被診斷出晚期胰腺癌。他的兒子曾被診斷患有惡性黑素瘤，但最後活檢確診為基底細胞癌，一種惡性程度較低的癌症。Hinton嘆息道，「還有很多東西要學習。早期、準確的診斷不是一個微不足道的問題。我們可以做得更好。為什麼不讓機器幫助我們？」

3月一個寒冷的早上，就在和Thrun博士和Hinton博士見面幾天之後，我去了位於曼哈頓第五十一街的哥倫比亞大學皮膚科診所。主治醫師Lindsey Bordone博士那天安排要看49名患者。10點鐘，候診室里坐滿了人。一個大約60歲的絡腮鬍老人坐在角落裡，用毛巾圍住了脖子上的皮疹。一對焦急的夫婦擠著看《時代周刊》。

《紐約客》深度長文：當人工智慧遇上醫生

主治醫師Lindsey Bordone博士（圖片來源：columbiadoctors）

Bordone博士快速地依次查看一連串病人。在熒光燈房間的後面，有一名護士坐在電腦前，給出了一些總結性的話——「五十歲，無病史，皮膚上有新的可疑斑點」，Bordone博士聽後衝進檢查室，金髮飛在身後。

一個30多歲的年輕人臉上出現鱗屑的紅疹。Bordone博士把他拉到燈下，用手持式皮膚鏡仔細地檢查皮膚，剝落的皮屑從他鼻子上掉下來。

「你有頭皮屑嗎？」她問。

那個男人很困惑地說「當然」。

「嗯，這是面部頭皮屑，」Bordone博士告訴他。「情況比較嚴重。但問題是為什麼現在出現，為什麼會惡化。你最近使用過一些新的洗頭產品嗎？家裡有沒有不尋常的壓力？

「肯定有一些壓力」，他說。他最近失去了工作，財務受到影響。

「保持寫日記，」她建議。「我們可以確定跟這些生活變化是否有關。」她寫了一個甾體霜的處方，並要求他在一個月內複查。

隔壁的房間里，一位年輕的律師助理頭皮上有一些瘙癢的疙瘩。當Bordone博士碰他頭皮時，他縮了一下。她說「脂溢性皮炎」，考試結束。

另一間房間里，一位婦女脫下衣服，換上病號服。她曾患有黑色素瘤，現在積極地做預防複發的檢查。Bordone博士仔細檢查她的皮膚，一個個斑點地看過去。花了20分鐘，但是她查得全面徹底，用手指摸過痣和皮贅，隨著手指移動不斷說出判斷。有痣和角化病，但沒有黑素瘤或癌變。「看起來都很好」，醫生最後高興的總結。女患者鬆了口氣。

就這樣：Bordone博士走進來，察看病情，給出診斷結論。她給人的感覺完全不像Hinton博士說的歪心狼，而像是那個有點狂躁的BB鳥（Roadrunner），她看一連串病人，就像設法跟上腳下的跑步機節奏。當她在後面的房間里寫醫囑時，我問她怎麼看Thrun博士描述的診斷願景：iPhone圖片通過電子郵件發送到功能強大的非現場網路，這個網路具有毋容置疑但難以理解的專業知識。像Bordone博士這樣的全職皮膚科醫生，一生中大概會看20萬個病例。斯坦福機器的演算法在3個月內就吸收了近13萬個案例。而且，不像新的皮膚科住院醫生需要從零開始接觸患者，Thrun博士的演算法可以一直在吸收、成長和學習。

《紐約客》深度長文：當人工智慧遇上醫生

醫生究竟是遊刃有餘的BB鳥，還是接近掉落懸崖的歪心狼？（圖片來源：Geek.com）

Bordone博士聽了聳聳肩。她說：「如果這有助於我做出更準確的判斷，我會歡迎。我的一些病人在看到我之前可以把自己的皮膚問題拍照，這樣會增加診所的覆蓋面。」

這聽起來像是一個醫生的合理反應，我想起Thrun博士說過的那些令人安心的評論——機器只是把人的能力增強。但是，當機器越學越多，人會不會越學越少？父母長期以來都在擔心：孩子的手機上有拼寫檢查功能，如果孩子不再去學拼寫怎麼辦？這種現象被稱為「自動化偏差」（automation bias）。自動駕駛會使人警惕性降低，醫學自動化也一樣。也許Bordone博士正像是蒸汽鑽即將面世前孤獨的John Henry先生（美國民間故事中，力量勝過了蒸汽鑽，但卻在比拼中由於心臟壓力過大而死去的悲劇英雄）。但是，她看病時全神貫注，認真地用手指檢查每一個皮贅和痣，這些都是不能漏掉的看病細節。如果她與機器合作，還會繼續這樣嗎？

我還注意到Bordone博士與患者互動的其他模式。一方面，患者看病後幾乎總是感覺更好。他們被醫生觸摸和仔細檢查，可以和醫生進行交流。甚至醫生說出的「痣」，「角化病」等病變名稱都像是潤膚劑：這是一種深度療愈的過程。那個有黑色素瘤病史前來複查的婦女離開醫院時看起來精神很好，毫無精神負擔，她的焦慮被解除了。

另一方面，像巴西研究人員可能猜到的，診斷時刻對Bordone博士來說是一種瞬間認知。當她說出「皮炎」或「濕疹」的時候，好像她正在認出犀牛：當她認出這種疾病時，幾乎可以看到她大腦底部的椎體神經元在閃光。但訪問並沒有結束。在幾乎每一個病例中，Bordone博士都花大量時間探索發病原因。為什麼出現癥狀？是壓力嗎？新洗髮水引起？有人改變了游泳池裡的氯氣嗎？為什麼是現在發病？

我忽然意識到，臨床實踐最強大的地方，不是「知道是什麼」或者「知道怎麼樣」，既不是掌握疾病事實，也不是感知病情如何形成。而是第三個知識領域：知道為什麼。

《紐約客》深度長文：當人工智慧遇上醫生

解釋可淺可深。手指上出現紅色的水泡，是因為你摸了一塊熱鐵。手指上出現紅色水泡，是因為燙傷激發了前列腺素和細胞因子的炎症級聯反應，一種我們至今仍未完全理解的調控過程。知道為什麼——問為什麼，是我們獲得解釋的途徑，解釋越來越多，就會推動醫學進步。Hinton博士曾提到棒球運動員和物理學家的比喻。無論診斷醫生是機器還是人類，他們都像是那個熟練但難懂的棒球運動員。醫學研究人員則像那個物理學家，一個是臨床領域的理論家，一個是棒球場的理論家，兩者同樣渴望知道「為什麼」。這樣的職責分工很簡便，但會不會帶來損失？

「深度學習系統不具有任何解釋力」，Hinton博士坦率地說。黑匣子不能調查原因。事實上，「深度學習系統越強大，越是不透明。隨著更多的特徵被提取，診斷變得越來越準確。為什麼這些特徵會從數百萬個其他特徵中選出來，仍是未解之謎。」演算法可以解決問題，但不能建立問題。

然而，我發現腫瘤學領域的醫學進步經常是由熟練的執業醫師，同時也是充滿好奇和具有洞察力的研究人員推動的。事實上，在過去的幾十年里，雄心勃勃的醫生一直努力扮演棒球運動員和物理學家的角色：他們通過癥狀去了解疾病的生理學原因。為什麼皮膚病變的不對稱邊界預示著黑素瘤？為什麼一些黑素瘤會自發退化，有時會出現白色皮膚斑塊？事實上，臨床醫生的觀察最終導致了當今臨床上最有效的免疫藥物的發明——皮膚變白原來是免疫反應的結果，這種反應也可以治療黑素瘤。這一串發現始於診所。如果越來越多的臨床實踐被降級為越來越不透明的機器學習系統，如果隱性和顯性這兩種知識形式之間日常自發的親密聯繫——知道是什麼，知道怎麼做，知道為什麼——開始退化，我們會不會做得越來越嫻熟，但卻越來越不能重新審視應該做什麼，不能在演算法的黑匣子之外思考？

我和哥倫比亞皮膚科主任David Bickers博士談過自動化的未來。他說，「我試著去讀懂Thrun博士的文章，我不明白背後的數學計算，但我知道這樣的演算法可能會改變皮膚科的實踐。皮膚科醫師會不會失去工作？我不這麼認為，但我認為必須努力地考慮如何將這些程序融入臨床實踐。我們如何為它們付款？機器作出錯誤的預測時該如何界定法律責任？依靠這樣的演算法會不會減弱臨床醫生的操作能力或者形象？醫學領域最終會不會培養出技術人員而不是醫生？」

說到這，他看了下時間，有病人在等著，他便起身離開了。「我畢生都在做診斷學家和科學家。我知道病人有多依賴我從良性病變中分辨惡性病變的能力。我也知道醫學知識來自診斷。」他提醒我說，「診斷」一詞來自希臘語，原意是「區分」。機器學習演算法將來也只是在「區分」能力上更勝一籌——區分和辨識出痣與黑素瘤。但是，全方位認知超越了以任務為中心的演算法。在醫學領域，或許終極獎賞還是要靠整體認知。

註：

本文作者Siddhartha Mukherjee博士是印度裔美國科學家，在牛津大學（Oxford University）獲得致癌病毒研究的博士學位，他寫過三部作品。《眾病之王：癌症傳》（THE EMPEROR OF ALL MALADIES）獲得了 2011 年普利策文學獎的殊榮，也是 2010 年《紐約時報》十佳圖書。最新作品《基因：親密的歷史》（THE GENE: AN INTIMATE HISTORY）入選了2016年《紐約時報》和《衛報》年度候選書單。

參考資料：

[1] A.I. VERSUS M.D.

（本文由葯明康德授權轉載，特此感謝！）

《紐約客》深度長文：當人工智慧遇上醫生