當前位置:
首頁 > 新聞 > 為什麼數據科學家都要讀一讀Judea Pearl的《The Book of Why》

為什麼數據科學家都要讀一讀Judea Pearl的《The Book of Why》

《The Book of Why: The New Science of Cause and Effect》(為什麼:因果關係的新科學)是人工智慧先驅、貝葉斯網路之父 Judea Pearl 的一本著作,是作者對自己過去 25 年在因果關係方面所做研究的一次總結。這本書頗具啟發性,以至於本文作者讀過之後忍不住向所有人推薦。

為什麼數據科學家都要讀一讀Judea Pearl的《The Book of Why》

打開今日頭條,查看更多圖片

我熱衷於機器學習已經有 4 個年頭,對深度學習感興趣也有一年了。我構建了用於娛樂和工作的預測模型,也了解很多演算法,從梯度提升(gradient boosting)這種傳統模型到LSTM 這種很深的模型。儘管習得了很多演算法,但是我的困惑依然存在。


演算法自己也無法解決的困惑

如果你不是那種只關心 0.01% 的錯誤率降低,而是努力使自己的模型有意義的數據科學家,你可能一次又一次地這樣問自己:

  1. 我應該把這個變數添加到模型裡面嗎?
  2. 為什麼這個反直覺的變數會作為一個預測結果出現?
  3. 為什麼當我增加另一個變數的時候這個變數就會突然變得沒有意義?
  4. 為什麼相關性的方向與我所認為的會相反呢?
  5. 為什麼我所認為的一個很高的相關性結果卻是零相關呢?
  6. 當我將數據分解成幾個子部分的時候,為什麼關係的方向會反過來?

隨著時間的推移,我已經建立了足夠的意識來解決這些基本問題,例如,我知道雙變數關係和多變數關係可能是非常不同的,或者是數據受到了選擇偏差的影響。但我還是缺乏一個堅定的框架來確定地說服我自己和其他人。更重要的是,或許直到關係和我的想法矛盾的時候我才會意識到!值得注意的是,當某件事情出現矛盾的時候,說明它早已出了嚴重的偏差。如果沒有地圖,怎麼才能在意識到迷路之前確定我走的方向有沒有問題呢?

沒錯,關聯和因果關係都是可以預測的

當我讀了 Judea Pearl 的《為什麼:因果關係的新科學》這本書之後,這個困惑完全消除了。現在它已經成為我的數據科學指南了。在本文中,我會簡要地介紹一下這本書。簡言之,它就是在講因果——原因與結果之間的關係。有兩種方式可以預測未來的某件事情:

  1. 我知道當 X 出現的時候,Y 也會出現(關聯)
  2. 我知道 X 會導致 Y(因果)

這兩種方式都可以用於預測。兩種方式都可以得到相似的模型性能。所以,它們有什麼不同呢?為什麼要費心理解因果關係呢?如果它是一個強大的工具,那麼因果關係可以通過數據來研究嗎?

隨機對照實驗為何有時候並不可行?

作為一個黃金準則,隨機對照試驗(RCT)(也就是市場營銷中所謂的 A/B 測試)被用來進行因果測試。在臨床試驗中,這項技術被用來研究某個特定的藥物/治療方法是否能夠改善健康。

隨機就是為了最小化選擇偏倚,所以我們知道,我們不會特意選擇病情更嚴重的病人來應用某種治療方法,這種做法明顯收益更低,如果我們不選擇病情更嚴重的病人收益要更高。控制變數起到了基準的作用,以便我們比較接受了治療和沒接受治療的病人。作為一個標準,這裡也有一個所謂的雙盲機制,病人不知道他們是否接受了治療,這是為了避免心理作用。

儘管這是一個黃金準則,但是它在某些條件下可能是不切實際的。例如,如果我們想研究吸煙對肺癌的影響,很顯然我們不能強迫某人去吸煙。另一個例子就是:如果我想知道讀博對我的人生有多大的促進作用,那肯定也不能進行對照實驗,因為時間一去不復返。畢竟,一項實驗會有很多限制,例如,樣本是否能夠代表全體?是否是合乎道德的?等等。

從觀察的數據到因果分析?

如果開展實驗是不現實的,那麼我們可不可以使用觀察到的數據來研究因果關係呢?觀察到的數據意味著我們不能做任何干預,我們只能觀察。這是否可能呢?

不管是否了解統計,你可能都聽過這個說法:相關性並不意味著因果關係。但是,它並沒有告訴你如何研究因果關係。好消息就是,在閱讀完這本書之後,你會得到一個更好的框架,利用它判斷如何研究因果關係,以及決定何時可以/不可以利用手頭的數據來做研究,這樣一來你就知道應該收集什麼數據了。


這本書中的一些觀點

我在這裡並不展開具體的技術或者公式。一方面,我只是讀完了這本書,並不是因果關係方面的專家;另一方面,我鼓勵你讀這本書,以防錯過任何一個見解,因為我也可能是有偏見的。

儘管大數據很重要,但是將所有的東西都添加到你的模型中或許並不可行。

大數據時代幾乎擁有無限的計算力和數據,你或許想要將所有的數據都放到一個深度神經網路中來進行自動特徵提取。我也受到了這種誘惑。

這本書告訴了你一些關於添加變數的注意事項。例如,你想要預測 Z,而且基本的關係是 X→Y→Z(箭頭代表的是「導致」,在這裡 Y 是一個中間變數,它連接著從 X 到 Z 的作用)。如果你將 X 和 Y 作為模型的變數添加進去,Y 可能會吸收所有的「解釋力」,它會將 X 從你的模型中踢出去,因為從 Z 的角度來看,Y 比 X 更加直接。這便阻礙了你研究從 X 到 Z 的因果關係。你或許會說,這在預測上是沒有區別的,不是嗎?從模型性能的角度來看的確是這樣的,但是,倘若我告訴你 Y 離 Z 是如此之近,以至於當你知道 Y 的時候,Z 已經發生了,這將如何?

同樣,不添加某些變數也是有風險的。你可能聽過偽相關或者混雜變數這個術語。基本的思想可以在這個關係中描述:Z←X←Y(也就是說,X 是一個混雜變數)。注意這裡的 Y 和 Z 之間是沒有因果關係的,但是如果你不考慮 X 的話,Z 和 Y 之間就會出現一個關係。一個著名的例子就是巧克力消費量與諾貝爾獎獲獎數之間的正相關關係。結果這兩者的一個共同影響因素是國家的富裕程度。同樣,你可能認為預測沒有問題,但是你可能很難向別人解釋你的模型。

當然,世界遠比我們想的複雜,但是這就是領域知識發揮作用的地方。因果圖是有關事物如何運作的簡單而有力的表徵。

書中還有很多高級的腦筋急轉彎和現實生活的例子。

因果關係或許更加魯棒

因果關係可能隨著時間發生變化。如果你希望模型一直是魯棒的,可以建立 Z←X→Y 這樣的模型。在這個模型中,由於你建模的是 X → Y,所以如果關係 Z←X 變弱了,你並不會受到影響,但如果你在 Z 和 Y 之間建模就會受到影響了。

從另一個角度來說,如果我們相信因果是比關聯更強的一種關係,那麼這意味著,當我們從一個領域借用到另一個領域時,那種關係更有可能保持。正如書中所提到的,這就是所謂的遷移學習/可遷移性。書中引用了一個關於可遷移性的非常富有見解的例子,它描述了我們如何以可見的方式進行調整,以便將因果關係從一個領域遷移到另一個領域。

干預變得更加容易了,尤其是在數字時代

干預實際上是研究因果關係最重要的動機之一。通過僅僅學習關聯得到的預測模型不能給你提供關於干預的深入見解。例如,在 Z← X → Y 這個關係中,你不能改變 Z 來影響 Y,因為它們沒有因果關係。

如果你能理解基本關係的話,干預本身就是一個更為強大的工具。這意味著,你可以通過改變管理策略來讓我們的世界變得更加美好;你可以改變治療方法來拯救更多的病人,等等...... 這就是你拯救病人和預測病人會死但不能干預之間的區別!或許這是數據科學家能做的最好的事情,只需要這個工具就行。

在這個數字時代,干預並不費力,而且確切的是,你有很多數據來研究因果關係。

這就是我們推理的方式,也或許是通向真正人工智慧的道路

最後是關於人工智慧的內容。推理是智能的必要部分,這也是我們的感覺。在閉環的世界中,強化學習在預定義的獎勵和規則下通過平衡探索和開發能夠實現卓越的性能,並且,在這種機制下,採取的動作能夠改變狀態,狀態反過來又能夠決定獎勵。在這個複雜的世界中,保持這種機制有點不太可能。

從哲學角度來說,我們應該理解我們做出決定的方式。最有可能的是,你會問「如果我這麼做了,會發生什麼;如果我那麼做了,又將如何?」。請注意,你僅僅是創建了兩個並沒有發生的幻想世界。有時候當你為了從錯誤中學習而做一些反思時,你可能會問:「如果我這麼做了,那件事就不會發生。」再一次,你創建了反事實的世界。事實上我們比自己想像的更有想像力。想像的世界都是基於因果關係建立的。

也許機器人有它們自己的邏輯,但如果希望它們能夠像我們一樣,就要教會它們推理。這讓我想起了 DeepMind 發表過的一篇論文——《Measuring abstract reasoning in neural networks》(在神經網路中衡量抽象推理),這篇論文證明,將推理作為訓練數據的一部分能夠增強泛化性能。我深受此文啟發,這正是我們教機器人推理的例子!這也是在模式上從關聯到推理的一次跳躍。

我猜測:因果關係對泛化是有幫助的。雖然我沒有證據,但這就是我們理解世界的方式。我們學習了一兩個例子,然後學習因果關係,再然後我們將因果關係應用在我們認為可以用到的任何地方。

將所有的東西放在一張因果圖中,或許推理就是 IQ 測試問答中的混雜變數?我們是不是可以這麼認為:推理導致人在問題中設計這種模式,它也「導致」了問題的答案?或者,它是將問題轉換成推理的中間媒介,推理反過來又導致了問題的答案?或者可能兩者都是?請注意,我刻意假設問題和答案之間沒有因果關係,因為它們只是單純的模式關聯。

為什麼數據科學家都要讀一讀Judea Pearl的《The Book of Why》

推理作為一個混雜變數

為什麼數據科學家都要讀一讀Judea Pearl的《The Book of Why》

推理作為一個中間媒介

這一切僅僅是我的猜想。我不知道答案是什麼。我不是一個專業的研究者或哲學家。但是我可以確定的是:當我們在解決問題的時候,因果關係提供了一個新的角度。因果關係和深度學習之間的協同聽起來很有前景。


結語

我承認這篇文章的主題或許有些激進,但是我覺得自己有責任向所有的人推薦這本書。它告訴了我們因果關係的全部潛力。因果關係是與生俱來的,但是在大數據時代我們卻忽略了它。這個框架已經存在了。只是有待於部署和付諸實踐。

作為一名從業者,我相信我會使用這個工具產生更好的影響。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

生成對抗網路也需要注意力機制
編程面試問題真的越難越好嗎?No!

TAG:機器之心 |