觀點：傳統機器學習尚處於因果層級底層，達成完備AI的7個工具

07-18

來自專欄機器之心47 人贊了文章

選自ucla，作者：Judea Pearl，機器之心編譯，參與：劉曉坤、路雪.

近日，Judea Pearl 發表技術報告，指出當前機器學習的三個主要障礙，並提出了強人工智慧的完整結構應該包含三個層級，而當前的機器學習尚處於底層，最後他列舉了七個用於克服這些障礙的因果推理工具。

引言

機器學習的巨大成功帶來了 AI 應用的爆炸式增長以及對具備人類級別智能的自動化系統不斷增長的期望。然而，這些期望在很多應用領域中都遇到了基本的障礙。其中一個障礙就是適應性或魯棒性。機器學習研究者注意到當前的系統缺乏識別或響應未經特定編程或訓練的新環境的能力。人們在「遷移學習」、「域適應」和「終身學習」[Chen and Liu 2016] 這些方向進行大量理論和實驗研究就是為了克服這個障礙。

另一個障礙是可解釋性，即「機器學習模型仍然主要是黑箱的形式，無法解釋其預測或推薦背後的原因，因此降低了用戶的信任，阻礙了系統診斷和修復。」[Marcus 2018]

第三個障礙和對因果關係的理解相關。理解因果關係這一人類認知能力的標誌是達到人類級別智能的必要（非充分）條件。這個要素應該使計算機系統對環境進行簡潔的編碼和模塊化的表徵，對錶征進行質詢，通過想像對錶征進行變化，並最終回答類似「如果……會如何？」這樣的問題。例如，干預性的問題：「如果我讓……發生了會如何？」，以及回溯性或解釋性的問題：「如果我採取不同的做法會如何？」或「如果某件事情沒有發生會如何？」

Pearl 假設以上三個障礙需要用結合了因果建模工具的機器來解決，特別是因果圖示和它們的相關邏輯。圖模型和結構模型的進展使得反事實推理在計算上可行，因此使得因果推理成為強人工智慧中的有效組件。

在下一部分中，作者將描述限制和支配因果推理的三個層級。最後一部分總結了如何使用因果推理的現代工具避免傳統機器學習的障礙。

三層因果層級

因果模型揭示的一個有用觀點是按照問題類型對因果信息進行分類，每個類別能夠回答特定的問題。該分類形成了一個三層的層級結構，只有在獲取第 j 層（j ≥ i）信息時，第 i 層（i = 1, 2, 3）的問題才能夠被解答。

圖 1 展示了該三層層級結構，以及每一層可回答的典型問題。這三層的名字分別是 1. 關聯（Association）、2. 干預（Intervention）、3. 反事實（Counterfactual）。這些名字是為了凸顯每一層的作用。作者將第一層叫做「關聯」是因為它僅僅調用統計關係，由裸數據來定義。例如，觀察一位購買牙膏的顧客使得他／她購買牙線的可能性增大；此類關聯可以使用條件期望直接從觀測數據中推斷得到。這一層的問題不需要因果信息，因此它們可以被放置在該三層層級架構的最底層。第二層「干預」層次比「關聯」高，因為它不只涉及觀察，還會改變觀察到的信息。這一層的典型問題是：如果我們把價格提高一倍會怎樣？此類問題無法僅根據銷售數據來回答，因為它們涉及顧客行為針對新價格所作出的改變。這些選擇可能與之前的提價情況中顧客所作出的選擇大相徑庭。（除非我們精確複製價格提高一倍時的已有市場條件。）最後，頂層是「反事實」，「反事實」一詞可以追溯到哲學家 David Hume 和 John Stewart Mill，在過去二十年中「反事實」被賦予了和計算機有關的語義。這一層的典型問題是「如果我採取不同的做法會怎樣」，因此需要回溯推理（retrospective reasoning）。

圖 1：因果層級。只有可獲取第 i 層及以上層級的信息時，第 i 層的問題才可以被解答

因果推理的 7 個工具（或只有使用因果模型才能做到的事情）

考慮以下 5 個問題：

給定的療法在治療某種疾病上的有效性？
是新的稅收優惠導致了銷量上升嗎？
每年的醫療費用上升是由於肥胖症人數的增多嗎？
招聘記錄可以證明僱主的性別歧視罪嗎？
我應該放棄我的工作嗎？

這些問題的一般特徵是它們關心的都是原因和效應的關係，可以通過諸如「治療」、「導致」、「由於」、「證明」和「我應該」等詞識別出這類關係。這些詞在日常語言中很常見，並且我們的社會一直都需要這些問題的答案。然而，直到最近也沒有足夠好的科學方法對這些問題進行表達，更不用說回答這些問題了。和幾何學、機械學、光學或概率論的規律不同，原因和效應的規律曾被認為不適合應用數學方法進行分析。

這種誤解有多嚴重呢？實際上僅幾十年前科學家還不能為明顯的事實「mud does not cause rain」寫下一個數學方程。即使是今天，也只有頂尖的科學社區能寫出這樣的方程並形式地區分「mud causes rain」和「rain causes mud」。

過去三十年事情已發生巨大變化。一種強大而透明的數學語言已被開發用於處理因果關係，伴隨著一套把因果分析轉化為數學博弈的工具。這些工具允許我們表達因果問題，用圖和代數形式正式編纂我們現有的知識，然後利用我們的數據來估計答案。進而，這警告我們當現有知識或可獲得的數據不足以回答我們的問題時，暗示額外的知識或數據源以使問題變的可回答。

作者把這種轉化稱為「因果革命」（Pearl and Mackenzie, 2018, forthcoming），而導致因果革命的數理框架稱之為「結構性因果模型」（SCM）。

SCM 由三部分構成：

1. 圖模型

2. 結構化方程

3. 反事實和介入式邏輯

圖模型作為表徵知識的語言，反事實邏輯幫助表達問題，結構化方程以清晰的語義將前兩者關聯起來。

圖 2 描述了 SCM 作為推斷引擎時的運行流程。該引擎接受三種輸入：假設（Assumptions）、查詢（Queries）和數據（Data），並生成三種輸出：被估量（Estimand）、估計值（Estimate）和擬合指數（fit indices）。被估量（E_s）是一個數學公式，該公式基於假設，提供從任意假設數據中回答查詢的方法（可獲取假設數據的情況下）。在接收到數據後，該引擎使用被估量來生成問題的實際估計值 E_s hat，以及問題置信度的統計估計值（以反映數據集的有限規模，以及可能的衡量誤差或缺失數據）。最後，該引擎生成一個「擬合指數」列表，可衡量數據與模型傳遞的假設的兼容性。

圖 2：SCM「推斷引擎」結合數據和因果模型（或假設），生成查詢的答案

接下來介紹 SCM 框架的 7 項最重要的特性，並討論每項特性對自動化推理做出的獨特貢獻。

1. 編碼因果假設—透明性和可試性

圖模型可以用緊湊的格式編碼因果假設，同時保留透明性和可試性。其透明性使我們可以了解編碼的假設是否可信（科學意義上），以及是否有必要添加其它假設。可試性使我們（作為人類或機器）決定編碼的假設是否與可用的數據相容，如果不相容，分辨出需要修改的假設。利用 d-分離（d-separate）的圖形標準有助於以上過程的執行，d-分離構成了原因和概率之間的關聯。通過 d-分離可以知道，對模型中任意給定的路徑模式，哪些依賴關係的模式才是數據中應該存在的（Pearl，1988）。

2. do-calculus 和混雜控制

混雜是從數據中提取因果推理的主要障礙，通過利用一種稱為「back-door」的圖形標準可以完全地「解混雜」。特別地，為混雜控制選擇一個合適的協變數集合的任務已被簡化為一種簡單的「roadblocks」問題，並可用簡單的演算法求解。（Pearl，1993）

為了應對「back-door」標準不適用的情況，人們開發了一種符號引擎，稱為 do-calculus，只要條件適宜，它可以預測策略干預的效應。每當預測不能由具體的假設確定的時候，會以失敗退出（Pearl, 1995; Tian and Pearl, 2002; Shpitser and Pearl, 2008）。

3. 反事實演算法

反事實分析處理的是特定個體的行為，以確定清晰的特徵集合。例如，假定 Joe 的薪水為 Y=y，他上過 X=x 年的大學，那麼 Joe 接受多一年教育的話，他的薪水將會是多少？

在圖形表示中使用反事實推理是將因果推理應用於編碼科學知識的非常有代表性的研究。每一個結構化方程都決定了每一個反事實語句的真值。因此，我們可以解析地確定關於語句真實性的概率是不是可以從實驗或觀察研究（或實驗加觀察）中進行估計（Balke and Pearl, 1994; Pearl, 2000, Chapter 7）。

人們在因果論述中特別感興趣的是關注「效應的原因」的反事實問題（和「原因的效應」相對）。（Pearl，2015）

4. 調解分析和直接、間接效應的評估

調解分析關心的是將變化從原因傳遞到效應的機制。對中間機制的檢測是生成解釋的基礎，且必須應用反事實邏輯幫助進行檢測。反事實的圖形表徵使我們能定義直接和間接效應，並確定這些效應可從數據或實驗中評估的條件（Robins and Greenland, 1992; Pearl, 2001; VanderWeele, 2015）

5. 外部效度和樣本選擇偏差

每項實驗研究的有效性都需要考慮實驗和現實設置的差異。不能期待在某個環境中訓練的模型可以在環境改變的時候保持高性能，除非變化是局域的、可識別的。上面討論的 do-calculus 提供了完整的方法論用於克服這種偏差來源。它可以用於重新調整學習策略、規避環境變化，以及控制由非代表性樣本帶來的偏差（Bareinboim and Pearl, 2016）。

6. 數據丟失

數據丟失的問題困擾著實驗科學的所有領域。回答者不會在調查問卷上填寫所有的條目，感測器無法捕捉環境中的所有變化，以及病人經常不知為何從臨床研究中突然退出。對於這個問題，大量的文獻致力於統計分析的黑箱模型範式。使用缺失過程的因果模型，我們可以形式化從不完整數據中恢復因果和概率的關係的條件，並且只要條件被滿足，就可以生成對所需關係的一致性估計（Mohan and Pearl, 2017）。

7. 挖掘因果關係

上述的 d-分離標準使我們能檢測和列舉給定因果模型的可測試推斷。這為利用不精確的假設、和數據相容的模型集合進行推理提供了可能，並可以對模型集合進行緊湊的表徵。人們已在特定的情景中做過系統化的研究，可以顯著地精簡緊湊模型的集合，從而可以直接從該集合中評估因果問詢。

技術報告：The Seven Tools of Causal Inference with Reflections on Machine Learning

報告地址：http://ftp.cs.ucla.edu/pub/stat_ser/r481.pdf

摘要：以純統計的推斷模式運行的系統在力量和性能方面都存在理論缺陷。此類系統無法推理干預和回溯（retrospection），並因此無法作為強人工智慧的基礎。為了達到人類水平的智能，學習機器需要外部現實模型的指引，類似於因果推斷任務中使用的模型。為了展示此類模型的必要性，本論文展示了七個任務，這些任務都超出了關聯學習系統的範圍，這些任務之前是使用因果建模工具來完成的。

參考閱讀：

觀點 | 專訪貝葉斯網路之父 Judea Pearl：我是 AI 社區的「叛徒」

深度 | 因果推理和監督學習的統一概念框架：兩者並不是對立的

學界 | DeepMind 等機構提出「圖網路」：面向關係推理