ICML2018論文告訴你，公平性準則不能保證AI演算法公平性

08-07

來自專欄 DeepTech深科技20 人贊了文章

近日，國際機器學習頂級會議 ICML 在官網公布了 2018

年度的最佳論文名單，來自 MIT 和 UC Berkeley 的研究人員摘得最佳論文的桂冠。其中，UC Berkeley

團隊的研究關注到了一個不但與學界業界相關，還與我們每一個人有關，那就是 AI 的「歧視」問題。

機器學習系統在訓練時常以最小化訓練誤差為目的，在涉及到性別或種族等較敏感的特徵時，常常會因此引入歧視性行為（discriminatory

behavior）。數據中的歷史性偏差（historical

bias）可能是其中的一個原因。在貸款、僱用、刑事司法以及廣告等應用場景中，機器學習因可能潛在地傷害到弱勢群體，一直為人詬病。

而這篇論文主要討論了在調整以長期社會福利（long

term social welfare

goals）為目的的機器學習決策方面的近期相關工作。通常來說，機器學習模型會為每個個體產生一個得分（score）來描述關於這個個體的信息。比如，信用得分描述了某個個體的信用歷史和財務行為，它可以被銀行用來評定這個個體的信用等級。本文中僅以貸款場景為例，詳細介紹這一問題。

任何用戶群體在信用得分上都有其特定分布，如下圖中所示。

圖 1 信用得分與還款行為分布圖

定義閾值之後，得分就可以用來做決策。比如得分高於閾值的人群承諾還款，得分低於閾值的人拒絕還款。這種決策規則叫閾值策略（threshold policy）。

我們也可以將得分理解為貸款違約的估計概率。比如，信用得分為

650 的人中，90% 的人會償還其貸款。這樣銀行就可以預測給那些信用得分為 650

的用戶提供相應貸款的期望收益。同樣，也可以預測給信用得分高於 650（或任何給定閾值）的全體用戶提供相應貸款的期望收益。

圖 2 貸款閾值對結果的影響

不考慮其他因素的情況下，銀行總會嘗試最大化其總收益。收益取決於收回的償還貸款額與在貸款違約的損失額之間的比。在上圖中，收益損失比為

1：-4，由於相較於收益，損失通常代價更高，因此銀行在決定是否放貸上會更加保守，並提高放貸閾值。我們將得分高於這一閾值的人數佔比稱為選擇率（selection

rate）。

圖7 最大化收益策略

結果曲線

貸款決策不僅影響銀行機構，也會影響貸款人。一次違約行為（貸款人無法償還貸款）中，不僅會使銀行利益受損，貸款人的信用得分也會變低。而在成功的貸款履約行為中，銀行會獲得收益，同時貸款人的信用得分也會得到提升。在論文提到的這一貸款案例中，用戶信用得分變化比為

1（履約）：-2（違約）。

對閾值策略來說，結果（outcome）被定義為某群體得分的變化期望，這一期望可以參數化為選擇率的函數，稱此函數為結果曲線（outcome

curve）。隨著某一群體的選擇率變化，這一群體的結果也會變化。這些群體級別的結果既取決於償還概率（由得分編碼間接得到），也取決於對某一個體的貸款決策帶來的成本和收益。

圖 3 某一典型群體的結果曲線

上圖為某一典型群體的結果曲線。當群體內獲得貸款並成功償還的個體足夠多時，其平均信用得分就可能增加。這時，無約束收益最大化結果將導致其平均得分變化（縱坐標）為正。如果我們偏離收益最大化，給更多人提供貸款時，平均得分變化會增大到最大值。這種情況叫做利他最優化（altruistic

optimum）。我們也可以將選擇率（橫坐標）提升到某個值，此時平均得分變化低於無約束收益最大化時的平均得分變化、但依然為正，即圖中黃色點狀陰影所表示的區域。我們稱此區域中的選擇率將導致了「相對損害」（relative

harm）。然而，如果無法償還貸款的用戶過多，則平均得分就會降低（平均得分變化為負），從而進入紅色橫線（陰影）區域。

圖 4 貸款閾值與結果曲線之間的關係

多群體情況

給定閾值策略會怎樣影響不同群體中的個體？具有不同信用得分分布的兩個群體將會有不同的結果。現在有兩個群體，假設第二個群體和第一個群體的信用得分分布不同，而且該群體內人數也更少，我們就將其理解為歷史弱勢群體（historically

disadvantaged minority），表示為藍色群體。我們希望保證銀行的貸款政策不會不平衡地傷害或者欺騙到這一群體。

我們假設銀行可以對每一群體選擇不同的閾值，雖然這可能不合法，但為防止由於固定閾值決策可能產生的差別結果，這樣做是不可避免的。

圖 5 貸款閾值與結果曲線之間的關係

很容易想到一個問題：選擇什麼樣的閾值可以讓藍色群體的得分分布得到改善?正如前文所提到的那樣，不加限制和約束的銀行政策將會使收益最大化，他們會選取一個使得收支平衡的閾值點，此時發放貸款會獲得收益。事實上，收益最大化的閾值（信用得分為

580）在兩個群體中是相同的。

公平性準則

具有不同得分分布的群體其得分曲線也不同（可以參照原文圖 6

的上半部分，展示了基於真實信用得分數據的一個簡單模型的結果曲線）。作為無約束利潤最大化的一種替代策略，即公平性約束——通過某些目標函數讓不同群體間的決策平等。目前已提出多種公平性準則來保護弱勢群體。根據結果模型，我們可以明確地回答：公平性約束是否真的產生了積極的影響。

有一個較為常見的公平性準則，人口統計平等（demographic

parity），要求銀行在兩個群體中借出相同比例的貸款。在此前提下，銀行繼續儘可能最大化收益。另一個準則，機會平等（equality of

opportunity），強調兩個群體中的真正率（true positive

rate）要相等，這要求銀行對兩個群體中會償還貸款的個體給出相同的貸款比例。

圖6 人口統計平等策略

圖7 機會平等策略

圖 8 有約束條件下的貸款決策模擬

儘管從考慮達到靜態決策公平（equalizing

static decisions）的角度出發，這些公平性準則都看似合理，但是它們基本都忽略了這些準則對每一類群體未來產生的潛在的效應。圖 8

通過比較最大化收益、人口統計平等和機會平等下的策略結果，可以說明這一點。我們可以看到在不同貸款策略下銀行收益和信用得分的變化。與收益最大化策略相比，人口統計平等和機會平等策略都降低了銀行收益，但對藍色群體（即弱勢群體）來說，與收益最大化策略相比，這些策略真得讓弱勢群體獲得了更好的結果嗎？雖然相較於利他最優化，最大化收益策略對藍色群體貸款比率過低，但機會平等策略則（相較於利他最優化）貸款過多，而人口統計平等策略下則貸款過多已經達到了「相對損害」區域。

如果採用公平性準則的目的是提升或公平化所有群體的長期幸福感，那這個展示的結果表明，在某些場景下，公平性準則實際上違背了這一初衷。換句話說，公平性約束會進一步減少弱勢群體中的福利。建立更加準確模型，以預測每種策略對各類群體可能產生的影響，也許在將來可以緩解由於引入公平性約束可能產生的意料以外的傷害。

對所謂公平機器學習的思考

本文基於長期結果視角對機器學習的公平性進行了討論。如果不仔細研究長期結果的模型，我們很難預測加入公平性準則之後對分類系統的影響。然而，如果我們擁有精確的長期結果模型，我們就可以更加直接的對正例結果進行優化，而非通過各種公平性準則。具體而言，結果曲線顯示，偏離收益最大化策略能夠最直接地提升結果。

結果模型是在分類過程中吸收相關領域知識的一個具體方法，這種模型也與很多公平機器學習相關的場景敏感的研究相匹配。結果曲線也為本文所提及的涉及權衡的應用提供了一種可解釋的可視化工具。

更多細節，可以參考原論文。本研究只是對「結果模型如何緩解機器學習演算法對社會產生各類不良影響」的初步探索。我們相信，隨著機器學習演算法會影響到更多人的生活，未來也會有越來越多的研究工作，來確保這些機器學習演算法的長期公平性。

參考?

bair.berkeley.edu