科技特稿 | 凱西·奧尼爾：盲目信仰大數據的時代必須結束

02-22

在TED演講中的凱西·奧尼爾

* 此文為科學新媒體「知識分子」（ID：The-Intellectual）發起的科學新聞實驗室寫作項目之「演算法密碼」第 5 篇。

撰文 | 葉偉民

編輯 | 黃永明

上一篇「演算法相親」的故事發表後，我被爭吵包圍。因為它觸及了一個既美好又虐心的話題——愛情。演算法的介入，就像怪咖闖進了伊甸園，技術派和浪漫派的意見迥異得彷彿來自兩個星球，前者信奉「萬物可算」，後者則捍衛人類寶貴的「自由意志」。

這個碰撞早就被科幻作家列入思索之列，從而誕生了眾多反烏托邦電影。《少數派報告》便是其中之一。它的故事發生在2054年的華盛頓特區，謀殺在這裡已經絕跡。一支預防犯罪小組依賴「先知系統」準確預測所有罪行，並在發生前逮捕「罪犯」。如果你被盯上，是絕無可能抗議和掙脫的，因為「先知」是不容置疑的最高權威。

數據科學家凱西·奧尼爾很欣賞這部電影，還把它寫進了暢銷書《數學毀滅性武器》。凱西是約翰遜實驗室的高級科學顧問，哈佛大學數學博士，還曾任巴納德學院教授和華爾街量化分析師。她現居紐約，染著一頭藍發。

2008年以前，凱西過著標準的曼哈頓技術新貴生活，但金融海嘯讓她驚醒。她看到了瘋狂的財富遊戲背後所隱藏的技術深淵。此後，她參與發起「佔領華爾街」運動，並且要告訴人們更多真相——演算法和大數據在光環之外，還是更多歧視、偏見、不公的源泉，縱使其進行得相當隱蔽。

過去一個月，凱西通過郵件向我分享了她的故事。離開華爾街後，她從技術締造者的身份抽離出來，聚焦那些被技術統治卻無力抵抗的角落，例如被演算法解僱的中學教師、被犯罪預警系統過度執法的有色公民、被基金模型盤剝卻渾然不知的底層……她把背後的始作俑者稱為「weapons of math destruction」，諧音布希政府當年針對伊拉克的「大規模殺傷性武器」[1]。

也恰如其諧義，演算法在解決越來越多難題的同時，也接管人類讓渡的部分裁決權。它不斷進化，逐漸在教育、執法、金融、社會保障等領域佔據統治地位。它不靠暴力維持，而是憑神秘的科技外衣加持，樹立起普通民眾無法穿透的隱形權威。它所蘊含的新奴役關係，已引起科學界和思想界的注意，甚至被形容為「最安靜的恐怖主義」。

2017年4月，凱西登上TED，向公眾坦陳了這些鮮為人知的「黑盒子」和並不樂觀的未來。驚愕過後，人們報以持久的掌聲、歡呼和口哨，包圍了她已重複過無數次的警示——

「盲目信仰大數據的時代必須結束。」

演算法黑洞

麥法蘭中學是位於華盛頓的一所平民社區高中，擁有如茵的草坪、聯排紅牆教學樓和多種族學生。女教師莎拉·韋索奇2009年來到這裡，她對教育非凡的熱忱很快感染了同事和家長。

「她是我見過最好的老師之一。」麥法蘭中學家長教師協會負責人布萊恩·多爾西說，他的女兒是莎拉的學生，「每次見她，她不是在輔導孩子，就是與他們談心。」

學校2011年5月對莎拉的評估報告也佐證了這一點：「我們很欣慰看到這麼一個教與學互動積極、運轉高效的課堂。」莎拉還被推薦到其他學校分享經驗。

然而僅兩個月後，莎拉被解僱了。一套叫「IMPACT」的教師評價系統認為她相當失敗，原因是她任教班級的閱讀和數學成績沒有實現預期增長。

這次教學評價源自華盛頓特區自2007年推行的教育改革方案，時任教育局局長李洋姬將這裡低迷的高中升學率歸咎於教師的失職。這位作風凌厲的女士決心炒掉數百名表現差勁的教員。為了讓落刀更加精準高效，她引入一套計算機演算法系統，即「IMPACT」，它通過琳琅滿目的指標和一個極其複雜的回歸方程，組成一個「增值模型」，自動為每位教師打分並決定其命運。

縱使莎拉的其他指標非常優秀，但「增值模型」的得分卻異常低。她很憤怒，寫信質詢教育局：「我想知道，這些數據是怎樣計算出來的？」

沒有人理會她。《華盛頓郵報》為此寫了一個報道，標題充滿黑色調侃和同情——《我激情，我創造，我被炒了》。很快，莎拉收到一封來自紐約的郵件，是凱西。

凱西被這個案例吸引，她給莎拉打電話，掌握更多細節，逐漸看清其中的貓膩。兩位女士還共同查閱莎拉班上一些轉學學生的過往成績，發現他們在前一所學校的閱讀分數都異常高，是所在學區平均分的五倍。

莎拉在實際教學中卻發現相反的事實，這些學生連閱讀簡單句子都困難。凱西又查閱媒體，發現該學區塗改測驗成績的現象非常普遍。也就是有人作惡了，然後把這些虛高的成績交到老實人莎拉手上，並通過演算法讓其受到不公懲罰。

莎拉將這一發現向管理部門舉報，得到的回復是：必須明確指出作弊老師和學生的名字，還要有充足的證據反駁「IMPACT」的打分。這幾乎是一個黑客級的難題，而莎拉只是一個社區中學五年級的老師。

隨著研究的深入，凱西發現了「IMPACT」系統更多的底層邏輯漏洞。「學生的成績受很多因素影響，要量化一個教師在其中的作用非常困難，也非常複雜。」她說，「而且僅憑二三十個學生的成績來決定一個人的去留，在統計學上也是靠不住的。」

「IMPACT」系統最終解僱了兩百多名教師，主導者卻沒有獲得期望中的支持。當地工會的民意調查顯示，民眾對教師清洗行動「非常不滿意」，一些教師協會也舉行抗議，並幫助遭受不公對待的教師提出申訴。這最終影響了時任市長艾德里安·芬提的連任，教育局局長李洋姬也隨之辭職。

無論如何，演算法對莎拉的判決已無法挽回。但幸運的是，她僅失業了幾天，在很多同行和家長的推薦下，很快在一個富裕社區學校找到教職，而且那裡不再有機器給她打分。

「拜一個非常可疑的模型所賜，窮人的學校失去了一位好老師，富人的學校卻得到了她。」凱西說，「未來，富人的事務會由人打理，平民的事情則交由機器。」

它沒有公平的概念

在美國，莎拉的故事並不是孤例。不同版本的「IMPACT」系統正在超過一半的州推行，支持者則是整個聯邦政府。這是奧巴馬時代教育改革的遺產，卻沒有得到教育界的擁護，多地教師向法院起訴此類演算法並在紐約州和休斯頓獲勝。

但這種有所成效的抗爭仍是幸運的少數。在許多領域，演算法的統治進行得更加隱蔽和難以反駁。例如執法。

凱西曾研究過一個演算法執法的樣本——賓州小城市雷丁。這個緊挨費城的資源枯竭城市，貧窮率已攀升至全美之最（41.3%），與之相伴的是同樣高企的犯罪率。雷丁政府缺錢，裁掉了45名警員，將省下的經費購買了犯罪預測系統PredPol。

這個「救星」非常強大，可以分析一個地方的犯罪歷史數據，逐小時計算不同區域的犯罪發生率，再在地圖上以網格形式呈現計算結果。最後，只要加強對有高風險提示的網格巡邏，就能遏制犯罪。一年後，雷丁政府宣布，盜竊案減少了23%。

類似PredPol的犯罪預測系統在美國大受追捧。除雷丁外，紐約、亞特蘭大、洛杉磯等大城市也在其列。如今這已成為一股世界性潮流：在中國，北京等一線城市也啟用演算法和大數據來協助降低犯罪率。

「它們看上去足夠高效，也足夠公平。」凱西說，「起碼從表面上看，它們只是預測事情，而不會考慮人種、種群等因素。」

犯罪預測系統正在被廣泛應用

犯罪可被預測，是「犯罪統計學」和「道德統計學」共同呈現的結果。後者可能有些費解，簡單來說，就是基於這樣一個事實：在對象足夠多時，人們的自由選擇權就會消失，甚至會喪失理智。凱文·凱利的暢銷書《失控》對此也有類似的闡述。

1820年代末，統計學家蓋里和凱特萊對法國的犯罪數據進行研究，發現每年的犯罪行為特點幾乎保持不變，連使用槍支、刀劍、拳腳、棍棒的謀殺案比例都年年相似。他們得出結論：犯罪行為可以準確無誤地進行自我複製。

但問題遠不止這麼簡單。演算法模型一旦運轉，執法行為就會增多，產生的新數據又會進一步證明加強執法的必要性。形象地說，就是哪裡前科越多，哪裡就越受演算法「關照」，最終形成一個失真、甚至有害的回饋環路。

從種族角度看，有色人種多聚居於貧困社區，由於那裡歷史犯罪率高，演算法會不斷指派警察去那裡巡邏，最終結果是更多有色公民被抓或盤查。這還是難逃種族偏見的怪圈。

從階層角度看，被演算法納入預測的都是常規犯罪，有錢人玩的金融欺詐和高智商犯罪並不在其中。也就是說，演算法再精準高效，也只是協助警察瞄準窮人。

凱西做過一項調查，曾被警察攔截搜身的男性中，有85%是黑人或拉美裔。頻繁的光顧又會放大一些可有可無的輕微罪行（例如公共場所抽煙和未成年飲酒），導致這些人與警察衝突加劇，甚至因此被捕。紐約公民自由聯盟的調查數據顯示，黑人坐牢的幾率是白人的六倍，被警察殺死的概率則是白人的21倍。

縱使情況已如此嚴重，除了固有的種族歧視因素，仍沒有多少人意識到這裡面也有演算法的功勞。人們仍然以為技術是中立的，並且信奉一種很低的成功概率——如果能打擊犯罪，忍受一些不便和騷擾是值得的。

「演算法的運用，往往面臨公平與效率的取捨。」凱西說，「法律維護公平，所以犧牲效率。演算法則剛好相反，它沒有公平的概念。」

讓人類保留最後一步

演算法取得裁決地位的領域在不斷增多，除了上述的教育和執法領域外，金融、法律、資訊、招生、求職、個人信用等都相繼被圈進其權力範圍。締造者的初衷本不值得懷疑——要擺脫人腦的偏見和運算短板，用演算法、模型、機器學習重塑一個更加客觀的世界。

然而，大眾對「技術中立」的過度誤解，恰恰滋養了新的灰色空間，演變成當下越發狂熱的大數據崇拜思潮。數據科學家弗雷德·班奈森為此創造了一個流行詞——「數學洗白」（Mathwashing）。凱西也有近似的觀點，「大數據並沒有消除偏見，我們只是用技術來掩飾它。」

以色列歷史學家尤瓦爾·赫拉利沿著這些憂思，在《未來簡史》中描繪了這麼一幅遠景——

「人類將把工作和決策權交給機器和演算法來完成，大部分人將淪為『無用階級』。只有少數精英才能真正享受到這些新技術的成果，用智能的設計完成進化、編輯自己的基因，最終與機器融為一體，統治全人類。」

這個預言至少包含兩層意思：一是演算法本身會成為新的獨裁力量；二是它將與少數精英合謀，成為奴役大多數人的工具。未來，我們求職、貸款，或申請戶籍，或許都會像故事開頭的莎拉老師一樣被機器判決，任何人都不要妄想申訴，那些複雜的演算法是天然的高牆。

演算法締造者躲在高牆背後，偷偷植入偏見、歧視和種族主義。這在世界範圍內已漸成現實。Google曾將兩名黑人的照片標註為大猩猩，Flickr也將有色人種圖片歸為動物。

2015年，蘋果Siri也攤上了事兒。一名俄羅斯用戶Alex問它同性戀酒吧怎麼走？Siri說：「如果可以臉紅的話，我就已經臉紅了。」Alex再問它對同性婚姻的看法，Siri的回應是：「我相信這是一種負面的情感。」

這些事件僅揭開了冰山一角，更多難以察覺的偏見在隱形橫行。卡內基梅隆大學2015年做過一個實驗，讓500名男性與500名女性點擊100個招聘網站，結果男性收到高薪職位信息的幾率是女性的六倍。

進入2016年，生物識別技術升溫，一個叫做Faception的以色列公司宣稱能用演算法識別恐怖分子。美國的機場曾使用過類似技術，結果平均每周有1500名乘客因此遭殃，其中一個4歲男童、數位前陸軍少校和一名飛行員被多次認定為「恐怖分子」，最高紀錄者一年被羈留80次。

一些商業公司聲稱能用演算法識別恐怖分子

同樣觸碰公眾神經的還有上海交通大學教授武筱林的「看臉識罪犯」研究，稱可以讓機器通過學習，分辨誰是罪犯，誰是守法公民。論文發表後，輿情立即被點燃，一個交大校友寫信給武筱林說：「這篇論文充滿了極度的歧視和強烈的誤導。」

武筱林通過媒體反駁：「這個研究只是揭露相關性，而非因果，我本人也非常反對歧視。「

「是不是就會有一些禁區，研究者不能去碰它？坦白講我不知道。」雖正名心切，但武也毫不掩飾他的疑惑，「核物理學家該為原子彈造成的傷害負責嗎？」

面對演算法時代的諸多迷思，社會學者的探索方向與自然科學家既交融又迥異。中國人民大學國家發展與戰略研究院研究員馬亮是少數關注「演算法偏見」的中國學者之一。2017年年末，他在社科媒體「政見」上發表文章，討論大數據導致的社會不公和階層固化。

「原本由人掌握的自由裁量權，正逐步交由演算法和系統。」他說，「一個人執法錯誤尚且可控，但系統性的錯誤則是災難。」

馬亮長期關注社會治理中大數據的應用，走訪過許多互聯網公司。他發現，個人的數據越來越往少數寡頭聚集，形成一個個無法穿透的「黑箱」。

「要粉碎『黑箱』，開放數據是第一步。但現實情況是，這仍很遙遠。」馬亮說，「如果數據不純或被篡改，計算結果也會崩塌，偏見和不公就會產生。」

凱西的解決方案是回歸人本主義——「讓演算法指出可疑之處，由人類去完成最後的核查」。她研究了一個虐童風險預測模型：如果交由演算法去裁決並懲罰，肯定會毀掉很多無辜的家庭，但如果讓社工按照預測名單去走訪和提供幫助，則是另一個溫暖的結果。

佛羅里達州希爾斯伯勒縣試水過這個方案，兩年間再也沒有兒童因虐待而死亡。

「它們的運作必須是透明的：我們必須知道它們接受哪些數據輸入，產生什麼結果，而且它們必須接受稽查。」凱西說，「這樣我們才能規管它們，馴服它們。」

注釋

[1] 大規模殺傷性武器的英文全稱為「Weapons of Mass Destruction」，凱西將Mass換成Math（數學），既諧音又諧義。

——————————

?? 歡迎關注公號「葉偉民寫作內參（ID：yeweimin121）」；

另有知乎Live課程【如何寫出你的超級故事】，7節Live打造寫作特訓營；

知乎電子書【從零開始寫故事：一個南方周末記者的特稿筆記】也已全新上線。