科技特稿 | 凱西·奧尼爾:盲目信仰大數據的時代必須結束
* 此文為科學新媒體「知識分子」(ID:The-Intellectual)發起的科學新聞實驗室寫作項目之「演算法密碼」第 5 篇。
撰文 | 葉偉民
編輯 | 黃永明
上一篇「演算法相親」的故事發表後,我被爭吵包圍。因為它觸及了一個既美好又虐心的話題——愛情。演算法的介入,就像怪咖闖進了伊甸園,技術派和浪漫派的意見迥異得彷彿來自兩個星球,前者信奉「萬物可算」,後者則捍衛人類寶貴的「自由意志」。
這個碰撞早就被科幻作家列入思索之列,從而誕生了眾多反烏托邦電影。《少數派報告》便是其中之一。它的故事發生在2054年的華盛頓特區,謀殺在這裡已經絕跡。一支預防犯罪小組依賴「先知系統」準確預測所有罪行,並在發生前逮捕「罪犯」。如果你被盯上,是絕無可能抗議和掙脫的,因為「先知」是不容置疑的最高權威。
數據科學家凱西·奧尼爾很欣賞這部電影,還把它寫進了暢銷書《數學毀滅性武器》。凱西是約翰遜實驗室的高級科學顧問,哈佛大學數學博士,還曾任巴納德學院教授和華爾街量化分析師。她現居紐約,染著一頭藍發。
2008年以前,凱西過著標準的曼哈頓技術新貴生活,但金融海嘯讓她驚醒。她看到了瘋狂的財富遊戲背後所隱藏的技術深淵。此後,她參與發起「佔領華爾街」運動,並且要告訴人們更多真相——演算法和大數據在光環之外,還是更多歧視、偏見、不公的源泉,縱使其進行得相當隱蔽。
過去一個月,凱西通過郵件向我分享了她的故事。離開華爾街後,她從技術締造者的身份抽離出來,聚焦那些被技術統治卻無力抵抗的角落,例如被演算法解僱的中學教師、被犯罪預警系統過度執法的有色公民、被基金模型盤剝卻渾然不知的底層……她把背後的始作俑者稱為「weapons of math destruction」,諧音布希政府當年針對伊拉克的「大規模殺傷性武器」[1]。
也恰如其諧義,演算法在解決越來越多難題的同時,也接管人類讓渡的部分裁決權。它不斷進化,逐漸在教育、執法、金融、社會保障等領域佔據統治地位。它不靠暴力維持,而是憑神秘的科技外衣加持,樹立起普通民眾無法穿透的隱形權威。它所蘊含的新奴役關係,已引起科學界和思想界的注意,甚至被形容為「最安靜的恐怖主義」。
2017年4月,凱西登上TED,向公眾坦陳了這些鮮為人知的「黑盒子」和並不樂觀的未來。驚愕過後,人們報以持久的掌聲、歡呼和口哨,包圍了她已重複過無數次的警示——
「盲目信仰大數據的時代必須結束。」
演算法黑洞
麥法蘭中學是位於華盛頓的一所平民社區高中,擁有如茵的草坪、聯排紅牆教學樓和多種族學生。女教師莎拉·韋索奇2009年來到這裡,她對教育非凡的熱忱很快感染了同事和家長。
「她是我見過最好的老師之一。」麥法蘭中學家長教師協會負責人布萊恩·多爾西說,他的女兒是莎拉的學生,「每次見她,她不是在輔導孩子,就是與他們談心。」
學校2011年5月對莎拉的評估報告也佐證了這一點:「我們很欣慰看到這麼一個教與學互動積極、運轉高效的課堂。」莎拉還被推薦到其他學校分享經驗。
然而僅兩個月後,莎拉被解僱了。一套叫「IMPACT」的教師評價系統認為她相當失敗,原因是她任教班級的閱讀和數學成績沒有實現預期增長。
這次教學評價源自華盛頓特區自2007年推行的教育改革方案,時任教育局局長李洋姬將這裡低迷的高中升學率歸咎於教師的失職。這位作風凌厲的女士決心炒掉數百名表現差勁的教員。為了讓落刀更加精準高效,她引入一套計算機演算法系統,即「IMPACT」,它通過琳琅滿目的指標和一個極其複雜的回歸方程,組成一個「增值模型」,自動為每位教師打分並決定其命運。
縱使莎拉的其他指標非常優秀,但「增值模型」的得分卻異常低。她很憤怒,寫信質詢教育局:「我想知道,這些數據是怎樣計算出來的?」
沒有人理會她。《華盛頓郵報》為此寫了一個報道,標題充滿黑色調侃和同情——《我激情,我創造,我被炒了》。很快,莎拉收到一封來自紐約的郵件,是凱西。
凱西被這個案例吸引,她給莎拉打電話,掌握更多細節,逐漸看清其中的貓膩。兩位女士還共同查閱莎拉班上一些轉學學生的過往成績,發現他們在前一所學校的閱讀分數都異常高,是所在學區平均分的五倍。
莎拉在實際教學中卻發現相反的事實,這些學生連閱讀簡單句子都困難。凱西又查閱媒體,發現該學區塗改測驗成績的現象非常普遍。也就是有人作惡了,然後把這些虛高的成績交到老實人莎拉手上,並通過演算法讓其受到不公懲罰。
莎拉將這一發現向管理部門舉報,得到的回復是:必須明確指出作弊老師和學生的名字,還要有充足的證據反駁「IMPACT」的打分。這幾乎是一個黑客級的難題,而莎拉只是一個社區中學五年級的老師。
隨著研究的深入,凱西發現了「IMPACT」系統更多的底層邏輯漏洞。「學生的成績受很多因素影響,要量化一個教師在其中的作用非常困難,也非常複雜。」她說,「而且僅憑二三十個學生的成績來決定一個人的去留,在統計學上也是靠不住的。」
「IMPACT」系統最終解僱了兩百多名教師,主導者卻沒有獲得期望中的支持。當地工會的民意調查顯示,民眾對教師清洗行動「非常不滿意」,一些教師協會也舉行抗議,並幫助遭受不公對待的教師提出申訴。這最終影響了時任市長艾德里安·芬提的連任,教育局局長李洋姬也隨之辭職。
無論如何,演算法對莎拉的判決已無法挽回。但幸運的是,她僅失業了幾天,在很多同行和家長的推薦下,很快在一個富裕社區學校找到教職,而且那裡不再有機器給她打分。
「拜一個非常可疑的模型所賜,窮人的學校失去了一位好老師,富人的學校卻得到了她。」凱西說,「未來,富人的事務會由人打理,平民的事情則交由機器。」
它沒有公平的概念
在美國,莎拉的故事並不是孤例。不同版本的「IMPACT」系統正在超過一半的州推行,支持者則是整個聯邦政府。這是奧巴馬時代教育改革的遺產,卻沒有得到教育界的擁護,多地教師向法院起訴此類演算法並在紐約州和休斯頓獲勝。
但這種有所成效的抗爭仍是幸運的少數。在許多領域,演算法的統治進行得更加隱蔽和難以反駁。例如執法。
凱西曾研究過一個演算法執法的樣本——賓州小城市雷丁。這個緊挨費城的資源枯竭城市,貧窮率已攀升至全美之最(41.3%),與之相伴的是同樣高企的犯罪率。雷丁政府缺錢,裁掉了45名警員,將省下的經費購買了犯罪預測系統PredPol。
這個「救星」非常強大,可以分析一個地方的犯罪歷史數據,逐小時計算不同區域的犯罪發生率,再在地圖上以網格形式呈現計算結果。最後,只要加強對有高風險提示的網格巡邏,就能遏制犯罪。一年後,雷丁政府宣布,盜竊案減少了23%。
類似PredPol的犯罪預測系統在美國大受追捧。除雷丁外,紐約、亞特蘭大、洛杉磯等大城市也在其列。如今這已成為一股世界性潮流:在中國,北京等一線城市也啟用演算法和大數據來協助降低犯罪率。
「它們看上去足夠高效,也足夠公平。」凱西說,「起碼從表面上看,它們只是預測事情,而不會考慮人種、種群等因素。」
犯罪可被預測,是「犯罪統計學」和「道德統計學」共同呈現的結果。後者可能有些費解,簡單來說,就是基於這樣一個事實:在對象足夠多時,人們的自由選擇權就會消失,甚至會喪失理智。凱文·凱利的暢銷書《失控》對此也有類似的闡述。
1820年代末,統計學家蓋里和凱特萊對法國的犯罪數據進行研究,發現每年的犯罪行為特點幾乎保持不變,連使用槍支、刀劍、拳腳、棍棒的謀殺案比例都年年相似。他們得出結論:犯罪行為可以準確無誤地進行自我複製。
但問題遠不止這麼簡單。演算法模型一旦運轉,執法行為就會增多,產生的新數據又會進一步證明加強執法的必要性。形象地說,就是哪裡前科越多,哪裡就越受演算法「關照」,最終形成一個失真、甚至有害的回饋環路。
從種族角度看,有色人種多聚居於貧困社區,由於那裡歷史犯罪率高,演算法會不斷指派警察去那裡巡邏,最終結果是更多有色公民被抓或盤查。這還是難逃種族偏見的怪圈。
從階層角度看,被演算法納入預測的都是常規犯罪,有錢人玩的金融欺詐和高智商犯罪並不在其中。也就是說,演算法再精準高效,也只是協助警察瞄準窮人。
凱西做過一項調查,曾被警察攔截搜身的男性中,有85%是黑人或拉美裔。頻繁的光顧又會放大一些可有可無的輕微罪行(例如公共場所抽煙和未成年飲酒),導致這些人與警察衝突加劇,甚至因此被捕。紐約公民自由聯盟的調查數據顯示,黑人坐牢的幾率是白人的六倍,被警察殺死的概率則是白人的21倍。
縱使情況已如此嚴重,除了固有的種族歧視因素,仍沒有多少人意識到這裡面也有演算法的功勞。人們仍然以為技術是中立的,並且信奉一種很低的成功概率——如果能打擊犯罪,忍受一些不便和騷擾是值得的。
「演算法的運用,往往面臨公平與效率的取捨。」凱西說,「法律維護公平,所以犧牲效率。演算法則剛好相反,它沒有公平的概念。」
讓人類保留最後一步
演算法取得裁決地位的領域在不斷增多,除了上述的教育和執法領域外,金融、法律、資訊、招生、求職、個人信用等都相繼被圈進其權力範圍。締造者的初衷本不值得懷疑——要擺脫人腦的偏見和運算短板,用演算法、模型、機器學習重塑一個更加客觀的世界。
然而,大眾對「技術中立」的過度誤解,恰恰滋養了新的灰色空間,演變成當下越發狂熱的大數據崇拜思潮。數據科學家弗雷德·班奈森為此創造了一個流行詞——「數學洗白」(Mathwashing)。凱西也有近似的觀點,「大數據並沒有消除偏見,我們只是用技術來掩飾它。」
以色列歷史學家尤瓦爾·赫拉利沿著這些憂思,在《未來簡史》中描繪了這麼一幅遠景——
「人類將把工作和決策權交給機器和演算法來完成,大部分人將淪為『無用階級』。只有少數精英才能真正享受到這些新技術的成果,用智能的設計完成進化、編輯自己的基因,最終與機器融為一體,統治全人類。」
這個預言至少包含兩層意思:一是演算法本身會成為新的獨裁力量;二是它將與少數精英合謀,成為奴役大多數人的工具。未來,我們求職、貸款,或申請戶籍,或許都會像故事開頭的莎拉老師一樣被機器判決,任何人都不要妄想申訴,那些複雜的演算法是天然的高牆。
演算法締造者躲在高牆背後,偷偷植入偏見、歧視和種族主義。這在世界範圍內已漸成現實。Google曾將兩名黑人的照片標註為大猩猩,Flickr也將有色人種圖片歸為動物。
2015年,蘋果Siri也攤上了事兒。一名俄羅斯用戶Alex問它同性戀酒吧怎麼走?Siri說:「如果可以臉紅的話,我就已經臉紅了。」Alex再問它對同性婚姻的看法,Siri的回應是:「我相信這是一種負面的情感。」
這些事件僅揭開了冰山一角,更多難以察覺的偏見在隱形橫行。卡內基梅隆大學2015年做過一個實驗,讓500名男性與500名女性點擊100個招聘網站,結果男性收到高薪職位信息的幾率是女性的六倍。
進入2016年,生物識別技術升溫,一個叫做Faception的以色列公司宣稱能用演算法識別恐怖分子。美國的機場曾使用過類似技術,結果平均每周有1500名乘客因此遭殃,其中一個4歲男童、數位前陸軍少校和一名飛行員被多次認定為「恐怖分子」,最高紀錄者一年被羈留80次。
同樣觸碰公眾神經的還有上海交通大學教授武筱林的「看臉識罪犯」研究,稱可以讓機器通過學習,分辨誰是罪犯,誰是守法公民。論文發表後,輿情立即被點燃,一個交大校友寫信給武筱林說:「這篇論文充滿了極度的歧視和強烈的誤導。」
武筱林通過媒體反駁:「這個研究只是揭露相關性,而非因果,我本人也非常反對歧視。「
「是不是就會有一些禁區,研究者不能去碰它?坦白講我不知道。」雖正名心切,但武也毫不掩飾他的疑惑,「核物理學家該為原子彈造成的傷害負責嗎?」
面對演算法時代的諸多迷思,社會學者的探索方向與自然科學家既交融又迥異。中國人民大學國家發展與戰略研究院研究員馬亮是少數關注「演算法偏見」的中國學者之一。2017年年末,他在社科媒體「政見」上發表文章,討論大數據導致的社會不公和階層固化。
「原本由人掌握的自由裁量權,正逐步交由演算法和系統。」他說,「一個人執法錯誤尚且可控,但系統性的錯誤則是災難。」
馬亮長期關注社會治理中大數據的應用,走訪過許多互聯網公司。他發現,個人的數據越來越往少數寡頭聚集,形成一個個無法穿透的「黑箱」。
「要粉碎『黑箱』,開放數據是第一步。但現實情況是,這仍很遙遠。」馬亮說,「如果數據不純或被篡改,計算結果也會崩塌,偏見和不公就會產生。」
凱西的解決方案是回歸人本主義——「讓演算法指出可疑之處,由人類去完成最後的核查」。她研究了一個虐童風險預測模型:如果交由演算法去裁決並懲罰,肯定會毀掉很多無辜的家庭,但如果讓社工按照預測名單去走訪和提供幫助,則是另一個溫暖的結果。
佛羅里達州希爾斯伯勒縣試水過這個方案,兩年間再也沒有兒童因虐待而死亡。
「它們的運作必須是透明的:我們必須知道它們接受哪些數據輸入,產生什麼結果,而且它們必須接受稽查。」凱西說,「這樣我們才能規管它們,馴服它們。」
注釋
[1] 大規模殺傷性武器的英文全稱為「Weapons of Mass Destruction」,凱西將Mass換成Math(數學),既諧音又諧義。
——————————
?? 歡迎關注公號「葉偉民寫作內參(ID:yeweimin121)」;
另有知乎Live課程【如何寫出你的超級故事】,7節Live打造寫作特訓營;
知乎電子書【從零開始寫故事:一個南方周末記者的特稿筆記】也已全新上線。
推薦閱讀: