凱西·奧尼爾:盲目信仰大數據的時代必須結束 | 演算法密碼

?圖:在TED演講中的凱西·奧尼爾

「演算法密碼」系列第5篇《知識分子》科學新聞實驗室第18篇

撰文 | 葉偉民(《知識分子》科學新聞實驗室特邀作者)

責編 | 黃永明

知識分子為更好的智趣生活 ID:The-Intellectual

● ● ●

上一篇「演算法相親」的故事發表後,我被爭吵包圍。因為它觸及了一個既美好又虐心的話題——愛情。演算法的介入,就像怪咖闖進了伊甸園,技術派和浪漫派的意見迥異得彷彿來自兩個星球,前者信奉「萬物可算」,後者則捍衛人類寶貴的「自由意志」。

這個碰撞早就被科幻作家列入思索之列,從而誕生了眾多反烏托邦電影。《少數派報告》便是其中之一。它的故事發生在2054年的華盛頓特區,謀殺在這裡已經絕跡。一支預防犯罪小組依賴「先知系統」準確預測所有罪行,並在發生前逮捕「罪犯」。如果你被盯上,是絕無可能抗議和掙脫的,因為「先知」是不容置疑的最高權威。

數據科學家凱西·奧尼爾很欣賞這部電影,還把它寫進了暢銷書《數學毀滅性武器》。凱西是約翰遜實驗室的高級科學顧問,哈佛大學數學博士,還曾任巴納德學院教授和華爾街量化分析師。她現居紐約,染著一頭藍發。

2008年以前,凱西過著標準的曼哈頓技術新貴生活,但金融海嘯讓她驚醒。她看到了瘋狂的財富遊戲背後所隱藏的技術深淵。此後,她參與發起「佔領華爾街」運動,並且要告訴人們更多真相——演算法和大數據在光環之外,還是更多歧視、偏見、不公的源泉,縱使其進行得相當隱蔽。

過去一個月,凱西通過郵件向我分享了她的故事。離開華爾街後,她從技術締造者的身份抽離出來,聚焦那些被技術統治卻無力抵抗的角落,例如被演算法解僱的中學教師、被犯罪預警系統過度執法的有色公民、被基金模型盤剝卻渾然不知的底層……她把背後的始作俑者稱為「weapons of math destruction」,諧音布希政府當年針對伊拉克的「大規模殺傷性武器」[1]。

也恰如其諧義,演算法在解決越來越多難題的同時,也接管人類讓渡的部分裁決權。它不斷進化,逐漸在教育、執法、金融、社會保障等領域佔據統治地位。它不靠暴力維持,而是憑神秘的科技外衣加持,樹立起普通民眾無法穿透的隱形權威。它所蘊含的新奴役關係,已引起科學界和思想界的注意,甚至被形容為「最安靜的恐怖主義」。

2017年4月,凱西登上TED,向公眾坦陳了這些鮮為人知的「黑盒子」和並不樂觀的未來。驚愕過後,人們報以持久的掌聲、歡呼和口哨,包圍了她已重複過無數次的警示——

「盲目信仰大數據的時代必須結束。」

演算法黑洞

麥法蘭中學是位於華盛頓的一所平民社區高中,擁有如茵的草坪、聯排紅牆教學樓和多種族學生。女教師莎拉·韋索奇2009年來到這裡,她對教育非凡的熱忱很快感染了同事和家長。

「她是我見過最好的老師之一。」麥法蘭中學家長教師協會負責人布萊恩·多爾西說,他的女兒是莎拉的學生,「每次見她,她不是在輔導孩子,就是與他們談心。」

學校2011年5月對莎拉的評估報告也佐證了這一點:「我們很欣慰看到這麼一個教與學互動積極、運轉高效的課堂。」莎拉還被推薦到其他學校分享經驗。

然而僅兩個月後,莎拉被解僱了。一套叫「IMPACT」的教師評價系統認為她相當失敗,原因是她任教班級的閱讀和數學成績沒有實現預期增長。

這次教學評價源自華盛頓特區自2007年推行的教育改革方案,時任教育局局長李洋姬將這裡低迷的高中升學率歸咎於教師的失職。這位作風凌厲的女士決心炒掉數百名表現差勁的教員。為了讓落刀更加精準高效,她引入一套計算機演算法系統,即「IMPACT」,它通過琳琅滿目的指標和一個極其複雜的回歸方程,組成一個「增值模型」,自動為每位教師打分並決定其命運。

縱使莎拉的其他指標非常優秀,但「增值模型」的得分卻異常低。她很憤怒,寫信質詢教育局:「我想知道,這些數據是怎樣計算出來的?」

沒有人理會她。《華盛頓郵報》為此寫了一個報道,標題充滿黑色調侃和同情——《我激情,我創造,我被炒了》。很快,莎拉收到一封來自紐約的郵件,是凱西。

凱西被這個案例吸引,她給莎拉打電話,掌握更多細節,逐漸看清其中的貓膩。兩位女士還共同查閱莎拉班上一些轉學學生的過往成績,發現他們在前一所學校的閱讀分數都異常高,是所在學區平均分的五倍。

莎拉在實際教學中卻發現相反的事實,這些學生連閱讀簡單句子都困難。凱西又查閱媒體,發現該學區塗改測驗成績的現象非常普遍。也就是有人作惡了,然後把這些虛高的成績交到老實人莎拉手上,並通過演算法讓其受到不公懲罰。

莎拉將這一發現向管理部門舉報,得到的回復是:必須明確指出作弊老師和學生的名字,還要有充足的證據反駁「IMPACT」的打分。這幾乎是一個黑客級的難題,而莎拉只是一個社區中學五年級的老師。

隨著研究的深入,凱西發現了「IMPACT」系統更多的底層邏輯漏洞。「學生的成績受很多因素影響,要量化一個教師在其中的作用非常困難,也非常複雜。」她說,「而且僅憑二三十個學生的成績來決定一個人的去留,在統計學上也是靠不住的。」

「IMPACT」系統最終解僱了兩百多名教師,主導者卻沒有獲得期望中的支持。當地工會的民意調查顯示,民眾對教師清洗行動「非常不滿意」,一些教師協會也舉行抗議,並幫助遭受不公對待的教師提出申訴。這最終影響了時任市長艾德里安·芬提的連任,教育局局長李洋姬也隨之辭職。

無論如何,演算法對莎拉的判決已無法挽回。但幸運的是,她僅失業了幾天,在很多同行和家長的推薦下,很快在一個富裕社區學校找到教職,而且那裡不再有機器給她打分。

「拜一個非常可疑的模型所賜,窮人的學校失去了一位好老師,富人的學校卻得到了她。」凱西說,「未來,富人的事務會由人打理,平民的事情則交由機器。」

它沒有公平的概念

在美國,莎拉的故事並不是孤例。不同版本的「IMPACT」系統正在超過一半的州推行,支持者則是整個聯邦政府。這是奧巴馬時代教育改革的遺產,卻沒有得到教育界的擁護,多地教師向法院起訴此類演算法並在紐約州和休斯頓獲勝。

但這種有所成效的抗爭仍是幸運的少數。在許多領域,演算法的統治進行得更加隱蔽和難以反駁。例如執法。

凱西曾研究過一個演算法執法的樣本——賓州小城市雷丁。這個緊挨費城的資源枯竭城市,貧窮率已攀升至全美之最(41.3%),與之相伴的是同樣高企的犯罪率。雷丁政府缺錢,裁掉了45名警員,將省下的經費購買了犯罪預測系統PredPol。

這個「救星」非常強大,可以分析一個地方的犯罪歷史數據,逐小時計算不同區域的犯罪發生率,再在地圖上以網格形式呈現計算結果。最後,只要加強對有高風險提示的網格巡邏,就能遏制犯罪。一年後,雷丁政府宣布,盜竊案減少了23%。

類似PredPol的犯罪預測系統在美國大受追捧。除雷丁外,紐約、亞特蘭大、洛杉磯等大城市也在其列。如今這已成為一股世界性潮流:在中國,北京等一線城市也啟用演算法和大數據來協助降低犯罪率。

「它們看上去足夠高效,也足夠公平。」凱西說,「起碼從表面上看,它們只是預測事情,而不會考慮人種、種群等因素。」

?圖:犯罪預測系統正在被廣泛應用

犯罪可被預測,是「犯罪統計學」和「道德統計學」共同呈現的結果。後者可能有些費解,簡單來說,就是基於這樣一個事實:在對象足夠多時,人們的自由選擇權就會消失,甚至會喪失理智。凱文·凱利的暢銷書《失控》對此也有類似的闡述。

1820年代末,統計學家蓋里和凱特萊對法國的犯罪數據進行研究,發現每年的犯罪行為特點幾乎保持不變,連使用槍支、刀劍、拳腳、棍棒的謀殺案比例都年年相似。他們得出結論:犯罪行為可以準確無誤地進行自我複製。

但問題遠不止這麼簡單。演算法模型一旦運轉,執法行為就會增多,產生的新數據又會進一步證明加強執法的必要性。形象地說,就是哪裡前科越多,哪裡就越受演算法「關照」,最終形成一個失真、甚至有害的回饋環路。

從種族角度看,有色人種多聚居於貧困社區,由於那裡歷史犯罪率高,演算法會不斷指派警察去那裡巡邏,最終結果是更多有色公民被抓或盤查。這還是難逃種族偏見的怪圈。

從階層角度看,被演算法納入預測的都是常規犯罪,有錢人玩的金融欺詐和高智商犯罪並不在其中。也就是說,演算法再精準高效,也只是協助警察瞄準窮人。

凱西做過一項調查,曾被警察攔截搜身的男性中,有85%是黑人或拉美裔。頻繁的光顧又會放大一些可有可無的輕微罪行(例如公共場所抽煙和未成年飲酒),導致這些人與警察衝突加劇,甚至因此被捕。紐約公民自由聯盟的調查數據顯示,黑人坐牢的幾率是白人的六倍,被警察殺死的概率則是白人的21倍。

縱使情況已如此嚴重,除了固有的種族歧視因素,仍沒有多少人意識到這裡面也有演算法的功勞。人們仍然以為技術是中立的,並且信奉一種很低的成功概率——如果能打擊犯罪,忍受一些不便和騷擾是值得的。

「演算法的運用,往往面臨公平與效率的取捨。」凱西說,「法律維護公平,所以犧牲效率。演算法則剛好相反,它沒有公平的概念。」

讓人類保留最後一步

演算法取得裁決地位的領域在不斷增多,除了上述的教育和執法領域外,金融、法律、資訊、招生、求職、個人信用等都相繼被圈進其權力範圍。締造者的初衷本不值得懷疑——要擺脫人腦的偏見和運算短板,用演算法、模型、機器學習重塑一個更加客觀的世界。

然而,大眾對「技術中立」的過度誤解,恰恰滋養了新的灰色空間,演變成當下越發狂熱的大數據崇拜思潮。數據科學家弗雷德·班奈森為此創造了一個流行詞——「數學洗白」(Mathwashing)。凱西也有近似的觀點,「大數據並沒有消除偏見,我們只是用技術來掩飾它。」

以色列歷史學家尤瓦爾·赫拉利沿著這些憂思,在《未來簡史》中描繪了這麼一幅遠景——

「人類將把工作和決策權交給機器和演算法來完成,大部分人將淪為『無用階級』。只有少數精英才能真正享受到這些新技術的成果,用智能的設計完成進化、編輯自己的基因,最終與機器融為一體,統治全人類。」

這個預言至少包含兩層意思:一是演算法本身會成為新的獨裁力量;二是它將與少數精英合謀,成為奴役大多數人的工具。未來,我們求職、貸款,或申請戶籍,或許都會像故事開頭的莎拉老師一樣被機器判決,任何人都不要妄想申訴,那些複雜的演算法是天然的高牆。

演算法締造者躲在高牆背後,偷偷植入偏見、歧視和種族主義。這在世界範圍內已漸成現實。Google曾將兩名黑人的照片標註為大猩猩,Flickr也將有色人種圖片歸為動物。

2015年,蘋果Siri也攤上了事兒。一名俄羅斯用戶Alex問它同性戀酒吧怎麼走?Siri說:「如果可以臉紅的話,我就已經臉紅了。」Alex再問它對同性婚姻的看法,Siri的回應是:「我相信這是一種負面的情感。」

這些事件僅揭開了冰山一角,更多難以察覺的偏見在隱形橫行。卡內基梅隆大學2015年做過一個實驗,讓500名男性與500名女性點擊100個招聘網站,結果男性收到高薪職位信息的幾率是女性的六倍。

進入2016年,生物識別技術升溫,一個叫做Faception的以色列公司宣稱能用演算法識別恐怖分子。美國的機場曾使用過類似技術,結果平均每周有1500名乘客因此遭殃,其中一個4歲男童、數位前陸軍少校和一名飛行員被多次認定為「恐怖分子」,最高紀錄者一年被羈留80次。

?圖:一些商業公司聲稱能用演算法識別恐怖分子

同樣觸碰公眾神經的還有上海交通大學教授武筱林的「看臉識罪犯」研究,稱可以讓機器通過學習,分辨誰是罪犯,誰是守法公民。論文發表後,輿情立即被點燃,一個交大校友寫信給武筱林說:「這篇論文充滿了極度的歧視和強烈的誤導。」

武筱林通過媒體反駁:「這個研究只是揭露相關性,而非因果,我本人也非常反對歧視。「

「是不是就會有一些禁區,研究者不能去碰它?坦白講我不知道。」雖正名心切,但武也毫不掩飾他的疑惑,「核物理學家該為原子彈造成的傷害負責嗎?」

面對演算法時代的諸多迷思,社會學者的探索方向與自然科學家既交融又迥異。中國人民大學國家發展與戰略研究院研究員馬亮是少數關注「演算法偏見」的中國學者之一。2017年年末,他在社科媒體「政見」上發表文章,討論大數據導致的社會不公和階層固化。

「原本由人掌握的自由裁量權,正逐步交由演算法和系統。」他說,「一個人執法錯誤尚且可控,但系統性的錯誤則是災難。」

馬亮長期關注社會治理中大數據的應用,走訪過許多互聯網公司。他發現,個人的數據越來越往少數寡頭聚集,形成一個個無法穿透的「黑箱」。

「要粉碎『黑箱』,開放數據是第一步。但現實情況是,這仍很遙遠。」馬亮說,「如果數據不純或被篡改,計算結果也會崩塌,偏見和不公就會產生。」

凱西的解決方案是回歸人本主義——「讓演算法指出可疑之處,由人類去完成最後的核查」。她研究了一個虐童風險預測模型:如果交由演算法去裁決並懲罰,肯定會毀掉很多無辜的家庭,但如果讓社工按照預測名單去走訪和提供幫助,則是另一個溫暖的結果。

佛羅里達州希爾斯伯勒縣試水過這個方案,兩年間再也沒有兒童因虐待而死亡。

「它們的運作必須是透明的:我們必須知道它們接受哪些數據輸入,產生什麼結果,而且它們必須接受稽查。」凱西說,「這樣我們才能規管它們,馴服它們。」

關於作者

葉偉民,媒體人。畢業於蘭州大學核物理專業。曾任ZAKER總編輯,《南方周末》特稿編輯、記者。現從事互聯網,同時是多家平台的簽約作者和寫作導師。

注釋

[1] 大規模殺傷性武器的英文全稱為「Weapons of Mass Destruction」,凱西將Mass換成Math(數學),既諧音又諧義。

譯名對照表

凱西·奧尼爾 Cathy O』Neil

莎拉·韋索奇 Sarah Wysocki

布萊恩·多爾西 Bryan Dorsey

李洋姬 Michelle Rhee

艾德里安·芬提 Adrian Fenty

安德烈·米歇爾·蓋里 Andre Michel Guerry

阿道夫·凱特萊 Lamber Adolphe Jacques Quetelet

雷德·班奈森 Fred Benenson

尤瓦爾·赫拉利 Yuval Noah Harari


製版編輯:許逸|

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

copyright@zhishifenzi.com

知識分子為更好的智趣生活 ID:The-Intellectual

推薦閱讀:

有沒有因為沒有使用大數據而失敗的公司?
協同過濾是機器學習的其中一種方法么?
《計算廣告》讀書筆記
用什麼軟體可以切割10個G的txt數據?
谷歌大神帶你十分鐘看懂TensorFlow

TAG:大数据 | 算法 |