2億:走進史上規模最大的美國選民數據泄露案

原文作者:E安全

作者主頁:黑客安全知識_安全媒體_信息安全_網路安全_E安全

原文鏈接:2億:走進史上規模最大的美國選民數據泄露案 | E安全

本文非《安全大事件》原創

提示:圖片點擊「查看原圖」,放大後可看清。

共和黨國家委員會簽約的一家營銷公司本月泄漏了大量美國公民的政治數據。在這一波有史以來規模最大的數據泄露案當中,UpGuard公司的網路風險小組已經得出確切結論,認定此次事故源自一套存在配置錯誤的資料庫。

該資料庫中包含超過1.98億名美國選民的敏感個人資料,並由一家參與共和黨全國委員會(簡稱RNC)所組織的唐納德·特朗普競選事務的企業暴露至網上。由共和黨數據廠商Deep Root Analytics公司擁有的一台公開訪問雲伺服器上存儲有高達1.1 TB數據,全部屬於由DRA以及TargetPoint Consulting與Data Trust等至少兩家其它共和黨承包商所掌握的非安全個人信息。

本次數據泄漏多龐大?

1.1 TB數據涉及總計約2億名美國登記選民的姓名、出生日期、住址、電話號碼以及選民註冊細節信息,甚至還包括政治團體採用的先進情緒分析來預測個人選民如何處理熱門問題,如槍支所有權,幹細胞研究和墮胎權,以及宗教信仰和種族。

此次數據泄露事件在規模上已經遠遠超過此前曝光的墨西哥選舉數據(同樣由維克里Vickery所發現)和菲律賓選舉數據外泄案,畢竟後兩者影響人數只是超過1億人次。而這次事件影響超過61%的美國本土民眾。

此次數據泄露讓我們得以對共和黨全國委員會在2016年總統大選當中斥資1億美元進行數據運作的具體方式進行深入了解。很明顯,米特·羅姆尼(Mitt Romney)在2012年競選中的慘敗激起共和黨發起大範圍精心策劃的競選攻勢。

Deep Root Analytics、TargetPoint以及Data Trust三家公司皆為共和黨數據企業,均被納入共和黨全國委員會為特朗普2016年總統大選所組織起的數據團隊的內,負責通過一系列舉措以影響潛在選民並準確預測其最終傾向。

RNC數據存儲庫最終獲得了大約95億個數據點,覆蓋五分的三的美國民眾,並通過先進的歸屬演算法將選民劃分為48個不同類別,以掌握了1.89億名潛在美國選民的政治偏好。

包含上述收集數據的電子表格更新至2017年1月的總統就職典禮,其提供的寶貴數據亦足以讓我們一窺特朗普競選活動當中掌握的政治數據與民眾傾向模式。這部分數據亦暴露在一套存在配置錯誤的資料庫當中,目前尚不清楚其存儲在此資料庫中的具體時間段。

作為有史以來規模最大的美國選民信息曝光事件之一,UpGuard公司的發現已經得到技術取證的證實,相關責任企業及政府人員亦證實其真實性。

任何人都可查看特朗普選舉相關數據

今年6月12日傍晚,UpGuard公司網路風險小組的網路風險分析師克里斯·維克里(Chris Vickery)發現了一套公開雲存儲庫。該網路風險小組屬於UpGuard公司下轄的研究單位,致力於尋找存在配置錯誤的數據源,從而確保並提升公眾對此類問題的認知。

該數據存儲庫(為一套Amazon Web Services S3存儲桶)未對訪問行為作任何限制,以至於任何能夠接入互聯網的人都可以訪問該共和黨資料庫。

只需前往訪問「dra-dw」這一六個字元組成的Amazon子域名,即可獲取這批為特朗普帶來選舉勝利的重要數據集。

根據對內容進行的檢查,「dra-dw」代表著「Deep Root Analytics資料庫」。「資料庫」負責容納大量收集數據以實現後續的高複雜度專項分析。

Deep Root Analytics公司證實稱,他們確實擁有並運營這套數據存儲庫。但在維克里向美國聯邦當局發出通知後不久,該數據存儲庫就於今年6月14日晚關閉公開訪問。

1.1 TB數據是什麼概念?

總體而言,該資料庫當中的1.1 TB數據規模相當於總長達500小時的視頻資源。在相關文件當中,有一部分清楚表明了該資料庫的政治價值與重要意義。其文件目錄竟然直接以高知名度與影響力的共和黨政治組織進行命名。

情況的嚴重程度還不止於此。該存儲庫當中還存在另外24 TB數據,但其配置並不允許公開進行訪問。最終,存儲在錯誤配置資料庫內的總體數據量約相當於100億頁文本。

目前還不太清楚那些無法訪問但具備有趣標題的文件是否同樣重要。

舉例來說,其中的一份文件標題為《戰略的十字路口,最終更新版(for_strategy_xroads_updated_FINAL)》,這在某種程度上可能是指前任美國總統小布希的顧問卡爾·羅夫所建立的政治委員會「美國十字路口」。該委員會曾在2016年的選舉籌款工作當中表現活躍。

除此之外,還曝光了一份龐大的Reddit文章緩存副本,其被保存為如下文本:

維克里最終花了近3天的時間才完成全部1.1 TB公開訪問文件的下載,其中包含兩個重要目錄,分別為「data_trust」與「target_point」。

數據運營

作為一家共和黨人持有的數據企業,Deep Root Analytics公司創建並維護著這套遭受曝光的資料庫。該公司於2013年由曾在2012年羅姆尼總統競選活動中擔任數據總監的共和黨選舉數據科學家亞歷克斯·列茲(Alex Lundry)建立。並自我標榜為「共和黨政治體系中最具經驗的受眾群體」,負責向各企業、遊說團體以及共和黨政治運動提供媒體分析服務。Deep Root公司聲稱其能夠對「微目標」進行大數據分析,從而更為高效地實現針對性人口統計,幫助客戶在選擇宣傳渠道時做出更為明智的決策。

作為延續性傳統,列茲在2016年總統大選當中最初擔任前佛羅里達州州長傑布·布希的「首席分析官」。不過最終小小布希並未能利用這套資深信息庫獲得黨內提名,而另一方面特朗普則在競選活動中缺少強大數據支持的情況下順利成為共和黨候選人。隨著特朗普確定獲得黨內提名,共和黨於2016年7月正式結束了預選賽階段,並隨即將其數據團隊與特朗普競選活動加以結合,旨在全力對抗民主黨及其候選人希拉里·柯林頓。

Data Trust公司

為了在此次選舉中勝出,共和黨全國委員會需要投入重金以拉攏數據分析領域各私營企業的資源。其中一家私營諮詢企業正是Data Trust,這家位於華盛頓的公司據稱不斷通過收集、擴展及強化選民檔案,以建立起一整套共和黨與保守派數據生態系統。

作為「共和黨獨家數據供應商」,Data Trust公司由共和黨全國委員會於2011年所建立。根據《國家評論》雜誌的介紹,該公司「負責共和黨選民檔案成本預案的制定與管理」,這些詳盡的選民信息庫將極大影響選舉宣傳活動乃至最終投票結果本文源自E安全。

根據《候選人》雜誌的報道,Data Trust一直作為共和黨國家委員會的內部企業運營,儘管這是一家擁有私營性質混合型企業,但卻仍由黨內大佬負責幕後操控。

在Deep Root Analytics公司的資料庫內,「data_trust」文件夾似乎包含著RNC/Data Trust所收集到的全部成果。其詳盡列出了2016年全美潛在選民的個人信息。

「data_trust」文件夾

在「data_trust」文件夾內存在著兩套巨大的個人信息收集副本,總計涉及1.98億潛在選民。當時整個「data_trust」文件夾允許任何訪問該資料庫URL的人士所下載。

這些內容主要被分為兩個文件目錄,其中一個256 GB的文件夾包含2008年總統大選信息,而另一個233 GB的文件夾則包含2012年大選信息;二者各自包含51個文件,每個文件對應一個州。各個文件以逗號作為分隔符(.csv格式),同時包含一條內部的32位字元、包含字母與數字的「RNC ID」。例如530C2598-6EF4-4A56-9A7X-2FCA466FX2E2,作為標記資料庫內的每一位潛在選民。這些RNC ID將不同數據集對接起來,同時結合數十個敏感的個人標記數據點,這意味著分析方可以通過名稱將大量美國選民進行分組與整理。

維里克與報道記者皆對這些電子表格進行了查看,並確認這些文件中確實存在準確且敏感的個人信息。以下為各.csv目錄當中的具體內容:

"RNCID", "RNC_RegID", "State", "SOURCEID", "Juriscode", "Jurisname", "CountyFIPS", "MCD", "CNTY", "Town", "Ward","Precinct", "Ballotbox", "PrecinctName", "CD_Current", "CD_NextElection", "SD_Current", "SDProper_Current","SD_NextElection", "SDProper_NextElection", "LD_Current", "LDS_Current", "LDProper_Current", "LD_NextElection","LDS_NextElection", "LDProper_NextElection", "NamePrefix", "FirstName", "MiddleName", "LastName", "NameSuffix", "Sex","BirthYear", "BirthMonth", "BirthDay", "OfficialParty", "StateCalcParty", "RNCCalcParty", "StateVoterID", "JurisdictionVoterID","AffidavitID", "LegacyID", "LastActiveDate", "RegistrationDate", "VoterStatus", "PermAbs", "SelfReportedDemographic","ModeledEthnicity", "ModeledReligion", "ModeledEthnicGroup", "HHSEQ", "HTSEQ", "RegistrationAddr1", "RegistrationAddr2", "RegHouseNum", "RegHouseSfx", "RegStPrefix", "RegStName", "RegStType", "RegstPost", "RegUnitType", "RegUnitNumber","RegCity", "RegSta", "RegZip5", "RegZip4", "RegLatitude", "RegLongitude", "RegGeocodeLevel", "RADR_LastCleanse","RADR_LastGeoCode", "RADR_LastCOA", "ChangeOfAddress", "COADate", "COAType", "MailingAddr1", "MailingAddr2","MailHouseNum", "MailHouseSfx", "MailStPrefix", "MailStName", "MailStType", "MailStPost", "MailUnitType","MailUnitNumber", "MailCity", "MailSta", "MailZip5", "MailZip4", "MailSortCodeRoute", "MailDeliveryPt","MailDeliveryPtChkDigit", "MailLineOfTravel", "MailLineOfTravelOrder", "MailDPVStatus", "MADR_LastCleanse","MADR_LastCOA", "AreaCode", "TelephoneNUm", "TelSourceCode", "TelMatchLevel", "TelReliability", "FTC_DoNotCall","PhoneAppendDate", "VH12G", "VH12P", "VH12PP", "VH11G", "VH11P", "VH10G", "VH10P", "VH09G", "VH09P", "VH08G","VH08P", "VH08PP", "VH07G", "VH07P", "VH06G", "VH06P", "VH05G", "VH05P", "VH04G", "VH04P", "VH04PP", "VH03G","VH03P", "VH02G", "VH02P", "MT10_Party", "MT10_GenericBallot", "MT10_Turnout", "MT10_ObamaDisapproval", "MT10_Jobs","MT10_Healthcare", "MT10_SoCo", "PG01", "PG02", "PG03", "PG04", "PG05", "PG06", "PG07", "PG08", "PG09", "PG10", "PG11","PG12", "PG13", "PG14", "PG15", "PG16", "PG17", "PG18", "PG19", "PG20", "PG21", "PG22", "PG23", "PG24", "PG25", "PG26","PG27", "PG28", "PG29", "PG30", "PG31", "PG32", "PG33", "PG34", "PG35", "PG36", "PG37", "PG38", "PG39"

直接以潛在選民的名字與姓氏開始的身份披露方式超出研究人員的想像,文件還囊括有其它一大批重要數據,具體包括選民的出生日期、家庭住址、家庭與郵寄地址、電話號碼、註冊黨派、自我報告的種族歸屬選民登記狀態甚至其在聯邦政府中是否被列入「請勿來電」名單另外,數據欄位中還可以看到潛在選民的「種族歸屬」以及「宗教歸屬」,從歷史角度來看,這些極為敏感的個人資料歷來屬於數據收集工作中的爭議性內容。

儘管並非所有人的各個欄位都是完整填寫的,但只要具有明確答案,即會在表格當中得到體現。此外,該資料庫中還包含一個相對較小的2016年大選文件夾,不過與2008年與2012年文件夾不同,2016年文件夾只包含俄勒岡州與佛羅里達州的對應.csv文件。而這兩個州恰好是民主、共和兩黨爭奪最為激烈的戰場。

共和黨全國委員會多年以來一直致力於構建一套世界領先的數據運營體系,其也因此僱用了Deep Root Analytics以配合其它數據廠商共同完成奧巴馬數據團隊為民主黨提供的數據分析體系。根據《廣告時代》雜誌發布的文章,共和黨全國委員會整理出的大選後數據運營總結報告顯示:

「大部分數據建模與選民評分工作,特別是在現場工作、選民聯絡以及電視廣告方面均由共和黨全國委員會僱用的三家數據企業(TargetPoint Consulting、Causeway Solutions、Deep Root Analytics)集體完成。其中Deep Root通過一家名為Needle Drop的新建子公司與共和黨全國委員會進行正式合作。」

根據《廣告時代》發布的報道,共和黨全國委員會為其中兩家公司的資料庫方案總計支出超過500萬美元(約人民幣4500萬)。

據美國聯邦選舉活動委員會的報告,自2015年1月到2016年11月,共和黨全國委員會共向TargetPoint公司支持420萬美元數據服務費,並向Causeway公司支付約50萬美元。而通過Needle Drop進行業務接洽的Deep Root則從共和黨全國委員會手中獲得98萬3千美元。

TargetPoint公司

Needle Drop公司委託方TargetPoint Consulting於2005年至2015年期間任命Deep Root Analytics創始人亞歷克斯·列茲出任其「首席數據科學家」,其與本資料庫當中的「target_point」文件夾相對應。作為一家共和黨建立的企業,這家位於弗吉尼亞州亞歷山德里亞的公司是一家「全面服務市場研究與知識管理廠商」,專門代表各企業及政治客戶處理微目標受眾事務,其宣稱自身「服務曾幫助小布希總統在2004年的總統大選中獲勝。」

TargetPoint公司屬於保守派政界數據運營領域內的一家極具信譽與認可度的權威機構,並曾參與到魯迪-朱利亞尼(Rudy Guiliani)2008年總統競選、麥凱恩·帕林2008年總統競選以及全國共和党參議院連任等活動當中。根據《華盛頓郵報》2007年作出的說明,TargetPoint公司創始人亞歷山大·凱吉作為一名前投票與市場研究員本文源自E安全,曾向數據分析理事會介紹其曾擔任總統候選人米特-羅姆尼的競選策略總監:

「『微目標機制的訴求在於立足DNA層面揭露政治態勢的本質,』凱吉指出。『我所掌握的信息越多,判斷也就越準確。』而凱吉擁有的信息越多,即可將受眾劃分為更為明確的『目標群體』,例如『愛國與愛家共和黨人』或者『稅收與恐怖主義中立者』等等。在將對方進行定義的後,在競選活動中選擇正確的宣傳信息將變得相當簡單。」

雖然像TargetPoint這樣的數據公司本應該有能力以理想的方式存儲美國公民的敏感個人信息,但考慮到此次曝光的、在未設任何安全防護機制的公開雲伺服器上存儲1.98億美國民眾敏感個人信息及潛在政治傾向的糟糕作法,這一結論恐怕根本站不住腳。

「target_point」文件

「target_point」文件夾內容所帶來的問題甚至要比Data Trusty存儲庫更為突出,其包含的14個以Alteryx資料庫格式(.yxdb)格式(這種文件格式專門用於進行大規模數據分析)存儲的文件。其中大多數文件更新於2017年1月中旬至下旬,且部分文件被標記為「聯繫人文件「,並用不同日期標註其更新時間。

「聯繫人文件」電子表格同樣包含的之前提到的32位字母加數字RNC ID,囊括1.98億潛在美國選民的個人姓名及家庭住址。每條RNC ID與名稱間存在的明確關聯且可用於一一識別全部1.98億對象的個人信息。

數據記錄、解讀選民政治傾向

其餘文件則展現了這套系統性大規模分析運作體系處理1.98億潛在選民信息庫時的具體方式,即凱吉所稱的「解讀政治DNA」,可將個人細節信息、背景與政治行為結合起來。鑒於這套數據收集到大多數國民的個人歸屬與政治偏好,且可隨意下載,使其成為一套值得深度挖掘的政治資源寶庫。

這套文件的日期與名稱顯示,總統選舉之後仍有相當一部分跟蹤數據,即特朗普獲勝到2017年1月20日進行總統就職典禮期間的數據分析結果。

部分文件與共和黨全國委員會以及TargetPoint公司官員的公開聲明一致,對選舉活動中的數據進行了針對性分析。舉例來說,一個名為「DRA Post Elect 2016 Reluctant DJT scores 1-6-17.yxdb」的文件中包含6900萬行信息,其說明了由共和黨數據小組對資源庫內信息進行選舉後分析得出的結論。共和黨數據小組通過種分析得到了一系列更重要的結論,包括TargetPoint對於「反對特朗普」選民的分析以及共和黨仍不確定是否應支持特朗普的數據等。

在一個題為「DRA Post Elect 2016 All Scores 1-12-17.yxdb」的50 GB文件當中,每位潛在選民皆通過46列信息進行0到1的間的十進位分數評估。這46列中的每個欄位皆代表著潛在選民對於政策、政治候選人或者其主張的支持情況,其中0代表最不支持、1則代表最支持。

RNC_RegID, State, 2012ObamaVoter_DRA_12_16, 2012RomneyVoter_DRA_12_16, 2016ClintonVoter_DRA_12_16, 2016TrumpVoter_DRA_12_16, AmericaFirstForeignPolicy_agree_DRA_12_16 AmericaFirstForeignPolicy_disagree_DRA_12_16 AutoCompaniesShipJobsOverseas_agree_DRA_12_16 AutoCompaniesShipJobsOverseas_disagree_DRA_12_16 CorpReputs_AmericanMakers_DRA_12_16, CorpReputs_DailyLives_DRA_12_16, CorpReputs_Egalitarians_DRA_12_16, CorpReputs_EnviroConscious_DRA_12_16, CorpReputs_OpportunitySeekers_DRA_12_16, CorpReputs_STEMSupporters_DRA_12_16, CorpReputs_SupplyChainers_DRA_12_16, CorpReputs_Unifers_DRA_12_16, DemLeadersStandUpToTrump_DRA_12_16, DemLeadersWorkWithTrump_DRA_12_16, DParty_DRA_12_16, FinancialServicesHarmful_agree_DRA_12_16 FinancialServicesHarmful_disagree_DRA_12_16 FinServicesCompany_Dreamers_DRA_12_16 FinServicesCompany_RiskMitigators_DRA_12_16 FossilFuelsImportantForUSEnergySecurity_DRA_12_16 FossilFuelsNeedToMoveAwayFrom_DRA_12_16, InvestInfrastructure_agree_DRA_12_16, InvestInfrastructure_disagree_DRA_12_16, LowerTaxes_agree_DRA_12_16, LowerTaxes_disagree_DRA_12_16, NonReluctantDJTVoter_DRA_12_16, NonReluctantHRCVoter_DRA_12_16, PharmaCompsDoGreatDamage_agree_DRA_12_16, PharmaCompsDoGreatDamage_disagree_DRA_12_16, ReformGovtRegulations_agree_DRA_12_16, ReformGovtRegulations_disagree_DRA_12_16, ReluctantDJT_Above.5_DRA_12_16, ReluctantHRCVoter_DRA_12_16, RepealObamacare_agree_DRA_12_16,RepealObamacare_disagree_DRA_12_16 RParty_DRA_12_16, StopIllegalImmigration_agree_DRA_12_16,StopIllegalImmigration_disagree_DRA_12_16,TrumpStandUpToDems_DRA_12_16, TrumpWorkWithDems_DRA_12_16,USAFinancialSituation_Optimistic_DRA_12_16, USAFinancialSituation_Pessimistic_DRA_12_16

通過對1.98億潛在選民的計算,意味著電子表格中包含95億個歸屬概率。其中的問題包括:各選民在2012年是否為奧巴馬總統投支持票;是否同意「美國至上」的特朗普外交政策;如何看待汽車製造業問題等等。

這份電子表格以令人印象深刻的方式展示了數據分析的力量。然而,儘管每位潛在選民皆以32位字元的RNC內部ID進行標記,但我們只需要進一步關聯即可發現其真實姓名。即前文提到的存在於資料庫內的「聯繫人文件」就能夠將RNC ID與潛在選民的實際身份聯繫起來。

美國記者通過對確認自己的RNC ID,並藉此查看了由TargetPoint計算得出的政策偏好與政治傾向驗證其準確性,可怕的是這些分析出來的數據相當準確。

此次數據泄露的意義

此次數據泄露事件再次將美國民眾對於隱私及安全性保障的期望推向風口浪尖。因此有必要儘快對美國選舉進程內選民資料庫的完整性進行攻擊測試,否則人們對於網路風險可能會最終對美國民主體制乃至政府機構構成嚴重威脅的擔憂或成為現實。

即使沒有出現可公開訪問的問題,對於這樣一套龐大的國家資料庫,選擇在線創建與託管的處理方式確實存在弊端。

負責收集這些信息的私營企業、相關政治活動方並沒有採取安全的方式存儲,這暴露出責任制度的缺失。隨著數據分析能力的日益提升,普通民眾愈發關注這類責任的具體分配。

2017年,信息技術系統的規模化完整性保障能力已經越來越無法滿足人們的實際需求。隨著對技術依賴性的不斷提升,網路風險水平亦大幅增長; 隨著生活中更多功能被遷移至數字化平台上,人們的日常工作與生活也面臨著巨大的網路風險威脅。除了黑客性質的身份竊取、欺詐與轉售的外,數據歸屬與分析能力亦可將個人信息用於其它更具野心的行為,例如企業營銷、垃圾郵件傳播以及打擊高層政治目標等等。

如果利益相關者能夠遵循數據收集與存儲工作中的一些簡單規則,即可在一定程度上有效防止這些個人信息遭到濫用的情況。

儘管事故本身是由特定黨派所造成,此次數據泄露的根本原因並非單純歸結於某一黨派。此次數據泄露影響到的群體涵蓋各個政治陣營、居住位置以及政策主張的1.98億美國民眾。資料庫遭到遺忘、第三方供應商風險以及許可權設置不當,是導致此次事件的常見安全風險因素,並最終造成有史以來規模最大的個人信息泄露。

未來或還將出現規模更大的信息泄露事件。如果網路彈性原則不能在各類面向互聯網的系統的上成為一種常態,那麼這一次震驚全球的安全事故恐怕只是個糟糕的開端。

*Deep Root Analytics公司於6月19日發布聲明稱為此次數據泄露事件承擔全部責任

推薦閱讀:

花無涯FAQ答疑係列之「如何成為一名黑客」
姚威:我要做凌晨三點最早看見曙光的人
烏雲上的白帽子有沒有出現過失誤,造成對方損失的情況?
滲透測試網站的過程中,哪個環節容易踩線?又該如何避免踩線?

TAG:网络安全 | 信息安全 | 用户数据泄露 |