Infovis的圖形推理(譯)
圖1 這六個地塊顯示了得克薩斯州癌症死亡人物的地圖,一個地塊不屬於,其中較暗的色彩=更多的死亡人數。你能發現六個地塊中哪一個是從真實的數據集中做出的,而不是在空間獨立的零假設下模擬的?如果是這樣,你提供正式的統計學證據,表明癌症死亡具有空間依賴性,請參閱第8節的答案。
摘要——我們如何知道我們看到的是真的在那裡?當可視化數據時,我們如何避免陷入隨意雜訊模式的陷阱?傳統上,infovis一直關注發現新的關係和統計,防止虛假的關係被報告。我們用兩種新的技術將這些相反的極點拉近,以便對視覺發現進行嚴格的統計推斷。 「Rorschach」幫助分析師校準他們對不確定性的理解,「陣容」提供了一個評估視覺發現意義的方案,防止發現雜散結構。
索引術語——統計學,視覺測試,排列測試,零假設,數據圖
1引言
統計在infovis中的作用是什麼?在本文中,我們通過將答案構想為好奇心和懷疑論之間的妥協來嘗試並回答這個問題。 Infovis提供工具來發現新的關係以及infovis的大量研究,目的是儘可能提高找到關係的機會。另一方面,大多數統計方法提供了檢查關係是否真的存在的工具:它們是被懷疑的工具。大多數統計研究的重點是確保最小化找到不存在關係的機會。兩個極端都不好:不受約束的好奇心導致當其他人嘗試驗證它們時,結果卻不存在了,而猖獗的懷疑則阻止任何新的發現。
圖形化推理將這兩個相互衝突的驅動器連接起來,從而為懷疑論提供了一種工具,這種方法可以應用在一個充滿好奇心的環境中。它使我們能夠發現新的發現,同時控制apophenia,人類天生就能在噪音中看到模式的能力。圖形推理有助於我們回答「我們真正看到的是什麼」這個問題。
圖形推理的支持統計概念在[1]中提到,本文提倡將這些方法用於infovis,並展示了它們如何與常見圖形一起使用,為用戶提供一個工具包來避免誤報。這些方法的啟發式公式已經使用了一段時間,早期的前身參見文獻[2],他們通過從這些模型生成樣本並將其與實際星系的照相平板進行比較來評估星系分布的新模型。這在當時是特別令人印象深刻的成就:模型必須基於隨機值表來模擬並且手繪圖形。隨著電腦的出現,這樣的例子變得越來越普遍。在[3]中比較了計算機生成的蒙德里安繪畫與真正的藝術家的繪畫;[4]提供了40頁的無效圖;文獻[5]提出注意力不能過度解釋隨機視覺刺激的觀點;在[6]中建議使用數據的隨機樣本生成的線來覆蓋正態概率圖;早期的可視化系統Dataviewer 在文獻[7]實施了一部分想法。
本文的結構如下:第2節修改了統計推斷的基礎知識,並展示了如何適應在視覺上工作;第3節描述了我們迄今為止開發的兩個圖形推理協議,Rorschach和陣容;第4節根據其目的和相關的零分布情況討論了所選擇的可視化,其中的選擇包括一些傳統的統計圖形和流行的信息可視化方法;第5節簡要討論了這些圖形測試的功能;第8節講述了哪個面板是所有圖形的真實面板,並給出一些提示,以幫助了解原因;第7節總結了本文,提出進一步研究的方向,並簡要討論了一些倫理問題。
2什麼是干預,為什麼我們需要它?
許多統計方法的目標是進行推理,得出關於數據樣本來源的人口的結論。 這就是為什麼統計是有用的:我們不希望我們的結論只適用於一個方便的本科生樣本,而只適用於人類的很大一部分。 統計推斷有兩個組成部分:測試(有差異嗎?)和估計(差異有多大)? 在本文中,我們專註於測試。 對於圖形,我們想要解決問題「我們真正在那裡看到什麼?」更準確地說,我們在樣本情景中看到的是對整個人口的準確反映? 本節的其餘部分通過提供統計假設檢驗的簡短回顧來說明如何回答這個問題,並描述了測試如何適應視覺而不是數字化。
與刑事司法系統類似,可能最好地理解假設檢驗。 被告(數據集)將根據審判結果(統計檢驗)判定有罪或無罪。每個審判都有辯護(倡導無效假設)和起訴(倡導替代假設)。在怎樣的基礎上證據(檢驗統計量)與標準(p值)進行比較,法官判定定罪(拒絕null)或無罪(不能拒絕零假設)。
與刑事司法系統不同,在統計司法系統(SJS)中,證據是基於被告與已知無辜者之間的相似性,使用由檢驗統計量定義的具體度量。被稱為零分配的無辜人口是通過零假設和檢驗統計量的組合產生的。為了確定被告的內疚,我們計算比被告認罪的無辜者的比例。這是p值,如果實際上是無辜的,被告會看起來有罪的可能性。
我們可以在我們的決定中犯下兩種類型的錯誤:我們可以無罪釋放有罪的數據集(第二類錯誤或假陰性),或虛假定罪無辜的數據集(I型錯誤或假陽性)。正如刑事司法系統一樣,這兩個錯誤的代價不平等,根據後果的嚴重程度而有所不同(冒犯自由的有罪嫌犯的風險不等於讓兇手兇手走的危險)自由)。通常,隨著我們決策的後果越來越大,我們想要更加謹慎,需要更多的證據來定罪:早期的探索性分析可以自由地作出一些錯誤的決定,但是不要批准一個可能的晚期臨床試驗後的危險藥物。分析人員需要計算和校準這些成本
為了演示這些原則,我們使用一個小型的模擬實例,基於旨在比較條件1與條件二在可用性研究中的準確性的實驗。在這方面,辯方認為兩組之間沒有區別,檢方認為這兩者是不同的。統計理論告訴我們,將集體手段除以合併標準差的差異作為有罪的度量(檢驗統計量),而在這一措施下,無辜者的人口將具有(近似)t分布。圖2顯示了10,000個無害環境樣本的分布情況,單側雙樣本t檢驗。觀察到的測試統計量的值表示為直方圖上的垂直線。由於我們對於組間差異是否為正面或負面的概念並不重要,所以最好比較被告與無辜者的絕對價值,如底部圖,單面雙樣本測試。正如你所看到的,很少有無辜人士(約3%)因為(或更有罪)而被判有罪,所以決定是定罪。
這些原則與視覺測試保持一致,除了兩個方面:測試統計量和計算相似度的機制。 檢驗統計數據現在是數據圖,而不是數學測量的差異,我們使用一個人的法官,甚至陪審團。
圖3示出了傳統t檢驗的圖形替代方案。 被告是真實數據的陰謀,被隱藏在八個無辜者之中,從零分配中產生的數據圖。 我們需要一些新的術語來使此描述更簡潔:空數據集是空分布的一個示例,即無辜數據集的示例,空圖是空數據集的圖,顯示無辜者可能看起來像。 所以圖3隱藏了八個空圖中的真實情節。 你能找到嫌疑人嗎? 如果是這樣,那麼有一些證據顯示被告與無辜者不同,我們可能會被定罪。 (有關解決方案,請參見第8節)
這個例子顯示了傳統的數字測試和新的視覺測試之間的比較,但這項工作的目的並不是取代傳統測試。 傳統的統計測試經過充分的研究,精心制定,並且在數據行為良好的情況下,在相對簡單的情況下已知分布後,效果最佳。 但是,由於infovis的研究人員毫無疑問經驗豐富,傳統的統計測試沒有涵蓋探索數據時出現的所有複雜性。 視覺推理的好處是它可以用於沒有相應數值測試的複雜數據分析設置。
圖2(上)分組在零假設下的分布(無辜分配)。 垂直線表示觀察到的測試統計量的值。 這是一個單面雙樣本t檢驗。 (下)分組平均值絕對值分布。 這對於雙邊測試來說比較適合,差異的大小比差異的方向更重要。 這是一個雙側雙樣本t檢驗。
圖3.視覺t檢驗。 對於每個數據集,觀察值顯示為點,組表示為交叉。 被告在八名無辜者中被隱藏。你能找到他嗎?
3圖形聲明協議
本節介紹兩種新的嚴格的圖形推理協議:「Rorschach」和「陣容」。 Rorschach是一個校準器,幫助分析師習慣了隨機數據的變幻莫測,而陣容提供了一個簡單的推理過程來為數據圖生成一個有效的p值。 我們描述協議並顯示如何使用它們的示例,並將讀者引用到[1]以獲得更多的細節。
3.1 Rorschach
Rorschach協議以Rorschach測試命名,其中主題解釋抽象墨跡。 目的是類似的:讀者被要求在空圖中報告他們看到的內容。 我們使用這個協議來校準我們的視野,在圖中的自然變異性,其中數據是從與零假設相一致的情景中產生的。 我們對變異性的直覺通常是不好的,而且這個協議使我們能夠簡單地降低我們對結構的敏感性。
圖4說明了Rorschach協議。 這九個直方圖總結了500名參與者執行九項任務的準確性。 你看到了什麼? 看起來像所有任務的精度分布是一樣的嗎? 有多少直方圖顯示有趣的圖案? 在繼續閱讀之前,請花點時間研究這些地塊。
圖4:九個直方圖總結了500名參與者執行九項任務的準確性。 你看到了什麼?
很容易就這個數據講述:任務7的準確度達到70%左右,下降;在任務5中,很少有20-30%的準確性;在任務9中,很多人的準確度達到60-70%。但這些故事都是誤導的。這可能是一個驚喜,但這些結果都是從均勻分布的模擬,即分布所有任務的精度在0和1之間是均勻的。當我們顯示均勻雜訊的直方圖時,我們的期望是平坦。我們不希望它是完全平坦的(因為我們知道每次都應該有所不同),但是我們的直覺大大低估了從一個酒吧到下一個酒吧的真實變化。代數地計算出預期的變異性(使用正態逼近)是相當簡單的:每個倉位10個觀測值,標準誤差為30%,100個觀測值為19%和1000,觀測值為6%。然而,通過數學的研究並沒有給出看到零數據圖的內在效應。
要執行Rorschach協議,管理員會生成空圖,將其顯示給分析人員,並詢問他們看到的內容。 為了保持分析人員的腳步,並避免如果他們知道所有地塊都是空圖可能會出現的自滿情況[8],管理員可能會在實際數據圖中滑落。 由於類似的原因,機場X光掃描儀隨機插入包含槍支,刀具或炸彈的袋子。 通常,管理員和參與者將是不同的人,也不應該知道真實數據的外觀(雙盲方案)。 然而,仔細處理,可以自行管理這樣的測試,特別是在適當的軟體支持下,如第6節所述。
即使沒有以嚴格的方式管理,該協議仍然可以作為一種自我教學工具來幫助學習我們可能會偽裝識別哪些隨機特徵。 教學數據分析特別有用,因為良好的分析師的重要特徵是能夠識別信號與雜訊。
3.2陣容
SJS根據被告與一群已知無辜者之間的差異而定罪。 傳統地,數字地測量相似度,並且通過概率分布來描述已知無辜的集合。 陣容協議使其在視覺上工作:公正的觀察者用於測量與一小群無辜者的相似性。
陣容協議的工作方式像警察陣容:嫌疑人(測試統計圖)被隱藏在一組誘餌中。 如果沒有看到嫌疑犯的觀察員可以把它看作是明顯不同的,就有證據表明這不是無辜的。 請注意,SJS中並不適用:未能選擇嫌疑人不提供無辜證據。 這與捲曲的短語有關統計:我們「不能拒絕」,而不是「接受替代」。
排隊的基本協議很簡單:
l 生成n -1誘餌(空數據集)。
l 製作誘餌圖,並隨機放置一個圖形數據。
l 向公正的觀察員展示。 他們能找到真正的數據嗎?
實際上,我們通常會設定n = 19,所以如果被告是無辜的,那麼以機會挑選被告的概率是1/20 = 0.05,傳統的統計學界限是。 比較20個地塊對於人類觀察者也是合理可行的。 (本文中使用較少數量的n純粹是為了簡潔起見)。更多的圖將產生較小的p值,但是這需要與視力疲勞增加。 產生更精確的價值的另一種方式是使用陪審團而不是法官。 如果我們招募K個陪審員,並且其中k個發現真實數據,則組合的p值是P(X≤k),其中X具有二項分布B(K,p = 1/20)。 如果所有陪審員找到真實數據(k = K),則可以小到0.05K。
像Rorschach一樣,我們希望實驗是雙盲的 - 顯示地塊的人或看到他們的人應該知道哪個是真實的情節。 協議可以是自我管理的,只要您是第一次看到數據。 在首次查看數據之後,測試可能仍然有用,但是它不會是有效的,因為您可能已經學習了數據集的某些功能,並且更有可能識別它。 一旦你看到數據,要保持有效性,你需要招募一個獨立的觀察員。
以下部分顯示了正在使用的陣容的一些示例,並討論了如何識別特定類型繪圖的適當零假設,並找出從適當的零分布中生成樣本的方法。
4實施例
要使用陣容協議,我們需要:
l 確定情節正在嘗試回答的問題
l 表徵零假設(防禦的位置)
l 找出如何生成空數據集
本節將介紹如何處理這些任務,然後以兩個示例的方式更詳細地演示該過程。 第4.1節列出了用於探索達爾文「物種起源」中詞語頻率分布的標籤雲,第4.2節顯示了用於探索籃球三分投籃空間分布的散點圖陣列。
表1.選擇常見的統計和信息圖,以及可能創建的問題來回答。 每個情節都可以用來回答多個問題,每個問題都有一個匹配的零假設。
識別劇情正在嘗試回答的問題通常很容易,因為某些類型的繪圖用於特定任務以及特定數據集,分析師通常會選擇一個具有疑問的情節。表1列出了與一些常見情況相關的問題。請注意,一些圖可以用於回答多個問題,因此可能會有不同的null假設取決於不同情況。
零假設是一個問題的最有趣的答案,也就是說,一個答案是「我們看到什麼真的沒有」。以刑事司法制度的語言,無效假設是辯護的論據,嫌疑人是無辜的,沒有什麼不好的發生。如果我們使用散點圖來回答「x和y之間有關係」的問題,那麼零假設是沒有關係,或者兩個變數是獨立的。如果我們有相反的證據,我們只會改變主意。
該過程的下一步是確定如何從零假設生成空數據集。在許多情況下有兩種技術應用:
l 重採樣 這是為排列測試生成空樣本[9; 10],並且類似地使用引導樣本的置信區間[6]。 在設計的實驗中,它需要重新實現在實驗中執行的相同的隨機化。 該技術在4.1節中使用。
l 模擬。 我們可能對一組更具體的假設感興趣:距離目標的距離是否隨時間增加? 隨著干擾物數量的增加,精確度是否下降? 在這些情況下,我們有一個概率模型,我們可以通過從模型所暗示的分布中抽取生成空數據集。 這一方法在4.2節中使用
4.1標籤雲
可以使用標籤雲(或文本雲)來可視化文檔中的單詞的頻率(通常具有刪除的常見「停止」字)。 字以各種方式布置,通常按字母順序排列,其大小與其頻率成正比。 標籤雲主要是描述性的,但如果我們仔細觀察,我們可以發現一些推理用途。
首先,當我們看一個標籤雲時,有一個隱含的問題是否有異常頻繁(或不頻繁)的話? 這個問題帶有一些「通常」頻率分布的概念。 其次,標籤雲也用於比較。 例如http://chir.ag/projects/preztags/有一個標籤雲主要的總統演講,這意味著我們可以用標籤雲來發現演講之間的差異。 Manyeyes [11]有一個明確的比較工具。
當將兩個文本與標籤雲進行比較時,我們可以將數據設為兩列(字和源),每個單詞都有一行。 在最原始的形式中,單詞重複反映了他們的頻率。 比較標籤雲的零假設是兩個文檔是等效的,每個文檔中的單詞的頻率是相同的。 換句話說,單詞和源列是獨立的。 在這個null下生成新數據集很簡單:我們只是隨機排列其中一列。 圖5使用這種技術來比較達爾文「物種起源」的第1版和第6版(由於空間限制而顯示的所選單詞)。 來自兩個版本的字頻並排顯示,以顏色(紅= 1st ed,blue = 6th ed)區分。 你能找到被告嗎? (有關解決方案,請參見第8節)
可以使用單列的排列來解決其他類型圖中獨立性的問題。 這種生成空數據的方法的優雅特徵是每個變數的邊際分布保持不變,同時破壞任何依賴。 以下是一些常見的例子:
l 如果我們對數據圖中的空間趨勢感興趣,則零假設可能是位置和值是獨立的。 為了生成空數據集,我們排列了值列。 這是如何生成圖1。
l 在散點圖中,初始假設可能是x和y之間沒有關係。 我們可以通過置換x或y變數來生成零假設。
l 如果我們對數據進行聚類,並用彩色散點圖顯示結果,我們可能有興趣知道這些集群是否分開。 因此,零假設是集群成員資格和位置是獨立的,我們可以通過置換集群ID列來生成空數據集。
4.2散點圖
散點圖顯示兩個連續變數之間的關係,並回答以下問題:x和y以某種方式相關? 散點圖可以顯示許多不同類型的關係,例如線性趨勢,非線性關係和聚類。 一個強的零假設是,沒有關係x和y變數,也就是說,它們是獨立的。
在許多情況下,獨立性的假設太強了:顯而易見的是,這兩個變數是相關的,我們想調查一個具體的功能形式。 例如,我們可能會認為籃球的三點嘗試是在空間中進行二次分配:由於玩家和籃子之間的角度增加,玩家移動更接近以確保成功。
圖6使用洛杉磯湖人在2008/09賽季嘗試的所有三個指標的數據來測試這一假設(數據來自http://www.basketballgeek.com/)。你能找到真實的數據嗎? (參見第8節的解決方案。)它被嵌入在假設下生成的空值中,該關係確實是二次的。這些數據集是通過擬合模型構建的,產生預測和殘差,然後將旋轉殘差[12]加到預測上。
對於更具統計意義的受眾群體,我們可以顯示模型中的殘差。 從模型定義來看,我們預期殘差可以正態分布,平均值為0,標準偏差為1,這使得零數據集易於生成:標準正態分布的樣本。 圖7顯示了此過程的結果。 發現嫌疑犯比以前更容易或更難?
圖5:來自達爾文「物種起源」的第一(紅色)和第六(藍色)版本的五個標籤雲。 標籤雲中的四個是在版本之間沒有差異的零假設下生成的,一個是真實數據。
推薦閱讀:
TAG:数据分析 |