喜歡 Data Visualization 這個概念的人如何在追求「數據之美」的同時避免「數字的陷阱」?

By which I mean all sorts of manipulation of data intentionally or unintentionally, such as plain lies made up by politicians.

=== 此問題靈感來在Hi-iD的回答:http://www.zhihu.com/question/19721455/answer/12757861


同意 @采銅 的觀點

數據可視化的主要目的不是為了更美,而是為了能夠從可視化的角度讓人更「直覺」的發掘數據背後的意義。

在@采銅 推薦的Stephen Few之外( @采銅 同關注此人 求握爪),在設計層面上強烈推薦看一下stamen design (http://stamen.com/)的projects,非常有啟發性。同樣的還有information aesthetics(http://infosthetics.com/)也很值得參考。

-----

最後扯遠一點,數據可視化如果也歸類到設計中的話,是我認為未來最重要的發展方向之一。因為這是唯一一個可以直接影響到公司決策,換句話說「進入到一個企業的管理決策中」的環節。相比於現在設計對絕大多數企業的「錦上添花」的地位來說,不可同日而語。

而且我相信在信息複雜度這麼高的今天,單純依靠數字本身的決策是不靠譜的,只有把剛性的數字和可視化帶來的直覺化的數字結合起來才會有更強的可用性。


對於做數據挖掘和可視化的人,我不認為「數據之美」是應該有的追求目標。事實上它甚至都不應該是目標。工程師首先追求的永遠是「正確」,然後才應該是「美」。至於數據陷阱,我的看法是大家把這個東西神秘化了。說白了,所謂數據陷阱就是分析方法上有錯誤。人非聖賢,要求統計數據的人永遠不犯錯誤,未免太強人所難。

那麼,如何避免數據陷阱?基本有兩條:

  1. 分析方法公開。對於簡單數據,有時候只要收集起來列一張圖表就可以看到一切。而對複雜數據則經常要伴隨複雜的數據選擇和分析方法。公開分析方法能讓更多的人看到和分析方法本身,從而更快地指出錯誤所在。

  2. 原始數據公開。有時候原始數據太多,分析師為了圖省事,會只給出篩選過的數據。這是完全錯誤的,因為分析過的數據往往已經被分析方法篩選過。錯誤的分析方法給出的數據沒有意義。我們可以不要求最終的結論報告上羅列原始數據,但原始數據必須可通過某種確實的方式訪問。

我們不能說做到了這兩條就能避免犯錯誤,但至少能保證錯誤能儘快被人發現和修正。


可能會造成「數字陷阱」的機會有兩個:

  • 樣本的選擇:數據量很大,或者獲取大量數據的成本較高的時候,就會採用抽樣的方法。這裡面有不小的門道。不同的樣本會導致非常不同的結果,@caixiao 同學的回答也提到了類似的例子。不過,統計學提供了一些對抽樣有效性進行甄別的方法,可以避免一些「數字的陷阱」。
  • 數據可視化:數據可視化的展現形式可以融入一些主觀的成分,從而強調某個局部的數據特徵。對於同樣的分析結果,簡單的改變圖表的類型或者尺度,都可以改變受眾的觀感。從這個角度講,沒有太好的辦法來限制。所謂「欲加之罪,何患無辭」。

在商業環境中,數據是被用來作為溝通和管理的依據的,已經變成了商業語言。自然會有不同的利益驅動,從而左右數據本來的意思。想要完全避免「數字的陷阱」,也沒什麼真正好的辦法。

問題中引號內的部分是兩本書的名字嗎?我只看過前面一本「數據之美」(O"Reilly Media 出版)。


關於數字的陷阱,我首先想到的是「統計數字會說謊」一書, 這本書介紹了許多美國社會中的如何用統計數字說謊的例子。這本書中提到的常見的誤導人的方式有:

1. 使用有偏的樣本

比如1936年美國大選的民意調查

2. 利用平均數來誤導

比如把1個億萬富翁和9個窮光蛋放在一起,然後說大家的平均財富是千萬

3. 使用毫無意義的數字

常見的就是用智商來衡量一個人是否會成功

參考資料:

1. http://book.douban.com/subject/3595095/


作為數據分析從業人員,數據的真實性和準確性是第一位的,其次才是數據之美或者Storytelling之類的。言下之意,某些時候可能可以選擇性Visualize,但是即使是選擇性的數據也不能錯,但通常這種做法會帶入主觀的想法。


一樓的答案已近比較完整,補充一些:數據可視化,一個是能夠更好地把數據呈現給用戶,讓用戶做出決策。在另外一方面,它能夠幫助用戶注意到一些之前注意不到的信息(這個是目前科研界很重要的價值之一,分析數據之間的關係)。

關於怎麼看你是否會被可視化圖標誤導,如果樓主英文比較好,可以看看這本書(數據可視化很經典的一版):

The Visual Display of Quantitative Information (Edward Tufte)

裡面有介紹到一個概念叫做欺騙值(lie ratio)

物件表示值得變化 / 數字值得變化

看下面這個例子,從18 到27 1/2的變化大概是50%,但是圖標中表示的長方形面積的變化大概有10~20或者更多,這裡的lie ratio 大概就是 &> 10. lie ratio 這個值很大,說明這張圖片有很強的誤導性。

(from The Visual Display of Quantitative Information (Edward Tufte))。現在數據可視化用了一個概念叫做 tell a story, 就是數據本身是記錄了一段故事。可視化把這個故事用更直接的方式呈現給你(這個是可視化的最終目的!)。但是很多人為了讓自己的故事說出來更讓人印象深刻,就會去改變可視化(就是樓主強調的cheating)。


感覺這是兩個命題,數據有問題,可視化後不可能沒有問題


推薦閱讀:

需要做數據彙報,有什麼好的工具推薦?
數據產品的定義和種類?
你從數據中發現了哪些奇妙的不為人知的知識或者見解?
學習python中的pandas有沒有好的教程推薦?

TAG:數據 | 數據分析 | 數據可視化 | 數據圖 |