為什麼我們要數據可視化

04-18

Data visualization的技術在國外正如火如荼的發展, 比如Tableau,Domo他們旨在為公司提供更好的數據分析服務,讓公司做出更好的決策(Business Intelligence). 在國內也不少公司正在向這一方向的服務發展。到底什麼是data visualization，為什麼我們需要數據可視化呢？

什麼是可視化(visualization)

Webster 字典中visualization的定義如下。

Vi.su.al.i.za.tion [1]

1.Formation of mental visual images

2.The act or process of interpreting in visual terms or of putting into visible form.

簡單的說我們可以把可視化理解成是一個：將抽象的科學或者商業數據.用圖像表示出來.幫助理解數據的意義的過程。它通常會在進行數據分析(data analysis)的過程中大量的使用。

為什麼要進行數據可視化

1.我們利用視覺獲取的信息量，遠遠比別的感官要多的多。

回顧一下，正常人有簡單的五覺: 視覺，聽覺，嗅覺，觸覺，味覺(用來抓小三的第六感不在這邊文章的考慮範疇)。下面是用個一個圖標來表示各個感官對信息量的接受的差別.

可以看出來，視覺的對信息的接收量比剩下的四種感觀信息的接收量的總和還要多。

2.它能夠幫助分析的人對數據有更全面的認識。(咋一聽好抽像！)

我們可以用一個經典的例子去理解這句話. F. J. Anscombe 在1973年在他的一篇論文 "Graphs in Statistical Analysis"[3]中分析散點圖(scatter plot)和線性回歸(linear regression)的關係裡面提到圖像表示對數據分析的重要性。他用了下面這個例子:

看下面四組數據 I, II, III, IV.

對4組數據進行簡單的數據分析, 每組數據有兩個變數 X 和 Y,然後我們用常用的統計演算法去評估四組數據的特點

Means(平均值): X = 9 Y = 7.5

Variance(總體方差): X = 11Y = 4.122

Correlation(關聯) x-y: 0.816

Linear regression(線性回歸方程): Y = 3.0 + 0.5X

咋一看你會覺得，好像所有的數據貌似都是一個特點。一樣的平均值，方差，線性回歸方程。如果只是根絕這些數據去做簡單的判斷的話，得出來的結論是一樣的。

但是，如果我們用簡單的data visualization去分析這些數據，得到的結果確完全不一樣！。

第一租數據圖告訴我們，x 和 y 有week linear relation。

第二組數據圖告訴我們, x 和 y 有curve regression relation。

第三組數據圖告訴我們, x 和 y 有strong linear relation 而且還有一個異常點。

第四組數據圖可以看書橫坐標數據集中在一起，而且也有一個異常值。

我們用了簡單的圖表對比以後，就會發現實際上這些在用圖像表示出來後，有完全不一樣的故事。

3.人類大腦在記憶能力的限制。

實際上我們在觀察物體的時候，我們大腦和計算機一樣有長期的記憶(memory 硬碟)和短期的記憶(cache 內存)。只有我們讓要記下文字，詩歌，物體，一遍一遍的在短期記憶了出現之後, 它們才可能進入長期記憶。

短期記憶的問題是通常情況下，我們的大腦只能記錄三個場景(學術上稱為三個memory block).讀者可以自己做一個實驗，拿三張圖片，看一遍之後回顧圖片上的內容。然後再拿四張不同的圖片，看一遍之後再回顧上面的內容。可能在回顧四張圖片的時候就會出現有些圖片沒法很好的回想起來(我自己試了一下還蠻準的)。data visualization就是盡量用圖形的方式把所有的數據集中在一個圖像上，這樣我們的大腦就只需要記住一個場景(一個memory block). 這樣便於我們進行分析。

很多研究已近表明，在進行理解和學習的任務的時候，圖文一起能夠幫助讀者更好的了解所要學習的內容，圖像更容易理解，更有趣，也更容易讓人們記住[2]

[1 ]http://www.merriam-webster.com/dictionary/visualization

[2] Hockley, W.E. The picture superiority effect in associative recognition. Memory and Cognition 36 (2009), 1351-1359.

[3]Anscombe, Francis J. "Graphs in statistical analysis."The American Statistician27.1 (1973): 17-21.