數據可視化基礎——數據模型

本系列「數據可視化基礎」文章共三篇,介紹可視化中最基礎、最重要的一些概念、理論。這篇為第二篇,主要介紹數據模型,另兩篇則主講可視化流程和視覺編碼,建議從可視化流程看起。

原文地址:數據可視化基礎——數據模型

數據說白了就是一組可定性或可量化的值。隨著計算機存儲能力的大幅提高,人們對於數據的關注與日俱增,「大數據」一詞近幾年來也被人們頻頻提及。而數據可視化的主要任務是將數據轉換為易於感知的圖形。因此,為了更準確更形象的表達數據,我們需要了解一些數據相關的概念。

數據模型與概念模型

為什麼數據能代表我們的世界?要回答這個問題,我們得先了解數據和概念兩個模型。

數據模型是一組數字或符號的組合,它包含數據的定義、類型等,可以進行各類數學操作等。概念模型描述的是事物的語義或狀態行為等。

現實 => 概念 => 數據

現實世界可以用概念模型來描述,而概念模型又可以用數據模型來描述。經過兩層抽象,數據便可以描述我們的現實生活中的方方面面。

數據類型

一個東西具體歸為哪一類,取決於我們用什麼標準劃分,數據亦然。

從數據在計算機中的存儲可分為浮點數、整數、字元等;從關係模型的角度分,數據又可以分為實體和關係兩類;從數據的結構來分,可以分為一維、二維、三維、多維、時間序列、空間序列、樹型、圖型等等[3];還有很多的分類方法,我們暫時先不討論,把關注點聚焦到和數據可視化有關的分類方法上。

按照測量標度來分,數據一般被分為四類:類別型有序型區間型比值型

  • 類別型數據用於區分事物。例如,人可以分為男女,水果能分為蘋果香蕉等。
  • 有序型用來表示對象間的順序關係。例如,我們的身高可以從矮到高,學生的成績可以從低到高排列等。
  • 區間型用於對象間的定量比較。例如,身高 160cm 與身高 170cm 相差 10cm,而 170cm 與 180cm 也相差 10cm,它們倆的差值是相等的。由此可見,區間型數據基於任意的起始點,所以它只能衡量對象間的相對差別。
  • 比值型用於比較數值間的比例關係。例如,體重 80kg 是體重 40kg 的兩倍。

不同的數據類型適用於不同的操作[1]:

不過,在數據可視化中,我們通常不特別區分區間型和比值型,將其統稱為數值型。進而可將數據類型進一步精簡為三種:類別型有序型數值型。具體為什麼要分為這三類,我相信你看完下一篇視覺編碼之後會完全明白。

例子

說了那麼多,都比較抽象,不如直接來看個例子。下面是一個簡單的數據表,每一行通常稱作一條記錄,每一列稱作一個欄位,共有幾個欄位,則通常就說這份數據有幾個維度

對照我們上文的概念,不難判斷出上表中:

  • 類型、款式為類別型數據;
  • id、尺碼為有序型數據;
  • 銷量和年增長為數值型數據。

總結

至此,其實本文的任務就已經完成了。通篇傳遞的最重要的知識就是數據可視化中的三大數據類型,消化了這點,下一篇視覺編碼就能更好的理解。歡迎各位在我博客文末留言討論(如果看不到評論框可能是因為你沒有科學上網)。

參考文獻

  • [1]陳為 沈則潛 陶煜波. 數據可視化[M]. 電子工業出版社, 2013.)
  • [2]浙江大學-陳為、巫英才數據可視化課程
  • [3]Shneiderman B. The eyes have it: a task by data type taxonomy for information visualizations[C]// Visual Languages, 1996. Proceedings. IEEE Symposium on. IEEE Xplore, 1996:336-343.
  • [4]CSE512 Data Visualization (Spring 2016)

本作品採用知識共享 署名-非商業性使用-禁止演繹 4.0 國際 許可協議進行許可。


推薦閱讀:

R語言可視化學習筆記之ggpubr包
R-ggridges包的改進
仿經濟學人——矩陣氣泡圖
Excel圖表的基本類型與選擇
你會怎樣衡量你的產品? —— 一點產品數據分析的經驗分享

TAG:数据可视化 | 信息可视化 | 可视化 |