我們在可視化什麼?

更多可視化內容請移步ECharts官方博客:可視化中的數據

當下隨著大數據熱潮的到來,數據可視化作為一個新興的領域,受到了學術界和工業界的重視。從可視分析、數據新聞到商業報表,各個領域都在越來越多的使用它。既然是數據可視化,說明數據是主體,可視化只是將數據以可視的形式表達的手段。接下來小編就與大家一起揭開可視化中數據的面紗,一探究竟。

可視化什麼:數據抽象

既然是數據可視化,無可非議,可視化的元素肯定是數據,這裡所指的數據是廣義上的數據,包括文本、圖片、聲音等超媒體數據。ECharts在可視化過程中所涉及的四種基本數據集類型分別是表格數據、網狀數據、場數據和幾何空間(spatial)數據,像集合、列表等也是常用的數據集類型。這些基本數據集類型又是由不同的數據類組合構成的,這裡的數據類是指可視化中所涉及的數據種類,主要包括四種數據類,分別是數據項、數據項的屬性、鏈接(links)、位置。數據項的屬性又可分為類別型和有序型兩種,其中有序型又進一步細分為序數型和數值型,下面將分別介紹數據類,數據集類型,以及屬性類型。

數據類

本文主要討論ECharts中所涉及的四種基本數據類,分別是數據項、數據項的屬性、鏈接、位置。數據項是指一個獨立的實體,如關係數據表中的一行,或網路中的一個節點;屬性是數據項的某個可被觀測的特性,如年齡,性別等;鏈接是指數據項之間的關係,該數據類型在網狀關係型數據集中用的比較多;位置是地理空間數據類型,指代二維或三維空間中的某個具體位置;下圖展示了四種不同的數據集類型所包含的數據類。

數據集類型

數據集是指為了分析而收集的任何信息,數據集包括數據表,網狀數據,場數據(本文主要關注信息可視化,而場數據主要應用於科學可視化,因而在此不作介紹)以及幾何空間數據這四種基本類型,而現實世界中的數據集一般是由這四個基本類型中的一個或多個組合而成的。下圖展示了四種不同數據集類型具體的內部結構。

數據表

數據表是常用的數據集形式,由行和列組成。對於簡單的扁平表格來說,每一行代表一個數據項,每一列代表一個屬性,表格中的每一個單元格是由行號和列號索引的,保存著某個數據項的某個屬性值;多維數據表在數據倉庫中用的比較多,具有複雜的結構以及複雜的索引機制,一般來說,簡單扁平表格至多具有一個鍵屬性(key attribute),而多維表格具有多個鍵屬性。

網狀數據

網狀數據主要用來表明數據項之間具有某種關係,在網狀數據中數據項通常被稱為節點,兩個節點之間的關係被稱為鏈接,也就是網路中的邊,並且節點和鏈接都可以擁有與之相關聯的屬性。樹是一種具有層次結構的特殊類型網路數據,與一般網路數據相比,樹沒有迴路,每一個子節點都對應唯一的一個父節點。

幾何空間(spatial)數據

幾何空間結構數據通過明確的幾何空間位置指定數據項的形狀信息,這些數據項可以是空間中的點、一維的直線或曲線、二維的平面或區域,以及三維的立方體。空間數據在不同的度量尺度上具有層級結構。這種層級結構要麼是原始數據集固有的,要麼是從原始數據集派生出來的。 可視化中的數據主要以兩種形式存在,一種是靜態的數據文件,一種是動態的數據流。靜態的數據文件是指可以同時獲得完整的數據文件,而動態的數據流是指數據在不斷的更新和變化。

屬性類型

屬性類型主要分為類別型和有序型兩種,有序型又可進一步分為序數型和數值型。有序型數據的排列方向有三種,分別是單向型,有公共零點的雙向型,以及環狀周期型,如下圖所示,除此之外,屬性也可能有層級結構。 類別型屬性是指名稱上的不同,屬性的值之間沒有明確的排序,例如喜歡的球類運動包括足球、籃球、排球等。雖然類別型屬性內部沒有明確的排序,但任意外部的排序機制可以被應用在類別型屬性上,如將球類運動的名字按字母順序排列。 有序型屬性包括序數型屬性和數值型屬性,所有有序型屬性都有隱含的排列順序。對於序數型屬性,如小中大,雖然我們不能對它進行完全的算術運算,但在屬性的內部有明確定義的順序,如大減去中並不是有意義的概念,但我們知道中介於大和小之間。數值屬性與序數屬性不同,它具有大小和量級的明確度量,並且支持算術比較,一般以整數和實數形式存在,如76米減去34米是個有意義的數值,並且它們之間的差是可以被度量的,像溫度、高度、長度等都是數值屬性。 有序型數據可以是單向的有序序列,比如人的年齡,只能往一個方向遞增,也可以是有公共零點的對向序列,如溫度。有序型數據也可以是環狀周期的,如時間相關的屬性。 在單個屬性內部或者多個屬性之間可能具有層級結構,如北京一年的交通事故數量,這是一個時間序列數據,具有時間屬性,可以分層級聚合,可以分別按周、月、年聚合,在不同的時間聚合尺度下可能會發現數據集中有趣的模式。除了時間屬性之外,地理空間數據也具有層級結構,如可以細分到省、市、縣等。

總結

本文簡要討論了可視化中的數據,從數據的種類、數據集的類型以及屬性的類型這三個角度闡述了可視化中需要可視表達的數據信息。

參考文獻

[1] Tamara Munzner.Visualization Analysis and Design. CRC Press, 2014.


推薦閱讀:

伊朗是威脅海灣國家安全的罪魁禍首?海灣民眾:我們不信

TAG:数据可视化 | 可视化 | 数据 |