標籤:

詞雲真的是一種好的數據可視化方式嗎?

很多文章都指出詞雲圖的『弊大於利』,如Marti A. Hearst在Stephen Few的Visual Business Intelligence Newsletter發表的署名為『標籤雲怎麼樣』的文章。從我個人看來,詞雲的優點和不足之處總結如下:

好的方面

  • 他們在信息圖表和PPT中是吸引眼球的元素,相比其他如條形圖更能吸引注意力;
  • 詞雲提供了某種程度的『第一印象』,最常使用的詞會一目了然;
  • 可以從不同維度展現數據:辭彙本身、頻率(辭彙大小)、以及辭彙的顏色;
  • 在某些儀錶板上可以作為highlight和過濾數據的導航元素;
  • 它們很流行,儘管更像是一種現象,不過仍然可作為一種優點吧。

不好的方面

  • 相同大小的辭彙很難比較,不像條形圖可以創建參考線,人眼不擅長於分辨區域活辭彙的大小;
  • 越長的辭彙需要越多的空間展示,因此看起來比較短的辭彙有更大的權重,儘管實際上他們是一樣的;
  • 在報表上很佔用排版空間;
  • 辭彙的排列要麼是隨機,要麼根據某種演算法。屬於同一類型的辭彙分布可能會相距很遠,並且小一點的辭彙可能會被忽略。

有沒有更好的選擇?

答案是有的!

選擇1:Tree Map

顯然,Tableau更傾向於用戶使用Tree Map. 如果你把Marks type設置成自動,然後拖動辭彙到文本控制,以及辭彙count到大小控制,Tableau就會自動顯示一個Tree Map.因此我的建議是使用Tree Map而不是詞雲圖。

選擇2: 條形圖

這聽起來可能會比較無趣和古板,但是和前兩者不同的是,條形圖可以創建一個參考線,因此使得數據比較更加容易理解。另外,數據的排列順序也有寓意,Tree Map(勉強可以吧)和詞雲顯然難以做到這點。

我的結論

詞雲在信息圖表和PPT中是吸引眼球的視覺元素,但在嚴謹的商業數據分析和可視化方面並無立足之處

推薦閱讀:

Matplotlib中將兩條不同曲線共軸
用Python做詞雲可視化帶你分析海賊王、火影和死神三大經典動漫
有趣的數據可視化
預測:國內可視化數據分析工具2018功能趨勢
Origin(Pro):單個圖層中的Column和Line+Symbol組合圖

TAG:數據可視化 |