各位大神,做數據分析,通常需要用哪些圖表?


本文會給大家講解:從入門到精通:如何用圖表做好數據分析?


隨著精益化運營的概念不斷深入人心,數據分析已經成為了互聯網人的必修課。相比於高深的概率統計、演算法模型,簡單、直觀的圖表工具得到了更為廣泛的應用。

那麼圖表都有哪些類型?不同類型的圖表又該怎麼用?在這篇文章中我們結合互聯網產品和運營的業務需求,由淺入深地給大家解答這些問題。

Part 1 | 初階:維度和指標

初階的圖表簡單易懂,能滿足簡單的數據分析需求,具體包括趨勢、頻數、比重、表格等類型。圖表數據分析的前提就是將自己需要呈現的指標,以一定的維度拆分,在坐標系中以可視化的方式呈現出來。

1. 趨勢圖

趨勢分析是最基礎的圖表分析,包括線圖、柱狀圖、堆積圖等多種形式。

線圖可以觀察一個或者多個數據指標連續變化的趨勢,也可以根據需要與之前的周期進行同比分析。柱狀圖可以觀察某一事件的變化趨勢;如果將整體拆分可以做成堆積圖,同時觀察到部分所佔比重及變化趨勢。

圖 1 - GrowingIO 周期對比線圖:

圖 2 - GrowingIO (堆積)柱狀圖:

產品經理和運營人員通過趨勢圖分析流量的實時走向,如每日 pv、uv、DAU 等基本數量指標以及停留時長、平均訪問頁面數等質量指標,可以及時把握產品的變化趨勢。一旦趨勢周期對比發生異常(異常高和異常低),我們需要及時介入排查原因、解決問題。

2. 頻數圖

根據業務需求對指標按照一定維度拆分,對比不同組別的頻數,便於分清輕重緩急。

圖 3 - GrowingIO 條形圖:

條形圖清晰展示了用戶在不同類別上的頻數,並且按照數量從大到小排序。上圖展示的是某產品用戶使用瀏覽器的頻數分布,在資源有限的情況下產品可以先適配 Chrome 和 IE 瀏覽器以提升絕大部分用戶體驗。

圖 4 - GrowingIO 雙向條形圖:

上面的雙向條形圖展示了某 B 端產品的客戶平均停留時長極端情況(非常高和非常低),企業 1-5 非常活躍,可以讓運營人員促進客戶增購、續約,而企業 6-10 活躍度非常低,即將流失,需要運營人員立刻介入干預。

3. 比重圖

比重分析主要是用來了解不同部分佔總體的比例。橫向比較,扇形圖、環形圖可以滿足這類需求;縱向比較,百分比堆積圖可以顯示不同部分所佔比例的趨勢變化。

圖 5 - GrowingIO 訪問用戶來源環形圖:

圖 6 - GrowingIO 百分比堆積圖:

環形圖(圖 5)顯示了某節點訪問用戶來源渠道比例,百分比堆積圖(圖 6)則動態顯示了不同渠道比例的變化趨勢,市場或者運營人員可以據此動態優化我們的資源投放。

4. 表格

表格信息密集,可以同時分析多維度、多指標數據,適合對數據敏感的人群使用。雖然表格能看到具體的數值,但是不能直觀看到趨勢、比重。

圖 7 - GrowingIO 表格提供三十多個維度供指標拆解:

通過表格(圖7)不難發現,移動端訪問用戶佔了非常大的比例,但是跳出率非常高。這樣的表格數據啟示我們有必要優化移動端產品,提升整體訪問深度。

5. 其他圖表

下面介紹的是氣泡圖,氣泡圖用來展示一個事件與多個維度之間的關係,如分析B端產品客戶成單周期與客戶活躍度、登錄賬號數量之間的關係。

圖 8 - GrowingIO 「客戶溫度 - 健康度」氣泡圖:

除了上述常見的圖表,還有散點圖、箱線圖、股價圖、雷達圖等圖表,在此不一一贅述。

Part 2 | 進階:用戶行為洞察

正如前面所言,初階圖表能滿足簡單的業務需求。但要想深入洞察用戶行為,還需要緊密結合業務實踐,用更加專業的圖表輔助數據分析。在這裡,我和大家分享三個實用的工具:漏斗圖、留存圖和熱(力)圖。

1. 漏斗圖

漏斗圖主要用於轉化過程,例如註冊流程、商品購買流程,分析用戶在不同階段的轉化或者流失情況。

圖 9 - GrowingIO 漏斗圖:

產品運營應該關注重點轉化路徑的轉化率,對於轉化率非常低的環節、或者轉化率突然下降的情況,都需要及時排查原因。

2. 留存圖

留存是指用戶首次訪問你的網站,多少天后又重新回訪的情況。利用留存曲線可以對留存進行深入分析。

圖 10 - GrowingIO 留存曲線:

某問答社區通過留存曲線(圖 10)發現,通過搜索引擎來源的新用戶(紅色)留存度和活躍度遠遠高於一般新用戶(綠色),這啟示社區運營者:搜索引擎可能成為社區的下一個增長點。

3. 熱(力)圖

熱圖,又稱熱力圖,顯示的是用戶在你產品頁面上的點擊、停留偏好。藉助熱圖產品經理可以優化產品頁面布局,運營可以優化內容,確實是一個好工具。

圖 11 - GrowingIO 熱圖:

Part 3 | 高階:用數據驅動增長

隨著數據可視化技術的不斷發展,圖表的類型越來越豐富,我們不可能在一篇文章中將其窮盡。但是圖表數據分析的本質不會變,其最終目還是要輔助人們的決策。

1. 搭建屬於自己的數據看板

人們的工作在不斷細分,需要分析和決策的內容也不太一樣。同樣都是市場部門的同事,負責內容營銷的與負責 SEM 的需要關注的數據差異很大,而這就需要搭建屬於自己的數據看板。

圖 12 - GrowingIO 數據看板:

例如 SEM 主管根據工作需要搭建數據看板,將廣告投放(表格)、訪客來源(百分比堆積圖)、訪問用戶量(線圖)、登錄用戶量(柱狀圖)和註冊轉化率(漏斗)等重要數據集中在一個看板中。數據看板能幫助我們以合適的方式展示數據,集中精力做好業務決策。

2. 在實踐中踐行 MVP

用圖表做好數據分析並非易事,它絕非一朝一日之功,但也並不是無規律可循。

首先是對業務的理解,能洞察數字背後的商業意義。其次是靈活選擇維度拆分指標,在圖表坐標系中以合適的形式進行可視化展示。最後一定要從圖表數據分析中發現問題,並指導業務決策。在這樣不斷反覆的過程中,不斷優化我們的圖表數據分析過程,用數據來驅動業務增長。

本文作者:GrowingIO 增長團隊,集工程、產品、市場、分析多重角色於一身,負責拉新和用戶活躍,用數據驅動業務增長。

註:文中所有圖表功能均來自於 GrowingIO - 矽谷新一代數據分析產品


數據可視化平台有很多既定的圖表類型,這些圖表都有各自使用的場景,各自使用的優勢、劣勢呢!表格就不多說了,因為表格只是展示數據,感覺每個場景可能都能用,只是不夠直觀罷了。

1.柱狀圖
適用場景:適用場合是二維數據集(每個數據點包括兩個值x和y),但只有一個維度需要比較。
優勢:柱狀圖利用柱子的高度,反映數據的差異,肉眼對高度差異很敏感。
劣勢:柱狀圖的局限在於只適用中小規模的數據集。

(百分比堆積柱狀圖)
2.條形圖
適用場景:顯示各個項目之間的比較情況,和柱狀圖類似的作用;
優勢:每個條都清晰表示數據,直觀;

3.折線圖
適用場景: 折線圖適合二維的大數據集,還適合多個二維數據集的比較。
優勢:容易反應出數據變化的趨勢。

4.地圖
適用場景:適用於有空間位置的數據集;
優劣勢:特殊狀況下使用,涉及行政區域;

(全國地圖,只要有經緯度數據全球地圖都能做)

(區域地圖,通過放大鏡可以放大或縮小區域)

5.餅圖(環圖)

適用場景:適用簡單的佔比比例圖,在不要求數據精細的情況適用。
優勢:明確顯示數據的比例情況,尤其合適渠道來源等場景。
劣勢:肉眼對面積大小不敏感。


6.雷達圖

適用場景:雷達圖適用於多維數據(四維以上),且每個維度必須可以排序,適用場合較有限。
優勢:主要用來了解公司各項數據指標的變動情形及其好壞趨向。
劣勢:理解成本較高。

7.漏斗圖
適用場景:漏斗圖適用於業務流程多的流程分析。
優勢:在網站分析中,通常用於轉化率比較,它不僅能展示用戶從進入網站到實現購買的最終轉化率,還可以展示每個步驟的轉化率,能夠直觀地發現和說明問題所在。
劣勢:單一漏斗圖無法評價網站某個關鍵流程中各步驟轉化率的好壞。

8.詞雲
適用場景: 顯示詞頻,可以用來做一些用戶畫像、用戶標籤的工作。
優勢:很酷炫、很直觀的圖表。
劣勢:使用場景單一,一般用來做詞頻。

9.散點圖(調整尺寸大小就成氣泡圖了)
適用場景:顯示若干數據系列中各數值之間的關係,類似XY軸,判斷兩變數之間是否存在某種關聯。
優勢:對於處理值的分布和數據點的分簇,散點圖都很理想。如果數據集中包含非常多的點,那麼散點圖便是最佳圖表類型。
劣勢:在點狀圖中顯示多個序列看上去非常混亂。


10.面積圖

適用場景:強調數量隨時間而變化的程度,也可用於引起人們對總值趨勢的注意。百分比堆積面積圖、堆積面積圖還可以顯示部分與整體之間(或者幾個數據變數之間)的關係。

11.指標卡
適用場景:顯示某個數據結果同環比數據。
優勢:適用場景很多,很直觀告訴看圖者數據的最終結果,一般是昨天、上周等,還可以看不同時間維度的同環比情況。
劣勢:只是單一的數據展示,最多有同環比,但是不能對比其他數據。

12.計量圖
適用場景:一般用來顯示項目的完成進度。
優勢:很直觀展示項目的進度情況,類似於進度條。
劣勢:表達效果很明確,數據場景比較單一。

13.瀑布圖
適用場景:採用絕對值與相對值結合的方式,適用於表達數個特定數值之間的數量變化關係,最終展示一個累計值。
優勢:展示兩個數據點之間的演變過程,還可以展示數據是如何累計的。
劣勢:沒有柱狀圖、條形圖的使用場景多。

14.桑基圖
適用場景:一種特定類型的流程圖,始末端的分支寬度總各相等,一個數據從始至終的流程很清晰
,可以用來分析網站用戶變化情況等,參考

15.樹圖
適用場景:和旭日圖和類似;

16.雙軸圖
適用場景:柱狀圖+折線圖的結合,適用情況很多,數據走勢、數據同環比對比等情況都能適用。
優勢:特別通用,是柱狀圖+折線圖的結合,圖表很直觀。
劣勢:這個好像沒什麼劣勢,個人感覺。

所有的支持圖片均來自http://me.bdp.cn,可支持黑白主題切換,黑白效果如上圖!圖表的適用場景不一,用得好可以更好理解數據的含義!


選擇圖表的時候,許多人認為基本圖表太過簡單,不夠高端大氣,因而更傾向選擇複雜的圖表類型。實際上越簡單的圖表越容易理解,對用戶的友好程度越高。只要能夠高效清楚地傳達業務含義,就應該優先選擇。

例如,餅圖比較適合反映某個部分佔整體的比重,而折線圖能更好的反應數據變化的趨勢;分組柱狀圖和堆疊柱狀圖都能夠顯示數據集的分組情況,但是彼此間的差異卻讓它們在特定情況下顯得更加強大。在比較同一分類不同組的數據或者同組不同分類的數據時,分組柱狀圖更能體現優勢;然而在比較每個分組之間的總量時,堆疊柱狀圖顯然更加合適。下面分別使用這兩種圖表在展示不同地區、不同年齡段人口數量分布時顯示的效果:

圖2. 分組柱狀圖(Grouped Bar Chart)

圖片來自:https://bl.ocks.org/mbostock/3887051

圖3. 堆疊柱狀圖(Stacked Bar Chart)

圖片來自:https://bl.ocks.org/mbostock/3886208

要想讓受眾讀懂圖表所表達的業務含義,就要選擇合適的圖表類型。在選擇時,首先需要清楚的知道不同圖表的優劣以及它們適合的應用場景;除此之外盡量選擇一些簡單的、易於理解的圖表類型。但這不意味著不能選擇複雜的圖表類型,有的圖表雖然看起來比較複雜,但是卻能很好的反映一些業務場景,再輔助一些文字說明等其他手段,降低用戶的使用難度,也未嘗不可。

選擇圖表時,以業務為基礎。只要能夠清晰地表達業務數據背後含義,不讓用戶產生歧義,都值得考慮。

易用的、多維度的交互分析

隨著數據類型的多樣化,數據間的關聯關係也越來越複雜。僅僅展示單維度的數據,是無法讓用戶輕易發現數據之間的聯繫、挖掘出更多業務價值的。同樣,若是交互方式過於複雜,也只會增加用戶的使用難度而已,不利於業務長期發展。因此易操作的、多維度的交互分析對於數據可視化來說必不可少。多維度的分析方式有很多種,以下是常見的幾種:

  • 鑽取: 將匯總數據拆分到更細節的數據;在維的不同層次間的變化,從上層降到下一層。
  • 上卷: 鑽取的逆操作,即從細粒度數據向高層的聚合。
  • 切片: 選擇維中特定的值進行分析。
  • 切塊:選擇維中特定區間的數據或者某批特定值進行分析。
  • 篩選: 通過不同的維度或者類別過濾出用戶想要的數據。
  • 聯動:若干個相關聯的圖表,一個圖表發生變化,其他的也會跟著發生變化。

下面是一些圖表的樣例:

圖4. 樹圖(不同數據層次,可以進行數據的鑽取、上卷的等等操作)

(圖片來自:https://bl.ocks.org/mbostock/1093025)

圖5. 同步聯動圖(圖中顯示的是在某一到達距離時的速度、高度以及心率)

(圖片來自:http://t.cn/RoUdHCX)

有選擇的將不同交互方式進行結合,能夠發揮出更強大的作用。再輔助高效靈活的追加合併、拖曳式操作進行數據的挖掘分析,就可以幫助用戶快速定位問題,釋放勞動力,提升效率,不再需要程序員花費大量精力在日誌文件中尋找問題的原因。同時通過各類數據的橫向、縱向對比,業務人員能夠從中挖掘出更多的業務需求,創造更大的商業價值。

文/ThoughtWorks謝海燕 原文:數據可視化產生生產力 - ThoughtWorks洞見


通常而言,取決於你的數據的類型以及你所想表達的關係。

對於一元的連續型變數,可能會嘗試探究他的分布情況(密度圖)
下圖是泰坦尼克號基於生存情況的年齡分布圖(R ggplot2).

如果數據是隨著時間變化的可以做出其時序圖,好看點可能會給出Horizon Plot(下面這張是我同學的一次可視化作業(Python Matplotlib))。

Source:https://raw.githubusercontent.com/Casyfill/PUI2015_Philipp/master/HW8/horisont_Moscow.png

如果是想描述兩個連續序列之間的關係的話,散點圖加上趨勢線是一個非常不錯的選擇。
例如比較不同種族之間男女中位數收入的情況(Python Matplotlib)

散點圖實際上是一個非常值得深究的圖。從最基本的位置關係(x,y)到引入顏色來反映不同類別,再到利用大小來反應不同數量(這種又叫做氣泡圖)。
這張半成品圖(= = )的橫坐標是人均收入,縱坐標是預期壽命,顏色代表來自哪個大洲,大小表示其國家人口(數據均來自2008年)(d3.js)

對於分類變數而言,最常見的就是條形圖,比如反應泰坦尼克號上生存和死亡的情況(R ggplot2)。

如果想對於兩個變數的不同水平進行比較,可以使用堆積條形圖(這張圖比較的是在泰坦尼克號上不同性別的人生存情況):

如果你還想加變數的話就會變成馬賽克圖,下圖就是加入了不同倉位的泰坦尼克生存情況圖(R ggplot2)

有時候我們為了減少條形圖所造成的視覺混亂(比如有太多的類別),就會使用Cleveland點圖來表現數據。下圖是1975-2015年美國各大學博士畢業後成為phd導師的Cleveland點圖(因為資料庫是購買來的所以省去了坐標軸。)(R ggplot2)

如果想表達分類數據的分布情況還有直方圖,箱線圖等等。 強烈推薦:
R數據可視化手冊 (豆瓣)
鮮活的數據 (豆瓣)

偏設計的話可以看這本:
Visualization Analysis Design (豆瓣)

如果數據當中有地理坐標的話用GIS或者現在當下流行的CartoDB相比用R或者Python直接畫圖而言要方便很多。紐約市公共自行車的站點分布以及Community Detection(CartoDb,Python)


圖表有很多種,分析作報告時會用到餅圖,散點圖,線圖,柱狀圖,條形圖,區域圖,樹狀圖,氣泡圖,地圖,雷達圖等。
下面是我用 大數據魔鏡魔鏡—行業領先的大數據可視化分析平台 6.0做的一些圖例。


餅圖:能夠直觀地分析項目的組成結構與比重

散點圖:散點圖又稱散點分布圖,是以一個變數為橫坐標,另一變數為縱坐標,利用散點(坐標點)的分布形態反映變數統計關係的一種圖形。特點是能直觀表現出影響因素和預測對象之間的總體關係趨勢。優點是能通過直觀醒目的圖形方式反映變數間關係的變化形態,以便決定用何種數學表達方式來模擬變數之間的關係。散點圖不僅可傳遞變數間關係類型的信息,也能反映變數間關係的明確程度。

線圖:折(曲)線的上升或下降來表示統計數量的增減變化的統計圖,叫作折(曲)線統計圖與條形統計圖比較,折(曲)線統計圖不僅可以表示數量的多少,而且可以反映同一事物在不同時間裡的發展變化的情況。

條形圖或柱狀圖:柱狀圖也就是條形統計圖,用一個單位長度表示一定的數量,根據數量的多少畫成長短不同的直條,然後把這些直條按一定的順序排列起來。從條形統計圖中很容易看出各種數量的多少。

區域圖:面積圖又稱區域圖,強調數量隨時間而變化的程度,也可用於引起人們對總值趨勢的注意。堆積面積圖還可以顯示部分與整體的關係。

樹狀圖:樹狀圖 dendrogram 亦稱樹枝狀圖,為了用圖表示親緣關係,把分類單位擺在圖上樹枝頂部,根據分枝可以表示其相互關係,具有二次元和三次元。在數量分類學上用於表型分類的樹狀圖,稱為表型樹狀圖(phenogram),摻入系統的推論的稱為系統樹狀圖(cladogram)以資區別。表型樹狀圖是根據群析描繪的,系統樹狀圖是根據一種模擬的假定的性狀進化方向即用電子計算機描繪的。

氣泡圖:排列在工作表的列中的數據(第一列中列出 x 值,在相鄰列中列出相應的 y 值和氣泡大小的值)可以繪製在氣泡圖中。

地圖

雷達圖:雷達圖(Radar Chart),又可稱為戴布拉圖、蜘蛛網圖(Spider Chart),是財務分析報表的一種。即將一個公司的各項財務分析所得的數字或比率,就其比較重要的項目集中劃在一個圓形的圖表上,來表現一個公司各項財務比率的情況,使用者能一目了然的了解公司各項財務指標的變動情形及其好壞趨向。

南丁格爾玫瑰圖

矩形圖

圈圖

漏斗圖


https://powerbi.microsoft.com/zh-tw/documentation/powerbi-service-visualization-types-for-reports-and-q-and-a/
參考一下,具體還是看需求。



基本就是餅柱線,主要是取決於你想表達的數據間關係,先看這張圖。

想展示的內容決定你選擇什麼圖表。

貼一個詳細介紹給大家,具體說明了不同圖表的使用場景。

數據分析圖表使用指南

內容及圖表出品:數據觀


知乎搜索數據可視化工具,他們代表了所有


圖有多種,通用先要確定你的數據是什麼類型,做什麼用,受眾是什麼類型,如果是用來做演講,可以考慮採用生動點將數據可視化,這種類型的圖一般都能看懂或基本不要求太專業,受眾通常是普通人。
如果是寫文章報告等,一般就是做統計圖,最常見的就是柱圖和線圖。做什麼樣的圖還是根據你的數型類型所定。你提問範圍太大,不是幾句話能表達清楚的。


1,剔除異常數據,然後分析異常數據.(如果過程不穩定就最主要的)
2,將大量數據匯總分析,作出控制圖(分析過程能力)


推薦閱讀:

數據可視化經歷了怎樣的發展歷程?
什麼很多耳機燒友 總黑鐵三角?
信息可視化和數據可視化的異同和其他比較,到底怎麼區分呢?
如何製作有趣好看的數據可視化圖表?

TAG:數據分析 | 數據可視化 | 大數據 |