「數據理解」的五個層面
撰寫數據分析報告,是我作為數據分析師日常工作中尤為重要的一部分。
曾經很長一段時間裡困擾著我的一個問題是——我花了濃墨重彩的部分,可能並不是別人關注的重點,或者我認為已經講得很清楚了,而對方卻表示聽不懂。
在這條路上不停地采坑與爬坡,我終於想清楚了問題的癥結是在於:
——寫報告的人和看報告的人對數據的理解和應用不在同一個視角層面上。
說到這裡,給大家介紹我在漫長過程中思考的,數據理解的五個視角層。
從下到上依次是:數據層、描述層、解讀層、結論層、認知層。
1 數據層
主要是指查詢出數據後,對原始數據進行清洗、加工和計算的過程。
在這個層面重點關注的是每個數據欄位的來源、生產過程、取數邏輯、計算邏輯,這樣才能正確地選取並使用每一個基礎欄位,加工計算得出所需的更多的衍生欄位和指標。呈現方式通常是數據表格。
數據層是每一個數據分析師的起點。
2 描述層
指的是基於數據層進行的統計分析和概括描述。
這個層面的重點是在於儘可能簡單地通過一些統計量(如均值、增幅、趨勢、分布等)來概括整體數據的狀況,使人能夠在不用打開原始數據的前提下最快地知曉數據的狀況。呈現方式通常是一到兩句話,也可能輔助一些簡單的圖表。
而使用哪些統計量,並不是千篇一律,要根據數據明細的具體情況而定。比如數據量保持穩定,則可以用均值概括;如果有突變,則可能需要描述變化前後的穩態值及增幅;如果是存在多類別的樣本集合,則可能使用分布、分位點等數據描述。
描述層也是我工作中對身邊同學要求的最低標準線。
3 解讀層
如果說數據層、描述層都還是圍繞數據本身,那麼解讀層是將數據和現實連接起來的第一步。因為每一個數據,都有它所對應的現實意義。
解讀層的重點是對於數據中隱含信息的挖掘。它可能是困擾最多數據分析師的一層,因此我會在這裡多花些筆墨。
和大多數數據分析師一樣,我每天也會被很多人問「這個XX數據為什麼下降/提升了?」的問題。
這個問題確實是很難回答的。
第一,你需要知道影響你這個數據變化的所有因素以及這些因素的動態;
第二,你需要知道這個數據和其他數據指標之間的勾稽關係。
但解答這樣的問題是每一個數據分析師的責任與義務,也是判斷你到底能否升級走向下一步的試金石。
因此,這就要求數據分析師首先要對他所負責業務的動態有高度緊密的聯繫,然後要對自己負責的數據有深刻的理解,知道哪些指標之間是聯動變化,具有內在邏輯相關性的。
但對數據的解讀絕不是止於「解釋數據為什麼上升或下降」。解讀更多地指的是你——數據分析師本人——基於數據得出的對這件事情的判斷與觀點。
在我第一篇文章的結尾我曾說,具有自己的觀點是數據分析師極重要的一點。
什麼叫做觀點呢?舉個例子,「某APP日活約20W」。這就是一個不帶觀點的數字。而「某APP日活約20W,顯著高於同類型XX產品APP」就是一個帶有觀點的數據。因為在這個描述中我們能找到這個20W究竟是代表怎樣的水平。
日活20W這個數據,可能這家公司超過50%的程序員都能算出來,但只有你基於對這個數據的了解,才能給出對20W的評價與你個人的觀點。
這就是你賦予數據的意義,也是你的意義,是能夠把你和其他能夠查數的人能區分開的地方。
4 結論層
解讀層還是以數據為中心與現實進行連接。而結論層則是第一個完全脫離數據實體的層面。
結論層是以事件為中心的。主要回答「現在狀況是什麼樣?問題是什麼?下一步要做什麼」的問題。
每一個數據需求都是為了滿足需求方的一個目的而產生的,他想要通過這個數據去做某件事。
比如,他想通過數據評估這個項目的成果,那麼結論就應該是「這個項目成果優秀/不理想,原因是XXXXX,因此下一步我們應該XXXX」;如果他想通過數據調研確認下一步是否要展開做某件事,那麼結論就應該是「建議/不建議開展占這個項目,因為XXXXX,如果XXX,那麼預期獲得XXX的結果」。
這才是需求方真正想知道的東西。他們想知道的,從來都不是Excel里的一行行數據啊。
沒有結論的數據,做了等於白做。
如果不能衝破圍繞數據的前三層,站在「事」的角度去看問題,那麼工作中你註定只能做他人的執行者。就像一個不知道船要開向哪裡的划槳手,再怎麼拚命划槳,也成不了舵手,成不了船長。
5 認知層
認知,才是數據對於我們最大的意義。
之前和身邊的人分享過一個觀點
——「數據,是我們認知這個世界的一種方式。」
這個世界有很多客觀規律是被他人發現,然後經過嚴格的推理和證明,最後成為定理,寫進課本被我們學習。
但是你有沒有想過,世界上還有好多沒有被公開的定理或者說客觀規律等待著你去發現呢。
而數據無疑是其中一條高效的途徑。
我們的現實生活產生數據,我們通過數據又反過來去分析現實。
通過一個需求,我能夠了解這件事情;通過十個同類型的需求,我能夠發現、總結出這類事情的一個規律;然後把這個規律再應用在一百個、一千個這類事情上去驗證自己的假設,去修正自己的規律。最終實現對這一類事情的正確認知。
其實如果只是為了處理日常工作需求,那麼到了結論層其實就可以滿足了。
但是我們其實可以再向上走一步,把對於每個需求數據的解讀、結論沉澱為你對一件事情的一個認知的碎片。然後將這些碎片在不同維度組合起來,拼接成你對於一個系統、一個模式的理解與認知。這才是你作為數據分析師最大的收穫。
有幸一窺天機,何樂而不為呢?
以上,我講完了我所理解的數據理解的五個層面。然後回到我寫這篇文章的初心——如何通過這五個層面幫助你更好地完成一份數據分析報告呢?
首先你要理解你的用戶——他是站在哪一層需要這個數據呢?
我把我工作中遇到的需求方大致分為三類:
- 以數據為工具,想通過數據了解現狀,輔助決策,彙報成果的一類人——他們通常會緊密關注數據變化,最需要的是數據結論,其次是數據解讀;
- 數據只是形式,並不了解數據本身意義,由於來自領導或其他方的壓力因此不得不依賴數據進行工作——他們最需要的是數值本身,偶爾迫於對上彙報也需要一些數據解讀;
- 同行,比如其他事業線/部門的分析師或數據相關同事——他們對數據也有自己的一套認識模式,需求中更重視的是數據的邏輯、口徑和數值的一致性。
綜上,我總結出的能夠滿足90%以上需求方的數據分析報告一般由以下三個部分組成:
第一,結論層
先描述這件事情的整體結論,怎麼樣、為什麼、下一步做什麼;
通過結論層使人最快速地先了解整個報告的內容和重點。第二,解讀層數據解讀作為論據,支撐你的整體結論;闡述數據內容的同時揭示內含原因。第三,描述層 通過簡單圖表或描述概括數據整體情況,作為解讀層的數據支持;圖表盡量簡單,結合顏色、布局使人快速接收信息重點。
當然在某些特殊情況下可能有所調整。比如只關心數據邏輯和數值結果的同行,可能需要提供的就是數據明細表、數據邏輯甚至查詢語句了。
總而言之,先判斷你的用戶是哪一類,然後和他站在同一層面去溝通,給他他需要的數據層面的信息。
寫數據報告確實是件很痛苦的事。
可能你也在經歷,可能你快要開始經歷。
寫數據報告也是件很有成就感的事。
可能你已經體會,可能你快要能夠體會。
報告本身並不重要,重要的是它帶給你了什麼。
從什麼角度去看待一件事,從什麼維度去分析一個現象背後可能的原因。
用什麼方法去驗證你的假設,驗證後用什麼方式表達更容易讓其他人也明白與理解。
數據理解的五個層面,這是我的一些想法。也許不一定對。
希望能對你有所幫助,也歡迎大家交流探討。
推薦閱讀:
※爬取拉勾網,深入了解互聯網金融數據分析師
※提供一些實用的大數據可視化分析工具
※七周成為數據分析師:數據可視化:你想知道的經典圖表全在這