【數據分析】基本數據分析的7個步驟
原文鏈接:知乎專欄
目錄:
一、為什麼要做一份數據報告
二、製作數據報告的流程一、為什麼要做一份數據報告
你是一個在校學生,上著自己喜歡或不喜歡的課,閑來無事,你打開知乎,看到了數據分析話題,你下定決心要成為一個數據分析師,你搞來一堆學習資料和在線課程,看完之後自信滿滿,準備去投簡歷,然後發現不清楚各種工具和模型的適用範圍,也不知道數據報告需要包括哪些內容,面試的感覺就是一問三不知……
你是一個工作了一段時間的白領,你覺得現在這份工作不適合你,你下班以後去逛知乎,在上面看到很多人在說大數據代表未來,數據分析師是21世紀最性感的十大職業之一……你激動了,你也要成為數據分析師,你利用空餘時間補上了統計知識,學了分析工具,然後發現自己目前的工作跟數據分析沒啥關係,覺得沒有相關經驗沒公司要你……這些問題的根源是什麼?一句話可以概括:你沒有辦法在最短的時間內向招聘者展示,你能夠勝任數據分析這項工作。
我在之前的回答如何快速成為數據分析師? - 陳丹奕的回答中,提出過一個「100小時學習計劃」,在開始投簡歷前的最後一步,我建議用25個小時——占整個計劃的四分之一,來做一份數據報告,這個步驟至少能為你帶來三個好處:檢驗你的學習成果——數據分析是一門實用學科,能靈活運用學到的知識做出成果,比通過任何考試都重要;測試你是否真的想做/適合做數據分析工作——比起你轉行後用半年或是一年時間來發現自己的真實想法,不如在此之前就看看你能否做好這份工作,或是從其中得到樂趣;展示你具有的能力——程序員的世界裡講究「No more talk,Show me the code」,數據分析師同樣可以「Show me the report」,一份內容完整的數據報告,能幫你的面試官省下很多判斷/評估/糾結的時間,給你更多的機會。寫了一大堆做數據報告的好處,那麼以一個初學者的水平,如何去做一份數據報告呢?下文細說。
二、製作數據報告的流程
先放一張圖
可以很清楚的看到,一個數據報告(副本)依據需求不同,有普通難度(藍->橙->綠->紅),也有英雄難度(藍->橙->綠+黃->紅),這次我們先講普通難度的攻略,英雄難度放到下次講。
普通難度的數據報告要經歷7個步驟:Step 1:目標確定
這一步在工作中通常是由你的客戶/上級/其他部門同事/合作方提出來的,但第一次的數據報告中,需要你自己來提出並確定目標。
選擇目標時,請注意以下幾點:選擇一個你比較熟悉,或者比較感興趣的領域/行業;選擇一個範圍比較小的細分領域/細分行業作為切入點;確定這個領域/行業有公開發表的數據/可以獲取的UGC內容(論壇帖子,用戶點評等)。逐一分析上面三個注意點:
選擇熟悉/感興趣的領域/行業,是為了保證你在後續的分析過程中能夠真正觸及事情的本質——這一過程通常稱為洞察——而不是就數字論數字;選擇細分領域/行業作為切入點,是為了保證你的報告能夠有一條清晰的主線,而非單純堆砌數據;確定公開數據/UGC內容,是為了保證你有數據可以分析,可以做成報告,你說你是個軍迷,要分析一下美國在伊拉克的軍事行動與基地組織恐怖活動之間的關係……找到了數據麻煩告訴我一聲,我叫你一聲大神……不管用什麼方法,你現在有了一個目標,那麼就向下個階段邁進吧。Step 2:數據獲取
目標定下來了,接下來要去找相應的數據。如果你制定目標時完全遵循了第一步的三個注意點,那麼你現在會很明確要找哪些數據。如果現在你還不確定自己需要哪些數據,那麼……回到第一步重來吧。
下面我總結一下,在不依賴公司資源,不花錢買數據的情況下,獲取目標數據的三類方法:一是從一些有公開數據的網站上複製/下載,比如統計局網站,各類行業網站等,通過搜索引擎可以很容易找到這些網站。舉例:要找汽車銷量數據,在百度輸入「汽車銷量數據查詢」關鍵字,結果如下:我打碼的那個鏈接,也就是第三個鏈接(第一個非推廣鏈接)就是要找的結果,點進去可以看到各月的汽車銷量,但只是全國數據,沒有分省統計數據。
當然不會每次找數據都這麼順利,這裡只是告訴你:要善用搜索引擎。二是通過一些專門做數據整理打包的網站/api來下載,如果你要找金融類的數據,這種方法比較實用。其他類型的數據也有人做,但通常要收費。另外,淘寶上有很多幫人抓數據的店……三是自行收集所需數據,比如用爬蟲工具爬取點評網站的商家評分、評價內容等,或是直接自己人肉收集(手工複製下來),亦或是找一個免費問卷網站做一份問卷然後散發給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實現難度相對較大。如果你是在職人員或是實習生,我建議你不要用任何現在公司的數據。保證數據的安全性,不對外泄露公司的任何非公開數據,是數據分析師的基本職業道德。實在非要用(例如你要在面試中展示你在以前公司做過的數據報告),請將一切有意義的內容,包括但不限於各種數字、競品及本品名稱、時間、用戶屬性全部打碼並轉成pdf格式,只留圖形和敘事邏輯描述內容。Step 3:數據清洗
在工作中,90%以上的情況,你拿到的數據都需要先做清洗工作,排除異常值、空白值、無效值、重複值等等。這項工作經常會佔到整個數據分析過程將近一半的時間。
如果在上一步中,你的數據是通過手工複製/下載獲取的,那麼通常會比較乾淨,不需要做太多清洗工作。但如果數據是通過爬蟲等方式得來,那麼你需要進行清洗,提取核心內容,去掉網頁代碼、標點符號等無用內容。
無論你採用哪一種方式獲取數據,請記住,數據清洗永遠是你必須要做的一項工作。Step 4:數據整理
清洗過後,需要進行數據整理,即將數據整理為能夠進行下一步分析的格式,對於初學者,用Excel來完成這一工作就OK。
如果你的數據已經是表格形式,那麼計算一些二級指標就好,比如用今年銷量和去年銷量算出同比增長率。鑒於你是第一次做數據報告,建議你不要計算太多複雜的二級指標,基本的同比、環比、佔比分布這些就OK。如果你收集的是一些非數字的數據,比如對商家的點評,那麼你進行下一步統計之前,需要通過「關鍵詞-標籤」方式,將句子轉化為標籤,再對標籤進行統計。Step 5:描述分析
描述分析是最基本的分析統計方法,在實際工作中也是應用最廣的分析方法。描述統計分為兩大部分:數據描述和指標統計。
數據描述:用來對數據進行基本情況的刻畫,包括:數據總數、時間跨度、時間粒度、空間範圍、空間粒度、數據來源等。如果是建模,那麼還要看數據的極值、分布、離散度等內容。這次我們是零基礎做數據報告,那麼就不用考慮後一類數據了。指標統計:用來作報告,分析實際情況的數據指標,可粗略分為四大類:變化、分布、對比、預測;變化:指標隨時間的變動,表現為增幅(同比、環比等);分布:指標在不同層次上的表現,包括地域分布(省、市、區縣、店/網點)、用戶群分布(年齡、性別、職業等)、產品分布(如動感地帶和全球通)等;對比:包括內部對比和外部對比,內部對比包括團隊對比(團隊A與B的單產對比、銷量對比等)、產品線對比(動感地帶和全球通的ARPU、用戶數、收入對比);外部對比主要是與市場環境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用於找出好或壞的地方,而對比更偏重於找到好或壞的原因;
預測:根據現有情況,估計下個分析時段的指標值。以上部分引用自我的一個回答面試中針對一個企業的數據分析場景應該怎麼去分析?應屆生還不懂怎麼結合企業業務做系統的分析,求指點 - 陳丹奕的回答,希望進一步了解的話,可以進這個答案。描述分析的產出是圖表,下一個步驟的內容將基於這些圖表產出。Step 6:洞察結論
這一步是數據報告的核心,也是最能看出數據分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內容。
舉個例子:年輕的分析師:2013年1月銷售額同比上升60%,迎來開門紅。2月銷售額有所下降,3月大幅回升,4月持續增長。
年邁的分析師:2013年1月、2月銷售額去除春節因素後,1月實際同比上升20%,2月實際同比上升14%,3月、4月銷售額持續增長。看到兩者的區別了嗎?2013年春節在2月,2012年則在1月,因此需要各去除一周的銷售額,再進行比較。如果不考慮這一因素,那麼後續得出的所有結論都是錯的。挖掘數字變化背後的真正影響因素,才是洞察的目標。再舉個例子:
這張圖是一個用戶行為聚類的結果,人群被聚成四類。前三類人群可以很清楚的得出結論:他們是某一種遊戲主機的用戶。那麼第四類人群,是什麼人群呢?
年輕的分析師:第四類人群是遊戲主機的狂熱愛好者,他們交易頻率遠高於一般用戶。年邁的分析師:第四類人群是二手販子,否則誰沒事一年內會搞將近7台索尼主機放家裡。很明顯,年邁的分析師由於具備豐富的行業經驗,能迅速看穿數據背後的真實情況,得出正確的洞察結論,這也是為什麼我在step 1里一再強調要找你熟悉或感興趣的領域/行業,缺乏業務經驗,很可能你的洞察結果是完全錯誤的。以上這兩個洞察的例子本身比較簡單,但通常來說,即使是複雜的數據報告,也是由一個個相對簡單的洞察結論組成的,這其中涉及到問題的分拆,邏輯線的建立等一系列內容。作為初學者,做到自己力所能及的程度就好。總結一下,所謂洞察,就是要越過數據,去推測和理解真實情況。單純描述數據,誰都會做,根據數據得出有價值的結論,報告才有意義。Step 7:報告撰寫
都到這一步了,相信各位對數據報告也不再陌生了。這一步中,需要保證的是數據報告內容的完整性。
一個完整的數據報告,應至少包含以下六塊內容:報告背景
報告目的數據來源、數量等基本情況分頁圖表內容及本頁結論各部分小結及最終總結下一步策略或對趨勢的預測其中,背景和目的決定了你的報告邏輯(解決什麼問題);數據基本情況告訴對方你用了什麼樣的數據,可信度如何;分頁內容需要按照一定的邏輯來構建,目標仍然是解決報告目的中的問題;小結及總結必不可少;下一步策略或對趨勢的預測能為你的報告加分。
還覺得複雜么?我再換一種說法:各位應該都寫過議論文,一份好的數據分析報告其實就是一篇好的議論文,立論(背景)——破題(目的)——列舉論據(圖表+結論)——論證論點(小結及總結)——結題(策略或預測)。按照這個邏輯去組織你的報告,你的論點就很容易被人接受,自然能得高分嘍。那麼,普通難度的數據報告做法就是這樣了。高深的固然要更難一些,但是普通的已經將整體的路徑將的很清楚了。
推薦閱讀:
※高維數據怎樣可視化?
※目前數據新聞做的比較好的國內媒體有哪些?
※國內有哪些好的數據可視化工具,推薦一下,謝謝?
※一個完全沒有編程,軟體設計背景的人對數據信息可視化(data visualization)以及設計(平面設計,網頁設計等)感興趣,有什麼好的入門書籍可以推薦,有什麼實用軟體值得學習?
※iOS或Android開發中有哪些庫或工具可以幫助實現數據可視化?