數據分析方法論是什麼?
今天在書中看到這個東西,但是還是感覺是一個很模糊,感覺它更多像是一個指導思想。
這個問題其實是比較大的,面對一個比較大的問題,我覺得可行的方式是把它拆解下來。
所以接下來我會根據我們之前的一篇文章,從數據分析的 4 個商業分析理論、3 個常見方法、7 個具體應用手段,這三方面來介紹做數據分析時的 14 種思路。
感謝本文作者,GrowingIO 聯合創始人 運營 VP 陳明
同時歡迎對數據分析感興趣的朋友免費試用 GrowingIO 無埋點用戶行為數據分析產品,親自體驗文中說到的數據分析方法。
Part | 1 數據分析為企業帶來價值
一、商業分析目標
商業分析的目標是利用大數據為所有職場人員做出迅捷,高質,高效的決策提供可規模化的解決方案。商業分析是創造價值的數據科學。
二、企業成長模式
企業成長模式中需要一個核心業務平台,通過產生產品和價值,看到客戶的業務、數據的增長。憑藉這些增長累計很多數據洞察,然後根據這些洞察反推客戶的需求,創造更多符合需求的增值產品和服務,形成一個完整的閉環。
三、商業分析進化論
數據商業分析中會存在很多判斷。
1.觀察數據當前發生了什麼?
比如想知道線上渠道A、B各自帶來了多少流量,新上線的產品有多少用戶喜歡,新註冊流中註冊的人數有多少。這些都需要通過數據來展示結果。
2.理解為什麼發生?
我們需要知道渠道A為什麼比渠道B好,這些是要通過數據去發現的。也許某個關鍵字帶來的流量轉化率比其他都要低,這時可以通過信息、知識、數據沉澱出發生的原因是什麼。
3.預測未來會發生什麼?
在對渠道A、B有了判斷之後,根據以往的知識預測未來會發生什麼。在投放渠道C、D的時候,猜測渠道C比渠道D好,當上線新的註冊流、新的優化,可以知道哪一個節點比較容易出問題,這些都是通過數據進行預測的過程。
4.商業決策
所有工作中最有意義的還是商業決策,通過數據來判斷應該做什麼。這是商業分析最終的目的。
四、EOI 的分析架構
EOI 的分析構架是包括 LinkedIn、eBay 在內的很多公司劃分業務的基本方式。
以谷歌為例,谷歌的核心任務是搜索、SEM、廣告,這是已經被證明的商業模型,可以從中獲得很多利潤。谷歌的戰略性任務是安卓平台,可能還未盈利,但是為了避免蘋果或其他廠商佔領,所以要花時間、花精力做好。風險任務對於創新來說是十分重要的,比如谷歌眼鏡、自動駕駛汽車。
數據分析對這三類任務的目標也不同,對核心任務來講,數據分析是助力,幫助公司更好的盈利,完成戰略模式;對戰略任務來說是優化;與風險任務對應的是創新。
Part 2 | 常見的數據分析方法
一、數據分析的基本思路
數據分析應該以業務場景為起始思考點,以業務決策作為終點;
基本思路為5步,首先要挖掘業務含義、制定分析計劃、從分析計劃中拆分出需要的數據、再根據數據分析的手段提煉業務洞察,最終產出商業決策。
案例:
某國內P2P借貸類網站,市場部在百度和hao123上都有持續的廣告投放,吸引網頁端流量;最近內部同事建議嘗試投放Google的SEM;另外,也需要評估是否加入金山網路聯盟進行深度廣告投放。在這種多渠道的投放場景下,如何進行深度決策?
我們按照數據分析的基本思路拆解一下這個問題。
1.挖掘業務含義
首先要了解市場部想優化什麼,並以此為核心的 KPI 去衡量。
對於渠道效果評估,重要的是業務轉化:對P2P類網站來說,是否『發起借貸』要遠重要於用『用戶數量』。
無論是 Google 還是金山渠道,重點在因為用戶群體的不同,如何優化相應用戶的落地頁,提升轉化。
2.制定分析計劃
以『發起借貸』為核心轉化點,分配一定的預算進行流量測試,觀察對比註冊數量及 ROI 效果,可以持續觀察這部分用戶的後續價值。
3.拆分查詢數據
需要根據各個渠道追蹤流量、落地頁停留時間、落地頁跳出率、網站訪問深度以及訂單類型數據,進行用戶分群。
4.提煉業務洞察
對於不同渠道進行投放時,根據 KPI 的變化,推測業務含義。比如谷歌渠道的效果不好,可能因為谷歌大部分的流量在海外,合規的問題造成轉化率低。金山網路聯盟有很多展示位置,要持續衡量不同位置的效果。
5.產出商業決策
根據數據洞察,指引渠道的決策制定。比如停止谷歌渠道的投放,繼續跟進金山網路聯盟進行評估。落地頁可以根據數據指標進行一定程度優化。
以上這些都是商務分析拆解和完成推論的方式。
二、內外因素分解法
內外因素分解法是把問題拆成四部分,包括內部因素、外部因素、可控和不可控。然後再一步步解決每一個問題。
案例:
比如社交招聘類網站,分為求職者端和企業端。一般是向企業端收費,其中一個收費方式是購買職位的廣告位。業務端人員發現『發布職位』數量在過去的6月中有緩慢下降的趨勢。對於這類某一數據下降的問題,可以怎麼拆解?
根據內外因素分解法,『內部可控因素』:產品近期上線更新、市場投放渠道變化、產品粘性、新老用戶留存問題、核心目標的轉化;
『外部可控因素』:市場競爭對手近期行為、用戶使用習慣的變化、招聘需求隨時間的變化;
『內部不可控因素』:產品策略(移動端/PC端)、公司整體戰略、公司客戶群定位(比如只做醫療行業招聘);
『外部不可控因素』:互聯網招聘行業趨勢、整體經濟形勢、季節性變化;
三、DOSS
DOSS是從一個具體問題拆分到整體影響,從單一的解決方案找到一個規模化解決方案的方式。
案例:某在線教育平台,提供免費課程視頻,同時售賣付費會員,為付費會員提供更多高階課程內容。如果我想將一套計算機技術的付費課程,推送給一群持續在看C++免費課程的用戶,分析團隊應該如何輔助?
按DOSS的思路分解如下:
『具體問題』:預測是否有可能幫助某一群組客戶購買課程。
『整體』:首先根據這類人群的免費課程的使用情況進行數據分析、數據挖掘的預測,之後進行延伸,比如對整體的影響,除了計算機類,對其他類型的課程都進行關注。
『單一回答』:針對該群用戶進行建模,監控該模型對於最終轉化的影響。
『規模化』:之後推出規模化的解決方案,對符合某種行為軌跡和特徵的行為進行建模,產品化課程推薦模型。
Part 3 | 數據分析的應用手段
根據基本分析思路,常見的有7種數據分析的手段。
一、畫像分群
畫像分群是聚合符合某中特定行為的用戶,進行特定的優化和分析。
比如在考慮註冊轉化率的時候,需要區分移動端和 Web 端,以及美國用戶和中國用戶等不同場景。這樣可以在渠道策略和運營策略上,有針對性地進行優化。
二、趨勢
建立趨勢圖表可以迅速了解市場, 用戶或產品特徵的基本表現,便於進行迅速迭代;還可以把指標根據不同維度進行切分,定位優化點,有助於決策的實時性;
三、漏斗洞察
通過漏斗分析可以從先到後的順序還原某一用戶的路徑,分析每一個轉化節點的轉化數據;
所有互聯網產品、數據分析都離不開漏斗,無論是註冊轉化漏斗,還是電商下單的漏斗,需要關注的有兩點。第一是關注哪一步流失最多,第二是關注流失的人都有哪些行為。
關注註冊流程的每一個步驟,可以有效定位高損耗節點。
四、行為軌跡
行為軌跡是進行全量用戶行為的還原。只看 PV、UV 這類數據,無法全面理解用戶如何使用你的產品。了解用戶的行為軌跡,有助於運營團隊關注具體的用戶體驗,發現具體問題,根據用戶使用習慣設計產品,投放內容;
五、留存分析
留存是了解行為或行為組與回訪之間的關聯,留存老用戶的成本要遠遠低於獲取新用戶,所以分析中的留存是非常重要的指標之一
除了需要關注整體用戶的留存情況之外,市場團隊可以關注各個渠道獲取用戶的留存度,或各類內容吸引來的註冊用戶回訪率,產品團隊關注每一個新功能對於用戶的回訪的影響等。
六、A/B測試
A/B測試是對比不同產品設計/演算法對結果的影響。
產品在上線過程中經常會使用A/B測試來測試產品效果,市場可以通過A/B測試來完成不同創意的測試。
要進行A/B測試有兩個必備因素:
1.有足夠的時間進行測試;
2.數據量和數據密度較高;
因為當產品流量不夠大的時候,做A/B測試得到統計結果是很難的。而像 LinkedIn 這樣體量的公司,每天可以同時進行上千個A/B測試。所以A/B測試往往公司數據規模較大時使用會更加精準,更快得到統計的結果。
七、優化建模
當一個商業目標與多種行為、畫像等信息有關聯性時,我們通常會使用數據挖掘的手段進行建模,預測該商業結果的產生;
例如:作為一家 SaaS 企業,當我們需要預測判斷客戶的付費意願時,可以通過用戶的行為數據,公司信息,用戶畫像等數據建立付費溫度模型。用更科學的方式進行一些組合和權重,得知用戶滿足哪些行為之後,付費的可能性會更高。
以上這14種數據分析的方法論,僅僅掌握單純的理論是不行的。需要大家將這些方法論應用到日常的數據分析工作中,融會貫通。同時學會使用優秀的數據分析工具,可以事半功倍,更好的利用數據,實現業績增長。
註:以上數據分析工具皆來源於 GrowingIO-矽谷新一代無埋點用戶行為數據分析產品,歡迎免費註冊試用。
從以下幾個方面來看數據分析思維及其方法論:
去餐廳吃飯師,如果你仔細觀察的話,餐廳大致可以分為以下兩類付費模式:
1)使用大眾點評優惠吸引用戶結賬
2)直接使用微信或支付寶結賬
這兩類結賬方式,表面看是商家的促銷行為不同。但是,從長遠來看,第一類餐廳更容易勝出。
這是為什麼呢?
因為第一類餐廳的結賬模式是建立在互聯網產品基礎設施(大眾點評或者百度糯米)之上,通過與互聯網產品結合,可以積累用戶的消費信息,例如消費評論。這就好比線下商店老闆比不過淘寶賣家一樣,因為淘寶賣家有自己客戶的詳細購物信息,更了解自己的客戶。
更有遠見的餐廳老闆,會僱傭聰明的數據分析師,來整合挖掘餐廳線下軟體(訂餐管理軟體)和 線上用戶信息(如大眾點評的評論),從而為制定餐廳未來的運營決策提供依據。
然而,很多傳統的公司並沒有意識去積累用戶的消費數據,更別說對數據進行分析來指導公司運營了。說到底,其根本原因是公司的負責人沒有數據分析思維。
那麼,什麼是數據分析思維呢?
數據分析思維是通過各種方法收集用戶的數據,了解用戶需求,然後改進你的個人決策,不斷迭代。
數據分析思維基礎方法論其實數據分析思維這套方法論被廣泛的用在互聯網公司。國內的有阿里巴巴,騰訊,滴滴。國外的有Facebook,亞馬遜,優步,領英。
不管是公司,還是個人,在這個新時代,具有數據分析思維是一種更高層次的元認知能力。
為了更好的明白以下兩個問題:
1)作為公司,數據分析思維具體是如何在公司的產品、營銷各個環節起作用的
2)作為個人,在新時代,如何何建立你的數據分析思維
我們先來看全球第三大職業社交網路~領英(LinkedIn),其創始人在創業初期,是如何利用數據分析思維及技術,來突破產品沒有用戶魔咒的。
霍夫曼是領英(LinkedIn)的創始人,同時也是Facebook最早的天使投資人。他還是PayPal黑幫的精神領袖之一。
這裡有必要介紹下大名鼎鼎的PayPal黑幫。
PayPal黑幫是在矽谷赫赫有名的創業和天使投資人群。2002年,eBay以15億美元收購了電子支付公司PayPal後。PayPal的重要員工都陸續從eBay離職。不過,這些離職的員工仍然保持著密切的聯繫,經常聚會,並將自己的團體命名為「PayPal黑幫」。
上面這張是《財富》雜誌2007年拍攝的PayPal黑幫。
如果單看桌上散亂的酒杯和撲克牌,牆上懸掛著文藝復興時期的巨幅油畫,你會驚嘆:艾瑪,這不會是義大利黑手黨的聚會吧?
這就是PayPal黑幫的成員,他們獨自創建了數十家企業,至今總價值達近300億美元。
蒂爾創辦了Founders Fund基金,為LinkedIn、SpaceX、Yelp等十幾家出色的科技新創公司提供早期資金。
馬克斯·列夫琴是網站Slide的創始人,運營著圖片共享網站Slide,這是全球最熱門的網站之一,每月平均訪問者人數達到1.34億人。
埃隆·馬斯克創立了美國太空探索公司(SpaceX)以及特斯拉汽車。
陳士俊聯合創立了社交視頻網站YouTube。
大家猜下,這幾個人里哪位是領英創始人霍夫曼?
如果你仔細觀察這群人,有一個人坐在照片正中一張紅絲絨沙發上,棕色的頭髮整齊地梳在腦後。他表情篤定,敞開的領口處一條金項鏈若隱若現。他就是領英創始人霍夫曼。
別看他一副暴發戶的裝扮,他可是領英數據分析思維文化的締造者。我們從霍夫曼創辦領英開始說起... ...
霍夫曼畢業於斯坦福大學及牛津大學哲學系,生活一直順風順水。畢業後,他總希望能幹點什麼去改變世界。
由於他一直對社交網路感興趣,於是,1997年從蘋果公司辭職創立了一家約會服務網站SocialNet,那時扎克伯格還在上初中。
但是,由於缺少搜索等功能,SocialNet在商業上並不成功,最後以失敗告終。
你看,創業第一次失敗的很多,不要光看他人光鮮的結果,更多的時候,應該回頭思考下他過往的經歷,才會發現這些人有哪些值得我們去學習和借鑒的經驗。
就在這時(1988年),蒂爾正籌劃著做電子錢包PayPal。他給霍夫曼打了一個電話,邀請創業失敗的霍夫曼加入公司。霍夫曼答應了,並成為支付服務部門董事兼COO。
新公司進展並非一帆風順。2000年春天,霍夫曼、蒂爾以及馬克斯和埃隆對公司做了一次大膽且冒險的戰略方向調整。在當時,PayPal只是為掌上電腦提供支付交易。當PayPal開始飛快燒錢時,他們才意識到互聯網已改變了人們的支付習慣。於是,他們果斷決定放棄掌上電腦,擁抱互聯網。
為什麼說是一次冒險呢?
在當時,互聯網做金融平台是銀行想都不敢想的事,卻恰恰被這一群不懂金融的人做成了。2001年年底,PayPal以15億美元被eBay收購,成員們陸續離開,各自創業或投資其他公司。儘管他們多是自由主義者,強烈地依賴自身的感覺及判斷,但仍然定期聚會,誰要有資金困難,就會互相幫助。
2002年,霍夫曼給自己放了一個長假。那時,剛經歷過2000年年初的網路泡沫,整個矽谷對互聯網公司還心有餘悸。
就在澳大利亞的海灘散步的時候,他思考並預測了下未來:
1)資本都將目光轉向了軟體和清潔能源科技,但忽略了消費者公司的前景
2)社交網路有兩種可能:個人應用和商務應用,後者的市場尚且空白,這也許是建立職業社交網站的最好時機。
想清楚後,他決定成立一家職業社交網站公司。2002年11月最後一周,霍夫曼利用已有的人脈召集了7名前同事。第二天,一行人帶上手機和電腦搬進了山景城一間簡陋的辦公室。
然而,創業遇到的第一個問題就是:沒有啟動資金,該怎麼辦?
那時正是互聯網泡沫剛過,新成立的公司根本得不到任何投資。
如何融資呢?
霍夫曼打開手機通訊錄,慢慢翻看哪個朋友最近有錢。首先他想到了「好基友」蒂爾,因為,當時蒂爾的基金公司已做得有聲有色,很有錢。
當然,打電話過去,「好基友」也沒讓他失望,不僅精神上大力支持,還提供了首輪融資。
在公司產品(領英)做出來以後後,接下來遇到的問題就是:
1)在一開始,根本沒人知道你的產品,沒有用戶怎麼辦
2)用戶對產品體驗有哪些意見?如何改進?
好在,霍夫曼是一個與時俱進的創始人,他正是用數據分析思維來建立產品和找到目標用戶的。
他是如何做到的呢?
這裡舉一個例子
1)分析數據
在2004年,領英對用戶按照來源渠道進行分析。發現了最大的兩個渠道,一個是從自然搜索來的(即google搜索),一個是從郵件來的。
進一步分析發現,從自然搜索來的用戶留存度是電子郵件邀請來的3倍。
2)依據分析結果,優化產品
根據分析結果,當時領英做了一個決策,不去關注郵件獲取來的客戶,而是核心關注如何優化自然搜索帶來用戶的體驗。
依據這個決策,在6個月以後,每個月的用戶增長保持到了60%的增長速度,同時,獲取了年度最有價值,最有粘度的客戶。
3)依據分析結果,建立營銷方案
通過對用戶留存的進一步分析,發現了兩個重要的現象:
第一,很多從自然流量搜索來的用戶,特別關注用戶的個人簡歷。
當時領英做了一個很重要的決策,不斷的誘導用戶完善他們的簡歷,這是他們產品開發的一個核心關注點。
第二,通過分析用戶的粘度,以及整體上用戶產品功能上的體驗,用戶第一周註冊以後,需要增加5個社交關係,這樣的用戶給整個領英平台帶來的價值是不增加5個社交關係,或許5個以下社交關係的3倍以上。
這個分析花了數據分析科學部門4個月時間才找到這個答案。
發現這個數據分析結果以後,做什麼事情呢?
領英在產品、營銷等各個渠道上大肆推廣,推薦這個產品功能,以此不斷的增加用戶的粘度,提高用戶的留存率。
領英的整個公司文化都是圍繞數據分析來進行的, 現在領英在全球已經有了3億用戶,2106年被微軟以262億美元收購。
霍夫曼說,「談生意、諮詢、分享知識、找工作,網路平台只要堅持到100萬人就成功了。」
回顧領英制定決策的整個過程,數據分析思維是這樣建立的:
相對於PC時代,為何在移動互聯網時代,數據分析變的比以往更重要呢?
如果你了解管理學,在近100年的美國商業發展社會裡面,一共有三次管理學的浪潮:
第一次浪潮,提出了一個科學管理方法論
第二次浪潮,現代管理學之父 彼得·德魯克 提出用管理促進企業增長
他講過一句非常經典的話:如果你不能衡量,那麼你就不能有效增長。
現在我們正處於第三次浪潮之中。第三次管理學浪潮是什麼呢?
第三次浪潮,提出了營銷和定位的理論。由於移動互聯網的出現,用戶數據大量積累,營銷方案的制定都是基於數據分析結果來決策。
最近5年,以美國為代表提出來的精細化運營、增長黑客的理論,把一系列的管理科學這發揮到了極致。
下面是增長黑客的理論,從產品研發到營銷推廣,主要從5個方面圍繞數據分析展開。
從這三次浪潮的發展,我們可以看到,人類的思維也在從「經驗主義思維」向「數據分析思維」發展。
例如,以往人類的決策過程都是基於大腦的國外經驗,例如醫生給病人看病。
但是人腦的CPU、內存太低,根本存不了多少東西。
而現在更多的決策是基於大數據分析來進行的,因為好多台電腦的計算能力和內存是人腦的N倍,例如最新的癌症研究IBM Watson,是用海量的大數據分析來治療癌症的。
然而,很可悲的是,很多公司還活在傳統的「經驗主義」思維里無法自拔。真正理解數據分析思維,並將其運用到經營和決策裡面的實在很少。這在傳統行業里表現的尤為明白。例如:很多的公司產品經理和CEO以為留存率是給VC看的。
但是,真正做增長的產品經理和運營經理會把留存作為最核心的指標。
下面我們來看看,對於公司,個人分別如何建立數據分析思維。
對於公司,你該如何做?
作為公司的負責人,應該去想辦法積累用戶的數據。
對於傳統企業,你可能沒有互聯網產品,但是你可以藉助現在很多的工具來獲取和積累用戶的數據。因為只有有了數據,你才能去分析和決策。
我們看一個傳統企業利用數據分析來提高銷售額的例子。
一個做數據分析的朋友為酒吧的主人提高了一套數據分析解決方案,以解決酒吧老闆了解酒吧經營的每一個細節,以便制定準備去的推廣和經營決策。
這位數據分析師提高的服務包括以下三個方面:
首先,他分析每一家酒吧過去經營的統計數據,這有助於酒吧的主人全面了解經營情況。在過去,像酒吧這樣傳統的行業,業主除了知道每月收入多少錢,主要幾項開銷是多少,其實對經營是缺乏全面了解的。至於哪種酒賣的好,哪種賣的不好,什麼時候賣的好,全憑經驗,每月什麼數據分析來支撐。
其次,他為每一家酒吧的異常情況提高預警。例如可以提升酒吧老闆某一天該酒吧的經營情況和平時相比很反常,這樣就可以引起酒吧老闆的注意,找到原因。在過去,發生這種異常情況時老闆很難注意到,比如某個周六晚上的收入比前後幾個周六晚上少了20%,老闆一般會認為 是正常浮動,也無法一一檢查庫存是否和銷售對得上。有了他的數據服務,這些問題都能及時被發。
最後,他綜合各家酒吧數據的收集和分析,為酒吧老闆提供這個行業宏觀的數據作為參考。比如從春天到夏天,北京市酒吧營業額整體在上升,如果某個特定時刻,可以指定合適的營銷方案。
對於個人,如何建立你的數據分析思維能力呢?
作為個人,你也要學著運用數據分析思維來指導自己的決策。
當我們在做出選擇和預測判斷的時候,要想辦法找到相關的數據來分析和驗證我們的判斷。
今天,不管你願不願意,你都被捲入了「一個人就是一家公司」的時代。只不過,工商局註冊的那些公司都是「有限責任」,而你「自己」這家公司是無限責任。
你需要用一生的時間和信用來為它擔保。你必須像經營公司一樣經營自己:構建自己的協作關係、塑造自己的產品和服務、呵護自己的名聲、把注意力投放到產出更高的地方。
如果把每個人的大腦比作一台電腦的話,你的大腦就是你自己的數據分析師。
把你自己比作一家公司的話,會搜集有效數據的你是團隊的產品工程師、使用大腦進行深入分析做出決策的你是團隊的的數據分析師,會寫作演講的你則是團隊的市場部經理。
當所有的決策和選擇,是建立在數據分析思維這個基礎上,你就會慢慢運營好自己。
運營好自己的結果是什麼呢?
其實就是提高你個人的影響力。
要知道,未來的社會最貴的資源是影響力。
在小屏時代,能爭奪用戶眼球注意力的位置越來越少。只有有了影響力你才能成為用戶心智中的一個符號,這樣你才能在爭奪注意力大戰中脫穎而出,成為真正的商業贏家。
現在依然處於獲取個人影響力的成本很低的時代,再過兩年,誰是這一波機遇期里打造出真正有影響力的人,該水落石出了。
別想,這是天方夜譚,現在這樣的事情每天在發生著。
而建立影響力的過程,就是將你擅長的知識分享到互聯網上,同時,讓更多的人知道你。
而這其中,最重要的一點是你要學會用數據分析思維去經營自己,改善產品(你就是你自己的產品),讓更多的人看到你。
作者:猴子 微信公眾號:houzichedan 微信搜索:猴子聊人物重點包括兩塊,一塊是統計分析方法論:描述統計、假設檢驗、相關分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等;
一塊是營銷管理常用分析方法論:SWOT、4P、PEST、SMART、5W2H、User behavior等。
一、統計分析方法論:
1.描述統計(Descriptive statistics):描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變數之間關係進行估計和描述的方法。目的是描述數據特徵,找出數據的基本規律。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。(1)數據的頻數分析:在數據的預處理部分,我們曾經提到利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。比如說,收入低的被調查者用戶滿意度比收入高的被調查者高,或者女性的用戶滿意度比男性低等。不過這些規律只是表面的特徵,在後面的分析中還要經過檢驗。
(2)數據的集中趨勢分析:數據的集中趨勢分析是用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。各指標的具體意義如下:
平均值:是衡量數據的中心位置的重要指標,反映了一些數據必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
中位數:是另外一種反映數據的中心位置的指標,其確定方法是將所有數據以由小到大的順序排列,位於中央的數據值就是中位數。
眾數:是指在數據中發生頻率最高的數據值。
如果各個數據之間的差異程度較小,用平均值就有較好的代表性;而如果數據之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
(3)數據的離散程度分析:數據的離散程度分析主要是用來反映數據之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的數據類型有不同的計算方法。
(4)數據的分布:在統計分析中,通常要假設樣本的分布屬於正態分布,數據的正態性離群值檢驗,已知標準差Nair檢驗,未知標準差時,有Grubbs檢驗,Dixon檢驗,偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度兩個指標來檢查樣本是否符合正態分布。偏度衡量的是樣本分布的偏斜方向和程度;而峰度衡量的是樣本分布曲線的尖峰程度。一般情況下,如果樣本的偏度接近於0,而峰度接近於3,就可以判斷總體的分布接近於正態分布。
(5)繪製統計圖:用圖形的形式來表達數據,比用文字表達更清晰、更簡明。在SPSS軟體里,可以很容易的繪製各個變數的統計圖形,包括條形圖、餅圖和折線圖等。
2.假設檢驗:是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
3.相關分析:相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。常見的有線性相關分析、偏相關分析和距離分析。相關分析與回歸分析在實際應用中有密切關係。然而在回歸分析中,所關心的是一個隨機變數Y對另一個(或一組)隨機變數X的依賴關係的函數形式。而在相關分析中 ,所討論的變數的地位一樣,分析側重於隨機變數之間的種種相關特徵。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關係如何,而不在於由X去預測Y。
4.方差分析(Analysis of Variance,簡稱ANOVA):又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。 由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。
5.回歸分析:回歸主要的種類有:線性回歸,曲線回歸,二元logistic回歸,多元logistic回歸。回歸分析的應用是非常廣泛的,統計軟體包使各種回歸方法計算十分方便。
一般來說,回歸分析是通過規定因變數和自變數來確定變數之間的因果關係,建立回歸模型,並根據實測數據來求解模型的各個參數,然後評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變數作進一步預測。
6.聚類分析:聚類主要解決的是在「物以類聚、人以群分」,比如以收入分群,高富帥VS矮丑窮;比如按職場分群,職場精英VS職場小白等等。
聚類的方法層出不窮,基於用戶間彼此距離的長短來對用戶進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的:首先確定選擇哪些指標對用戶進行聚類;然後在選擇的指標上計算用戶彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、用戶在每個指標下都有相應的取值,可以看作多維空間中的一個點,用戶彼此間的距離就可理解為兩者之間的直線距離。);最後聚類方法把彼此距離比較短的用戶聚為一類,類與類之間的距離相對比較長。
常用的演算法k-means、分層、FCM等。
7.判別分析:從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。
常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。
注意事項:
a. 判別分析的基本條件:分組類型在兩組以上,解釋變數必須是可測的;
b. 每個解釋變數不能是其它解釋變數的線性組合(比如出現多重共線性情況時,判別權重會出現問題);
c. 各解釋變數之間服從多元正態分布(不符合時,可使用Logistic回歸替代),且各組解釋變數的協方差矩陣相等(各組協方方差矩陣有顯著差異時,判別函數不相同)。
相對而言,即使判別函數違反上述適用條件,也很穩健,對結果影響不大。
應用領域:對客戶進行信用預測,尋找潛在客戶(是否為消費者,公司是否成功,學生是否被錄用等等),臨床上用於鑒別診斷。
8.主成分與因子分析:主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標(主成分),即每個主成分都是原始變數的線性組合,且各個主成分之間互不相關,使得主成分比原始變數具有某些更優越的性能(主成分必須保留原始變數90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。
因子分析基本原理:利用降維的思想,由研究原始變數相關矩陣內部的依賴關係出發,將變數表示成為各因子的線性組合,從而把一些具有錯綜複雜關係的變數歸結為少數幾個綜合因子。(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變數之間的相關關係)。
9.時間序列分析:經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列的互相依賴關係。後者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。例如,記錄了某地區第一個月,第二個月,……,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。
10.決策樹(Decision Tree):是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關係。Entropy
= 系統的凌亂程度,使用演算法ID3, C4.5和C5.0生成樹演算法使用熵。這一度量是基於信息學理論中熵的概念。常見的數據分析方法論大體的就是這些,結合案例多練習下基本上就明白是什麼回事。
二、營銷管理方法論:
1.SWOT:
如表1的小額信貸公司的SWOT分析:
2.4P:4P即產品、價格、促銷、渠道;
3.PEST
如吉利收購沃爾沃例子
4.SMART
5.5W2H
6.User behavior
另外新書出售中ing
具體購買鏈接:【任何問題諮詢 微信784414374】
數據分析俠 《人人都會數據分析》20萬字書籍-淘寶網
購買成功拉進【數據分析聯盟微信群】
手機用戶可複製鏈接手機淘寶:
【數據分析俠 《人人都會數據分析》20萬字書籍】http://m.tb.cn/h.AJEkoq 點擊鏈接,再選擇瀏覽器打開;或複製這條信息¥fSnh09F0Vpy¥後打開 手淘
謝邀。對不起,晚回了。我對這詞語有興趣,但不知道答案,因為沒有題主所說的那本《誰說菜鳥不會數據分析》。最近從友人得到這本書,看了看,試著回答。
很多學生或初入職的人,在做數據分析的時候,往往太注重技術細節和工具,而忽略了問題的全面性認識。我們做數據分析多為了解決問題,做數據往往只是手段。如果我們不清楚分析的目的,或對業務缺乏認識,或沉醉於高級數學技巧,我們做的就脫離實際。做數據分析時,我們的思維引導分析的過程,而不是分析結果影響我們的思想。
所謂數據分析方法論,題主說得正好,是思想引導。這些方法論都幫助我們建立思路,在開始做繁複的計算前想好了全盤棋局。
題主有書已知道這些方法論有那幾個,但以下算是贈送給其他知友的東西吧。常用的數據分析方法論如下:- PEST分析法:用於對宏觀環境的分析,包括政治(political)、經濟(economic)、社會(social)和技術(technological)四方面。
- 5W2H分析法:何因(Why)、何事(What)、何人(Who)、何時(When)、何地(Where)、如何就(How)、何價(How much)。
- 邏輯樹分析法:把問題的所有子問題分層羅列。
- 4P營銷理論:分析公司的整體營運情況,包括產品(product)、價格(price)、渠道(place)、促銷(promotion)四大要素。
- 用戶行為理論:主要用於網站流量分析,如回訪者、新訪者、流失率等,在眾多指標中選擇一些適用的。
這個問題下已經有了很多很好的答案了。不過答案大多集中在商業數據分析領域,以及因為不夠簡潔統一而比較難以理解和實踐。這裡我提供一個以經濟學背景的更簡潔和更General的思路,也站在更統一的視角看統計/機器學習與計量的關係,希望可以和大家交流一下我對數據分析的理解。
----- 正文分割線 -----
無論是學術研究還是業界實踐,解決問題都是生產力的關鍵。而解決問題,首先要定義問題。當經驗不可靠,實驗做不了(或者成本太高)的時候,我們只能依賴歷史信息幫助我們做關於未來的決策,特別是在與人有關的社科和商科領域。方法我們大體可以分為兩大類,一大類是定性方法,一大類是定量方法。定性方法在社會學和心理學領域等領域仍然發揮著巨大的作用,不過不是本文的討論重點;另一大類是定量方法,隨著統計學方法和計算機技術的發展,定量方法變得越來越可靠,因此發展迅速。大家概念中的「數據分析」或者「數據科學」,通常指的就是定量地定義問題、並基於歷史觀測數據(而不是實驗數據)和定量方法解決問題,讓數據自己講故事而不是通過經驗或者通過實驗講故事。因此,所有有可靠的可定量的數據的問題都可以基於數據分析方法解決,而遠不止商業問題。那麼怎麼定量的定義問題和怎麼使用歷史觀測數據定量地解決問題呢?
首先討論定量地定義問題。問題的定義可以分為三步:
第一步,把問題目標定量地定義成因變數y。比如說,CPP最近在組織發放問卷的助研項目,那麼我們的問題就可以被定義為「助研團隊發放的總問卷數」。
第二步,把可能的因素定量地定義成自變數x。比如說,給助研更多的激勵可以刺激更多助研加入,從而提高總問捲髮放數量;給問卷做更多的培訓可以讓助研更有經驗,從而提高每個人平均發放的問卷數。
第三步,找出y和x的關係,即y=f(x)+e。這裡的f是一個映射關係,不一定一定要是一個含參數的線性或者非線性函數,e是誤差項。這裡的關係有兩大類,一大類是相關關係,關注E(y|x)或者E(y|observe(x)),可以用來做預測,統計學和機器學習比較多關注預測關係或者統計上的因果關係(即如何預測,而不是真正的因果關係);另一大類是因果關係,關注E(y|do(x)),可以用來做因果解釋,通常要求我們在前者的基礎上結合問題背景和學科背景的准實驗方法讓observe可以當成do來處理(比如經濟學中的自然實驗、IV、DID、斷點回歸等簡化模型方法),或者基於問題背景和學科背景的可以解釋x到y的邏輯以及do(x)如何影響y的方法(比如經濟學中的結構模型方法),這是計量經濟學關注的重點。我們希望得到的結論是,有(observe)哪些身體特徵(自變數x)的病人更可能得以及在多大程度上可能(相關關係)胃病(因變數y),或者吃了(do)什麼葯(自變數x)更可能以及多大程度上可能(因果關係)讓病人的病好(因變數y,是否病好可以是0、1變數)。
下面討論如何基於歷史觀測數據定量地解釋數據。
第一步,獲取數據。巧婦難為無米之炊,基於觀測數據解決問題,首先就要有觀測數據。這個問題可以簡單也可以複雜,解決這個問題的方法也越來越多。比如大家熟悉的網頁爬蟲,就是常見的一種收集海量互聯網公開數據的方法,網頁爬蟲技術的進步幫助很多問題提供了數據源。
第二步,清洗數據。原始數據通常是很混亂的,很難直接用作分析。比如說,從天貓或者京東獲取的商品名通常是極度混亂的,比如「徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調味品生抽日本日式刺身調料」(徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調味品生抽日本日式刺身調料-tmall.com天貓),這是一個醬油,但是如果直接看名字……我們經常需要通過各種自動化程序甚至大量的人工來處理掉這些亂七八糟的情況,通常這部分會佔一個數據分析項目80%以上的工作量。
第三步,特徵提取。傳統問題下提取特徵是比較容易的,比如說數一下某類商品的數量、把年齡按某個規則分為幾組,把字元串變數打標籤成離散變數等等。在大數據背景下,我們需要從海量的數據裡面挖出新的信息作為自變數x,比如說我們需要挖掘文本的特定詞語的詞頻特徵做這個文本的特徵,特徵提取本身就會成為一個巨大的麻煩。
第四步,描述統計。描述統計包括兩類,單變數特徵和變數之間的聯繫。比如我們可以去看某一個x或者y的均值、方差、極值、分布等特徵,或者去看某一個x和y的關係(比如散點圖),或者根據某一個x分組的y的分布,或者根據某一個y分組的x的特徵。業界常說的用戶畫像的一類工作就是基於多變數的描述統計來看根據某一個特徵標記的某一用戶群體的特徵。
第五步,建立模型。無論是預測類問題還是解釋性問題,通常情況下都可以從相關關係開始,如果需要理解因果關係,再結合相關問題背景和理論背景構建更進一步的模型。根據y是連續變數還是離散變數,可以把定量模型分為離散模型和連續模型兩大類,兩類模型在建立相關關係和因果關係的處理上有一定的不同,此處不再深入展開。當x是離散變數,特別是分類變數時,也要特別注意在解釋模型結果的時候是幾個不同類數據的區別,而不是一個增加x可以增加或者減少y的關係。
第六步,評估模型。無論是預測類問題還是解釋性問題,我們都希望模型本身是可靠的、經得起檢驗的。最可靠的檢驗方式自然是放在未來某個(數據分析師/數據科學家認為)不超過模型的解釋能力範圍的場景下檢驗預測結果和實際結果是不是一致。次可靠的方法是從現有數據中取出一部分來做測試,具體方法有很多。如何定義評估模型的目標呢?統計學和機器學習通常用loss function來作為模型的可靠性的指標,最常用的loss function是MSE,在線性回歸里是R^2;傳統的計量經濟學經常更關注E(y|x)是否有偏;其他的問題背景可能數據分析師或者數據科學家會自定義相對可靠的評估方法。
最後解釋一些關於數據分析常見的問題。
數據分析一定比傳統方法更好嗎?不一定,因為可靠的數據分析才更可能比傳統方法發現更多insight,而達到「可靠」這個指標通常非常困難,特別是從相關性到因果性這一步特別容易慘死。知乎上有很多打著「數據分析」的名頭的文章是有邏輯漏洞的,比如 @慧航 老師有很多寫的非常精準的批評(比如,慧航:如何評價「城市數據團」的文章《遠離你終將衰落的家鄉》?),大家可以去閱讀一下。在避免了邏輯錯誤導致的混淆因果、弄反影響方向(係數弄反符號)等不可原諒的錯誤的前提下,即使是結論比較局限的數據分析也是有意義的,甚至有時候反思清楚錯誤的結論以後也可以發現局限所在,而這些局限可以幫助我們更好地了解這個複雜問題的一角,很可能就是未來完整解決方案的一角。比如說,我們控制了n個條件以後,我們發現某個線性回歸的計量結果可以解釋x到y的因果,但是R^2隻有不到0.1(這種情況很常見……),從計量角度來說,這是一個有意義的結論;但是從統計學來說,這是一個沒有預測力的結論,還可能有很多複雜的因素(x_1,x_2, ..., x_10^10,...)影響y,y這個大問題可能還沒有被回答完,還需要進一步更深入的研究。
建模一定比不建模好嗎?不一定,要看問題是不是一定需要模型才能說清楚。建模比不建模複雜,當簡單的描述統計就可以看出相關關係甚至因果關係(比如可以假設其他條件相同,E(y|x=1)-E(y|x=0)&>0,treatment effect為正,正向因果關係成立)的時候,建模不一定能獲取更多信息,錯誤的建模甚至會得到錯誤信息或者無效信息,浪費成本。實習的時候有次主管讓我做個分組統計,我想看一下模型是不是更好,就沒做描述之前直接做了一個logit,結果得到了很奇怪的結果,後來畫了散點圖才發現y=1和0的數據密密麻麻地分布在每一個x上(數據量很大),所以導致用不合適的模型反而不如不做模型來的直觀。當數據量很大的時候,直接從不同的角度描述就有可能得到很多很多有用的信息,很多時候已經可以滿足需求,再進一步研究可能對關注的重點沒有什麼幫助,建模可能成為很低效的問題。
因果關係一定比相關關係好嗎?不一定,要看問題的關注點。當我們關注「可能是什麼」,我們需要做更多預測,這個時候我們應該關注相關關係;當我們關注「為什麼是這樣」,我們需要做更多解釋,這個時候我們應該關注因果關係。比如說我的畢業論文研究電商平台的搜索演算法如何影響消費者和生產者決策,我建立了基於consideration set approach的(動態)結構模型,把消費者的選擇分為兩步:第一步,平台推薦演算法推薦商品給消費者,比如第一頁的商品通常更容易被看到;第二步,消費者從看到的商品裡面做購買選擇。第二步的模型是一個基於random utility framework的離散選擇模型,是一個標準的用來解釋因果關係的結構模型;第一步我嘗試了將近一年,用參考文獻裡面用的可以解釋機理的概率模型,已經徹底宣告失敗,這裡我關心的是演算法最可能推薦什麼,而不需要非常清楚地推薦的過程(因為演算法本身極其複雜,簡單的模型不可能準確解釋機理,概率模型有利於人理解機理;文章關注的也不是演算法的機理,而是演算法的影響),更好的辦法是通過訓練數據找出最好的預測模型。
這是一篇方法論。是的,沒有實際案例。不過只有5%的人看得懂
當你完成一份數據分析報告時,不知領導是否有問過你,「你的分析方法論是什麼?」。如果分析方法論不正確或不合理,那分析結果參考價值幾何呢?
1、困惑
相信很多人在做數據分析時,會經常遇到這幾個問題:不知從哪方面入手開展分析;分析的內容和指標常常被質疑是否合理、完整,自己也說不出個所以然來。當然我也一樣,處在數據分析的學習階段,對這些問題常常會感到困惑。
這就是為什麼強調數據分析方法論的原因。當方法論結合了實際業務,才能盡量確保數據分析維度的完整性和結果的有效性。
數據分析的三大作用,主要是:現狀分析、原因分析和預測分析。什麼時候開展什麼樣的數據分析,需要根據我們的需求和目的來確定。
數據分析的一般步驟:
2、解惑
數據分析的目的越明確,分析越有價值。
明確目的後,需要梳理思路,搭建分析框架,把分析目的分解成若干個不同的分析要點,然後針對每個分析要點確定分析方法和具體分析指標;最後,確保分析框架的體系化(體系化,即先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯繫),使分析結果具有說服力。
那麼,如何保證分析框架的體系化呢?
以營銷、管理等理論為指導,結合實際業務情況,搭建分析框架,這樣才能盡量確保數據分析維度的完整性,結果的有效性及正確性。
營銷方面的理論模型有:4P、用戶使用行為、STP理論、SWOT等。
管理方面的理論模型有:PEST、5W2H、時間管理、生命周期、邏輯樹、金字塔、SMART原則等。
這裡主要說明:PEST、5W2H、邏輯樹、4P、用戶使用行為這五個比較經典實用的理論,了解如何在搭建數據分析框架時應用它們作指導。
1)PEST:主要用於行業分析。
PEST,即政治(Political)、經濟(Economic)、社會(Social)和技術(Technological)
P:構成政治環境的關鍵指標有,政治體制、經濟體制、財政政策、稅收政策、產業政策、投資政策、國防開支水平政府補貼水平、民眾對政治的參與度等。
E:構成經濟環境的關鍵指標有,GDP及增長率、進出口總額及增長率、利率、匯率、通貨膨脹率、消費價格指數、居民可支配收入、失業率、勞動生產率等。
S:構成社會文化環境的關鍵指標有:人口規模、性別比例、年齡結構、出生率、死亡率、種族結構、婦女生育率、生活方式、購買習慣、教育狀況、城市特點、宗教信仰狀況等因素。
T:構成技術環境的關鍵指標有:新技術的發明和進展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商品化速度、國家重點支持項目、國家投入的研發費用、專利個數、專利保護情況等因素。
eg:僅作舉例,不代表只考慮這幾點因素
2)5W2H:應用相對廣泛,可用於用戶行為分析、業務問題專題分析、營銷活動等。
5W2H,即何因(Why)、何事(What)、何人(Who)、何時(When)、何地(Where)、如何做(How)、何價(How much)
該方法廣泛應用於企業營銷、管理活動,對於決策和執行性的活動措施非常有幫助,也有助於彌補考慮問題的疏漏。
eg:僅作舉例,不代表只考慮這幾點因素
3)邏輯樹:可用於業務問題專題分析。
邏輯樹,又稱問題樹、演繹樹或分解樹等。
它是將問題的所有子問題分層羅列,從最高層開始,並逐步向下擴展。
邏輯樹的作用主要是幫你理清自己的思路,避免進行重複和無關的思考。邏輯樹能保證解決問題的過程的完整性,能將工作細分為便於操作的任務,確定各部分的優先順序,明確地把責任落實到個人。
邏輯樹的使用必須遵循以下三個原則。
● 要素化:把相同問題總結歸納成要素。
● 框架化:將各個要素組織成框架,遵守不重不漏的原則。
● 關聯化:框架內的各要素保持必要的相互關係,簡單而不孤立。
缺點:涉及的相關問題可能有遺漏,雖然可以用頭腦風暴把涉及的問題總結歸納出來,但還是難以避免存在考慮不周全的地方。所以在使用邏輯樹的時候,盡量把涉及的問題或要素考慮周全。
eg:僅作舉例,不代表只考慮這幾點因素
4)4P:主要用於公司整體經營情況分析。
4P,即產品(Product)、價格(Price)、渠道(Place)、促銷(Promotion)
eg:僅作舉例,不代表只考慮這幾點因素
5)用戶使用行為:用途較為單一,就是用於用戶行為的研究分析。
用戶使用行為,即用戶為獲取、使用物品或服務所採取的各種行動。
用戶對產品首先需要有一個認知、熟悉的過程,然後試用,再決定是否繼續消費使用,最後成為忠誠用戶。
用戶使用行為的完整過程:
可以利用用戶使用行為理論,梳理產品分析的各關鍵指標之間的邏輯關係,構建符合公司實際業務的產品分析指標體系。
eg:僅作舉例,不代表只考慮這幾點因素
這些方法論並非只能單獨使用,可以根據具體情況選擇合適的方法論嵌套使用。
最後呢
明確數據分析方法論的主要作用:
1)理順分析思路,確保數據分析結構體系化。
2)把問題分解成相關聯的部分,並顯示它們之間的關係。
3)為後續數據分析的開展指引方向。
4)確保分析結果的有效性及正確性。
明確數據分析方法論和數據分析法的區別:
數據分析方法論主要是從宏觀角度指導如何進行數據分析,它就像是一個數據分析的前期規劃,指導著後期數據分析工作的開展。
而數據分析法則指具體的分析方法,比如對比分析、交叉分析、相關分析、回歸分等。數據分析法主要從微觀角度指導如何進行數據分析。
我來說說: PC端數據分析指標方法論 。
數據分析通用指標有三類。
第一類指標與流量數量相關。用戶數、訪問次數、交互數對流量的影響最大,它們是存在層級關係的,同一個人會貢獻多次來訪,同一個來訪也會貢獻多次交互點擊。
第二類指標與流量質量相關。一參與深度,也就是平均訪問頁數,即用戶每次進入網站訪問了多少不同的內容。二跳出率,用戶點擊一個廣告進入網站後什麼都沒有做的情況就叫做跳出,跳出率考量的是用戶是否對你感興趣,用跳出率做流量評估也比較直接。三新用戶佔比,就是說你網站新老用戶各佔多少。這是引流質量的問題,不單取決於你的引流戰略是希望更多的新用戶加入還是維繫老用戶。
第三類指標與價值相關。一是轉化率,即用戶進入網站後產生交易的幾率有多大。二是客單價,它衡量流量價值、衡量用戶對你有多大的信任。三是每次來訪價值,每一個訪客的每一次進站對你來說意味著多少轉化,這個可以用歷史數據進行推算;反過來,你可以根據這個數據規劃你在營銷上應該投入多高成本。
除了上面三類通用指標,還有虛榮指標和行動指標。前者在分析過程中很有用,但它不夠去驗證生意或驅動運營行動,後者沒有固定的套路。如果本著指標精鍊的原則,考核中肯定要看行動指標。
與移動端相比,PC端具備更完善的研究環境。移動端收集的數據量級、維度、角度都會少一些。作為研究者或理論的關注者,我還是建議把PC端當做一個研究的環境看待。
那麼PC端數據分析到底怎麼做?
第一步:制定規劃。
- 制定商業目標。對很多企業來說,真正進入數據分析前,商業目標並不是十分明確。在你的商業目標不清晰的情況下,數據收集是沒有大方向的,甚至你的企業運營因為商業目標不準確而形成比較大的風險。所以建議根據企業規模、所屬行業、發展階段,提煉出1-3個清晰的商業目標。
- 規劃KPI。商業目標本身不是一個數據,它不是量化的,而是屬於比較概括性的東西。所以它和數據之間需要有「橋樑」的連接,KPI就是這個橋樑。KPI雖然也是數據,但它是非常精鍊的,每個部門甚至每個人的KPI可能都不太一樣,所以KPI也是需要做一些完整的規劃。
- 規劃數據指標,即應該採集什麼樣的數據。企業需要的數據不是你能採集到什麼決定的,而是由你需要什麼決定的。商業目標對應KPI,來檢測你的數據指標,這是我們常用的方法論,能夠幫助企業更清楚地把數據體系搭建起來。
第二步:數據標籤化採集
首先,數據標籤化。數據最常見的問題是數據污染、數據不清晰甚至混亂。造成這些問題的罪魁禍首,可能是數據收集前就沒有做到非常清晰的標籤化,但用戶是需要標籤的。只有把前期準備工作做到位,後期才不會陷入數據混合無法拆解的境地。
第二,選採集工具。不同工具的需求不同,我認為比較常見考量工具有五個角度。
- 一是可用性。你的工具是否能滿足當前提出的數據需求,或者說能不能滿足99%以上的需求。重點在於它是否能支持你的數據採集、實時查看數據、訂單數據的完整收集。
- 二是易用性。一個非常好的工具,但它解讀起來很困難,工作流程非常繁瑣,這種情況會降低我們的效率。如果工具不易用就會造成用戶對數據的抵觸甚至恐懼情緒。
- 三是智能性。現在很多工具都加入了人工智慧的因素,比如谷歌分析中加入了機器演算法告訴你哪些用戶的質量高哪些用戶的質量低。智能性是為網站分析錦上添花的,並不是非常基礎的東西,它只是決定了人使用電腦工具效率的高低,並不會關係到工具能不能用。
- 四是擴展性。第一項是數據整合,第二項是數據應用的方向。谷歌分析有個其他工具望塵莫及的優勢,它很好整合了谷歌所有的營銷工具,並且能把數據輕鬆地推到其他營銷平台上,對這些用戶進行營銷。
- 五是經濟性。你要綜合收益去考慮投入是否合理,是否在你的接受範圍之內。
現在行業有個誤區,在選擇工具的時候會恰好把這個優先順序排序反過來,首先考慮經濟性。一個工具收費一百萬,就會覺得很貴不想用,它肯定是物有所值的。
第三步:數據清洗
在做分析之前,一定要對數據進行一次清洗,我非常建議把這兩塊數據最大程度上剝離出來:無效和無用的數據。無效的數據就是假的數據,無用的數據是真實的數據,但是對分析沒有作用,最典型的是測試數據。
數據清洗不能做到百分之百可信,最大也是最常見的問題是數據偏差的問題,數據偏差的修正也是數據清洗的一個步驟。很多客戶會非常在意數據偏差,因為他們有後台數據,尤其是銷售數據和訂單數據,當他們在機器里看到的數據和自己的後台數據有10%到20%的偏差,有些用戶就會走極端,覺得裡面差距那麼大,就不相信不參考這個數據了。
所以作為網站分析師,需要有能力判定數據偏差對分析結論到底會不會造成重大影響,這是數據分析師的基本素質。在分析過程中,我比較建議側重過程的分析,而不是特別在意分析的結果,因為如果數據偏差是穩定恆定的,那麼數據分析的結果就是合理的,跟真實情況不會有太大的差異。
第四步:真正進入數據分析
準備工作做完之後,才開始真正的數據分析工作。在網站分析方面,我們分析的數據通常會分為四個模塊。
- 第一個模塊叫做用戶屬性分析。分析你的用戶是誰、在什麼地方、使用什麼樣的設備、平時有什麼樣的興趣等等,相當於做人物畫像。
- 第二個模塊叫做流量分析。包括流量質量的評估,流量的效果,流量之間的組合效率。
- 第三個模塊叫做內容分析。針對你網站呈現的內容順序做一系列分析。
- 第四個模塊叫產品分析,或者目標分析。我認為最後一個模塊不應該作為一個單獨的模塊,而應該融入前面的三個模塊裡面,它應該具有驗證的作用。
第五步:改善行動
我認為在做改善之前應該再做一步測試,很多分析師會忽略這個環節。比如,得到了一個數據分析結論卻沒有人採納。對於一些重大的決策,決策者會用一些比較高的代價去做決策,這個決策也會帶來比較大的風險。你可以採用一些測試的方法,比如AB測試,到底哪個營銷策略更有效測試一下就會得出結果,這個測試的代價確實非常小,而且出來的結果立竿見影。真正的數據改善行動唯一要多做的一件事情是,利用數據做追蹤,來驗證改善的最後成果。
這五步會形成一個完整的循環,隨著企業的運營和深入,會有一些新的需求產生,也會有一些新的問題的排查。
歡迎關注我們,一起創業、一起營銷,一起賺錢~
知乎賬號:鏢獅
微信公眾號:鏢獅營銷課堂(woyaobiaoshi)
如果你有創業項目想通過在線渠道(SEO/SEM/微信營銷/APP推廣等)獲得客戶,
歡迎上官網溜溜:www.51biaoshi.com,即時你手上只有500元,我們都有適合你的營銷方式。
我們在知乎上的其他優秀回答:
你有哪些創業初衷和創業原因?
條件不充足(缺人缺錢缺資源),初創品牌怎麼辦?
有哪些腦洞特別大或特別好玩的廣告?
新開餐飲店如何市場定位,都應該注意些什麼?
-我們愛護原創-
本文內容經作者授權為 鏢獅網 獨家稿件,未經授權轉載將追究法律責任,如有問題請第一時間聯繫我們。合作請關注公眾號留言。
呈現在我們眼前所有精彩的商業案例分析,如果溯其論點的來源,都是脫離不了底層的數據支撐的。所以,懂點數據分析很有必要。自清今天就給大家分享一下自己日常是如何做數據分析的。Ps:講的不是數據分析師方向,而是日常的基礎數據分析思路
通常自清在做數據分析時,會把數據分析拆分為5個步驟來進行(收集、清洗、對比、細分、溯源)。下面一一展開來講。
數據收集
當我們在做數據分析時,第一步要解決的問題肯定就是數據源的問題。自清通常把數據分為二大類。
第一類是直接能獲取的數據,通常都是內部數據。無非就是從網站後台或者是自己家的資料庫裡面導。
第二類就是外部數據,需要經過加工整理後得到的數據。典型的數據來源有:
百度指數:百度指數 (分析市場容量)
阿里指數:阿里指數 - 社會化大數據分析平台(分析銷量、份額)
梅花網:媒體廣告監測,競爭品牌廣告分析 (分析廣告投放)
CNZZ、微博指數等等。。。。當然還有很多很多有價值的數據源(根據行業、需要找到最合適自己的數據源),自清上面列舉的三個典型的數據源只為舉例子之用。在這裡要著重提一點,第三方數據來源往往需要考慮數據源真實度。
數據清洗
清洗數據(篩選、清除、補充、糾正)的目的無非是從大量的、雜亂無章、難以理解的數據中抽取並推導出對解決問題有價值、有意義的數據。清洗後、保存下來真正有價值、有條理的數據,為後面做數據分析減少分析障礙。這裡不詳述
數據對比
對比,是數據分析的切入點。因為如果沒參照物,數據就沒有一個定量的評估標準。通常情況下我們從二個點去切入進行數據對比分析:1.橫向對比 2.縱向對比
橫向對比,與行業平均數據,與競爭對手的數據進行比對。舉個粟子,比如你家的APP用戶留存率是60%,而行業平均留存是70%或競爭對手的用戶留存率是70%,那就說明你家的產品在留存率方面有待加強!
縱向對比,與自家產品的歷史數據進行對比,圍繞著時間軸來對比。還是用用戶留存率來進行舉粟子吧,比如,APP改版前30天,新用戶留存率是70%的,而新版APP發布後,新用戶留存率降了10%或者升了5%,這就產生了問題,到底是那些因素導致數據產生了異常呢?
要知道數據比對是發現問題的第一步,發現了問題才需要我去找出問題,並解決它。如果沒有參考的對象,單獨的數據放在那裡,是沒意義的。
數據細分
數據對比發現了異常,我們當然想知道是什麼原因導致的。這裡就要用到數據細分了,數據細分通常情況下先分緯度,再分粒度。
何謂為緯度?按時間分類就是時間緯度,按地區分類就是地域緯度,按來路分類就是來源緯度,按受訪頁面分類就是受訪緯度。今天APP訪問量漲了5%,咋回事不知道,你細分一看,大部分網頁都沒漲,某個頻道某個活動頁漲了300%,這就清楚了,這就是細分最簡單的範例,其實很多領域都通用。
粒度是什麼?你時間緯度,是按照天,還是按照小時?這就是粒度差異,你來路緯度,是來路的網站,還是來路的url,這就是粒度的差異;緯度結合粒度進行細分,就可以將對比的差異值逐級鎖定問題區域,就可以更容易地尋找出發生問題的原因了。
數據溯源
通常情況下,通過數據細分就能分析出大多數問題的原因並推導出結論了。但也有特殊的情況,即使具體到粒度了也得不出有說服力的結論。
這時候我們再進一步,通過數據溯源就能找出問題的原因。依據鎖定的這個緯度和粒度作為搜索條件,查詢所涉及的源日誌,源記錄,然後基於此分析和反思用戶的行為,往往會有驚人的發現。又或者結合用戶使用場景去思考,比如:國內的社交產品,在上下班的時間段會特別活躍,而該產品經理對比美國地區卻發現在美國地區用戶的上班活躍數據恰恰相反,特別低,到底是什麼原因呢。看數據怎麼也看不出來,怎麼辦呢?若果該產品經理結合用戶上班時的使用場景去思考就能一眼看出問題,因為國內的上班一族通常上是通過公交、地鐵等公共交通工具去上班的,所以他們有大把的時間在玩社交,刷朋友圈。而美國地區的上班一族,大多數都是自駕車去上班(車輪上的國家),他們上班時間都在專心地開車,根本沒有時間去玩手機,玩社交產品。
其實,自清在以往工作的時候就基於這一邏輯發現過一些產品的一些缺陷,而且你不斷通過這個方式分析數據,對用戶行為的理解也會逐步加深。
最後,自清作個簡單的總結:馬雲粑粑說阿里管理有三板斧:揪頭髮、照鏡子、聞味道。而同樣,在數據分析這裡,則是五板斧:收集、清洗、對比、細分、溯源。這是數據分析里最核心的最實用的「一口箱子」。
針對這個問題,我從一個十年大數據人的日常工作實踐、可落地可實施的角度總結歸納分享給大家。
第一部分:數據分析框架。
為了分析問題的聚焦,我們具體拿互聯網電商來舉例子說明,至於其他的比如互聯網金融、教育、社交等等,可以依此借鑒。
(1)從互聯網實體角度分析。我們可以從以下7個角度構建互聯網數據分析體系。
買家:基本特徵分析、交易行為分析、流量行為分析、售後滿意分析等
賣家:基本特徵分析、經營效果分析、流量曝光分析、售後滿意分析、產品分析等
產品:基本特徵分析、交易行為分析、流量曝光分析、售後滿意分析等
行業:基本特徵分析、經營分析、曝光分析、售後分析、產品分析、買賣家分析等
設備:移動端分析、PC端分析、訪問對象分析、cookie分析、session分析等
日誌:訪問對象URL分析、cookie分析、session分析等
事件:登錄、流量、點擊、曝光、下單、交易、支付、物流、評價、糾紛、仲裁等分析
這個實體分析方法,可以稱得上是萬能的數據分析框架,適用於所有的互聯網企業。我曾工作過的阿里巴巴、騰訊、隨手記等企業,我個人都是按照這個套路去構建互聯網的分析體系。
(2)從用戶的關鍵路徑進行分析。
關鍵路徑分析方法是一個行之有效的常用分析方法,也是做數據化運營的常用工具。關鍵路徑分析讓我們聚焦於核心環節,排除雜音,定位出業務的核心問題,快速的加以解決。在應用關鍵路徑分析時候,我們往往先把可能的結果、以及最關心的結果梳理出來,以結果為導向追溯行為的根本,當然,也可以從行為的初始出發,梳理出所有可能的行為路徑,找出關鍵行為,導向我們最終設計好的結果中去。下面我們舉例子說明下:
在電商網站中,我們假設我們運營目標是讓用戶購買網站上的商品(在這裡,我要插說幾句,我們的目標有時候不只是購買,在精細化運營中,往往會根據用戶的生命周期,確定關鍵路徑的目標,比如對於一個進入期的新買家,我們通常會發一些購物攻略加以指導,針對流失期的買家,關鍵路徑的結果我們可能導向申領我們的優惠劵之類,等等。關於這一部分數據化精細化運營方面,在大數據應用系列的數據化運營小講,我們會詳細加以分享,敬請關注)。剛才談到,我們假設我們運營目標是讓用戶購買網站上的商品,那麼我們可以把關鍵路徑,也即,用戶的購買路徑梳理出來:
a.用戶登錄/註冊》搜索關鍵詞》查看商品詳情》加入購物車》點擊下單》確認付款》確認收貨
b.用戶搜索關鍵詞》類目和店鋪》賣家交流》點擊下單》確認付款》確認收貨
通過這種關鍵路徑,我們還常常進行漏斗分析,從而進行流量的轉化分析,找出影響到達最終結果的關鍵環節。
(3)從KPI拆解角度分析。
KPI拆解分析方法也是比較常見的互聯網分析方法。核心思想是先定一個總體目標,比如今年營收12億,那麼可以把這個指標拆解到各個業務線去,業務線再進行拆分,比如分解為12個月,每個月需要達成營收額,接著,就是達成該營收額,根據流量的轉化情況,估算出需要多少的流量,目前平台已有多少流量,需要外拓引流多少流量才能達成目標,這就可以層層的拆解指標,最終或落地到產品團隊或部分到運營團隊去承擔KPI任務。
第二部分:數據分析常用分析方法
常用的數據分析方法有:PEST分析方法、5W2H分析法、4P營銷分析法、邏輯樹分析法、指標拆分法、對比分析法、漏斗分析法、用戶行為分析法、用戶生命周期分析法、金字塔分析法等等,下面我們逐個的簡單說明下
(1)PEST分析方法
這個方法主要應用於行業研究中。從政治(Political)、經濟(Economic)、社會(Social)、技術(Technical),簡稱PEST角度對一個行業進行比較分析。下面我們舉一個例子:我們小講開始就談到數據分析行業前景,那麼我們在此利用PEST分析下大數據行業前景如何?
(2)5W2H分析法
這個方法主要應用於用戶行為研究和專項問題分析,從時間、地點、人物、事情、原因、方式、價格等7個方面對一個問題進行刻畫研究。請看如下案例二:
(3)4P營銷理論
這個方法主要應用於公司整體經營狀況分析,是比較經典的營銷分析方法。該方法從產品、價格、渠道、促銷等四方面對企業經營狀況進行全面分析。請看如下案例三:
(4)邏輯樹分析法
這個方法也稱作問題樹分析方法,主要應用於針對業務存在的問題進行專題分析,是數據分析方法中非常常見的一種分析方法。請看案例四:
(5)指標拆分法
這個方法也是經常適用的方法,特別是為了達成業務目標,我們往往都會先定一個總的目標,然後再初步的拆解指標。下面我們講講案例五:
(6)對比分析法
對比分析法是非常常用的基礎分析方法,雖然方法特別簡單,但幾乎所有的分析報告中,都會採取對比分析方法。比如去年同期相比、上個月環比、目標和實際達成相比、各個部門和業務線相比、行業內競品比較、營銷效果對比,等等。這裡需要注意的是我們不管是橫向比較還是縱向比較,比較的雙方一定要有可比性,並且在同一個維度、粒度上去比較,要不是毫無意義的。
(7)漏斗分析法
漏斗分析方法經常應用於產品的轉化分析。舉個電商的例子:用戶登錄網站1千萬,瀏覽商品詳情頁200萬,加入購物車80萬,下單支付50萬,支付成功40萬。每一步都是轉化率的問題。針對關鍵路徑進行漏斗分析能夠幫助我們快速的定位到問題所在。從而能夠及時做出決策。
(8)用戶行為理論
也稱用戶的活動周期理論。該分析方法,往往用於對用戶的基礎研究中。用戶行為過程分為認知、熟悉、試用、使用和忠誠5個步驟。
(9)用戶生命周期理論
該分析方法,也往往用於用戶基礎研究中,在互聯網領域應用廣泛。用戶的生命周期分為進入期、成長期、成熟期、衰退期、流失期。每一個階段用戶的行為特徵是不一樣的,其價值是不一樣的,需要精細化的運營。不可急功近利。
(10)金字塔理論
金字塔這個分析方法正好和漏斗分析方法相反,它是基數大,上層小。最初是英國歷史學家、政治學家諾斯科特·帕金森(C.Northcote Parkinson)在《帕金森定律》(Parkinson"s Law)一書中,論述在行政管理中,行政機構會像金字塔一樣不斷增多,行政人員不斷膨脹,每個人都很忙,但組織效率越來越低下。這條定律又被稱為「金字塔上升」現象。後來,人們將這一理論延伸應用,不再只限於本意。大凡是基數大,上層小,符合金字塔特徵的研究分析都可以套用到該理論中。所以,金字塔這幅圖也常常見於各分析報告中。比如,分析用戶群體特徵(馬斯洛需求層次模型、用戶價值模型等等)
綜上所述種種數據分析方法,如果在一份分析報告中,能夠把這些分析方法都靈活反覆體現和應用,那麼,這個分析報告一定會比較豐滿的。
第三部分:數據分析的流程。
數據分析的流程主要分為六步驟,遵循這種方法,一個完整的數據分析項目就出來了。
(1)明確分析目的:我們接到一個分析任務,首先要弄清楚我們分析的對象是什麼,要達成怎樣的目的,不能陷於為了分析而分析。然後,要熟悉行業和業務,透徹的理解分析的目的,構建起分析的角度和體系。
(2)進行數據準備:我們有哪些數據,通過什麼途徑可以獲取到需要的數據,往往涉及到內部數據和外部數據,內部數據常常是我們的業務庫或者基礎數據團隊建立起來的數據倉庫系統,外部數據方面,現在各行各業都有大數據交易源,還有大量的公開市場數據。
(3)進行數據加工處理:主要通過數據清洗工作,對重複值進行去重處理、對異常值錯誤值進行修正或剔除、對缺失值進行填充修正或刪除。如果軟體環境為支持大數據量情況下,還需要對數據進行抽樣處理。經過這些預處理後,最重要的就是進行數據的計算統計、合併轉換,讓數據符合目標分析過程。
(4)進行數據分析挖掘:絕大部分的分析目標達成都可以剛才介紹的分析方法外加常見統計分析等達到。主要的分析:整體和組成分析、走勢趨勢分析、均值方差分析、排序TOP分析、同比環比縱橫比較分析、頻度頻率分析、相關關係分析、數量和比例的雙坐標分析、邏輯結構分析、金字塔分析、漏斗圖分析、矩陣圖分析、指標拆解分析、PEST分析、5W2H分析法、4P營銷分析等等。還有一部分分析需要到更高級的數據分析方法才能得到結論,這一部分在第3章會詳細介紹。
(5)進行數據結果圖表展現:數據分析的目的就是要解決問題的,往往數據分析師不是需求的發起人,那麼這就需要數據分析師把分析的數據和結論展現給需求方。最佳的方式就是通過圖表,有理有據形象的重點突出且專業的表達出來。根據第(4)步驟的分析,我們可以選取恰當的圖標。比如常用的有:折線圖、柱形圖、條形圖、餅圖、冒泡圖、散點圖、矩陣圖、雷達圖、雙坐標圖、瀑布圖、帕累托圖、金字塔圖、漏斗圖等等。
(6)寫出分析報告:數據分析最終的結論全部體現在分析報告中,一個分析師水平如何,只要看他寫過的一份分析報告就可以完全清楚了。綜合靈活應用這麼多的分析方法和各種各樣的展示圖表,分析報告一定會顯得非常豐滿。下面一個問題我們再詳細和大家討論數據分析報告的相關事情。
以上就是我在日常工作當中的實踐總結,比較少理論性的東西,更多的是可落地的非常具體的經驗總結。本文是節選於小講「數據分析師-從零入門到精通」的 「第二章 數據分析師的基本能力素質模型」的第2小節「2.數據分析方法論,流程和框架?(基礎篇)」,經過整理後的文章。
結尾附上完整的live( 「數據分析師-從零入門到精通」)分享章節,整個分享的整體思路和框架如下:
在第一部分,談談數據分析的行業前景、數據分析的價值所在,以及數據分析師的日常崗位內容,目的其實就是傳達一個信息給大家,數據分析這個職業前景非常的好,個人職業發展通道暢通,大量的就業崗位,工作內容想多淺就有多淺,想多深就有多深,正好適合於我們新入行者,從淺入手找到工作,在工作中進行深挖,逐步提升自己的數據分析技能。 在第二部分,我跟大家分享了數據分析師需要掌握哪些傍身技能,有技術上的,更有業務上的要求。目的就是讓大家清楚,分析師要學習什麼,要培養什麼,行業中有哪些分析套路。幫助大家快速學習數據分析基本技能,培養數據分析思維,掌握數據分析的方法論和框架。 在第三部分,我跟大家分享了厲害的數據分析師的職業門檻在哪裡,希望大家在日常的學習工作中,不斷學習和追求,努力把自己提升到一個高度,建立起自己的職業壁壘和護城河。同時,我試圖讓大家了解到,真正厲害的數據分析師,一定是一個技術專家,更是一個業務專家,還同時也是一個戰略家、謀略家。他是一個公司的神經中樞--大腦,是老闆身邊的參謀、智囊團。 在第四部分,主要跟大家分享數據分析師的個人成長、個人的職業規劃,以及在選擇公司和行業時候我們應該最關心哪些,而不僅僅是看薪資、看大機構,另外,也分享了一些應聘面試的技巧,讓大家能夠在招聘面試中,應付自如,戰無不勝。同時,找到讓自己薪資增長和職位晉陞最快的方法途徑,更重要的是讓大家明白自己未來會成為怎樣一個人,提前做好自己的職業生涯規劃。第一章 數據分析行業概況
1.什麼是數據分析,其行業前景如何?轉行做數據分析師值得嗎?
2.數據分析崗位日常工作內容有哪些?為啥數據分析最適合女生、新入行者、初學者?
3.數據分析的價值在哪裡?
第二章 數據分析師的基本能力素質模型
1.數據分析師需要具備哪些能力和基本素質?
2.數據分析方法論,流程和框架?(基礎篇)
3.如何寫出一份優秀的分析報告?如何解讀分析報告中的數據?
4.案例應用:如何構建互聯網數據分析體系?
第三章 數據分析師的進階之道:走向巔峰
1.牛X的分析師和普通的分析師差別在哪裡?如何讓自己成為一個得到老闆賞識的牛X的分析師?
2.數據分析方法論,流程和框架?(高階篇)
3.牛X的分析師需要精通哪些模型和演算法?精通掌握哪些常用領域?
4.牛X的分析師除了掌握技術和業務外,還需要具備哪些嗅覺?
5.成為大數據科學家?
第四章 數據分析師的職業生涯規劃
1.數據分析師的職業發展通道是怎樣的,如何做好自己的職業生涯規劃?
2.如何有節奏的實現薪資的培增?
3.選擇一個好的公司和行業,成為時代的弄潮兒?
4.做好簡歷,成為一個Offer收割機?
結語:贈送自學指南
在校生、初學者如何自學數據分析?
歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 和 「數據分析師-從零入門到精通」。
書中自有黃金屋:
- 精通Web Analytics 2.0——用戶中心科學與在線統計藝術 作者 Avinash Kaushik
- Sybex – Advanced Web Metrics with Google Analytics. Mar 2008。
- Google Analytics by Justin Cutroni (O"Reilly shortcuts)。
- Wiley-Web Analytics For Dummies (2007)
- Sybex – Landing Page Optimization – The Definitive Guide to Testing and Tuning for Conversions – Jan 2008
- Don』t make me think,雖然跟網站分析不直接相關,但值得讀。
反正現在我跟數據行業沒有利益衝突了,所以出來放幾個地圖炮。貴乎真的藥丸,每天都是一些做企業數據服務的所謂創業者在裡面像跳樑小丑一樣上躥下跳,王婆賣瓜真的大丈夫么?說句不好聽的,拿了風險資本的錢出來賣,本質上就是掮客和官僚,不是搞錢就是搞人,居然還有時間出來扯淡裝內行。我搞不懂一群官僚為啥假裝是科學家,先不說在學術界有什麼貢獻,一年能讀幾篇 paper?
現代的數據分析有毛線的方法論,基本上都是土法鍊鋼,連 orthodox statistics 都不如。學術界號稱是方法論且登堂入室的只有兩條道路。一條是社會科學一幫民科搞出來的 orthodox statistics,裡面一大堆莫名奇妙的狗屁工具,主要是一些心理學家和經濟學家在用。另一條路是應用數學家搞的隨機過程,從測度開始到隨機分析為止,這是所有的應用物理學家和搞量化交易的人用的屠龍寶劍。第二條道路數學上無懈可擊當然比第一條這種獨木橋強多了,然而這幫人成就太多就飄飄然走火入魔了。比較極端的原教旨主義者把一切物理現象都當作隨機過程,張口閉口都是隨機性來源,所以多少有點曲高和寡。
作為神棍 Prigogine 的徒子徒孫,我覺得數據分析唯一有效的方法論都來源於現代物理學。對於確定性問題,自由度遠小於數據的問題,用經典力學的方法就能完美解決,無非就是線性空間裡面的本徵值問題,等價於矩陣求逆。對於不確定問題,自由度和數據規模都可控,用統計力學的方法就能逼近最優解,用 MCMC 一類的方法可以暴力求解,現在還有 DNN 一類的工具可用。對於真正困難的問題,自由度無窮,數據規模極大,這時候所有的傳統方法都失效了,唯一能用的計算工具就是量子場論。當然,現代主流的物理學是遠遠不夠的,最正統的還原論處理不了非平衡態的系統。這時候 Prigogine 的非平衡態熱力學至少還能應付一下,但是真正完美的方法論還不存在。
當然,知乎上這些做商業硬廣的人是不關心這些的,就算忽悠不到客戶能騙點贊也不錯。當然真正的原因很簡單,他們的商業模式決定了他們和客戶存在天然的利益衝突,要是客戶真的懂數據分析的方法論和重要性,還能用第三方的?呵呵。
這事不能細說,有興趣的可以看看這個:https://www.zhihu.com/question/23896161/answer/56551042
簡單來說數據分析方法似乎主要是四種,趨勢,結構,對比,關聯。
什麼是數據分析?
首先我給大家講一個段子:有一個哥們,有一次聚會說自己買了很多條蘋果數據充電線,家裡每個房間里插一條……走到哪裡就插到哪裡?
在場的姑娘就當作是段子笑笑就過去了……只有一個細心的姑娘問了他買了多少條?
他說:「一共買了48條」
現在她和他在上海內環里總共48間房間里和數套豪宅里愉快的生活著……下個月結婚……要不看看初級spss分析的書吧,有興趣我再上書名吧,這本書是我認為上大學學數據分析較為有用的書,通俗易懂,基本方法都較為齊全~~
提起80/20法則和四象限法則相信大家應該都比較熟悉,因為這兩種分析方法可以應用在我們現實工作的中的很多行業,此文我們簡單介紹這兩種分析方法在服裝行業中的應用。
80/20法則
80/20法則:又稱為二八定律、帕累托法則;1897年,義大利經濟學者帕累托偶然注意到19世紀英國人的財富和收益模式。帕累托從大量具體的事實中發現:社會上20%的人佔有80%的社會財富,即:財富在人口中的分配是不平衡的。這種不平衡的分配在社會生活中表現在各個方面:20%客戶可能為公司產生80%利潤、20%的品牌可能佔有80%市場份額、20%的人做事業80%人做事情等等方面。當然在現實生活中數據沒有絕對的準確到20%和80%。
在服裝行業我們使用80/20法則分析主要是為了弄清楚為企業貢獻業績到底是哪些品類、哪些款式,這樣在今後的資源分配中可以做到有的放矢。但是在服裝行業一般是40%SKU貢獻80%左右的銷售業績,每家公司可能會有一些差異,可以自己分析一下。
一般的帕累托分析圖形如下:
該圖形中橫坐標是SKU數,縱坐標包含主坐標軸和次坐標軸,主坐標軸表示銷售額,次坐標軸為銷售佔比。折線圖表示40SKU,貢獻100%的業績。柱狀圖是每個SKU的銷售金額,從第1個到第40個按照銷售額從高到低排序。
還有一種做法如下圖:
橫坐標表示SKU數,縱坐標表示佔比。折線圖表示每個SKU累計銷售佔比,柱狀圖表示每個SKU的銷售佔比;40%SKU也就是16個SKU貢獻80%的業績。
這個分析只是告訴我們銷售來源,可以為今後的產品開發及每個款式的下單量提供一些參考。可以分析一個品牌所有SKU的貢獻率,也可以用於分析每個品類中所有SKU的貢獻率,比較方便和實用。從這個分析可以得出,在產品開發中及下單時需要將產品進行分類:主銷款、流行款及陳列款,讓不同款式扮演好自己的角色,才能組合好整盤貨。
四象限分析
四象限分析最早應用在時間管理上面,由著名管理學家科維提出。把工作按照重要和緊急兩個不同的程度進行了劃分,基本上可以分為四個「象限」:既緊急又重要、重要但不緊急、緊急但不重要、既不緊急也不重要。四象限的分析基本是由由兩個維度構成,此表格中主要是事情的重要性和緊急程度。
在服裝行業中,四象限可以使用的範圍很廣泛:可以用來分析不同區域銷售額和利潤率的分布圖、銷售額與市場佔有率、不同品類的銷售率和折扣率分布、不同品類銷售額和折扣率分布、各個顏色的銷售情況分析、不同面料銷售分析等等都可以使用該方法。前提是設置好你最關心的兩個指標(銷售率、折扣率、利潤率、費用率等等)。
第一象限A和B區域是銷售額高、利潤率也高,這個象限中的區域越多越好,為公司帶來業績;戰略加大該區域的發展,加強其市場地位。這個象限一般起名為明星區域
第二象限C和D區域是銷售額較高、但是利潤率偏低,這種情況就要分析導致利潤低的原因究竟是什麼:費用率高?折扣低?等等。盡量把這些區域往第一象限提升,該區域往往被稱為金牛區域。
第四象限是銷售額低於平均水平、但是利潤率較高,說明該區域有較大的市場空間,可以適當的加大一些開店或營銷投入,是該區域的銷售額提升。該區域也被成為潛力區域。
第三象限是銷售額低、利潤率也較低,這種區域往往是公司虧損的區域;在該地區的發展需要謹慎,要具體分析導致這種情況出現的具體原因,然後再確定公司的下一步戰略規劃:是改變策略還是退出該市場。該區域往往被稱為瘦狗區域。
另外,給大家推薦兩個分析軟體,非常好用。一個是Tableau(可以替代excel做很多分析的圖表,操作非常方便),另一個是Think-cell(一些諮詢機構使用較多),這兩個軟體對經常做數據分析彙報的人群來說比較實用,可以讓你的數據分析更加的可視化,也可以說是裝逼神器。具體的教程可以去百度裡面搜索,以下簡單說明:
Tableau Desktop 是基於斯坦福大學突破性技術的軟體應用程序。系統中自帶接近30種圖表的模板,使用比較方便、美觀。感興趣的朋友可以去觀望下載該軟體,可以免費使用15天,也可以去萬能的淘寶購買,價格很便宜。簡單展示幾個圖形,如下:
符號地圖
填充地圖
散點圖樹地圖Think-cell的產功能涵蓋了PowerPoint 演示文稿製作的整個過程,從數據分析、業務數據準備,到定性和定量數據結果的圖形化渲染。世界上絕大多數的商業諮詢公司,以及大批各行業的知名領先企業,都是think-cell 的產品用戶。簡單展示幾個圖形:
堆疊柱狀圖
圖片來自網路單點陣圖
圖片來自網路組合圖
圖片來自網路甘特圖
圖片來自網路Think-cell免費KEY:K8L1P-SI4VY-HLDUD-74RUD-1HCZD,可以使用到6月23日,感興趣的朋友可以下載後試試。
微信公眾號:FBI_105119方法論是哲學層面的概念,是高度抽象的工具。沒看到一個答案談到哲學層面。
傳統的方法論有觀察法、實驗法、類比法、抽象法、模型法、數學法,較現代的方法論有系統法、信息法。
另外,一談到數據分析,就談到商業、管理。實際上數據分析很古老。我們做物理化學實驗,收集的數據就要作分析。開普勒就是著名的數據分析師。
本人常用的方法論是:
類比:相似性、不充分的推理,較大的想像空間。
邏輯:因果規律、思維規律,嚴格論證。
數學:研究數量、結構、變化、空間以及信息等,精確描述。
推薦閱讀:
※如何看待 CMU New Initiative: CMU AI?
※請分享一下數據分析方面的思路,如何做好數據分析?
※關於數據挖掘就業方面的問題?
※如何判斷深度神經網路是否過擬合?
※數據挖掘的系統教程是怎樣的,包含哪些教材?