如何著手商業數據分析?
本科是統計學,但是畢業後的工作都是被HR忽悠著做著一些打著數據分析的名號實為表格名單整理的工作。想從事一些商業分析的工作,對數據的建模分析解決商業問題,但是自己對真正的數據分析僅局限在本科課堂上的內容,對真正能運用到業務中的知識知之甚少。想請教,怎樣能真正接觸到實際的商業分析案例(就算是一兩個小小的,我也能自己接觸琢磨一下)或者說真實的商業分析案例大概是怎樣的?想從事商業分析,還需要提高哪些方面的能力(比如軟體R,SPSS,SAS?統計學概率論理論知識?並且希望能有一些書籍推薦)求各大神支招,感謝!
謝邀。終於得空來更新一下
從商業分析說起吧。關注過不少知乎上類似的問題和回答,發現個較嚴重的問題:大多數人對商業分析這個行業的認知並不準確。具體說來商業分析有兩種:
1. Business analysis. 應屬於傳統商科,主要是任務是對公司整個運營的流程、業務的開展等方面的分析。比如發現新的商業需求、提出/改善某些商業問題的解決方案。它可能包括公司組織上的變更,業務流程的改善,策略性的規劃,政策的制定和提高。這個領域需要一定的數據分析,一方面因為公司發展前期一般主要靠業務的擴展,會涉及一些銷售業績等類似的數據分析。另一方面,大數據時代嘛,很多公司都覺得好像應該順應潮流摻和一把。但總的來說還是business analysis為主。即定性為主導,數據分析(一般較簡單)為輔助。這也是大多數答主所提到的。要在這個領域成長為專業人才,一般會選擇MBA,MBA課程一般也會包含一定的相關課程,但很簡單。
2. Business analytics. 這才是真正的新興學科。翻譯上都叫商業分析,但內容卻差很多,所以特意用英文區分開來。這個行業的核心就是數據分析,而且是高深的技術、模型和演算法。通過對數據的深度分析、挖掘來研究公司以往的業績,對行業市場潛在的商業信息的搜索等。目的是獲取那些通過定性分析和簡單的定量分析根本無法獲得的insights。這個領域逐漸得到了學術界、業界和政府的高度重視:學術界,從紐約大學13年開始開設business analytics的碩士專業以來,全球各大高校紛紛增設相關專業,並且學費直逼MBA,在金錢至上的資本主義國家,高學費往往是高收入和良好職業發展的風向標。業界,更不用說了,BAT都在開設這一類的部門,阿里巴巴去年跟今年就從名校挖了一些這個領域的教授,百度更是把斯坦福大牛Andrew Ng請了來。政府,就我知道的,新加坡和澳洲政府直接撥款贊助開設business analytics部門的公司。
說完基本概念,回到題主問題。仔細讀過問題描述後,我相信題主感興趣的應該是business analytics吧(不是的話,就請忽略以下吧)。那再深入一點講一下相關的技能。題主是統計本科生,很好!哈哈!我是統計博士,現在在紐約一家投資管理公司做類似的工作,同事不乏一些計算機、自動控制、信號處理等數據分析相關的領域的博士。總體來說business analytics無疑是個交叉學科,包括數學(統計)、計算機和商學(經濟學、市場營銷,博弈論等等)。統計類的方法佔據了數據分析學科的首要地位(主要是回歸模型)。可以說如果把統計方法全部拿走,數據科學基本就支離破碎不成體系了。然後是計算機(包括機器學習、模式識別、圖像處理等一類的領域),基於一些應用層面的需求,計算機領域提出了一些新穎的思路和模型。值得一提的是,這些東西又吸引了統計學家的關注,他們把同樣的問題又用統計學方法做了出來。再結合一些傳統的回歸模型,統計學出現了新的分支:統計學習。最後是商學類,現階段來說比重最小,不過其中一些思路也是值得借鑒的,比如博弈論。一些專門的business analytics碩士會結合商業應用來講統計和計算機方法。
實際的商業分析案例(當然是business analytics)。簡單說幾個吧:1.生存模型,生物統計最常用的模型,研究疾病的癒合、死亡時間之類的問題,可以用以測試某些藥品、治療手段是否有效。應用到商業中,比如公司對特定人群投放廣告,他們通過不同的渠道點擊觀看,那麼需要多久的時間他們才會決定購買?我們定義:消費者不購買=『活著』,一旦消費即為『死亡』。接下來的任務就是研究哪個渠道的廣告/哪種組合的廣告最為有效。2.聚類問題,公司投放過大量廣告,做過促銷。然後大量消費者前來購買,到底哪些真的看過上述宣傳呢?如果這個都不知道如何分析哪個渠道或者哪些渠道的組合最有效?聚類分析就是解決這一類問題的。3.貝葉斯方法,不知你可了解過貝葉斯分析?是統計/機器學習領域很火的方向。主要應用是在建模時候可以把人為的觀點融合進模型中去。使得定性和定量分析的結果結合起來。這一點很是受在business analysis領域做數據分析的人的歡迎。除此外還有很多,就不一一說了。
最後說到你的近況。本科背景還是弱了點,想要接觸上述類型的工作,你需要更進一步。並且想吃的開最好也不要限制在統計學領域,畢竟讀一個偏應用的學科,學會從應用角度考慮問題對於職業發展更有好處。升學的話可以考慮data analytics/business analytics的碩士專業。不過,如果覺得學費太高的話,其實統計碩士也是個不錯的選擇。自學的話,coursera上也有很多不錯的課程。至於R/Python/SAS嘛,能會一個就夠了。數據分析級別的編程,會一個,別的看個把禮拜就能上手。
最後的最後,分享一個鏈接:Graduate Programs in Big Data Analytics and Data Science。裡面列舉了全世界各地高校開設的數據分析類的研究生專業、各種收費的/不收費的在線課程。
與題主共勉!瀉藥。
先來分享個故事。
前段時間剛面試了個同學,看了下簡歷,第一感覺是各方面的工具技能應用應該比較紮實,而分析的案例上面還有待提升。
實際的面試中,我問他,「我們是一家電商公司,現在要向CEO彙報3個數據,你會分析哪3個數據?」
不到1分鐘的時間,他就不假思索回答:「PV、訂單和ROI。」
繼續問道,「你是怎麼考慮到這3個數據?」
「我想一個網站每天的基本情況應該是CEO比較關心的。每天的PV量和訂單量是否在正常的範圍內,以及目前的ROI判斷是否是在盈利還是虧損狀態。」
「如果滿分是10分,你給自己的答案打幾分?」
他猶豫了一下,半信半疑回道,「打6分吧。。。。。。」
「為什麼打了6分呢?」
「可能公司的基本情況我還不是太了解吧。也可能CEO根本就不是關心這3個數據,因為我也沒有和他接觸過。我對整個公司的基本業務都不是特別的清楚,如果公司目前是正常的經營情況下,可能會對一些核心的銷售數據關心,如果公司目前正在大力擴展業務階段,對增長趨勢比較關心,如果公司在面臨削減成本階段,那我們的投入應該是比較關心的。」
我繼續問道,「那你現在給你這個答案打幾分呢?」
這次他沒有立馬回答,而是思考了片刻,才回答「這次打7~8分吧。」
其實我們平時所說的商業分析,數據分析的商業感覺到底是神馬,它並不是什麼很高深的理論或者別人捉摸不透的玩意。不是具體的結果,而是我們的分析的思維方式。
想必我們都聽過【數據分析師不是數羊】的故事,如果你通過各種工具和技術計算了羊群里有1000隻羊,然後告訴放羊的牧民時,這只是告訴了一個他知道的數字。
如果你告訴他,我們現在羊群有1000隻羊,900隻是母羊,100隻是公羊。然後根據羊的特徵不同,有300隻是「非常能吃的」、100隻是「非常能長的」、400隻是「正常生羊崽的」。那麼牧民會高興,高興的是你告訴了他一些一眼看不出來的信息,而又會有些遺憾,遺憾的是「然並卵!」
如果你告訴他,我們現在有1000隻羊,900隻母羊、100隻公羊,嚴重的羊群性別比例失調,當務之急是引進更多的公羊。根據市場預估的情況,5月份買羊比4月份買羊便宜,所以4月份可以多賣掉母羊,5月份引進公羊。牧民聽到這個建議,大喜!
我們做數據分析,一定要從一個只是統計數據,到分析數據,再到解決實際問題,最終創造價值!
-------------------------------------------------------------------------------------------------------------
你要問我商業是什麼?不好意思,我真沒辦法具體回答!
有人說是賺錢,有人說是業務,有人說是企業之間的合作,有人說是人心,也有人說是為社會創造價值!
更願意定義成,我們平時所做得業務分析是什麼。是明白實際的業務是怎麼回事,從而解決業務中得痛點問題,這個痛點問題不是你自己發現的,而是業務告訴你的。而這個解決痛點問題的方法,不是別人告訴你的,而是你發現的。這個問題和我在另外一個問題的回答(商業分析能力是怎樣煉成的? - 何明科的回答)高度相似,所以把大部分內容貼過來了,並加入了一些自己新的理解。
「商業數據分析」,其實是兩個詞,「商業」和「數據分析」。商業,其實就是對商業的理解,通過理解問題來構建假設和分析框架。數據分析,在我們這類數據控的定義中,基本就是等於分析,沒有數據搞什麼分析。因此,要點亮這棵技能樹,需要完成兩個技能樹的修鍊:商業理解和數據分析。
在最近的一篇分析中國VC/PE各種基金恩怨情仇額專欄文章中(http://zhuanlan.zhihu.com/p/20714713),其實就比較完整地實踐了上述的模型及各類技巧。通過日常的觀察和商業理解,準備用各基金在各項目上的合作關係作為基本數據;然後,抓取數據構建模型,解釋數據並與實際情況進行核對,最後寫在知乎專欄上進行傳播,並獲得推薦。
1.1 描點,事實積累
無論是人類學習還是機器學習,基礎都是大量的樣本、案例、數據或者事實,如同在存儲系統中描點,記錄下一個個的數據點。因此要想理解商業,或者精確點說要想理解一個行業或者公司,任何人一開始都不能避免的事情就是:大量閱讀這個行業相關的資料、信息及數據,構建最基礎的事實基礎。在問題(管理諮詢行業有「三天了解一個行業」的說法,真的是這樣的嗎?他們是採用什麼方法去了解一個行業的? - 商業)中,其中有不少精彩回答指出了各種方法,相信能夠幫助迅速構建針對一個行業或者公司的事實基礎。這裡分享兩個小竅門:- 善用邏輯框架Framework。框架的主要作用是不重不漏(Mutually Exclusive and Collectively Exhaustive)得掌握這個行業或者公司的知識,並具有一定的系統性。框架如同拳術或者武功派別,不存在以框架定高低貴賤,核心的還是使用框架的大腦。如果非要推薦,SWOT分析和波特五力競爭模型非常易用且通用,因此內外部溝通也非常方便,理解成本很低。
- 養成每天看數據和報告的習慣,就像習武之人每天練習蹲馬步這樣的基本功一樣。古人所說的「熟讀唐詩三百首,不會作詩也會吟」,其實也是強調日常對業內知識的積累和商業感覺的培養。認識的一個某互聯網公司超級高管,對於各種業務及財務數據瞭然於胸,甚至能精確到十萬和萬級別,和他討論問題堪稱翻閱活字典。除了天賦異稟對數字的敏感之外,也來源每天孜孜不倦得關注各項業務數據。
1.2 從點到線,建立關聯和對比
即使在框架的幫助下,各種掌握的知識和數據仍然會非常零散,全是孤立的點。如果能通過連線將這些知識點聯繫在一起,就如同用排兵布陣將沒有戰鬥力的散兵游勇排成陣勢,戰鬥指數將會大增。學習各項知識大概都是如此,比如正在或者曾經讓大家煩惱的歷史知識,單個事件時間記憶起來確實費勁,這主要還是因為記憶點太孤立。比如太平天國(1851年~1864年)和南北戰爭(1861年~1865年),單獨記憶時間和歷史意義肯定很難。但是如果能把兩個點連成線,做成對比就會容易很多,同時也讓孤立的歷史事件更有邏輯性:都大約發生在19世紀的中頁;一個是當時正在沒落的東方最大國家的最大內戰,而另一個是正在崛起的未來西方最大國家的最大內戰;兩者對於雙方未來的命運都有分水嶺般的決定作用。
回到商業分析的問題,以流量和用戶運營為例。如果能將PC端和M端的SEO與App端的ASO聯繫在一起,許多技巧都是完全雷同的,而許多關鍵詞的設置技巧也會通用。而如果能長期觀測幾個App的留存率,這些數據就不再會枯燥,首先在時間維度會形成價值(比如留存率如何衰減,從次日留存到7日或30日留存),其次在跨品類維度也成為一個個的標杆(比如:工具類、應考類、社交類、內容類等等的留存率範圍以及DAU/日均新增的比例)。當面對下一個新版本或者全新App的時候,如何評判其用戶黏性以及增長潛力,就有一把現成的尺子放在心中了。1.3 從線到面,理解共性絕大多數的商業模式,都可以精鍊為非常基本但核心的公式。比如對於某生活類垂直網站而言,其商業模式依賴於如下的核心公式:
- 商業收入 = 用戶點擊量x廣告展現率x廣告點擊率x平均點擊價格
- 流量成本 = 總流量x外購流量比例x單個流量成本
- 兩者組合而成的公式:ROI=商業收入 / 流量成本,毛利潤=商業收入 - 流量成本
- 要降低外購流量比例,可以涉及到提高自身產品的留存率或返客比例,或者提高產品內用戶推薦新用戶的比例
- 要提高廣告展現率,可以提升廣告主的數量以及購買力度;或者降低廣告和呈現內容匹配的精度,使用更多的模糊或者粗暴匹配,但這同時又會降低用戶體驗,然而這確實百度正在一路狂奔的方向
- 核心目標是人工服務時長,可拆解為:人工平均服務時長 x 人工話務量
- 人工話務量又可拆解為:每人平均呼叫次數 x 呼叫人工的用戶數
- 呼叫人工的用戶數又可拆解為:試圖呼叫人工的用戶數 x 接通率
- ……
如下圖所示,通過一系列得從點到線的連接和拆解公式,最終將該呼叫中心的運營拆解成平鋪的一張樹狀圖,可以根據各個節點去改進數值以達成總體的目標。
做商業分析也不能僅僅局限在內部,如果能走出去,能夠跨公司和跨行業獲取標杆數據以及行業最佳實踐做法,就能讓這顆樹狀圖進一步鋪開,而蘊含的能量和價值也就會倍增。
1.4 超維,理解人性
以上的討論都是技法,到超維去理解人性就屬於心法,這也是最最難的。一旦掌握這個技能,往往能做的就是降維打擊和吊打對手。作為一個也還在路上的人,也不能分享太多,只能舉一些身邊的例子。許多思考透人性的商業模式在一開始,乍一看往往是難以接受甚至反智的,然而這恰恰是這個商業模式在悶聲發大財或者增長的時候,「不是別人傻,而是自己傻」。比如某著名的美女交友和聊天軟體,當年在市場上大肆買量。當大家得知這款App留存率的時候,都鄙夷得笑了,覺得人傻錢多。可是這款以陌生人社交為皮的App,根本就不是社交軟體,而是一款頁游類型的App。所以用社交軟體的點線面來理解它是完全錯誤的,以為用戶留存低就是垃圾軟體。No!No!No!別人是真正抓住了人性——一般的矮矬窮即使在互聯網中也很少被美女搭理,別人其實是頁游模式。關注的不是留存,而是關注用戶進來的數量、轉化到首次付費的比例、從付費到大R的比例以及最核心的ROI,即使留存低和用戶停留時間長,只要ROI&>1,就可以肆無忌憚地購買用戶。
再比如2014年在香港上市的天歌娛樂(著名的9158),其實連YY都是它的追隨者。在初創的頭幾年,9158一直處於悶聲發大財的階段,地處遠離互聯網中心的金華而且創始人傅政軍也極其低調。公司創立於2005年而且保持著非常良好的暴利狀態,然而直到2012年YY上市才將這頭大象逐漸爆出水面。在這漫長的潛伏期內,人們很少聽到9158創造的秀場模式,即使聽到也選擇懷疑秀場模式能夠讓用戶一夜之間消費數萬。然而大家選擇的是逃避對人性的理解,對三四線群眾缺乏娛樂生活而又渴求被關注被重視的需求。
因此要想真正做好商業分析和商業理解,要常常從人性角度出發,顛覆懷疑自己的傳統認知,按照Elon Musk所說的第一性原理思考商業問題。
二、數據分析
談了這麼多怎麼去理解商業,下一步就是需要去溝通、去爭取資源、去行動……然而行動的時候,總不能始終擺出世界上最廉價的三個字「我以為」作為招牌,始終還是要靠擺事實講道理。擺事實講道理,就是要在事實基礎上做深入分析,而對於數據控來說,基本就等於數據分析,所以本部分就按照數據分析來闡述。在之前的回答及專欄文章中,其實已經講了很多,按照之前的回答(數據產品經理是做什麼的? - 何明科的回答),將這個模塊分為五大部分:沉澱、解釋、驗證、探索和傳播。
2.1 沉澱(或數據獲取)
好數據加平庸的分析也往往會做出優質的產出,如同「食材新鮮就不需好廚師」;而爛數據加頂尖的分析也常常garbage in and garbage out,如同「巧婦難為無米之炊」。可見,獲取真實的優質數據源並清洗乾淨,是商業分析的基礎。在商業分析中要把數據沉澱修鍊到極致,當然面對老闆或者用戶的各種無理分析需求,避免尷尬得攤手聳肩說,「對不起,沒有數據源」。正確的姿勢是:找到有創意的數據源及數據沉澱辦法,最後解決問題。正所謂「有數據也要做,沒有數據創造數據也要做」。
常規的用爬蟲獲取數據的方式(你是通過什麼渠道獲取一般人不知道的知識和信息的? - 何明科的回答)已經很平庸了,下面提一些更有創意的。
案例1:
為了對這幾年中國私募案例(VC+PE投資)中的投資條款進行研究(詳見有哪些「神奇」的數據獲取方式? - 何明科的回答),幫助創業者對投資條款有更定量的了解。從各種渠道收集了大幾百份Termsheet及SPA(真是求爺爺告奶奶),在脫敏之後,然後將其裡面的核心條款結構化整理成可分析的數據。關於如何艱難地求人拿到Termsheet及SPA就不再這裡贅述了,因為那種場景很難具象化。只是把一份SPA的縮圖放在下面,大家就可以了解將其裡面的核心條款結構化是怎麼一件難事。到目前為止,NLP在這方面的幫助仍然有限。最終形成的是這個飽受創業者喜歡的投融資系列:用數據化的方式解析投資條款(總結並持續更新) - 數據冰山 - 知乎專欄。能夠將員工期權與公司估值之間的大致關係搞清楚而畫出如下美麗的回歸線條,一切努力也是值得的。案例2:為了獲得某一類人群的畫像及了解他們的消費習慣,不能因為我們沒有超級App就說不。我們只好走上了通過提供WiFi服務收集用戶數據的不歸路(詳見免費 Wi-Fi 的商業模式是什麼? - 何明科的回答)。下圖是「商業分析人員」深入到咖啡廳及藍領工人宿舍中安裝Wi-Fi,以期望採集數據。
除了OpenWRT和普通的客戶端開發,連Arduino開發都用上了,以降低採集數據的成本。案例3:
(以下案例為道聽途說,不能完全保證其準確性)MIT某實驗室將聲音採集設備放到交易所大廳,通過採集交易員的吼叫聲然後做情緒分析,判斷當前交易所眾交易員的情緒,然後預測股市未來一段時間的走勢。有海外對沖基金動用衛星拍攝照片,根據建築物的陰影長度,來跟蹤某國各地的建築情況,以此作為該國宏觀經濟的運行情況。2.2 解釋
在商業實戰中,每天都要面對的問題會有:銷量或者在線消耗怎麼暴漲(或暴跌)了?新上的渠道效果怎麼樣?用戶的ARPU或者人均PV怎麼上升(降低)了?數據分析,需要基於數據解釋產品或功能的某項核心指標(包括收入、DAU、ROI等等)的走勢及背後的原因,往往需要細化到多個維度(比如:時間、區域、渠道等)。基於這些解釋,做事後總結或者提前預警,試圖保證產品及功能在正確的軌道上發展。
下圖是2015年二手車風風火火的三家企業瓜子、人人車和優信的百度指數,根據這張圖可以解讀出非常多的信息(參見百度指數靠譜么?有些網站的百度指數頻繁劇烈波動意味著什麼? - 何明科的回答),包括:電視廣告的投放效率、周中或者周末效應等等。優秀的數據分析應該可以得出不同廣告投放的效果並改進。優信第二次廣告就比第一次廣告成功很多。然而即使這樣的改進,優信花掉1億美元左右,也只能和花掉1以人民幣左右的人人車達到幾乎類似的效果。
2.3 驗證
商業分析往往是圍繞產品或服務進行。而隨著技術的發展和競爭的加劇,產品或者服務在按照天或者周的速度在更新和迭代,各種功能及改進都在高頻率得上上下下。對新推出的功能或者改進,驗證其效果或者影響,使用的方式包括:簡單的時間維度或者地理緯度或者渠道緯度的對比,複雜一些的做AB Testing。Facebook在AB Testing方面積累深厚;對於各種UI方案甚至小到文案及顏色,都需要進行AB Testing來選出最優方案。Facebook曾經利用這個系統在某個WiFi段定點發布新功能,來戲弄某雜誌,誘騙其發布Facebook有產品的錯誤消息。
數據分析,需要在驗證的過程中屏蔽各種噪音來排除對真相的干擾。同時,在數據不充分或者無法實現AB Testing的情況下,找到噪音最小的方式來逼近真相。近年來推出了不少專業做AB Testing的工具,包括比較紅火的Optimizely。不過它是一個付費服務,具體收費標準見下圖。
2.4 探索
商業分析需要通過研究內外部的數據(比如:用戶的使用行為數據及搜索詞等,百度指數及貼吧發言等等),探索規律和探索用戶的需求,通過數據的方式進行初步驗證;或者滿足一定的功能,通過數據挖掘的方式滿足功能需求。之前提到的案例(機器學習數據挖掘類工程師平時主要的工作內容是怎樣的? - 何明科的回答)就屬於探索一類,雖然整個過程起步不低(Hive + MySQL + Python + R的基礎框架),而且過程中不斷遇到阻礙,但是數據分析人員不會被打倒,要麼是自己死坑要麼是借力其他工程師,需要不斷提供新的解決方案來還原真相找到答案,如同柯南所說「真相只有一個」。
下圖是利用某女鞋品牌送貨地址做的用戶群分布的熱力圖,以北京的海淀區為例,大量的用戶密集集中在中關村周邊,其次便是各大高校宿舍聚集的區域,如五道口,知春路等地。紅色標籤為品牌線下店鋪位置,可見門店已經覆蓋了中關村,北京大學和五道口等地,但對於知春路片區,以及用戶相對集中的牡丹園並未開設分店。相比之下安貞里分店四周並沒有特別多的目標用戶群出沒。根據用戶居住地的熱力圖分析,來探索開店的選址問題,做到店面分布的優化。在演算法上,Deep Learning/CV/Machine Learning等等,數據分析人員不敢說要一一精通,但是最好還是能略小一二到熟練使用各種框架的程度,才能輕鬆完整上面的各種任務。
2.5 傳播
完成商業分析之後,對內對外的傳播也非常重要。前者負責爭取資源來推動產品服務及業務改進,後者負責通過新鮮的報告來吸引用戶和維繫用戶。當下最易傳播並適合於數據黑客的媒體類型無疑是圖文並茂並結合數字的文章(被稱之為Infographics)。Infographics憑藉其直觀易讀和理性化的數據呈現方式,越來越受讀者的喜歡,並逐漸成為內容製作者青睞的方式。這裡有不少精彩的案例(文圖),這些案例都非常方便在手機端或者微信裡面傳播。
基於內部豐富的數據並結合外部的數據,製作有見地有傳播性的圖文文章,並便於在朋友圈及知乎等地傳播,為自己產品贏得口碑和品牌增值。
文圖是製作Infographics的一個簡單工具,下圖是它的交互界面。
總結
在事實分析這顆技能樹的每個分支上,從易到難都有理論體系、演算法或者工具去實現。按照@淙瀚 在如何著手商業數據分析? - 商業分析中的提法,從易到難分別為Business analysis和Business analytics,前者屬於傳統商科,利用Excel及SQL等簡單工具能夠完成,人腦手把手使用工具去發現規律和完成分析;後者屬於新興學科,需要用到更複雜的編程工具以及涉及到更複雜的演算法,包括機器學習、圖像識別和處理、深度學習等等各個方面,人腦驅動工具去發現一些複雜規律和完成複雜分析。個人感覺不用在工具以及演算法上太糾結,Business analysis和Business analytics在本質上並無太大區別。即使有,技術的發展和開源兩大趨勢,也會模糊這個界限。首先,最簡單的工具也難玩出花來(參見Excel 到底有多厲害? - 何明科的回答和Excel 有什麼奇技淫巧,讓你相見恨晚? - 何明科的回答),甚至可以拿它做圖像處理來模擬油畫。
其次,複雜的演算法也越來越開源,Deep Learning正在湧現越來越多的開源框架,OpenCV這個開源社區也曾解放無數人而不用關心底層的各種圖像演算法。所以核心還是對商業的理解,然後如何利用工具和演算法實現自己的目的。
————————————————————更多文章關注我的專欄:數據冰山 - 知乎專欄1.上來就忽悠概念,花大量篇幅區分analysis和analytics,在講商業數據分析時特意強調「百度更是把斯坦福大牛Andrew Ng請了來」,這樣的答案容易把真心想認真了解商業數據分析的新同學帶到溝里去。要慎重。
如果一定要講概念,題主不妨從文本的角度去深入思考一下「商業」「數據」「分析」這幾個詞的含義,查詞典,搜wiki,都行。我相信你看完了之後還是會默默再去找別的答案的。
「數據」和「分析」都是含義異常豐富的抽象名詞,前面再加一個幾乎已經填滿我們全部日常生活的辭彙「商業」來做前綴,這種屬於單純靠文本解釋是不可能獲得充分理解的。
下面兩張圖是我曾經在某次做數據分析工作介紹時用過的slides,放這兒供題主參考。
2.通俗地講一下。做一個類比,我們講「數據分析」,本質上是「基於數據展開分析」,邏輯類似於「用錢買東西」,而講「商業分析」,本質上則是「用分析支持商業決策」,邏輯類似於「買東西拿來吃」。所以,「商業數據分析」,大致就是「用數據展開分析,將結論用於支持商業決策」的過程,類似於「拿錢去買食物拿來吃頂飽」。
通過上述類比介紹,我們知道做「商業數據分析」,首先要搞定的是「獲取數據」、「清洗數據」和「數據建模」,就像要買東西吃首先得有錢。但實際工作中,如果一上來就直接奔著「獲取數據」來展開工作,可能會出現兩種嚴重的問題:第一種是由於商業問題在事前沒有定義清楚,拿到數據之後才發現要解決的問題和手頭的數據幾乎沒有關係,第二種情況更悲催,大量投入資源完成數據獲取、清洗之後,發現根本不知道需要用數據解決什麼問題,然後開始拿著鎚子找釘子的歷程。
由於這些情況存在,數據分析工作不像用錢買東西那樣,只需要標準化的輸入就可以得到與需求匹配的輸出。相比較而言,我們目前所處的數據分析時代可能更接近於以物易物的人類原始社會時代,所有基於數據的商業分析,在絕大部分場合下,都需要結合具體問題匹配相應的數據採集和清洗,才能展開進一步工作。
這一條聊的是在當前行業里,商業問題和數據分析的關係。做商業數據分析,需要先有商業問題,然後搞定數據,然後通過建模和分析理清邏輯、尋求洞察,最後水到渠成的事情是基於數據分析工作輸出洞察和影響力。
3.商業數據分析工作,除了掌握數據處理技能和工具(excel、SQL、Python、R、…)之外,還需要對業務邏輯的展開有充分的理解。
以下這個例子裡面,左邊是Stanford某能源經濟學PhD候選人基於一組數據給出的分析。第一張圖右邊是我基於汽車消費和汽油消費在真實世界裡的一些特徵展開的問題分解。這一組問題分解,要點是將一個比較籠統的行業問題轉化為一系列具體的問題和可度量、可驗證的指標。要做好這個過程,需要對業務有充分的理解。
但更重要的是第二張圖,我們通過引入「汽車存量」的概念,將「汽車銷量」與「汽油銷量」關聯起來,可以清晰看出,「汽車銷量」是增量概念,而「汽油銷量」則對應存量大盤。統計學基礎知識告訴我們,增量的增速和存量的增速不可比。因此,原博中提出的問題是沒有意義的。
通過這個案例,我想講的是,除了數據處理工具和技能、對業務的充分理解這兩方面素養之外,想要做好商業數據分析,最好還是能夠受過一定的統計學訓練,或者具備較好的統計學思維。
4.上面這些,基本上還是在零星介紹商業數據分析相關的一些細節問題。如果答主希望未來能從事商業分析,希望能夠針對性的提升個人技能和素養,建議先仔細閱讀liupc:從事數據分析(數據挖掘)的工作已經一段時間的你(1年,2~3年,5年,8年),現在是一種怎樣的狀態?這個答案,然後關注我。接下來一段時間我會花一些精力來詳細回答這個領域的相關問題。
我回答過類似的問題,鏈接在此商業分析能力是怎樣煉成的? - 搖滾櫻桃的回答不過這裡可以補充一些,希望對於沒有實戰經驗的你能有一些啟發有統計基礎是你的一個優勢,我是半路出生並沒有這個基礎,但是我覺得對於商業數據分析,統計學基礎是一個途徑,但是商業分析的目的其實是幫助企業獲得更多的insights從而對公司戰略產生影響,如果能夠通過數據分析制定合理的策略,將會有利於提高公司的收入和業績,這是最終目的。所以實戰中的商業分析師圍繞著上面的目的來的,比如你手裡有一套銷售的數據,這個數據是有以月為單位的也有以周為單位的,裡面你所在企業的各項產品過去兩年每周的銷量,還有競爭對手的各項產品每周的銷量,還有這些銷量各自都走的哪些渠道,還有整個行業每周的銷量,只有這個你就已經大有文章可做。你可以做整個market size的評估,兩年整個的走勢,或者今年與去年同期比較的走勢,你可以做所有競爭對手以及你們自己企業市場份額的比較,你可以做銷量的比較,進一步你可以把產品進行細分,比如根據價格分為中高低,然後比較每個品牌中高低各占的比例,如果數據里有市場價值你還可以比較各自品牌的市場價值,市場價值越高的品牌一般利潤率也越高。你可以做渠道的比較,有些數據里還有購買方式,比如線下線上的比較。或者你可以做某個個品牌的產品組合(portfolio)的分析,分析兩年內產品組合的變化,你可以把產品特性整合到數據里去做比較,比如某個性能的進行歸類,甚至某個顏色的進行歸類。還有一類數據是消費者數據,一般是demographic(性別,年齡,地區,購買方式等等)這些,這種數據是對目標消費者的一種分析,可以看出自己與競爭對手之間目標客戶群的差異,或者是消費者購買某個品牌所追求的買點在哪裡等等。至於SAS,SQL這些在有些企業裡面更重要一些,如果會了會增加競爭力,一般一個企業的分析團隊都是定性分析和定量分析的組合,定量分析的那個分析師一般軟體會比較強,我就是屬於還不會SAS的人,所以我做定量分析都是excel,大部分也是夠用的,其餘時間我會做更多定性分析,定性分析在某些企業裡面會有一些優勢,因為定量分析最終的輸出不是數據本身而是其中的insights,能挖掘出其中的價值才是目的,所以我的工作更偏向與總結insights,然後最終輸出為可以影響銷售或者營銷部門策略的建議。數據分析少不了要預測要假設,總會有數據不足的時候,比如要預測下一季度的市場走向來確定本公司產品的銷售目標,要通過對歷史數據的分析,歷史同期數據走向規律的把握來進行預測。有時候會有多個變數,這些變數都是不確切的數字,但是假設也是具有一些邏輯性的,比如我預測某類產品xx國家市場四季度的market size,我什麼數據都沒有,但是我收集了一系列行業對全球此類產品銷量的預測,我就要試圖找到相關性,你可以做簡單的回歸分析,然後得出某個市場大部分時間market size是全球市場的2%,這個2%就是一個估計出來的變數。這只是其中一個例子,題主學統計的,回歸分析什麼肯定比我熟悉。總之因為最近我在很多數據確實的情況下做了一組預測,有三四個變數共同作用,最後的預測模型也是靈活的,因為通過調整變數可以多設置幾個可能性。
看下Kaggle, 全是企業真實數據和真實的問題。還有一大堆高手給你演示該怎麼分析。
一、 商業數據分析的本質
諮詢工作很大的一塊內容,是從繁雜的數據中提煉洞見,並用可視化的方法呈現出來。
這也是諮詢面試考察的重點之一。
數據分析需要你能快速將圖表中傳達出的信息與噪音區別開,提煉出真正的洞見,需要你能選擇用合適的方式呈現數據,清楚地支撐你的觀點。
這種能力是一種天分,需要你反覆練習才能將它變成一種技能。
二、 商業數據分析的學習方法
最有效的訓練方法,是找到製作好的彙報文件進行研究。仔細學習其中的圖表和分析方法,研究他們是如何講故事的。
掌握圖表不僅僅意味著學會使用Excel和Tableau, 你還要知道你的數據和觀點到底用哪種圖呈現更好:到底是餅圖、表格、線性圖、氣泡圖還是瀑布圖等等。
比如我們拿"The Economist"上面的圖表來看,分別舉幾個好和壞的例子。
1. 好的例子:
觀點清晰,一目了然
- 散點圖 (Scattered Chart) - 諾貝爾獎得主的年齡在不斷變大
- 折線圖 (Line Chart) - 美國犯罪率在不斷下降
- 氣泡圖 (Bubble Chart) - 啤酒廠更多建立在非宗教地區
2. 壞的例子:
信息太多,抓不住重點
- 柱狀圖 (Bar Chart) - 全球貨運行業的盈利能力下滑很快
- 自助式數據圖 – 美國大城市的犯罪率
三、優秀圖表解析
下面分析的三個例子是我們上文中總結出的三個觀點清晰、一目了然的優秀圖表。通過結合圖表形式和數據本身的特點,我們能學習到優秀的商業數據分析師如何幫助讀者快速獲取關鍵信息。
- 散點圖 (Scattered Chart) - 諾貝爾獎得主的年齡在不斷變大
很多科學上的研究成果是實驗性質的而不是結論性的,因此評獎委員會需要等待多年,才能看到某項成果的長期影響。
散點圖是一種顯示最大最小值和分布的可視化方法。
經常被諮詢師用來向客戶展示:我們使用了這麼多數據,因此你要信任我們。
- 優點:散點圖的優點非常明顯,它比文字信息更直觀。
- 缺點:散點圖沒辦法透露一些更深層次的信息。比如,文章中提到的一些信息點:沒有任何一個小於50歲的人被授予經濟學獎。112位文學獎的獲得者只有9位小於50歲。自2000年以來,在化學,物理和醫學方面獲獎者中只有8%在50歲以下,而上個世紀得獎者中有36%」
在散點圖的基礎上, 「The Economist」加了一條趨勢線—它展示了本文的核心觀點:諾貝爾獎得主年齡大多較大,且在逐漸變大。
2. 折線圖 (Line Chart) - 美國犯罪率在不斷下降
「The Economist」 清楚地說明了,在過去35年間,暴力犯罪、謀殺和財產犯罪的總數都下降了。一個明顯的例子是1990年紐約市的謀殺犯人數是2245,去年這個數字是352.
優點:折線圖是最好的圖表之一,清晰明了。
你從一米之外都可以看明白它在講什麼。這就是你需要傳達信息的清晰的程度。
3. 氣泡圖 (Bubble Chart) - 啤酒廠更多建立在非宗教地區
這個結論似乎顯而易見,很多諮詢顧問可能都會這麼想。有時候,數據只是在證實你已有的想法。經濟學人的研究表明,一個地方啤酒廠的數量和該地區宗教滲透比例成反比。
氣泡圖很有趣,它採用標準曲線圖 (X和Y軸),並添加1個維度 (氣泡的大小)。在Y軸 (人均啤酒廠),佛蒙特州是很高的,但實際山這是一個很小的州和很小的啤酒生產總量 - 你看泡沫的大小就知道了。
新澤西州和阿拉巴馬州的啤酒生產量都較小 (都是小氣泡),但新澤西州的宗教信仰程度要少很多,人口卻是阿拉巴馬州的兩倍
優點:氣泡圖在散點圖基礎上另外通過散點的大小來表達第三維變數的數值,相比於只能展示二位數據的散點圖,多了一個展現維度。
四、略有不足的圖表解析
接下來的兩個例子則是我們之前總結過的信息龐雜、稍顯混亂的案例,從對具體問題的分析中我們不難發現如果選擇了不能突出數據重點的圖表或試圖在一張圖中包含信息過於龐雜,往往會增加理解難度,給人說服力不強的感覺。
1. 柱狀圖 (Bar Chart) - 全球貨運行業的盈利能力下滑很快
「The Economist」 指出,現在航運能力過剩(太多船隻),且需求是下降的。 結果是波羅的海乾散貨的價格指數自2008年高點以來下跌了95%。集裝箱線路今年將虧損100億美元,韓進集團 – 全球第七大班輪公司正在申請破產。
這張圖表是可以支持這個故事的。 圖形不錯,但是有點數據太多的感覺 - 大量的數據無法支撐一個強有力的觀點。
這篇文章更多地談論供給、需求和盈利能力,而不是聯盟,因此圖形的說服力不夠,或者如果聯盟和併購是最終想要表達的內容的話,文章就應該多講一些相關的有說服力的事情。
這在諮詢工作中很常見的,經常是PPT的故事和我們嘴裡說的話不是在講一件事。
2. 自助式數據圖 – 美國大城市的犯罪率
這張圖太亂了!
它顯示了多個數據元素,一般在一個報告中,可能會將其分解為4-5個不同的頁面。將他們放在一起,拿來做參考是有用的,但合起來並不能講一個完整的故事,它在試圖講很多故事。
這就像一個自助餐 - 你可以坐在那裡選擇你想要的,但對每個人來說都不是最特別的。
這裡有從最少暴力犯罪的城市(達拉斯)到暴力犯罪最多的城市(印第安納波利斯)。
這裡也有展示全國平均水平的線,來說明你所在的城市到底是「線上」還是「線下」。
但這並不是一個很有說服力的圖表,這只是那種你可能會放在附件頁面中的東西。
聰明的諮詢顧問會按照城市的犯罪率統計,嘗試建立犯罪率與地理、經濟增長、移民,行業組合等之間的關係,並形成自己的洞見。
純粹的數據自助圖只會換來客戶的一句簡單的:SO WHAT?!
五、總結
商業數據分析是許多職業的必備技能要求,這項技能是可以通過反覆觀摩和練習來提高的。
這項技能不僅意味著使用圖表和可視化工具,更重要的是選擇合適的圖表來呈現你的數據和觀點,起到突出重點、傳達信息、強化理解的作用。
好的數據分析圖表能清晰地呈現關鍵信息,而差的數據分析圖表往往會包含過多信息,導致失去了重點。
更多諮詢求職乾貨,可以看我的專欄和諮詢求職公眾號(搜索FasTrakCareer)
統計軟體會一個就行,在題主的問題裡面個人首推sas,因為sas嚴格意義上說就是為統計而生的,我本人也是統計專業畢業的,我有一位同學就自己一個人琢磨sas,現在已在京東做數據挖掘這方面工作。如果題主真想從事數據分析的工作,首先你要自己潛心修鍊一個軟體的應用,網上有很多關於sas編程的書,其實《統計學業原理》,《多元統計分析》,《計量經濟學》這是必會的三門基礎課程,自己找相關資料學習,多想大咖們請教,人大經濟論壇好資料,題主可以隨時關注!最後就是多閱讀這方面的論文文獻,以及相關報道,財經新聞知識也是必不可少的。有些人能有效的把模型建立並模擬出來,但是解釋模型的能力欠缺,這些都是基本功!希望對你有幫助!
做商業分析前首先要明確一點,你的目的比形式更重要,帶著你的問題進行數據收集分析得出你的結論,為你們公司下一步計劃做好基礎!
這個問題我大概想了下,題主可以先著眼於近處嘛,從身邊的商業開始統計分析。衣食住行,這都是和人們息息相關的,題主可以先從餐飲開始,在細化點,比如題主公司附近的題主經常去吃的快餐店,分析做得好的原因。統計學嘛,主要是你得先收集數據,才能統計分析。從味道,口岸,人流量,男女比例,年齡等等數據的統計,分析嘛。
這要理工科吧
佔位圍觀
任何經濟活動都可大致分為兩大類:既有狀態的經濟活動和拓荒型經濟活動。
1、既有狀態的經濟活動大都存在於成熟的行業,這類行業竟爭充分,需要數據支持來保持竟爭力,企業內部數據用來監控企業運營,企業外部數據用來響應竟爭對手和市場變化。
2、拓荒型經濟活動,大都在新興行業,沒經驗可循,也收集不到足夠的數據支持,如果有人拿數據說這類拓荒型經濟活動,那她是十足的騙子,這類經濟活動靠的是人類的預判能力,預判就是事前判斷,沒有數據支持。
因此著手數據時,首先要清楚自己的行業是哪一種類型,然後弄明白自己的目的,根據目的著手數據收集和分析,現在的數據造假能成為產業,因此要明白一個道理,數據為人服務,不要本末倒置唯數據論,馬雲現在鼓吹數據就是生產力,那是因為他有數據,並且很大一部分數據是人造的而非天然的,馬雲∽阿里巴巴不是靠數據長大的,而是他對趨勢的精準預判能力。
樓上說的都好高端,我說個簡單的吧。
之前寫過一篇:
楚馨:教你快速確定產品價格--從賣內衣說起
分析的數據都是公開數據,如果有自己的數據分析框架,操作是很簡單的,無非簡單的乘除法,再加個vlookup。
再貼一張今天做的圖,數據來源為淘寶某品類銷量排名前100:
為什麼2000-2500這個價格區間會出現銷量(465)與競爭對手數量(9)的斷崖式下跌?
不知道...
所以我要做一個決策了:
是跟著大眾的感覺走,選擇其他區間呢?
還是選擇切入這個可能有縫隙的價格市場?
在線等,急:)
從找一家你剛興趣行業的公司做起。
推薦閱讀:
※如何評價北京朝陽大悅城的數據分析手段及其基於數據的運營?
※在家做飯比在外面吃飯哪個比較便宜?
※運營一個 App 需要運用哪些數據?
※從數據分析來說明dota2的炸彈人是否影響遊戲平衡?
※怎麼用別人的數據,發表自己的文章?