如何迅速成長成為一名數據分析師?

如從編程零基礎,知道一些簡單的統計知識的情況下


數據分析最重要的可能並不是你熟悉的編程工具、分析軟體,或者統計學知識,而是清楚你所使用的統計知識(統計學、計量、時間序列、非參數等等)背後的原理、假設及其局限性,知道各種數據分析工具(例如數據挖掘)能帶來什麼,不能帶來什麼,看到一組統計檢驗的結果你能言說什麼,不能言說什麼。這一切的背後,需要一套完整的「科學」邏輯框架,讓你了解自己手中的工具的本質,你才能從數據中「正確地」發現有效的信息,而不是胡亂地使用一大堆自己都搞不清楚的工具來堆砌分析結果,這樣得到分析結果不僅無用,而且有害。

知道了這些後,希望成長為「數據分析師」,就需要著手訓練自己的能力和洞察力。既然是「數據分析師」,那就分別從「數據」和「分析」兩方面入手。

「數據」當然包含了數據收集、處理、可視化等內容,每個環節對於最後的結果都有關鍵性的影響。其中涉及的技術性內容只是一部分而已,更重要的是你要理解數據收集(是否存在採樣偏差?如何糾正或者改進?)、處理(是否有漏洞或異常情況沒有考慮?)背後的邏輯。

例如:如果分析股票數據用於設計交易策略,那麼你不僅需要明白數據處理本身的問題,還要清楚金融市場的基本知識。例如,使用股票價格時,到底要用收盤價,還是復權價;復權價的話要用前復權價還是後復權價。這些選擇與數據分析沒有太大的關係,純粹決定於你分析的目的是什麼。因此你要充分了解這些概念背後的邏輯、動機是什麼,才能正確地根據自己的目的作出選擇。

數據可視化更多的是一門藝術:如何把信息以最恰當的方式呈現給希望獲得這些信息的人。首先,你要充分理解這些信息究竟是什麼,有什麼特點,你才能較為恰當的選擇採用的可視化工具。

另外一部分就是「分析」。當然就是各種分析模型,還是需要了解這些模型背後的邏輯,要放到整個項目的上下文中去看,而不是單純地在模型中看。

總而言之,「理解」數據以及其中的信息是非常重要的,這決定了你的分析和呈現的方法是否合適,決定了最後的結論是否可靠。

現在可以回答題主的問題了:成長為一個數據分析師,要注意「理解」你的知識,形成一個系統,而不是像機器人一樣機械地胡亂套用模型。在這個理念下訓練你的編程能力,了解你所分析對象的原理和儘可能多的細節。在這個基礎上,才能談數據分析。


從業多年,跨行業,跨專業,跨公司文化,跨地域,覺得有些東西可以分享。

我認為數據分析/數據科學/商業智能(或是其它類似名字)的職業,最核心的部分在於兩點:

"業"更偏向於你的soft skills,你的理解能力,分析能力,溝通能力,mind-set。其中當然包括最重要的一個能力:

將複雜的商業問題轉化為數學模型,並利用編程能力進行分析,預測和評估,再轉化為合適的Business Plan,執行。

你可以看到,這是一個生態圈,其中並不是只是包含了其它答案所描述的數學模型,統計理論,也不只是包含用什麼工具sas,r,excel。總結來說是一種完全設身處地去為商業模型思考的mind-set。這是我很多國內數據從業者身上很少看到的。很多同事更喜歡強調自己的統計模型多好,演算法多牛,當然,別理解錯,這些優化都是好事,但從一個Business function (我把analytic當作一種服務我們的商業目標的商業職能) 的角度來說,這只是一個從過程中的小部分。這可能是因為很多大型企業,比如銀行,電商,IT,智能太細分導致,很少有人能真正退一步去思考我們做分析的意義何在,如何落地,能賺多少錢。

我會在文章後面分享一些書。這些書是我親身讀過,和老闆,同事都有溝通過的好書。希望對你們有幫助。

"術"更偏向於你的技術,包括你的數學,統計,編程,硬體的技術。這個技術對很多技術愛好者來說是數據分析最有意思的一部分,但對很多更喜歡business的朋友來說,很乏味。當然,沒有好與壞,高級和低級的區別。術業有專攻就是這道理,譬如我們公司,Data science for infrastructure engineering負責數據倉庫的朋友工資反而最高。 而抽象一點去說:

為了解決商業問題所需要的技術,能力。

看到這裡你應該明白了,很多時候我們說的數據分析師實則是這個層面的。而再細分,這個技術其實分為三層:

  1. 統計理論,模型
  2. 資料庫查詢類編程SQL
  3. 底層數據存儲技術hadoop, hive, spark, etc.

成為一個合格的數據科學家,你需要上面1,2的本事。有能力利用統計模型解決問題,也有能力通過編程將這些模型實現,並且自動化。這裡很多人爭論SAS,R,Python,SPSS,在我看來,無非只是工具,都是相同的,只要能用就好。而數理統計,則是要同時結合Q quant和P quant(具體請參照數說工作室,具體名字我忘了,一個微信號)。區別在於一個強調隨機概率,一個強調根據歷史數據的統計。所以,基本理論要知道,比如如何判別模型顯著,如何優化模型。基本模型也要會,回歸,Clustering, sequence analysis等等。只有精通這些模型,才能知道怎麼從統計角度去解決商業文體。analytic裡面經常有個說法:

  • report 告訴你過去發生什麼
  • BI告訴你現在發生什麼
  • modeling 告訴你將來發生什麼

其中的意義可以好好體會一下。

再到資料庫查詢,那基本SAS,SQL,python的指令要會,這些花不了太多時間去學,但是用得好就很關鍵。俗話說80%的時間data cleansing, 20%作模型。大家體會下。因為CS出身,所以編程好些,處理數據確實幫我省了不少時間。

這裡再強調一個mind set很重要:作模型,是要在結論,結果符合商業邏輯的前提下進行詮釋。我看到很多剛畢業的stats的人,很喜歡用複雜的stats變數用在模型,結果當然模型很fit,但是卻很難解釋。這一點一直都很有爭議,不是因為用了不好,而是用的話你要知道用這個變數的好與壞是什麼。比如很多人喜歡用interaction變數放在回歸模型,2維,3維,請自行體會下。

最後,底層數據存儲技術。這塊我涉足不深,不敢亂說。但基本體會是,有個高效的,高容錯,高吞吐量,兼容性強的資料庫是做數據分析的基礎。

恩,差不多到這。至於先學什麼後學什麼可以自己根據實際需求安排下。需求drive學習,學得很快的。

後面附上我的豆瓣reading list,祝大家玩得愉快。
Road to Data Scientist 數據科學家之路


樓上說的太過專業
我只想用最簡單的白話來解釋一下我的理解!

既然說是數據分析師,而不是數據愛好者,那麼專業程度是必備的。
現在網上很流傳什麼小黃書,小藍書。。 我承認,這些書寫的很好(我都看過),趣味性很強,很容易吸引人的興趣。但是我不得不說他們不夠專業,不夠系統。
首先,作為一名數據分析師,專業的統計學知識是必不可少的,所以找一本專業的教材去好好的研究下吧(那些大學用的教材就好,別懷疑,這些教材是最好的)。 雖然很枯燥但是很必要。 如果你連基本的統計學知識以及這些知識背後的理論都不能理解,那麼你永遠無法真正的進入到數據分析師的行列。
在你學完統計學之後,你可以再看看這些小黃書,小藍書什麼的,你會對書中所說的案列有一個更專業,更深層次的理解。而不是僅僅停留在趣味上面。
作為數據分析師(專業的數據分析師), 學會一個專業的數據軟體是必需的。
最簡單的是EXCEL,它不僅是簡單的而且是必備的。正所謂初級學圖表,中級學函數透視表,高級學習VBA. EXCEL功能的強大只有那些正真學過它的人才能知道,我反對任何關於EXCEL複雜,不實用的說法。 我自學了EXCEL 1年,在學完VBA之後,我不得不說EXCEL幾乎能解決你在日常工作中遇到的所有問題。(記住:我說的是幾乎)
剩下的我推薦 SPSS,SAS ,R 。 在這裡我推薦R,因為它無所不能,而且永久免費。
SPSS雖然簡單,但是不靈活
SAS強大的令我有點不太想形容它,如果你想做數據挖掘,SAS是你的必備。 但是作為初學者,我只推薦R和EXCEL。
接下來,你需要向高級數據分析師進軍,你需要讀專業的數據挖掘書籍,記住:是專業書籍。裡面的很多理論可能你這輩子都用不到,但是它所講到的數據分析過程,理論形成的方法會一直指引著你。
最後,不要盲目的做數據分析。你需要且必須懂得一個領域的專業知識。比如說:管理理論,消費者理論,金融理論。 只有掌握了這些正確的方法理論,你才能正確有效的,有目的的進行數據分析。
學習任何一門知識都是永無止境的過程,你需要不斷的讀書,思考,增添你的知識。數據分析尤其如此,大數據更新的速度是我們無法料及的,我們要隨時補充自己的專業知識,拓展自己的視野。


半個月前看到這篇,剛開始覺得不太理解Avinash為什麼會寫一篇這麼宏觀的文章,但是仔細讀完發現這篇文章把整個數據分析生態系統概括的恰到好處,並且以他多年的實戰經驗告訴大家每個階段要做什麼,會遇到什麼問題,需要多少時間等等,因此我覺得很有必要翻譯過來和大家分享一下,所以在導師宋星老師的指導下把這篇翻譯過來,希望對你有幫助。

註:歡迎關注微信公眾號「數字營銷與數據分析」

http://weixin.qq.com/r/8nQvN9HEP4xArZVU9yHg (二維碼自動識別)


【正文】

人們一談到數據分析,總覺得很複雜,可望而不可即。

是的,其中有一些確實很複雜。比如第一方cookies、第三方cookies,以及跟蹤用戶、設備、網站瀏覽器以及其他信息。

但是有些要比你想像的簡單很多很多。

幾天前,我主持了一場關於網站分析領域的討論會,這裡聚集了很多網站分析領域的大咖以及一些新人。在此期間,我找了個時機畫了一張關於數據分析的生態圖,從圖上看,數據分析真的沒那麼難。接下來我會慢慢闡述每一塊拼圖並且解釋這些拼圖之間是如何串聯起來的。

拼完所有的圖片,你會得到一張很實用有趣的圖,這張圖是一條通往優秀分析師的捷徑。我想在這篇博文里和大家分享這些。

不管你在數據分析領域有多少經驗,我相信你都能從中找到價值,哪怕你是某個領域裡的大咖,這將有助於你去向你的上級表達你的想法並且讓他理解你正在做的事情。

那我們按照以下步驟來理解數據分析,我敢說你一定會對數據分析有重新的認識。

Step1 數據分析生態:數據分析的核心因素

Step2 數據分析生態:數據分析的數據投入

Step3 數據分析生態:數據分析的價值輸出

Step4 數據分析生態:分析師三個必經階段

Step5 數據分析生態:各階段的時間成本

看到這幾個階段是不是很興奮?這個過程你會發現很多有用的技巧,去深入的研究,一定會獲得一些新的洞察的。

那現在開始吧

Step1 數據分析生態:數據分析的核心因素

在數據分析中最核心的工作是理解度量的概念。你或許是這樣定義度量的:它只是個簡單的數字。

你的數據分析工具里充滿了度量,一個平均數、一個總和或者某個百分比……


有一類度量很特別,因為他們要直接和KPI(Key Performance Indicator)掛鉤。KPI是一個能夠幫助你明白你的目標完成情況的度量。

這意味著如果你不知道你的商業目標,你是無法設定KPI的。例如X電商網站,轉化率可能就是一個KPI,因為他們當前的目標是和業務趨勢緊密結合的。而Y網站的KPI可能是訂單平均價值。這完全取決於你對業務目標的理解。

請記住:如果你不知道你要去哪裡,那你哪裡也去不了,並且你會迷失自己。

同時,也沒有哪個萬能的KPI讓每個人覺得都適用,因為每家公司都有自己的戰略目標。當然,有些度量是無論如何都不會成為KPI的,一個很好的例子就是跳出率,因為哪怕你的跳出率從100%降到10%,這對你的業務不會產生任何大影響,跳出率降低只能告訴你用戶在跳出前多看了一個頁面,這固然很好,但是很難有什麼決定性的作用。

在你制定KPI的時候請記住這個很重要的警告——了解你的業務目標。

現在你已經有你了數據分析的基礎——度量和KPIs。接下來一層是維度。什麼是維度?維度就是你網站訪問者的屬性。


流量來源、關鍵詞、引薦網站、廣告活動和國家,這些都是維度的例子。再比如,網頁或視頻名稱、設備等也可以是維度。這看起來有點奇怪,但是這些確實都是可以作為維度的,那麼如果你對這些數據進行跟蹤,這會產生很大的價值。

通常情況下,在我們的表格中,維度出現在行里,而度量和KPIs出現在列里。

現在我們擁有了創造美妙音樂的主要材料(譯者註:打比方,比喻可以做優秀的數據分析),同時我們要通過自定義報告(我最喜歡數據分析工具)來實現這一步。

請注意,我說的不是標準報告,我說的是自定義報告。因為在這裡我要強調網站報告和網站分析的區別。當你開始使用自定義報告,你將不得不盯著一張白紙,然後找出到底發生了什麼。如果想讓你的分析工作更加出色,你將不得不和你的領導、同事、客戶交談,並且明白你要回答他們哪些問題。接下來為了更出色地完成工作,你肯定不希望自己隨便做點事就交差了,你必須找到這些問題的最終答案。


所以,如果可以,你就製作自己的自定義報告吧。如果你喜歡,可以先從我的網站上下載我最喜歡的三個自定義報告或者三個SEM廣告分析的自定義報告。

在這個階段,你的直接領導會非常開心的,好像你真的發現了很重要的問題(但任何事情都不是一蹴而就的 ),這將持續四到六個月,我真心希望你能喜歡這樣的感覺。

在這個階段即將結束的時候,你將會注意到一件事,就是將小孩和成年人分開了。高級細分(譯者註:將整體數據按照不同的類型進行分類,以便深入分析)是很重要的功能,原因很簡單,因為把所有的數據完全堆砌在一起,這對分析是毫無益處的。

為了讓你真正理解你的業務、客戶和收入,你需要把數據細分,需要把數據按照不同類別去細分分析,無細分,毋寧死 :p


為了讓自己分析出可行的洞察,你需要從看宏觀的數據到聚焦細分的微觀數據。

現在核心的元素都介紹完了,包括度量、KPIs、維度、自定義報告和高級細分。這部分已經沒有其他要添加的內容了,在數據分析生態里其他的元素都是圍繞著這五個核心元素的。

Step2 數據分析生態:數據分析的數據輸入

數據輸入分三個階段,讓我們從下圖的左側開始吧。

正如上文提到的,要將度量設定為KPIs(當然還要關注度量和高級細分),你需要很清楚你的業務優先順序,這部分很好理解。


要知道業務的優先順序,你需要從你能接觸到的公司的最高領導那獲取相應的信息。你可以聯繫你的CMO或者CEO,這是值得去做的。很多的數據分析結果都會石沉大海,因為很多分析師都會痴迷於他們所感興趣的分析結果,而不是老闆們所關心的內容。不要犯這樣的錯誤。

接下來讓大家看一些真正有意思的內容,不管你的業務有多大。

接下來的數據投入是你的競爭現狀相關的數據。關注那些你知道或者不知道的競爭對手,剛開始的時候可以通過問你的CMO或者CEO:我們的競爭對手是誰,是誰讓你們徹夜難眠?然後去Google(或者Yandex、Baidu和Seznam)輸入和你業務相關的關鍵詞,看看自然搜索和付費搜索結果,不管你喜不喜歡,這些就是你的競爭對手。


研究一下他們的優勢在哪裡?他們在哪些地方和你做的不一樣(不管是比你好的還是比你差的)?他們的流量從哪裡獲取?他們的訪客的趨勢是什麼樣的?這些競爭情報分析都是絕對重要的數據投入,因為這樣可以確保你的業務優先順序是更加合理的。你設定正確的KPIs和高級細分,這直接決定了你要如何設置你的自定義報告。

競爭情報分析不需要每天都做,但是下圖左側最底下部分的投入將會是新機會分析方面的內容。


新的機會將會讓你的業務有完全不同的發展方向。最起碼這將會在戰術和戰略上很大程度地影響你的分析。做好準備,主動地挖掘並找出答案,讓自己成為一個更優秀的數據分析師。

以上就是左側三個部分的內容。

接下來,在頂部和底部將放上你想看到的核心內容。

分析師/大腦(Analysts/Big Brains)放在頂部。

工具放在底部。把工具放在底部不是因為工具不重要,僅僅是放在底部而已。

回到2006年5月,當時我創立了10/90法則,工具做作用就是要比分析師的作用小一些。大家不要對這個結論覺得驚訝。

這裡補充一下10/90法則:如果你有100美元將要投入到數據里,聰明的做法是將10美元投入到工具和部署諮詢上,另外的90美元要投入到分析師(或者大腦)上。

不管你的數據有多少,不管你的工具有多強大,如果你離10/90法則太遙遠,那一切關於大數據的承諾都是不會實現的。

人很重要,聰明的人更重要。工具只是用來輔助他們的,千萬不要本末倒置。

以上是這個圖片完整的三個部分。你可能會擔心到目前為止你只看到投入,是的,一點都沒錯,但是這會給我們之後的工作帶來大量優質的原材料。

Step3 數據分析生態:數據分析的價值輸出

不管我們想輸出多少,第一批要輸出的就是清洗後的數據(譯者註:很多數據會受污染,需要清洗數據才能排除臟數據的干擾)。


輸出清洗後的數據是自然進化的一部分,當你擁有數據的時候你會非常興奮,你迫不及待的想要一吐為快。很多人可能沒有見過數據,所以當他們見到跳出率或者目標路徑報告(Reverse Goal Path )的時候會非常興奮。

你要迅速克制這種興奮的心情,並且你的公司要迅速跟上你的節奏,如果公司只是讓你製作更多的報告,並不過問你更多的洞察,這很有可能是你進入一家不好的公司或者職業生涯出現問題。

通常只要一兩個月,人們就能意識到這些沒有處理過的數據是沒有用的,然後轉向去問你要他們需要的其他有用的數據,這是一個很好的信號,接下來讓我們進入自定義可用數據(CDPs)階段。


這是一個很棒的階段。付費搜索廣告(SEM)團隊會找你要數據,內容製作團隊會找你要頁面價值方面的數據,著陸頁優化團隊會找你要關於網站或者APP的周期性報告,等等。

他們會向你要些沒用的指標數據,即使這樣,他們還會一直要數據。好了,那麼你怎麼才能給他們一些真正有用的數據?

你想讓他們知道他們並不是分析師,他們不懂得如何為數據做細分分析,他們不懂得去深入分析找本質原因,他們更不懂得如何創建自定義分析需求去解決一些很難的問題。但是他們會很快的解決這些問題,給他們幾個月時間就夠了。

在這個輸出階段,最後一部分是:洞察、行動和業務影響。

如果公司開始要你輸出這些東西時,你的目的就達到了。


洞察(Insights)是數據的產物。最常見的就是「數據顯示X現象,當我們深入分析之後,找到了Y和Z兩個原因。」大多數分析師到這就沒有繼續深挖了,因為這是他們在所有圖標中能夠看到的東西,但是要想進一步提升,你必須再次深挖造成Y和Z的原因是什麼。

行動(Action)是商業很重要的一個環節。最常見的業務情形是「這個列表上的關鍵詞在搜索引擎廣告上要有3倍的投入」「要關注佛羅里達的A、B、C三個產品和阿姆斯特丹的Z產品」「因為X原因,我們要對視頻廣告進行投入」等等。行動是商業中很特別的事情,你作為分析師必須要確保有這樣的見解並提出來,而不僅僅做一個撰寫報告的人。

最後是業務影響(Business Impact)的評估,這主要在於你的公司採取了行動後將會給公司帶來哪些影響。最常見的場景是「對這列表上的關鍵詞在搜索引擎上投入三倍以後會給我們每周增加89.3萬美元的收益」「關注特定地區的特定商品將會增加657%的利潤」

以上就是整個圖片的所有內容了。

看起來沒那麼複雜吧。五個核心元素和周圍相應的輸入和輸出。

如果你是一個領導角色或者想成為領導角色,接下去兩個部分會非常有價值。接下去將會看到如果你要執行制定好的戰略,你要走哪些階段,並且要清楚,為了獲得成功哪些團隊應該放在這個生態系統中的哪個部分。

Step4 數據分析生態:分析師的三個成長階段

很多人進入數據分析領域總想做些變革,但是失敗了。在網站分析方面,只要做改革就夠了。一個改革性質的戰略是無法讓公司一夜間突然變強大,但是它能使每個人都能更好地在一起共事。

我喜歡這樣的做事方式,做一件自己認可的事,做到極致,然後帶動你身邊的人一起把事情做到極致,接著一直傳遞下去。

如果你只是一個數據分析領域的菜鳥,你會發現你最好的做法就是將戰略執行下去。如果你的公司沒有做的很好,你需要指出為什麼事情會這麼混亂或者你為什麼沒有取得更多的進展。

這個階段,你做任何執行對於公司、個人能力等都是微不足道的,但是我將會從我多年的工作經驗中告訴你一些在剛接觸這個行業時該怎麼做會獲得最大的收穫。

我相信大部分人經歷以下三個階段就能夠做的很出色了。

階段一:全部都是關於獲取數據。首先部署工具並確定第一批要監測的度量,這樣有助於讓你去理解公司業務的優先順序。

這樣可以讓我們及時完成KPIs和維度的設定。好了,第一步到第五步就是你上面所介紹的。


階段二:全部關於數據報告。此階段從輸出沒有經過任何處理的數據開始,這將幫助公司意識到很多事是工具做不到的,從而讓公司趕緊給分析師更多的投資。請記住要給分析師更多的回報,因為如果你扔出去的是花生,你只能招來猴子。


接下來我們很順理成章的進入到自定義報告和CDPs(沒有經過任何處理的數據),這個階段的最後一步是高級細分。

接下去的這個階段是很少人能夠到達的。

階段三:全是有關於對數據分析領域有顛覆性的事情。

這個階段從識別洞察開始。然後作為行動,試著發一封郵件並用英語描述重要的部分,包括數據要表達的意思以及這樣做的原因。接下來轉移到競爭情報部分,這部分內容將會對我們造成很大的影響,甚至會影響到我們的公司戰略和數據分析。


估算每個行動對業務產生的影響是非常艱巨的。你必須要很擅長預測性的分析,並且要能夠和其他團隊溝通,包括財務部門,了解業務趨勢。最後你只需要弄清楚整個實施的過程,然後評估新的商業機會並將其轉化為價值。

好了,總結一下,第一個階段是培養自己熟練掌握獲取數據的能力;第二個階段就是鍛煉自己做數據報告的能力;第三個階段是數據分析能力的培養。

Step5 數據分析生態:各階段的時間成本

做這些事需要多長時間雖然取決於你自身的很多因素,那請允許我分享一些我這些年工作中積累的經驗。

如果你現在才開始接觸數據分析,那你需要花費6個月的時間才能完成階段一。這包括分析工具的部署等問題(你不需要掌握所有工具的部署)。

第二個階段將要花費6-12個月。此時你的領導團隊也在評估你的工作,他們會給你更多的錢去購買工具,然後制定更合理的戰略。

第三個階段是無止境的,但是這也至少需要花費9-12個月讓你掌握這個階段的技能,這樣你就可以達到一個能夠為公司創造獨特價值的高度了。

第三個階段是你不斷進步的過程,你只會越來越優秀。

我希望這篇博文能幫你認識到整個數據分析的生態系統,讓你知道每個階段要做的事情以及所要花費的時間。

還有很多的事情要做,比如努力工作並堅持下去。

文章主要內容介紹到這了。

現在輪到你了,如果有需要討論的,可以聯繫我。

Wechat:305434975


本文將從一個數據分析師的所需要的整體知識框架和能力入手,和大家分享一個優秀的數據分析師是怎樣煉成的。
主要會講數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。


近些年,互聯網公司對數據分析師崗位的需求越來越多,這不是偶然。

過去十多年,中國互聯網行業靠著人口紅利和流量紅利野蠻生長;而隨著流量獲取成本不斷提高、運營效率的不斷下降,這種粗放的經營模式已經不再可行。互聯網企業迫切需要通過數據分析來實現精細化運營,降低成本、提高效率;而這對數據分析師也提出了更高的要求。本文將和大家分享數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。


Part 1 | 數據分析師的前世今生

在介紹數據分析師之前,我們先來看一下這幾個歷史人物,看看他們都跟數據分析師有著怎樣的淵源?

(歷史上大名鼎鼎的「分析師」)

上面展示的六個歷史人物(從左往右,從上往下)分別是:張良、管仲、蕭何、孫斌、鬼谷子和諸葛亮。他們是歷史上大名鼎鼎的謀士,有的還做過丞相。他們博覽群書、眼光獨到,通過對大量史實進行總結髮現了很多規律,並且在實踐中成功預測了很多事件。他們通過 「歷史統計——總結分析——預測未來」的實踐為自己的組織創造了絕大的價值,而這就是「數據分析師」的前身。

那麼現在,數據分析師需要哪些必備技能,如何成為一名優秀的數據分析師呢?

Part 2 | 數據分析師的價值金字塔

一個完整的企業數據分析體系涉及到多個環節:採集、清理、轉化、存儲、可視化、分析決策等等。其中,不同環節工作內容不一樣,消耗的時間和產生的價值也相差甚遠。


上面這幅圖是「數據分析師的價值金字塔」。

互聯網企業數據分析體系中至少有三方面的數據:用戶行為數據、交易訂單數據和CRM數據。工程師把不同來源的數據採集好,然後通過清理、轉化等環節統一到數據平台上;再由專門的數據工程師從數據平台上提出數據。這些工作佔用了整個環節90%的時間,然而產生的價值卻只佔10%。

這個金字塔再往上數據分析就和業務實際緊密結合,以報表、可視化等方式支持企業的業務決策,涵蓋產品、運營、市場、銷售、客戶支持各個一線部門。這個部分佔用了整個環節才10%的時間,但是卻能產生90%的價值。

一個優秀的商務數據分析師應該以價值為導向,緊密結合產品、運營、銷售、客戶支持等實踐,支持各條業務線發現問題、解決問題並創造更多的價值。


Part 3 | 數據分析師必備的四大能力


1. 全局觀

某日,產品經理跑過來問我:Hi, 能不能幫我看一下昨天產品新功能發送的數據?謝謝!條件反射我會說:好,我馬上給你!不過我還是禮貌性地問了一句:為什麼需要這數據呢?產品經理回復道:哦,昨天新功能上線了,我想看看效果。知道了產品經理的目的,我就可以針對性地進行數據提取和分析,分析的結果和建議也就更加具有可操作性。

很多時候,數據分析師不能就數說數,陷入各種報表中不能自拔。一個優秀的數據分析師應該具有全局觀,碰到分析需求的時候退一步多問個為什麼,更好地了解問題背景和分析目標。

2. 專業度

某企業的數據科學家針對用戶流失情形進行建模預測,最終得到的用戶流失模型預測準確率高達90%多。準確率如此之高,讓商務分析師都不敢相信。經過檢驗,發現數據科學家的模型中有一個自變數是 「用戶是否點擊取消按鈕」 。而點擊了「取消」按鈕是用戶流失的重要徵兆,做過這個動作的用戶基本上都會流失,用這個自變數來預測流失沒有任何業務意義和可操作性。

數據分析師要在所在行業(例如電商、O2O、社交、媒體、SaaS、互金等等)展示她/他的專業度,熟悉自己行業的業務流程和數據背後的意義,避免上面的數據笑話。

3. 想像力

商業環境的變化越來越快、越來越複雜,一組商業數據的背後涉及到的影響因素是常人難以想像的。數據分析師應該在工作經驗的基礎上發揮想像力,大膽創新和假設。

根據矽谷公司的核心 KPI(Facebook 的 4-2-2 準則,LinkedIn 的 connection 規律),我們也想找到互聯網企業驅動增長最核心的 KPI。基於我們的想像力和「無埋點」全量數據採集的優勢, 我們創造了「GrowingIO 留存魔法師」 。通過全量採集的數據,智能自動的後端計算,以及簡單的使用交互,留存魔法師可以幫助企業迅速找到與其留存最相關的用戶行為,就像魔法師輕輕揮動魔法棒一樣簡單。例如某 SaaS 產品 ,在一周內創建過 3 個圖表的用戶(群)留存率非常高,那麼「一周+3個+圖表」就是我們驅動用戶增長的魔法數字。

4. 信任度

以銷售崗位為例,一個銷售人員首先要和用戶建立起信任;如果用戶不信任你的話,那他也很難信任或者購買你的產品。同理,數據分析師要和各部門同事建立良好的人際關係,形成一定的信任。各個部門的同事信任你了,他們才可能更容易接受你的分析結論和建議;否則事倍功半。


Part 4 | 數據分析常見的七種思路

1. 簡單趨勢

通過實時訪問趨勢了解產品使用情況,便於產品迅速迭代。訪問用戶量、訪問來源、訪問用戶行為三大指標對於趨勢分析具有重要意義。

(分鐘級的實時走勢分析)

(以星期為周期的趨勢對比)


2. 多維分解

數據分析師可以根據分析需要,從多維度對指標進行分解。例如瀏覽器類型、操作系統類型、訪問來源、廣告來源、地區、網站/手機應用、設備品牌、APP 版本等等維度。

(多維度分析訪問用戶的屬性)


3. 轉化漏斗

按照已知的轉化路徑,藉助漏斗模型分析總體和每一步的轉化情況。常見的轉化情境有註冊轉化分析、購買轉化分析等。

(多維度分析訪問用戶的屬性)


4. 用戶分群

在精細化分析中,常常需要對有某個特定行為的用戶群組進行分析和比對;數據分析師需要將多維度和多指標作為分群條件,有針對性地優化產品,提升用戶體驗。

(購買過產品的、資金已贖回的、過去 14 天內有強力購買意願的用戶)


5.細查路徑

數據分析師可以觀察用戶的行為軌跡,探索用戶與產品的交互過程;進而從中發現問題、激發靈感亦或驗證假設。

(通過細查路徑分析用戶的行為規律)


6. 留存分析

留存分析是探索用戶行為與回訪之間的關聯。一般我們講的留存率,是指「新增用戶」在一段時間內「回訪網站 / app」的比例。 數據分析師通過分析不同用戶群組的留存差異、使用過不同功能用戶的留存差異來找到產品的增長點。

關於更詳細的留存分析,可以看我這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · Magic Number


(留存分析發現「創建圖表」的用戶留存度更高)


7. A/B 測試

A/B 測試就是同時進行多個方案並行測試,但是每個方案僅有一個變數不同;然後以某種規則(例如用戶體驗、數據指標等)優勝略汰選擇最優的方案。數據分析師需要在這個過程中選擇合理的分組樣本、監測數據指標、事後數據分析和不同方案評估。


Part 5 | 數據分析實戰案例

某社交平台推出付費高級功能,並且以 EDM(Email Direct Marketing,電子郵件營銷)的形式向目標用戶推送,用戶可以直接點擊郵件中的鏈接完成註冊。該渠道的註冊轉化率一直在 10%-20% 之間;但是 8 月下旬開始註冊轉化率急劇下降,甚至不到 5%。


如果你是該公司的數據分析師,你會如何分析這個問題呢?換言之,哪些因素可能造成 EDM 轉化率驟降?

一個優秀的數據分析師應該具有全局觀和專業度,從業務實際出發,綜合各個方面的可能性。因此,EDM 註冊轉化率驟降的可能性羅列如下:

1. 技術原因:ETL 延遲或者故障,造成前端註冊數據缺失,註冊轉化率急劇下降;
2. 外部因素:該時間節點是否有節假日,其他部門近期是否有向用戶發送推廣郵件,這些因素可能稀釋用戶的注意力;
3. 內部因素:郵件的文案、設計是否有改變;郵件的到達率、打開率、點擊率是否正常;郵件的註冊流是否順暢。

經過逐一排查,數據分析師將原因鎖定在註冊流程上:產品經理在註冊環節添加了綁定信用卡的內容,導致用戶的註冊提交意願大幅度下降,轉化率暴跌。

一個看似簡單的轉化率分析問題,它的背後是數據分析師各方面能力的體現。首先是技術層面,對 ETL(數據抽取-轉換-載入)的理解和認識;其實是全局觀,對季節性、公司等層面的業務有清晰的了解;最後是專業度,對 EDM 業務的流程、設計等了如指掌。

練就數據分析的洪荒之力並非一朝一夕之功,而是在實踐中不斷成長和升華。一個優秀的數據分析師應該以價值為導向,放眼全局、立足業務、與人為善,用數據來驅動增長。


本文作者陳明 Justin,GrowingIO 聯合創始人 運營副總裁。陳明畢業於斯坦福大學,先後就職於 eBay、LinkedIn 數據分析部門,有豐富的商務分析經驗。

註:文中實時分析、留存、用戶分群等功能截圖來自 GrowingIO - 矽谷新一代數據分析產品


5月10號更新 - 最近太忙,辛苦大家待了。沒想到那麼多人....


我把答案更新在另個問題上了。 - 如何快速成為數據分析師? - 知乎用戶的回答


我整理了國外的大數據免費教程,推出一套網路自學攻略。

註:

  • 這是非常技術流的教程,涉及大數據處理,電腦編程和統計學。如果你的目標是Excel sheet,PowerPoint和商業諮詢市場分析類型,或者 不涉及複雜演算法的 BI 分析,你不需要這個教程。
  • 針對大數據(1 TB+ )的處理和分析(如果你的數據只是幾個Excel sheet,請略過)
  • 所有教程內容都是英文,你可能需要翻牆(後果自負)。

教程亮點:

  • 全部免費哦!
  • 幫助完全沒有概念的菜鳥快速入門(教授基礎的統計學和編程知識, 無需基礎但要有常識)
  • 從數據採集,分析,到最終可視化展示,教授大數據分析全過程的重要理念,方法和工具。
  • 所需時間:310+ 小時。
    • 菜鳥:要那麼長時間?太慢了?
    • 回答:什麼?啥基礎都沒有,想要多快?你學了9年英語還要3個月新東方考GRE呢。
    • 菜鳥:我有些學過了
    • 回答:你不會跳過啊,菜鳥。

申明:我在英文環境下學習和培養的專業能力,很多術語的中文名稱不了解,歡迎拍磚。

這個教程包括以下幾個方面:

基礎課程:

  • exploratory and predictive statistics (統計學:檢測數據和預測分析)
  • basic Python (Python編程基礎)
  • advanced computer program design (電腦程序設計原理,進階)
  • an introduction to algorithms (演算法基礎)
  • R for statistical analysis (使用 R 做統計分析)
  • practical machine learning techniques (機器學習 基本技法)
  • Unix
  • data visualization best practices (數據視覺化展示 技巧)

進階可選套餐:
套餐A - 展示: Visualizing Data 數據視覺化
套餐B - 演算法:Analyzing Social Networks (社交網路分析)
套餐C - 技術: Big Data: Hadoop and MapReduce (大數據,Hadoop 和 MapReduce技能)

作為一個需要花費時間整理的攻略,不知道以上內容大家是否剛興趣。如果點贊人數超過50人,我就繼續把教程寫出來。


學習數據分析的三個階段:


學習數據分析中的第一階段:理論的學習(初級階段:迷茫階段)

這個時期,猶如海綿,看見什麼,就往進吸,東西學得很多,但不能上手,遇上問題卻一臉懵逼。這是一個非常可怕地時期,因為它可能把自己的學習興趣扼殺在搖籃里。


學習數據分析中的第二階段:構建數據體系方法論(進階階段:迷戀階段)

這個時期也是數據分析的迷人之處。 愛上了,喜歡了、做夢都在想了,是這個時期的明顯特徵。


學習數據分析中的第三階段:業務和理論的實踐(高級階段:堅持階段)

這個時期,能夠熟練將理論和實踐相結合。因為堅持,然後樂趣橫生,興味怏然。你成功了,你走進一個自己才能感受的天堂。當然,最後的堅持,必須在不迷茫以後才能得到,否則,還是過不了「花架子」關。

第一階段:理論的學習——《大道至簡的數據治理方法論》

你有沒有覺得學習數據分析方法時很痛苦?本文,筆者用簡單易懂的文筆總結出來一套易學易用的數據分析方法論,讓初學者快速掌握數據分析方法中最核心、最常用的要點,至少能滿足90%的日常需求。

學習對大多數人而言是一件痛苦的事情,尤其看著厚厚的專業書籍、各種難以理解又缺乏解釋說明的術語定義,會讓這種痛苦加劇。但是有些書或文章能將複雜的理論用非常通俗、口語化的方式講述出來,讓讀者不費勁,一下就能明白。這些內容實在是讀書人的一種福音。說到底,互聯網思維中的用戶思維談了這麼久,教育、培訓類內容的創作者們也應該好好改變一下,站在讀者的角度說話了。

本文談的是數據分析方法。根據筆者對眾多企業的接觸和了解,雖然現在大部分企業都對數據越來越重視,但目前仍有相當多的企業和從業者還沒有摸清數據分析的門道,不知道自己的數據該怎麼分析,希望得專業人員的到幫助。

數據分析方法一點也不神秘

筆者以前學習數據分析方法時也很痛苦,看了不少書,內容很多,但難以記全,更難以運用,後來加入永洪科技(北京永洪商智科技有限公司)給眾多企業做數據分析系統,通過大量的項目實踐,才慢慢能談得上入門。

好的方法論應該是易學易用的。現在,本文就努力嘗試用最簡單易懂的文筆,讓初學數據分析的人看完就能理解並掌握數據分析方法中最核心、最常用的要點,至少能滿足90%的日常需求。做到這一點,必須將博大精深的數據分析方法提煉成人們能記得住的3點,而不是30點,再濃縮到一篇文章的篇幅,而不是一本書的厚度。

1)數據分兩種,維度和度量,分析就是維度和度量的組合

下面是一個最簡單的消費者購物的數據例子。


先不管這個數據表是存在excel里還是資料庫里,只關注數據本身。表裡涉及到的數據項(或者叫欄位)有「訂單ID」、「用戶ID」、「地區」、「年齡」、「訂單金額」、「訂單商品」、「訂單時間」。

這些數據項有什麼差異呢?總體而言,數據分兩種,一種叫維度,一種叫度量(或者叫指標)。上面這個例子里,「訂單金額」是度量,其餘數據項都是維度。

可以看出,度量是具體的計算用的量化數值,而維度是描述事物的各種屬性信息。我們在做數據分析時,歸根結底就是在不停的做各種維度和度量的組合,比如北京地區的訂單金額總和,21到30歲用戶的訂單金額平均數;或者單獨對維度和度量進行數學公式計算,比如所有的訂單金額總和,用戶數(用戶ID的不重複計數)等等。

從數據類型上看,度量都是數值,但是數值不一定是度量,比如訂單ID,雖然是數值,但是不是度量而是維度,而時間、文本類的數據都是維度。有一點需要格外注意,維度和度量是可以轉換的。比如要看「年齡」的平均數,這裡的「年齡」就是度量,要看19歲用戶的訂單情況,這裡的「年齡」就是維度。

對於一個數據項而言,到底它是維度還是度量,是根據用戶的需求而定的,很像量子效應,狀態只有需求確定後才會隨之確定。另外,維度可以衍生出新的維度和度量,比如用「地區」維度衍生出一個大區維度,「北京」、「天津」都對應「華北大區」,或者用「年齡」維度衍生出一個年齡範圍維度,20到29歲=「青年人」,30到39歲=「中年人」,40到49歲=「資深中年人」。再比如上述的平均年齡,就是用「年齡」維度衍生出一個度量。度量也可以衍生出新的維度和度量,比如用「訂單金額」度量衍生出一個金額範圍維度,100元以下對應「小額訂單」,500元以上對應「大額訂單」等等。再比如用「收入」度量和「成本」度量相減,可以得到一個「利潤」度量。

2)做判斷用對比

下面提出一個問題:企業A今年收入8000萬,是高還是低?大家看著這個問題,應該會感到無從判斷,因為沒有參照物,即沒有對比。因此,拿到一個數據,要判斷是好是壞是高是低,必須要進行對比。

首先,企業A可以跟自己比。如果前年收入2000萬,去年收入4000萬,那今年8000萬算很好了。去年收入1個億,今年8000萬就是糟糕了。這叫縱向對比。

其次,企業A也可以跟其他人比。同行的幾家競爭對手企業今年都收入幾個億,那企業A的8000萬就不理想。這叫橫向對比。

第三,企業A還可以對比不同的維度和度量。比如競爭對手都做全國市場,企業A只做山東市場。企業A在山東市場的收入比競爭對手在山東市場的收入高,那麼就本地區而言,企業A做的更好,而放眼全國,企業A做的就有局限。比如如果競爭對手都做了十幾年,而企業A剛做四五年,那企業A就算做的不錯,但如果成立的時間相仿的競爭對手已經過億了,那企業A就算做的不夠好。這叫綜合對比。孩子考試考了95分,家長很高興,因為知道滿分是100分,有參照物。最近一次考試考了80分,家長會發火,因為過去的95分成了新參照物。後來一問,發現這次卷子出難了,孩子已經是班級第一了,就又轉怒為喜,這裡其他孩子就成了參(xi)照(sheng)物(pin)。對比的參照物不同,得到的判斷結論也就不同。為了避免結論片面、不客觀,應該盡量多用綜合對比。

3)找原因用細分

今年利潤下降了,老闆很生氣,下令查找原因,緝拿「嫌犯」。原因怎麼找呢?注意是找原因,不是找理由。很多人往往不知道如何查找原因,最後給出的都是理由。先看一個示例的原因結論是什麼——「因為四季度華南區域洗衣機的銷量下降了,導致了今年利潤的下降」。讓我們分析一下這個原因有什麼特點。我們會發現,這個原因是由時間、區域、產品這三個維度和銷量這一個度量組成的,於是我們可以知道,對於問題原因的查找定位,本質上就是在回答哪些維度下的哪些度量的下降或上升,導致了問題的發生。

這就是在做細分。

我們可以按維度細分,有多少維度,就可以有多少種細分的方向。比如看是去年所有月份都下降了,還是只有某幾個月下降。如果是後者,那麼就可以縮小查找的數據範圍。聚焦到這幾個月後,可以再看是哪些區域下降了,進一步細分。入手的維度的先後順序影響不大,問題原因涉及的維度也無法預知,因此可以從任意一個維度作為入口開始進行細分。

如果出問題的指標有相關的先導指標,則要想進一步挖掘問題原因,細分後還要看不同的度量,比如上述的原因結論示例是「因為四季度華南區域洗衣機的銷量下降了,導致了今年利潤的下降」,問題是「利潤」而原因是「銷量」,因為利潤是通過別的度量計算衍生出來的。

細分無止境,細到什麼地步才夠呢?答案是,到可操作的區間才夠。比如就細分到「四季度利潤下降,其它季度沒有下降」,還是沒有解決問題的辦法,必須細到哪個時間段哪個區域哪條產品線,直到細到某一個最終責任人,才具有可操作性。需要注意的是,在真實情況中,問題往往不一定只有一個原因,而是多個原因綜合起來形成的。

我司永洪科技主推的一站式大數據分析平台軟體,為什麼提供「縮放」和「筆刷」兩種交互操作,就是為了滿足「對比」和「細分」兩種場景。舉一個例子,如下圖,左圖是各產品的收入毛利對比,右圖是各品類利潤趨勢,現在用戶想聚焦到「花茶」品類下的三種產品上,看看它們的利潤如何。


這時用戶就可以使用「縮放」功能,圈選代表這3種產品的3根柱子,點擊「縮放」按鈕,這時左邊圖表只剩下這3種產品,而右邊的利潤趨勢則顯示這3個產品的利潤總和趨勢。這就是在做「細分」。


有人可能會問,這個效果很類似篩選,為什麼不在旁邊放一些篩選器來實現呢?篩選器可以有,但現實情況中,當我們在一個圖表上發現問題,不一定就能很容易地找到與其對應的篩選條件,尤其是散點圖。因此,直接在圖表上選擇會非常方便高效。再舉一個例子,下圖是產品利潤趨勢分析,用戶發現從2009年7月開始,利潤有連續4個月的下滑(如紅框所示),用戶想知道為什麼。


這時用戶就可以使用「筆刷」功能,在趨勢圖上選中這4個月的點,點擊「筆刷」按鈕,同一報告頁面的其他圖表就會淡化,然後突出顯示用戶選中的7到10月在這個圖表上的佔比,所以下圖中左邊的圖表高亮顯示出的矮的綠柱子,就是這些產品在這4個月的銷售收入。


與「縮放」不同,「筆刷」方便用戶將局部數據和整體數據進行對比。因為在上面這個例子中,單純看哪些產品這4個月銷售收入的絕對值低,並不能說明什麼,有些產品本來賣的就少,一定要看哪些產品在這4個月相對表現不好。先判斷數據好不好,再分析原因是什麼,數據分析的環節鏈條基本就算完整了。

怎麼看待機器學習/數據挖掘等這類高大上的東東?

什麼時候去碰機器學習/數據挖掘這樣高大上的東東。一句話,先把上述的數據發分析方法做到遊刃有餘,再搞那些高大上的。不要迷信複雜的演算法,很多企業內部數據分析的大拿,往往都是深度理解業務,用的都是普通的計算方法,就能完成很精彩實用的分析過程。機器學習/數據挖掘等什麼時候會用到?簡單而言,數據項多到人眼看不過來的時候會用到。

如果總共就十來個數據項,每個拿出來單獨出張圖看一眼就看出端倪了,其實就不太需要用挖掘演算法。如果總共幾百個數據項,想看某一個數據項是受哪幾個數據項影響最大,人眼看不過來,用挖掘演算法就比較合適。

第二階段:構建數據體系方法論——《大道至簡的數據體系構建方法論》

本文是「數據化運營方法論系列」文章的第二篇。第一篇《大道至簡的數據分析方法論》之後的講的是「不知道該怎麼分析」的問題,本文講的是「不知道該分析什麼」的問題。第一篇文章更微觀,站在個人分析師角度,本文更宏觀,站在公司層面進行講解。與「不知道該怎麼分析」一樣,「不知道該分析什麼」同樣是很多人常問的問題之一。

事實上,如果知道了方法,雖然不能做到沒有一蹴而就,但是也能明晰如何一步步堅實地打造屬於自己的數據體系路徑。與第一篇文章一樣,本文會用最簡單質樸的語言來講清楚數據體系構建的路徑。簡單來講,就是先梳理出數據指標體系,再將其落地到BI(商業智能,其實叫業務智能更對味)系統里。


一,由上至下地梳理數據指標體系


1.確定目標

這是第一個應該問自己的問題。花大力氣做數據分析,最終為了什麼呢?如果這都沒想清楚,那數據體系肯定無從下手。是想提高用戶活躍度、增加用戶、增加銷量,還是別的什麼目標?這麼一想,好像我都想要。都想要沒有問題,但是會讓工作的邊界無限蔓延,導致事情無法推進。所以,應該從最關心的那個目標/KPI入手。

那麼,什麼問題才是我們最需要關心的目標呢?對於不同領域、不同階段的公司和不同角色的用戶而言,這個問題的答案都不一樣:對於很多公司老闆來說,利潤就是他們最關心的目標;對於非售賣產品/服務的公司或政府而言,也許客戶滿意度是最關心的目標;對於交易平台類公司或早期電商公司而言,利潤不是重點,交易量是最關心的目標。

最關心的目標搞定了,下面是不是可以解決都想要的問題了呢?並不是這樣。大數據帶來的最大一個誤區就是數據量和欄位數越多越好。但是,在真正解決具體業務問題時,我們一定是從大數據的全集中切出相關的一個子集來使用的。

對於單人而言,無論是老闆還是執行層,同時關注的目標/KPI都不宜過多。同時看幾十個KPI,想像一下也知道會很暈,且耗費時間。但是,對企業而言確實有很多KPI都是非常重要的。這該怎麼辦?可以分解到多人,即不同角色一起協作,每個角色關注自己的目標,所有角色合在一起是公司所有目標/KPI的全集。假設老闆最關注的目標是利潤,利潤=收入-成本,可以將這個目標分解為由銷售總監來關注收入,運營總監來關注成本。

當然,並不是說老闆不能看收入,而是把常規性的關注目標鎖定在一個可行的範圍之內

2.分解指標

目標確定了,下一步是分解出相關的指標。針對目標,需要哪些指標來監控或分析能達成目標呢?比如利潤,相關指標就是收入和成本,當然這太粗了,收入有哪幾類,成本有哪幾類,都應該考慮進去。比如對於零售行業的銷售額,可以分解為客流量、進店率、購買率、客單價和復購率等。所以,分解的方式有很多種,需要遵循MECE原則(完全窮舉,相互獨立)。

3.細化欄位

針對指標的計算公式,涉及到哪些欄位,分別在哪些庫的哪些表裡,是否需要數據清洗,清洗規則是什麼等。比如購買率,是通過公式「購買人數/進店人數」算出來的,購買人數又是對「客戶ID」進行計數計算得出來的,這些指標涉及到的欄位對應到資料庫里哪張表的哪個欄位,需要梳理清楚,這部分就需要IT人員或資料庫管理員的介入和配合了。

4.非功能需求

上述第3步完成之後,我們其實已經算是梳理完了指標體系,可以落地了,但為了讓最終形成的數據系統更加完備、友好、可用,還需要一些非功能需求的梳理。

UI:偏好什麼樣的展示風格,這點看著無關緊要,但實際上用戶每天都會與數據系統打交道,美觀、體驗好的系統UI會讓用戶更加喜歡。

頁面流:哪些相關指標擺放到同一個報告頁面上,頁面之間的層次關係如何,用戶可以在頁面之間如何跳轉。

許可權:誰能看哪些數據範圍,誰能看哪些欄位和指標,需要有統一的許可權控制,避免出現數據安全問題。

ETL:數據從數據源同步到分析系統的頻率如何,規則如何。

集成:是否需要在界面、預警消息等層面與其它系統進行集成。

性能:看不見摸不著,但是直接決定系統可用性。如果數據量大時需要幾分鐘甚至幾十分鐘才能看到結果,相信這個系統就不會有人願意用了。
5.系統實施上述4項完成之後,我們就形成了《數據運營系統需求文檔/實施方案》,即可落地到數據運營系統里,然後,再根據報告頁面數量、數據準備複雜度等確定工作量和時間計劃。


二.由下至上地實施落地到BI系統


1.連接數據

根據需求文檔/實施方案,一步步進行系統搭建工作。這個系統有的企業稱之為大數據平台,有的企業稱之為BI系統。大數據平台的範疇會更廣一些,但對企業數據化運營而言,BI一定是核心構成。

那麼,無論是開發還是基於像永洪科技一樣的第三方工具快速實施,系統搭建的第一步都是連接各個數據源,打通和各個數據源之間的通路。在企業里,數據環境往往是異構的,數據源可能包括資料庫、Hadoop系列平台、Excel文件、日誌文件、NoSQL資料庫、第三方介面等,需要對每種數據源都有快速友好的對接方式。最終,我們在系統里能看到所需要的各個數據源中所有的表格和欄位。

2.數據處理

數據源里的數據往往是有或多或少的不規範性存在的,比如有重複記錄,比如有遺漏的空值,比如有明顯不合理的異常值(比如有2020年的成交訂單),還可能有同一個事物在系統中存在多個名稱的情況。這些數據如果不做一些處理或稱之為清洗的工作,是會對分析的準確性產生很大影響的,所以需要做些預處理。這個過程往往是最耗時、最枯燥的,但也是十分重要的。作者提醒:這個環節的問題將在下一篇《大道至簡的數據治理方法論》文章中再深入探討。

3.數據建模

數據處理好了,下一步就該做數據建模了。一提到建模,非技術背景的用戶就生畏,覺得高深不可理解。其實建出的模是個什麼東西呢?簡單來講,把多張表關聯到一起,就是一個數據模型。比如,公司要做績效分析,需要員工的工齡、學歷、項目數、項目金額、項目利潤率等指標,其中工齡、學歷在個人信息表裡,項目數、項目金額在項目表裡,項目利潤率在財務表裡,這三張表有個共同欄位「員工編號」,通過這個欄位把這三張表關聯起來,這就是一個數據模型,一個績效分析主題的數據模型。


4.製作數據報告

基於建好的數據模型,我們就可以開始製作數據報告了。數據模型提供了基礎數據和欄位,按照需求將它們以公式進行組合,用合適的圖表類型進行展示,將相關指標擺放到同一個報告頁面上,配置好頁面之間的層次關係和跳轉關係。以下是基於永洪科技一站式大數據分析平台製作的Demo。

5.非功能需求實現

經過第4步之後,我們的數據系統已基本成型,剩下的就是實現上述的各個非功能需求了。這樣,一個完備、友好、可用的數據運營系統就上線了。上線並不是工作的終點,業務需求時刻都會變化或新增,需要能夠快速迭代調整,數據處理、建模、製作數據報告等操作需要高度工具化,以保證靈活可配置。第三方工具對比自開發的優勢也在這點上體現尤為明顯。

歸根結底,做數據的目的要麼是為了提升管理(節流),要麼是業務創新(開源)。一個系統化的數據體系將是數據化運營的核心支柱。

第三階段:業務和理論的實踐——《大道至簡的數據治理方法論》

如果你是一位大廚,剛剛眉飛色舞地給客人描繪了如何搭配一道色香味俱佳的大菜,甚至連炒菜的手法都一一交代了,當你備好了各種為這道菜增鮮增色的調料後準備烹飪時,才發現所需的主要原料有問題。

數據分析師的角色猶如一位大廚,原料有問題,大廚肯定烹飪不出色香味俱佳的大菜,數據有問題,數據分析師得出的結論自然也就不可靠,再好的數據分析方法論也只是建立在失真的數據基礎上,苦心構建的數據體系當然也被白白浪費了。

過往的項目中,筆者也時常遇到這樣的情況,客戶用永洪科技的產品做了一些精美專業的數據報告,卻因數據不準而影響了報告的使用價值。


數據治理是一項基礎工作,在很多人眼中是一項苦活兒累活兒,但是越是這樣的工作越是不能忽視,基礎打紮實了,上層建築才會更穩固。下面,筆者先從臟數據的種類及處理方法談起。


一、臟數據的種類及處理方法

首先,我們來了解一下臟數據的種類,明白我們可能會面對哪些問題。


1 . 數據缺失

缺一些記錄,或者一條記錄里缺一些值(空值),或者兩者都缺。原因可能有很多種,系統導致的或人為導致的可能性都存在。如果有空值,為了不影響分析的準確性,要麼不將空值納入分析範圍,要麼進行補值。前者會減少分析的樣本量,後者需要根據分析的計算邏輯,選擇用平均數、零、或者等比例隨機數等來填補。如果是缺一些記錄,若業務系統中還有這些記錄,則通過系統再次導入,若業務系統也沒有這些記錄了,只能手工補錄或者放棄。

2 . 數據重複

相同的記錄出現多條,這種情況相對好處理,去掉重複記錄即可。但是怕就怕不完全重複,比如兩條會員記錄,其餘值都一樣,就是住址不一樣,這就麻煩了,有時間屬性的還能判斷以新值為準,沒有時間屬性的就無從下手了,只能人工判斷處理。

3 . 數據錯誤

數據沒有嚴格按照規範記錄。比如異常值,價格區間明明是100以內,偏偏有價格=200的記錄;比如格式錯誤,日期格式錄成了字元串;比如數據不統一,有的記錄叫北京,有的叫BJ,有的叫beijing。

對於異常值,可以通過區間限定來發現並排除;對於格式錯誤,需要從系統級別找原因;對於數據不統一,系統無能為力,因為它並不是真正的「錯誤」,系統並不知道BJ和beijing是同一事物,只能人工干預,做一張清洗規則表,給出匹配關係,第一列是原始值,第二列是清洗值,用規則表去關聯原始表,用清洗值做分析,再好一些的通過近似值演算法自動發現可能不統一的數據。

4 .數據不可用

數據正確,但不可用。比如地址寫成「北京海淀中關村」,想分析「區」級別的區域時還要把「海淀」拆出來才能用。這種情況最好從源頭解決,即數據治理。事後補救只能通過關鍵詞匹配,且不一定能全部解決。


二、BI對數據的要求

接下來,我們了解一下BI對數據的要求,結合上面臟數據的種類,中間的規避手段就是數據治理。


1 結構化

數據必須是結構化的。這可能是句廢話,如果數據是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分詞技術做語義的分析,比如常說的輿情分析。語義分析不像BI的量化分析一樣百分百計算準確,而是有概率的,人的語言千變萬化,人自己都不能保證完全理解到位,系統就更不可能了,只能儘可能提高準確率。

2 規範性

數據足夠規範。這麼說比較含糊,簡單來講就是解決了上述各類臟數據的問題,把所有臟數據洗成「乾淨數據」。

3 可關聯

如果想將兩個維度/指標做關聯分析,這兩個維度/指標必須能關聯上,要麼在同一張表裡,要麼在兩張有可關聯欄位的表裡。


三、數據治理的原則

前面講了臟數據的處理方法,但那些都是治標不治本的應對方法,且需要長期耗費大量時間和人力來做這種痛苦的工作。要想從根本上改善臟數據的問題,還是需要做好數據治理的規範工作。簡單來講,數據治理就是要約束輸入,規範輸出。

1 . 約束輸入

你永遠想不到用戶會輸入哪些值,所以別給用戶太多發揮的空間,做好約束工作。該用戶填寫的,系統必須設置為「必填」;值有固定選項的,一定用列表讓用戶選,別再手工輸入;系統在錄入提交時就做好檢查,格式不對,值不在正常範圍內,直接報錯的情況必須讓用戶重新輸入;設計錄入表單時盡量原子化欄位,比如上面說的地址,設計時就分成國家、省、市、區、詳細地址等多個欄位,避免事後拆分;錄入數據保存的數據表也盡量統一,不要產生有大量相同數據的表,造成數據重複隱患。

2 . 規範輸出

老闆看不同人做的報表,同一個「收益率」指標,每張報表的值都不一樣,老闆的內心一定是崩潰的,不知該罵誰,只能全罵。排除計算錯誤的情況,一般都是統計口徑不一致造成的。所以要統一語義,做一個公司級別的語義字典(不是資料庫的數據字典)。所有給人看的報告上的指標名稱,都要在語義字典中備案,語義字典明確定義其統計口徑和含義。不同統計口徑的指標必須用不同的名詞。如果發現一個詞已經在語義字典中有了,就必須走流程申請註冊一個新詞到語義字典。

四、數據治理的落地

臟數據的處理需要ETL工具,語義字典不一定要藉助於系統。事實上,由於這類系統過於複雜,國內鮮見實施成功的案例,用Excel加制度就能達到很好的效果。關於落地推廣策略,說來也簡單,老大拍板說必須實行,再用優先話語權吸引一個部門試點,再橫向擴展。哪個部門先落地,哪個部門就能按最符合自己習慣的用詞來命名指標,相當於占坑。

後面的部門都要遵從前人的標準,重名但意義不同的指標需要另外找詞兒命名。這樣就不怕沒人積極主動。以上,就是精鍊版的數據治理方法論。大家都知道這是個苦活,但是筆者還要提醒的是,越晚動手越苦。有了經驗以後,做新業務系統設計時,大家就可以充分考慮數據治理的規範了。

個人簡介: 王桐,永洪科技高級副總裁。永洪科技北京航空航天大學工學碩士,擁有8年商業智能領域的產品銷售、市場營銷經驗,此前效力於甲骨文和IBM,均在諮詢、銷售崗位擔任重要職位,曾成功推進多個大型項目的實施,在電商、政府、金融、互聯網等行業積累了豐富經驗。王桐目前主要負責產品銷售和渠道拓展,已為上百家企業用戶提供了完善的數據可視化分析解決方案,這些企業既有寶寶樹等電商領域的明星公司,也有中國移動等傳統巨頭。


關於一個職場新人如何迅速成長為一名數據分析師,我引用最近遇到過的一些案例:

因為我最近開設了個人的一個一對一培養的產品課程(有興趣的同學可以加我),一個海外畢業回來的學生問我一個問題,他說我想做數據產品經理這個職業,但是對演算法和代碼沒有興趣,只想做一些偏業務型的東西行不行?

我給他的答覆是不可以!

在這裡面我想說的是對於一個數據產品經理,你要想在這個領域自己發展和成長的很好的話,我有三個建議:

第一點,是要想辦法提升自己的技術能力

一個不懂演算法模型代碼的人,是做不了產品經理的,你入門的階段說不懂技術還能理解,但是當你決定要往這個方向發展的時候,你再說你不懂技術那我就只能說你是沒希望的了。特別數據分析,是需要有這個基礎的。

所以在這方面你應該要掌握的是代碼調試+演算法模型+至少精通一門語言,也可以是python,是R,(在這講的語言是數據分析的語言,數據分析的語言是python或是R語言都可以)。

第二方面,是加強實踐實操的能力,多看一些案例

用實踐案例的切入,逐步拓展知識體系。因為我們如果是在校學生,沒有真實的項目案例,我們可以找一些實踐書來看,我也可以推薦一些關於數據挖掘和R語言的書籍,書裡面有一些案例,那這些案例我們可以參考,這是一個方面,我們可以看它的例子真實的操作,自己去思考;另外如果我們是剛剛入行到數據分析這一塊,是有一些實踐機會的,那在實踐中做一個具體的案例,往深度的去思考和分析,在這個過程中我們去積累真正的動手能力。

第三個方面,就是總結與思考的能力

因為對於剛剛入行,剛進入職場的數據新人來講,其實公司包括你的團隊本身對你的能力是有一定的容忍能力的,但是這裡有個原則就是我不怕你錯,怕是你一直錯下去,在這裡面最核心的點是你要不斷的去總結和反思自己做事情的方法,然後形成一套做自己事情的方法,把這些方法放到下一個項目或者實踐中去驗證,不要去做莽漢,不要讓同事覺得你是用本能在工作,而不是腦子。

建議這塊就講到這了,謝謝!


作為海德堡交叉學科計算中心博士,IT巨頭IBM的優化軟體Cplex(商業優化軟體NO.1)實習過半年,也算和數據分析有著很大的淵源。
首先的問題,何為大數據,再次,什麼叫數據分析師,最後,數據分析師是如何分析數據的?
我想你可以看看我在下面的回答,對這些問題都做了科普,以及數據分析師在技術諮詢公司或者大公司諮詢部門的工作日常。
Data Science/Analytics 出身,可以在諮詢行業做些什麼? - Ruobing Shen 的回答


首先先說明數據分析絕對不單是一門簡單技術,而是包羅萬象的,可以反應所有的事物的。然後來回答題主的問題。題主想成為好的數據分析師,那麼需要具備以下幾個技能,數據能力,分析能力,以及個人能力。具體說明總結如下的:


1.數據能力 基礎的能力就不再贅述了,像數據收集處理等等,這些如果不會還是自行補課吧。主要為了解決題主所說的瓶頸,所以這裡的數據能力包含以下幾個。

首先,數據來源的獲取能力。這裡包含對於數據的敏感性和捕捉能力,同時也包含個人的人脈關係及社會交往能力。我的朋友在省社科院、百度、阿里巴巴和網易都有做數據分析工作,他們工作的好壞,很大程度取決於數據獲取質量的高低。這裡邊,在打實基本能力基礎的前提下,多通過朋友或者關係獲得數據是5非常重要的。

其次,數據信度的保證。無論是哪裡的數據分析,信度和效度保證都是數據分析師的基本職業操守,當然也是這份數據可靠與否的保證。在大數據時代,數據冗餘垃圾信息泛濫而公眾識別能力普遍又不高。如何能夠讓自己的數據信度效度都提升,同時被他人認可,是數據分析工作重要的一環。但往往被人們所忽視。


2.分析能力
這裡邊首先要有基礎的分析能力。我認為數據分析軟體和辦公組件(如office)非常類似。都是具有極其基礎功能但深入很難得工具。。所以我認為數據分析軟體的學習沒有終點。要不斷通過實例來開發研究學習新功能。除此之外,要掌握新的進階功能。這就要靠有經驗的數據分析人員的指點和自己經驗的積累才能提升了。


3.個人能力
數據分析絕不僅是看圖說話。一個簡單的散點圖甚至能得出眾多的不同結論。而數據分析師的最核心業務就是根據對數據分析出來的結果,給予一定的指導性意見。那麼這裡邊數據分析人員一定要有自己的所長領域,要能結合自身的專業背景知識(例如經濟金融等),分析數據。


詳細答案,我在免費課程《大數據分析的道與術》中有系統闡述:大數據分析道與術-課程學習-百度傳課,或者也可以購買同名書籍:《大數據分析的道與術》 畢然, 袁曉潔【摘要 書評 試讀】圖書

如何做好數據分析?

要想做好數據分析,有以下4個關鍵點:

(1) 業務調研:理解業務是基礎,否則分析是無本之木。

(2) 創新思考:廣闊的知識面和積極的思考力,是分析思路的源泉。

(3) 邏輯推理:對數據指標做出正確的歸因和判斷。

(4) 可行建議:產生對業務切實有效的改進建議和執行方案。


業務調研」是數據分析的起點,也是獲取分析思路的基礎,但需要兼具深度和廣度的「創新思考」,才能獲取更獨到的分析思路。分析思路也可以認為是統計數據的角度,完成數據統計後,需要「邏輯推理」來保證從數據到結論判斷的正確性。最後,用「可行建議」來保證分析結論的落地執行,產生可量化的業績。這就是數據分析從業務中來,回業務中去的完成過程。

換個角度說,可以把這四個關鍵點分解為數據分析的5個執行步驟:

選擇分析主題、確定方案思路、實現數據統計、產出分析報告、推進業務落地。


業務調研和創新思考決定了「分析主題」的高低和「方案思路」的好壞;邏輯推理決定了從統計數據得出的「分析報告」是否可信;可行建議決定了分析報告的「業務落地」效果。做好這四個關鍵,才能確保數據分析項目的每個步驟都卓有成效,最終產生業務改進。

加入數據技術領域的三步曲

如果有技術背景的朋友想入行,應該做哪些準備呢?通常,首先決策想成為偏重業務的數據分析人員,還是想成為偏重技術的數據建模人員。這兩種人在技術基礎和掌握的領域知識面上均有所差別。偏重業務的數據分析人員不需要有深入的數學和統計學背景,更需要對業務的深刻理解、靈活的頭腦和清晰的邏輯,在學習時偏重很多與業務分析相關的領域知識,如經濟學、心理學、營銷學,甚至財務和企業管理方面的學科。偏重技術的數據分析人員需要有良好的數學和統計背景,專註於數據挖掘和機器學習的演算法原理與應用場景。但無論選擇哪個方向,下面三個項準備均需要做好:編程技術、項目實踐和理論學習。

(1編程基礎

數據技術是一門實踐科學。在學習理論之前,最好具備處理數據的能力,否則一切都是紙上談兵。在這個領域使用較多的統計編程語言有:Awk、R和Python,分別是計算機科學家、統計學家和數學家的發明。Awk是Linux下方便處理數據的腳本語言。因為它的底層用C語言實現,所以處理文本日誌的速度非常快,是做數據統計的不二之選。但缺點是沒有強大功能的函數庫,不適於處理邏輯複雜或期望調用模型演算法的場景。與之相反,R與Python這兩種語言都帶有大量的數學函數庫和演算法庫,使用起來非常方便。兩者的區別是R的函數封裝更加高層,Python則提供了很多底層的數學函數庫。如果想快速驗證某個模型在應用數據上的有效性,使用R更快捷。如果需要優化演算法細節或工程實現,則用Python更適合。

除了基本的編程語言外,處理超大數據量還會用到分散式編程框架,用並行化的方法解決大數據計算的性能需求。業內常用MapReduce思想與Hadoop工具將計算過程並行化。

也許有人會問,是否可以不學編程,用一些數據挖掘軟體解決需求呢?只用軟體不再適合大數據的時代。一方面處理的數據量受軟體性能的限制,另一方面即使不需要處理大數據量,在分散式編程也要比軟體在單機處理速度快很多。雖然很多商業化軟體均逐漸支持分散式部署,但終不如自己寫程序處理來的方便。傳統諮詢公司的朋友都開始學習編程,因為隨著客戶企業的數據量逐漸龐大,不用編程的方式很難做數據分析。甚至統計學家都拿自己開涮:「統計學要被計算機學替代了,因為現在幾乎沒有非大數據量的統計應用」。

有次和數據技術團隊的負責人聊天,他問團隊組建時優先招什麼樣的人才,我提出的首要標準是熟練編程。不懂數據分析或模型演算法可以邊做邊學,但如果沒有編程基礎,最基本的工作都無法完成。

(2項目實踐

數據技術是一門實踐科學,需要大量的項目實踐。當然,了解數據分析的基本方法和數據挖掘的常見模型,有個整體的認知還是很必要的。但沒有經過項目磨練,即使讀了再多的理論書籍,也很難深刻理解模型並靈活應用。只有通過項目實踐的打磨,才能把這些方法和工具轉變成手拿把掐的技能。對於一個剛入門的菜鳥,去哪裡尋找實踐項目呢?給大家兩個建議:

1. 公開題目:很多學術和商業的組織,經常發布一些公開題目,配有相對完整的數據集和業務需求。不僅可以用公開題目練手,還可以與其它更專業團隊的方案進行對比,彌補自己的不足。

2. 免費給中小企業做項目:很多中小企業有不少業務問題可以用數據分析或數據建模解決,主動以實習的形式加入該團隊,用實際項目鍛煉自己對業務的感覺以及對數據技術的使用。

(3) 理論知識

除了掌握編程並不斷實踐項目外,還需要持續的補充理論知識。切入不同數據技術職位的朋友,所要學的內容也不盡相同。偏業務數據分析的人員,除了溫習統計知識,還需要讀很多跨學科的書籍,如經濟學、營銷學、心理學、產品設計等;偏技術的數據分析人員,需要好好溫習數學知識,如微積分和線性代數等,再閱讀與數據挖掘和機器學習相關的專業書籍。以下是個人讀過,感覺適合無背景的同學閱讀的入門書籍。這些書不一定是最著名的書,有些甚至不是專業書。

最後,附上亞馬遜上的書評,期望對大家有所幫助!:)


分析數據只是手段,遠不是目的,數據分析這個行業的目的是了解世界。你可能覺得這話說得有點誇張,但其實它挺自然。

假如你穿越到十七世紀,伽利略給你提了個問題:重的球和輕的球哪個落得更快?為了回答這個問題,你做了一千次實驗,在不同的樓層扔鐵球,記錄每次鐵球落地的時間,然後你把得到的數據記在紙張上,於是你有了一個表格。

你對著這個表格分析了半天,發現落地的時間 t 和樓層高度 H 大體上滿足以下關係:

H = alpha t^{2}

你有理由感到開心,因為你揭示了一個重要的物理定律,幫助人們了解了這個世界,但很顯然,功勞不是你一個人的。這個過程包含了兩個步驟,一個伽利略給你提出問題,一個是你的數據分析。我們說的數據分析這個行當,實際上應擔囊括這兩個方面的內容,因為它們是分不開的。

因此,當你要考慮成為一個數據分析師的時候,你得先找到一個領域。對呈現事實有需求的行業都需要數據分析,每個行業的具體需求都是不同的,所以,先要確定一個領域。基礎科學、生物製藥、金融市場、互聯網產品、網路遊戲,不同的領域所涉及到的問題千差萬別。

在做數據分析的那段日子裡,我曾在技術層面上糾結過多,而忽略了大的圖景,這一度給我造成了很大的麻煩和困惑。所以我認為做數據分析,首先要找到一個自己感興趣的領域,然後想盡一切辦法熟悉這個領域的業務。

至於技術層面的東西,從統計理論到演算法原理再到具體的編程實現,這些當然很重要,但就我個人經驗來看,它們不是真正的瓶頸所在。一個好的數據分析師不僅要了解這些分析方法,更重要的是要了解你分析的對象。

所以我的觀點:要成長為一名好的數據分析師,應該在具體的領域上下功夫。


推薦coursera上約翰霍普金斯大學的數據分析(名字忘了),裡面先教統計知識和R語言,再教數據分析,跟不錯
================好吧我又去查了一下,叫數據科學,是一系列課程:
The Data Scientist』s Toolbox
數據科學家的工具箱
R Programming
R語言
Getting and Cleaning Data
數據獲取和整理
Exploratory Data Analysis
探索性數據分析
Reproducible Research
可重複性研究
Statistical Inference
統計推斷
Regression Models
回歸模型
Practical Machine Learning
實用機器學習
Developing Data Products


來美帝讀個stat master吧


2015/3/30
敲完了附錄A裡面的代碼。每天用來學習的時間不多,但個人覺得事情正在往好的方面發展。
2015/3/23
編程幾乎零基礎,打算從事這一方面的工作,2015/3/23零點占坑,不定期持續更新。
大概一個多月前產生想專門從事數據挖掘的想法,上網搜集相關職位的要求以及相關的教程,常出現的關鍵詞:python、R、hadoop、mySQL等。其中python頻率最高,打算先學習python,網購了一本《利用python進行數據分析》(考慮到學習效率,使用中文教材),目前正在看附錄A
2015/5/27
上個月全國到處晃悠了一下,荒廢了一段時間。掐指一算,真正花在學習數據挖掘的時間已經有一個半月了。稍微總結一下。
1、學完了Crossin的編程教室python73課
2、《利用python進行數據分析》看了看關於numpy、pandas和matplotlib的幾個章節。建議看這本之前,先把1中課程學習一下。另外書裡面推薦的Canopy似乎跟pip不兼容,我試了幾遍都沒裝好。今天換Anaconda,用一段時間看看效果。
3、看完了《集體智慧編程》。這本書詳細介紹了機器學習演算法,還有詳細代碼。剛開始我還乖乖敲裡面的代碼,後來一想有scikit-learn啊,不過覺得演算法原理還是很值得看。
4、現在正在看《Building Machine Learning Systems with Python》這本書沒找到中文版本,不過因為看了之前的書,進展基本上算順利。
此外,每天還會看看《數據挖掘——概念與技術》,當睡前讀物
目前的打算是一個月之後開始找工作,大家祝福我吧
2015/6/18
推薦一下quora上的問題How can I become a data scientist?,裡面的答案很詳細
做了幾個kaggle上的競賽,有問題就google一下
昨天開始投簡歷了
感謝楊柳同學的鼓勵
2016/2/22
不少朋友看了我這個答案之後,諮詢我數據分析工作方面的事(問我問題,卻連個贊或感謝都不給, )。但是,很不好意思,我後面沒有堅持在這條路走下去。自然也就沒辦法給各位提供可行的找到一份這樣工作的方法。
不過,我想把我這次不算成功的轉行寫下來,給各位做一個參考。
去年6月份,我開始在網上投遞簡歷。不幸的是,不過是正式工作還是實習,均沒有得到回應。
我一邊等消息,一邊又開始學習iOS開發。
不知道算不算得上幸運,在兩三個月之後,靠著自己寫的一個簡單的app,找到了一份iOS實習的工作。
在經歷一段9106的工作之後,我開始思考我是不是真的喜歡數據挖掘,是不是真的認為iOS開發十分有趣。我發現,我並不是喜歡這些工作,而是喜歡這些工作的工資和工作條件。而實際情況是,我的工資降低了,工作條件也並沒有變好。
想清楚自己想要的是什麼之後,我在自己原來的行業重新找到了一份工作,工資也比原來提高了不少,勉強算是happy ending吧。
還是給想轉行的朋友幾點建議吧
1)想清楚自己想要的是什麼,轉行是不是得到這些東西的捷徑
2)不建議裸辭學習再轉行,經濟和思想上的壓力都不小,事情並不會總隨著自己的計劃發展
3)不要隨便轉行、不要隨便轉行
4)如果你真的熱愛你所要轉的行業,那麼我唯一想對你說的就是,加油加油!
最後,祝找工作的各位好運,元宵節快樂。


讀研時候在諮詢公司和互聯網公司都做過一段時間的數據分析師,說一下個人淺見。
不同行業和不同企業對數據分析師的要求不盡相同,個人認為想迅速成為一名合格的數據分析師,大體上要提升以下幾方面的技能:
一、理論知識:
包括常用的統計學知識和一定的數學建模能力。
建議系統的學習統計學的基礎課程,並掌握常用的數據模型如線性回歸、決策樹、時間序列等等。
二、工具技能:
可以熟練運用一個專業的數據統計軟體,如SAS、R等。可以熟練使用excel。
具備一定的資料庫操作技能。
具備較好的數據呈現能力,包括數據可視化、數據報告等等。
三、業務認知:
對行業領域的深刻理解。

個人認為,一和二是數據分析師的基礎技能,三則是普通數據分析師和優秀數據分析師的分水嶺。數據分析不是閉門造車,大多時候是為了洞悉業務中的問題,給出針對性的指導策略,乃至形成可執行的解決方案。初學者往往容易犯的錯誤是,為了過程的"優美"生搬硬套模型,而忽略了業務內在的邏輯(曾經我就犯過這樣的錯誤)。切記脫離業務去談數據分析都是耍流氓。


數據分析師在各行各業中都有都需要,不知道題主講的是哪個行業的,今天我給題主介紹的是有關於互聯網營銷行業的數據分析師--不需要任何編程語言基礎。

想要快速成為互聯網營銷行業的數據分析師,重點在於你要知道數據分析的目的在於什麼,你可以通過什麼方式進行數據分析,今天的文章向大家展現了一個非常規數據分析的案例:通過發傳單,翻垃圾桶來回收數據,不斷優化傳單內容,最終提高轉化率。通過這個案例,大家會認識到數據分析離我們的生活也許不遠,從日常生活中就可以開始著手數據分析。

背景:向某4萬級工廠普工推廣類銀行存款產品。
目標:對該工廠區4萬名員工進行線下推廣,完成10%的註冊轉化。
通過調查,設置3個地推點,食堂門口,公司與小吃一條街的必經之路上,第三個點設置在一個超市門口。推廣方式採用送小禮品引來用戶註冊,發傳單推廣。

首日,註冊500人,發放1000張傳單,結果:500人註冊,1000次曝光,但註冊後使用app投資的人寥寥無幾。未達到預期效果,所以重新分解整個活動。

以食堂為例
5000人流量湧來
小禮品吸引X人(以獲得獎品數量算)轉化率A
獲得獎品註冊數Y(後台統計)轉化率B
體驗金及真實標投資人數Z(後台統計)轉化率C
由於必須註冊才能拿獎品,所以B受A直接影響,但是問題來了,轉化率C太低了。

討論了半天,才找到關鍵點,直接影響C的是那張傳單,但是我們並不知道傳單有多少人看,突然想到翻垃圾桶不就知道了:只要看所有垃圾桶被扔掉的張數,就知道傳單的內容他們感不感興趣。所以我就把廠區的垃圾桶翻了個遍!

兩小時,翻出954張,只有46張沒被扔掉。當晚回去檢查了傳單,發現問題:1.傳單的內容突出的賣點均針對白領設置。2.傳單是三頁紙,信息實在太多。於是把三頁紙的傳單精簡成了1張紙。第二天發完傳單,再掏垃圾桶,還發1000張,879張被扔,繼續改傳單...一直到第五天。
5天後,再翻垃圾桶,降為456張,有544張沒被扔!要知道第一天的時候,只有46張沒被扔掉!掏了5天垃圾桶,傳單留存率從0.46%轉化為54.4%。而我們之前最關注的轉化率C,則高出了公司同期線上活動3倍之多!

其實說這麼多我只想表達,數據分析不是高不可攀,也不是坐在電腦前面算算EXCEL,數據有的時候按照常規途徑不能得到,那就換個方式,比如掏垃圾桶。讀到這裡,相信你也明白了,我們在營銷工作中數據分析的目的--優化調整你的營銷方案,所以在此之前你需要藉助各種你想得到的任何方式獲得數據,著手分析後對你的營銷方案進行不斷調整,最終達到理想的營銷效果。

OK,今天這堂有關數據分析的課程講到這裡就差不多了。
廣告植入時間到。
本人梅婕,一個互聯網深度用戶,目前在踏浪100學習互聯網營銷課程(專註學習互聯網營銷知識),網站中的很多知識,學了就可以直接應用於實際中,課程體系從文案到微信、數據分析、SEM等等有關營銷的知識在這裡都有涉及。


初入數據分析行業的同學或還在門口徘徊想要從事數據分析職業的同學常常會比較困惑,非常迫切地想要知道作為一個數據分析師,到底需要掌握那些技能?

一、數據分析師是做什麼的

首先,你需要了解,數據分析師到底是幹什麼的,該職位在企業中在扮演一個什麼樣的角色,為了能結合實際情況進行闡述,這裡先給大家看一下某公司招聘數據分析師的JD,

工作職責
1、支持各種常規或臨時數據分析需求;
2、提供各類業務相關的分析及建議;
3、通過建模深入挖掘用戶或產品方面的有價值的信息;
4、和各部門溝通協調需求並提出各種新的數據分析項目或方案;
5、持續地改進數據採集、處理、分析、報告等各個流程上的工作。

這裡有一些關鍵詞,「支持」、「分析」、「建議」、「有價值的信息」、「溝通」、「項目」、「方案」,通過這些關鍵詞可以一窺數據分析師的功能所在。一般來講數據分析師的日常工作主要分為3部分內容,

(1)支持各業務部門或者領導的日常的數據需求。

(2)針對主題或研究專項進行深入的數據分析,形成有結論和建議的分析報告,甚至是解決方案。

(3)持續的跟進一個項目,和業務人員一樣為該項目的KPI負責,同時具有項目推動能力和主人翁精神,「不計一切手段」地想辦法達到目標,經常需要從數據上給項目組成員們提供insights。

這裡每一部分的內容對分析師的能力要求有所不同,能做好第一部分的人是一個合格數據分析師助理(或者說叫數據專員),能做好第二部分的人是一個不錯的初級數據分析師,能做好第三部分的人才是一個真正優秀且對企業有極高價值的數據分析師。

在我的職業生涯中,不止一次的被前輩們教導,一個優秀的數據分析師,一定不能是一個「取數機器」,他要是有頭腦,有想法,有能力發現問題並且解決問題的,當然我相信在這個行業能做到這一點的人是鳳毛麟角的。如果你已經是一枚數據分析師了,不妨按照上面的幾點對號入座,看看自己已經進階到哪一步了,又有哪些地方還尚需努力。

二、數據分析師的必備技能之工具篇

在身邊偶爾會聽到別人說做數據分析師,工具不是很重要,重要的是那些軟實力,其實這一點我並不敢苟同。俗話說工欲善其事必先利其器,所以工具用的好,其實是可以極大的提升工作效率的。那麼作為一名數據分析師,都需要掌握哪些工具呢,這裡先列出使用頻率最高的3個工具。

(1)sql

學習寫sql是做數據分析師的第一步,對於沒有資料庫和編程語言基礎的人來講,也並不是一件十分困難的事兒,關鍵在於你是否能找到一個「好師傅」帶你飛,這裡的「好師傅」一是指教你寫sql的入門書籍,上面會系統的講解sql的相關知識並且最好有實例教學;二是指在工作中會有前輩教你一些書寫sql的良好習慣以及優化代碼的方法等等(要知道把功能實現是一碼事兒,高效的把功能實現是另一碼事兒)。這裡附上一本我學習sql的書,需要的人自行認領——《SQL基礎教程》MICK 著(人民郵電出版社)。優化sql的方法如有需要,我會再開一篇文章給大家分享。

(2)excel

我認為第二重要的工具是excel,而非R,SAS, SPSS, 作為數據分析師,其實和建模師不同的是,分析師更多的時候是在分析數據,而不是建模,分析數據的時候你總得把數據放到一個文件裡邊是吧,這個文件就是excel。excel的功能遠比我們想像的要強大許多,我見過每天用excel做報表的(還是在大型互聯網公司),見過每天寫vba處理上百封數據的,見過用excel畫出十分精美的圖表的,毫不誇張的說,做為一個數據分析師基本每天都要打開關閉幾十個excel。那麼,怎麼把excel用的好呢?我覺得有一下幾個模塊要學會

第一個是公式,excel常用公式要熟練,網上很多教程,很容易找到。

第二個是數據透視表,因為分析數據的時候經常需要拆分到更細的粒度,所以數據透視表不可或缺。

第三個是圖表,excel的圖表功能基本已經可以滿足一個數據分析師的日常需要了,但是什麼數據畫什麼圖,這也是一門學問,比如說想要表達趨勢,那最好畫線圖,如果是想表示各個部分的佔比,無需縱向對比,那最好畫餅圖。(這裡如有需要我會再開一篇文章寫圖表的使用方法)。

(3)統計工具(R or SPSS)

一般情況下數據分析師極少會用到統計軟體,但是在一些特殊情況下會有用到。比如有的公司也會要求數據分析師做建模一類的工作(一般這類公司缺少數據挖掘的專業人才),這個時候數據分析師可能首先需要了解一些經典的統計模型(最最常用的是邏輯回歸模型),為了快速掌握,其實你大可不必去找一本《機器學習》去死磕書本,而是只要了解這個模型的使用場景、數據處理的方法、使用何種軟體實現就可以了,這裡可能會要求你有一定的概率統計基礎,但就算是沒有,你也不必要特別擔心,搞清楚模型的輸入和輸出,最後證明模型真的是有用的,這才是王道。(更加專業的數據挖掘我也較少涉獵,感興趣的同學可以自行想辦法學習)。

如果一個人會寫sql,精通excel,可以繪製精美的圖表,並且懂得一些常用的統計模型,基本上在面試數據分析師職位的時候工具關就可以過了。當然這裡還有一些其他的工具,在工作中也起到很大的幫助,比如畫結構圖的mindmanager,幫助你收藏處理工作文件的有道雲筆記,以及做報告時常常用到的ppt。

三、數據分析師的必備技能之思維篇

上面也提到了,數據分析師的主要職責是發現問題,分析問題,解決問題,所以數據分析師主要是靠腦子吃飯,思路決定出路。一般招聘人會在JD中描述要求分析師有「數據敏感度」以及「嚴謹的邏輯思維能力」等,但是這些到底是什麼?這裡就給大家講講我個人的一些理解。

舉個例子,小王做數據的時候發現公司9月份的收入相比去年9月增長了30%,十分高興的在10月初的月度會議上跟領導彙報了這一好消息,領導卻並沒有開心,因為公司的主要收入來自軟體銷售費用,9月份是公司的淡季,軟體銷售量並沒有增長,而且相比去年的時候單價還下降了,收入怎麼可能會有增長?領導要求小王對這個數據進行核查,後來經過排查才發現原來是財務部的人將公司歷史上的「殭屍賬戶」(指的是賬戶裡面有錢但是一直沒有用)統一放到9月份進行核銷了,導致收入大漲。

看完這個例子請你思考一下,什麼是數據敏感度,數據敏感度就是當數據變化的時候,你是否能夠快速找到跟這個數據聯動變化的指標,這個技能非常重要,一是可以幫助你核實數據的準確性,二是能幫你快速發現問題。什麼是邏輯思維能力,邏輯思維能力就是在面對一件事情的時候,你往往要在腦海中打無數個問號,比如為什麼收入會上漲,是什麼原因造成的,要去搞清楚事件背後的真正的邏輯是什麼,層層拆解,層層深入,而不是僅僅停留在表面,不愛思考的人是不會有嚴謹的邏輯思維能力的。

四、數據分析師的必備技能之溝通篇

溝通是一項軟技能,也是不分職業的,溝通能力放之四海皆準。這裡我僅僅針對數據分析師的溝通技能給到大家一些建議。

數據分析師常常需要和業務方溝通數據需求,舉個例子,小李來找小王要收入的數據,小王這個時候不是一聲不吭的就打開電腦開始寫sql提數,而是問小李,「這個數據是用來做什麼的?」小李回答說,「這不馬上就要年底了嘛,我們要給銷售部分制定KPI!」這個時候小王明白了小李需要數據的目的是給銷售團隊制定明年的收入目標。小王又問,「明年的銷售計劃有了嗎?」小李想了想回答說,「可能預計會3月份銷售旺季提價一次,並且維持現有的銷售團隊不做新增」。小王又知道了,可能需要將收入拆分成單價*銷量,再根據預測的銷量去算出總收入,並且預測銷量的時候需要剔除9月份的異常值。所以你看,如果小王沒有問這2個問題,小李拿著今年的收入數據真的能做出一個合理的目標值嗎?

我了解到在一些互聯網公司,業務人員往往並不喜歡主動和分析師溝通,他們把分析師當做「取數機器」,只是單純的認為我要這個數據,你就給我這個數據就可以了,但是事實是,有很多人,他們自己的數據分析能力有限,對問題的理解能力也有限,往往心裡期望拿到A數據,表達出來確是B數據,所以這個時候,數據分析師一定要耐心的和業務人員多多溝通,一來可以提高你的工作效率,以免重新返工,二來就是藉此機會和業務員人員聊聊天,了解業務,彼此建立信任的關係。畢竟數據分析師是為了業務服務的,離業務太遠的數據分析就是空中閣樓,是不接地氣的。

最後推薦幾本書

這基本都是非常好的數據統計學習資料,相信我,只要智力正常並且認真學習,做個數據分析師真的不難。

《商務經濟統計學》

統計學是數據分析師的基礎,必備的知識儲備,但是一般的統計學並不注重應用,而在統計學中,《商務經濟統計學》是應用性統計學,書中有很多應用場景。

《R語言實戰》

《利用Python進行數據分析》

如果你的統計學基礎打好了,R是非常容易上手的,無論是R還是Python,買一本書,照著書把所有代碼敲一遍就可以了。

《數據挖掘導論》

這本書是需要反覆去看的。

SQL和MySQL——《MySQL入門很簡單》

為什麼推薦這本書,因為作為數據分析師,你不必知道太詳細的關於MySQL的知識,只要簡單的了解就可以,這本書贈送了SQL的教學視頻,是非常贊的,當然如果你覺得這本書的SQL知識不能滿足你,你也可以單獨買一本SQL的書,推薦《深入淺出的SQL》這本書,京東木有貨啦,哈哈。

《數據之美——一本書學會可視化設計》

數據可視化是每個分析師必備的,一本書足夠了,研究透了也很厲害啦。

《社交網站的數據挖掘與分析》、《網頁數據分析》

如果你想到互聯網公司工作,這兩本書任選其一就可以,我個人比較推薦《網頁數據分析》,不過這本書只有英文版,是Google的創始人寫的,主要是GA的這種軟體進行分析,很多分析師是瞧不起GA的,可是GA真的牛牛牛的不要不要不要的,還有一本宋天龍老師的書《網站數據挖掘與分析》也非常不錯,我最近在看。

這些書籍可以稱之為教科書一般的書籍,很多書籍也是我分享的時候的參考書,但是實際的應用中,場景、案例需要大家自己去積累。


第一是業務,任何分析都是有出發點的,懂業務、理解業務、掌握相關業務基礎知識能幫助確定分析目標,分拆目標和確定分析路徑;比如你要負責優化某廣告系統的點擊率,從而實現收益最大化,那麼就需要知道哪些環節對點擊率影響較大,現在這些環節的情況都是怎樣,一步一步拆解開來
第二是掌握必要的分析工具,比如excel,可以利用excel繪製圖表等幫助了解趨勢,另外會些編程語言就更好了,比如python或awk等腳步,可以幫助你快速地從基本數據中發現有價值信息;還有要掌握必要的數學知識,比如距離的衡量
第三就是多練多看多思考,持續讓自己沉浸其中。另外不要忽視機械、細微的工作,比如對搜索詞進行類目標註,這些細微工作中往往會蘊含驚喜,另外這種機械工作進行中並不是就停下思考


我的理解,數據分析就像做菜一樣
差的數據分析師只是把一組組數據堆在一起,不管先後、深度、邏輯;就像做菜只按菜譜把一些珍貴的材料、調料放在一起燒,沒掌握好火候,做出來菜當然不好吃
好的數據分析師就是像做菜一樣,每組數據、圖標、結論一步扣一步,合適的地方出現合適的數據,邏輯性強,配合好相關的模型,做出一道菜來


推薦閱讀:

如何在業餘時學數據分析?
用於數據挖掘的分類演算法有哪些,各有何優劣?

TAG:如何成為 X | 數據挖掘 | 數據分析 | 數據分析師 | 大數據 |