如何在業餘時學數據分析?

我是一個web前端開發者和rails程序員,計算機專業出身,掌握Python、Ruby、C、Java編程語言,具有較為紮實的計算機理論基礎。
現在工作之外的時間裡想學習一下數據分析或者數據挖掘。現在大數據這個詞搞得蠻火的,不少公司也有在招聘數據分析員。
抱著「技多不壓身」的想法我也想稍微學習一下。說不定以後的工作也會需要。

我稍微了解了一下,數據分析最基礎就是用excel來工作。不過我計算機專業出身的人,還是想通過用編程語言的方法來學習。聽說R語言不錯,我也稍微了解了一下。
不過現在要學數據分析的話,我可以從哪裡著手?
從哪裡弄到有分析價值的數據?
在開源社區有沒有開源項目適合用來學習數據分析?
可以自己動手做個什麼項目來實踐?


反對高票答案。


一上來便是各種教程,二話不說給出一批書單,各種數據處理的方式,講怎麼樣用Python挖掘數據,怎麼用R進行數據可視化,講AB測試。

他們給的教程都很好,數據處理的方式也很有借鑒意義。

且不說,有多少人是光收藏,而不去認真學習的,就算是認真去學習的,他們也會遇到這樣的問題

為什麼這麼用,為什麼這麼做。

比如,前兩天在我的這個回答中,零基礎如何學爬蟲技術? - 知乎

有很多人都有這樣的評論

一開始我是無語,後來想了想,這應該是一個普遍問題


這就是數據分析中最大問題,很多人學習數據分析,更多的是為了數據分析而數據分析,實際上根本不知道自己在做什麼,為什麼這麼做。

或者僅僅是為了在簡歷上增加一行

鄙人精通數據分析。

估計HR看了是要微笑著,然後把簡歷放入不予錄用的文件夾中。

數據分析,不論使用什麼樣的工具,使用什麼樣的方法,不論是Excel,還是Python,還是MySQL,都是工具,目的只有一個——

解決一個問題,或者給一個決策提供依據。

所以,學習數據分析的第一步,是要考慮,我要用數據,解決一個什麼樣的問題?

這點如果沒有考慮清楚,只是跟著網上的教程學習爬蟲,學習數據清洗,然後把那些公有的統計數據做成絢爛的圖表,又有什麼用呢?

1.哪裡開店

比如,有這樣一個現實的例子,你表嫂跟你說,小明啊,你最喜歡吃我煮的麻辣燙了,我想開麻辣燙店,就在大學城附近,你說哪裡好呢?

你是不是會想到以下幾個問題呢?

表嫂的麻辣燙真好吃,想想就流下了口水

咳咳,正事要緊,到底應該在哪裡開店呢?

所以,你有考慮到了這些可以量化的數據並且對應的你找到了這些數據的獲取方式

問題來了,雖然寫出來了大致的數據獲取方式,但是具體怎麼操作?

  • 招生計劃怎麼獲得,學校官網還是相關報道?
  • 如何通過在線地圖分析學校面積及相關建築分布的合理性,最小路徑還是順路路徑?
  • 如何獲學校食堂評價,爬取微博數據,獲得地理位置,並且對提及「食堂」的微博進行詞義褒貶分析?或者直接攔路問詢?
  • 人流量怎麼獲得,實地考察的時候,用本子畫正字嗎?

很好,這些問題你都想到了相應的解決方式,並且很順利的獲得這些數據,儘管有可能不太準確,但是你確確實實比以前更加了解了大學城附近大致的餐飲市場環境,不是么?

這也就是,

數據分析必須緊貼業務本身

獲得數據之後,如何分析,人流量/商販個數?但是每個商販的服務能力又不一樣,是不是得加權,如何加權?

於是你考慮了很多情況,寫下來一個公式:

建議推薦開店係數=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

根據係數,你得出一個結論,建議開店的位置的前三家分別是

  • A大東門
  • A大小西門
  • B大女生宿舍小南門

你表嫂想了下,說,我知道你最喜歡B大的小姑娘們,胸大貌美腿子長。

於是麻辣燙店就開在了B大女生宿舍的小南門。


這個過程中,你有可能學會的或者僅僅了解(不一定掌握)數據分析的相關技能包括不限於以下:

  • Excel加減乘除,基礎函數;
  • 爬蟲的基本原理,及操作方式;
  • 正則表達式與數據清洗;
  • 語義分析的一般實現方式;
  • 在線地圖API可以獲取的數據有哪些;

2.優化數據的應用

一陣時間的忙碌,店終於開起來了,你表嫂的手藝真的很不錯,每天都有很多小姑娘過來吃麻辣燙,中午晚上的時候,都忙不過來。

你表嫂感覺很可惜,很多客戶就這樣被浪費掉了:我多賣一份,少賣一份都無所謂,但是小姑娘本來想吃咱們家的麻辣燙,結果爬不上隊餓著肚子走掉了,到別家說不定還要等,看見我都覺得挺過意不去的。

這時候聰明的你,有可能想到了通過獲取以下數據,並且進行相關的分析來優化當前這個問題

你連續跟蹤了三天這樣的數據,運用了相關的統計學的相關知識

等待時間&>=13分鐘的時候,用戶放棄繼續等待的概率是78%!,然後你表嫂並不能理解,這78%到底是什麼意思

所以你畫了一張圖,說山峰越高,走的人就越多。

問題找到了,只要將最長等待時間優化到13分鐘之內,用戶放棄等待的幾率有可能下降。

這時候聰明的你,想到了如下的解決方式:

  • 用戶抵店之後,才開始點餐,然後烹飪,是不是可以通過互聯網的方式進行預點餐呢,所以你給表嫂申請了一個微信號,日經貼就是:「今天你想吃什麼」,回復留言及預計到店時間,即可預訂。
  • 你發現,用戶選完菜之後總是喜歡把菜夾放到最遠的地方,每次表嫂都需要把菜夾整理一次,拿到開始的地方。你考慮了一下,將菜筐的布局進行更改,剛好菜夾能夠完成一次循環;或者你使用專菜專夾的方式。
  • 優化了店內桌椅布局,行走了最短的距離到達全店
  • ……

數據分析必須落地才是有效的,不是提交統計結果,而且獲得統計結論


這個過程中,你有可能學會的或者僅僅了解(不一定掌握)數據分析的相關技能包括不限於以下:

  • 數據清洗的一般方式,時間函數計算
  • 統計學中分布的相關知識,這裡應該是泊松分布
  • 數據可視化,包括不限於Excel 圖表,js圖表庫,或者在線圖表工具

3.大數據的處理

生意越做越大,擴充了店面之後,又開了分店,這時候你表嫂已經不親自上一線熬煮麻辣燙了,但是又不放心那些雇來的人是否認真的在服務,於是制定了相應的店規,動不動還來一個突擊檢查。感覺比以前還要累了。

這時候,聰明的你,看在眼裡,疼在心裡,所以,你建議嫂嫂購買專業的餐飲管理軟體,來獲得相應的店鋪運營數據。

在餐飲軟體的後台,會有這麼些個大致的運營數據,

當前訂單量,成交量,客流量,客單價,等等等等,一切看起來那麼完美。


等等,不對,為什麼這個月以來,C分店的客單價總是這麼低呢?事出有異,必定有妖!

還好,這個系統功能還算完善,能夠導出一天所有的訂單明細,包含以下欄位,

下單時間,下單菜品,下單客戶,聯繫電話,消費金額,配餐人,操作人,收銀員,等等等


但是,你還是快掀桌子了,一個月,讓我導出30次數據,然後在合併么?這個方法簡直太土鱉了

你想著,要是能直接讀取資料庫不就好了么?一看產品介紹,資料庫使用MySQL,於是你Google了一下,SQL入門,你發現,WHERE 和SELECT 基本上都滿足你的需求了

很順利的,你把這些數據導出了。

你把這個20W條記錄的CSV用Excel打開,風扇瘋狂的轉了起來,不一會,你表嫂孱弱的筆記本就卡死了。

你感嘆,Excel分析小一點的數據還行,數據量稍微大點,就顯得力不從心。所以,你拿起了一本書,名字叫《21天學習Python,從入門到放棄》,這不坑爹呢嗎?


你想著,反正我是為了處理這批很大的數據,沒必要全部了解Python的功能,只需要找到相關的操作方法就好了。


你在Google上分別搜索了以下關鍵字

  • Python mysql
  • Python 數據分析庫

你還找到了一本,用Python進行數據分析的pdf,感覺這本書寫的通俗易懂,而且還有元數據示例。

在搜索的過程中,你發現了有好多數據分析是代碼示例,有的甚至,只需要改一下文件路徑,搬過來就能用。

你會感嘆,原來,寫程序也是Ctrl+C,Ctrl+V啊


這個過程中,你有可能學會的或者僅僅了解(不一定掌握)數據分析的相關技能包括不限於以下:

  • SQL基礎語句
  • Python常見的數據分析庫
  • Python數據可視化

聰明的你,搗鼓了三兩天,就發現了問題的所在?


那麼問題究竟在哪呢

我實在是寫不動了,明天再更

相關Live

* 培養數據分析的思維方式

相關回答

* 怎麼培養數據分析的能力? - 知乎

* 業餘時間如何學數據分析? - 知乎

* 零基礎如何學爬蟲技術? - 知乎

* 如何用一個循環語句輸出九九乘法表? - 知乎

* Excel 有什麼神奇用途? - 知乎


-------分割線-------
歡迎關注我的微信公眾賬號:決明子 Jueming_zi
這裡有關於攝影,繪畫,藝術,以及我想說給你們聽的故事

http://weixin.qq.com/r/iUgiOm3EeDAHrSlZ9x2b (二維碼自動識別)


謝邀!

事先說一句,Python Rocks, especially for Data scientist! 不是說 R 不好,我個人覺得 R 別彆扭扭的,但是現在 R 很多,而且 R 作為數據分析是一門好語言。選擇在個人,我只是說 Python Rocks!

回答你的問題:

不過現在要學數據分析的話,我可以從哪裡著手?

首先,依據你的情況,最好是有一個你熟悉背景的項目或者例子,不一定是「數據分析」項目,只要你能弄到數據,然後清楚要分析的對象和目的就好。

接下來說方法,現在有很多課程可以幫助你學習這些方法,具體哪個方法好,完全看你的問題是什麼,根據目的選方法。具體有哪些方法,請參考:數據分析、挖掘的好書求推薦?鑒於你會 Python,推薦機器學習實戰 (豆瓣)

從哪裡弄到有分析價值的數據?

還是上面那句話,依據問題選方法,有問題了,數據其實也不愁了。其餘,請參考:數據分析和挖掘有哪些公開的數據來源?

在開源社區有沒有開源項目適合用來學習數據分析?

Python Rocks! scikit-learn: machine learning in Python scikit.learn 是非常非常棒的機器學習 package,文檔詳盡,更新速度快!你看例子,看源碼,都能學到不少東西!其餘,請參考:請問學習機器學習有哪些好工具推薦呢?另外,去 github 上搜搜吧,好多好東西!

可以自己動手做個什麼項目來實踐

Kaggle Competitions 從最下面的101開始,逐級往上!

Have fun and good luck!

-------------------------------------------------------------------------------------
如果你覺得我的答案對你有幫助,可以考慮向我付費:

https://qr.alipay.com/aey3xifc0xukn2us71 (二維碼自動識別)


對於大部分人來說,數據分析基本上都是靠著自學完成,比如我就是一個典型的案列。題主是計算機出生,上手數據分析應該比較容易一點。我沒接觸過什麼編程,目前也在搞SPARK,HADOOP等,也沒覺得自己比別人差多少~~

我給出的這個回答基於我自己的學習路徑,並且主要是以書本為主,嘗試回答一下:一個新手如何系統的學習數據分析
下面我先給出書單:


這些書籍都有對應的中文版本。我喜歡將學習分階段進行,這樣學習起來有目標並且不會太累,每個階段完成各自的任務就好。後面的星星代表每本書籍的重要度,星星越多表示該書越值得閱讀。

初級階段:
首先,我是贊成PYTHON ROCKS這句話。說多了你可能不理解,但是當你正真在工業上應用的時候,你就會發現PYTHON能做很多R不能做的事情。 因此強烈建議第一階段以打基礎,學習PYTHON為主。 那麼怎麼學?
《深入淺出數據分析》 是可以學習到最基礎的統計、概率等理論知識,這些知識是你前進的基石,而且此書延續了head first系列的一貫作風,非常的有趣味,讀起來不會感覺枯燥乏味!

接下來你應該好好的學一學PYTHON這門語言。我們說PYTHON可以做的事情太多了,數據分析只是它的一個功能而已。因此鎖定目標,只學習有關數據分析部分的知識就行,其它涉及到什麼WEB開發,網路編程的一律跳過,一定要集中精力去攻克你的目標,不要分神,有時候攤子鋪大了就回不來了!! 那麼《利用PYTHON進行數據分析》絕對是你學習PYTHON的不二之選(我指的是數據分析),這本書的作者是大名鼎鼎的pandas的作者,你可以想像這本書的權威性。因此去買一本,好好的研究一番,基本上你的數據處理能力能上好幾個台階。一定要重點學習numpy,pandas,matplotlib.

然後,SQL是你逃不掉的命,一定要寫好,你既然是計算機專業,應該不需要我強調太多~
最後一本書你就當著小說讀讀就行,改善一下你程序員的思維,學會一點怎麼在真實業務中應用數據分析技巧!記住:這是趣味書!

以上就是初級階段,主要以看書為主,讓自己對數據分析有一個初步的認識。
下面的中級,高級就需要配合視頻和書本一起來學習了~

中級進階:
這一部分是核心的地方,也是你能夠和別人拉開距離的階段。學的好,薪資蹭蹭的往上漲,學不好,那就多學幾遍。
在這個階段的核心任務就是:擼的了代碼,算的上公示,看得懂業務! 中級階段會涉及到大量的使用代碼和模型去解決實際業務問題!

看清楚三點:代碼、模型、案列
你要邊學邊用,這樣才能學的更快,收貨更多! 那麼怎麼學?
第一步,《數據挖掘導論》這本書先花一個月的時間好好的閱讀下,知道數據挖掘的一個雛形,能夠認識一些常用的模型和演算法。能夠搞清楚常用的監督和非監督學習,提到模型要能說出它的應用場景和優缺點。回答幾個關於這本書的常見問題?
1. 閱讀這本書是否需要一點課前知識?
答:要,但是不多。
2. 都有哪些課前知識?
答:微積分,概率論,線性代數,運籌學等等
3. 我的天!那我是不是先要去學習一下這些知識後再來看這本書?
答:千萬別!!! 記得我前面說過:攤子鋪大了你有時候就回不來了。
4. 那我怎麼學?
答:很簡單。直接看書,看不明白的就去google。比如說你看到SVM那裡,不知道什麼是拉格朗日,那麼就去Google(其實這本書的附錄也講了什麼是朗格朗日,甚至還講解了怎麼進行矩陣計算)。 總之,不要兜圈子,遇到什麼就去補什麼。

同時,在這裡我強烈建議你去學習一下coursera上面的機器學習課程,你會對演算法有一個更深的認識,關鍵是你能學會矩陣計算,梯度下降等常用技能:
https://www.coursera.org/learn/machine-learning

第二步,使用PYTHON結合數據挖掘知識進行實際案列操作。請使用《集體智慧編程》,這本書的評價我也給你們貼出來,豆瓣評分9分,質量自然不用我說。我唯一想強調的是:請你一定要全部代碼自己寫一遍,不要複製粘貼!!!!!!
集體智慧編程 (豆瓣)

如果有時間,請去學習一下關於PYTHON的課程:Introduction to Computer Science and Programming Using Python

第三步,歡迎使用《機器學習系統設計》這本書,你會接觸到PYTHON裡面最niubility的SCIKIT-LEARN機器學習包。雖然官網文檔閱讀性已經很佳,但是缺少一個系統的過程。而這本書就是教會你如何從真實的業務角度去思考運用機器學習模型。 同樣的,請你自己敲代碼,不懂的就去看官方文檔,還是不懂的就去google。

第四步,想知道為什麼豆瓣和亞馬遜的推薦那麼準確? 那麼《推薦系統實戰》絕對是一本最佳的書籍,作者將全部的演算法使用PYTHON實現,無論是基於業務的推送還是基於協同過濾演算法的推送都講解的非常清楚!!如果你有興趣了解,請毫不猶豫的上馬拉弓~

第五步,你一定聽說過R,一定也糾結過到底學習R還是PYTHON。那麼我就粗暴的回答一下:都要學!,前期已PYTHON為主,後期一起學習R語言,不要問我為什麼,純屬個人感覺。
《R IN ACTION》絕對絕對是入門的最好參考書,沒有之一。跟著書上的代碼敲一遍,模型計算都自己搞清楚(你有了前面的基礎,這些學起來很輕鬆)。
最後,COURSERA上面的R語言課程很糟,誰聽誰倒霉,不信你去試試?

高級部分下次再敲,累~~~


上面有許多關於數據挖掘方面的優秀回答,所以在這我想從「數據分析」這一塊來講下,當作一些補充。

想要培養數據分析的能力,我認為可以從兩部分來著手:一是數據分析方法論的建立,二是數據分析從入門到精通的知識學習。

那麼該如何搭建自己的數據分析知識體系?數據分析的價值又在哪裡?做數據分析有哪些具體的方法?又如何學習數據分析?

而且數據分析一定是不能脫離業務的,所以從業務的角度,我把我之前的兩篇文章整理下,和大家分享一下這些問題。


Part 1 | 數據分析方法論 知識體系


1. 數據分析體系:道、術、器

「道」是指價值觀。要想做好數據分析,首先就要認同數據的意義和價值。一個不認同數據分析、對數據分析的意義缺乏理解的人是很難做好這個工作的。

「術」是指正確的方法論。現在新興的「Growth Hacker」(增長黑客)概念,從 AARRR 框架 ( 獲取、激活、留存、變現與推薦五個環節)入手進行產品分析,這是一個非常好的分析方法。

「器」則是指數據分析工具。一個好的數據分析工具應該能幫助大家進行數據採集、數據分析、數據可視化等工作,節省時間和精力,幫助更好理解用戶、更好優化產品。

2. 數據分析的價值

數據分析不能為了分析而分析,而要將落腳點放到業務、產品和用戶上。以產品經理為例,數據分析應該幫助產品經理不斷優化產品設計和迭代,驅動產品和用戶增長。


當我們上線了一個新的產品(product)或者功能時,需要對其進行數據監控和衡量(measure)。然後從監控中採集到產品的用戶行為數據(data),並對這些數據進行分析和總結(learn)。最後從分析中得出結論和觀點(idea),如果數據證明我們的新產品/功能是優秀的,那麼可以大力推廣;如果數據說明我們的產品還存在問題,就需要對產品進行新一輪的優化(build)。

在「產品——數據——結論」的不斷循環中,我們不斷用數據來優化我們的產品,加快產品迭代的步伐、提升用戶體驗。

3. 數據分析的方法

(1)流量分析

a. 訪問 / 下載來源,搜索詞
網站的訪問來源,App 的下載渠道,以及各搜索引擎的搜索關鍵詞,通過數據分析平台都可以很方便的進行統計和分析,分析平台通過歸因模型判斷流量來源,產品經理在分析這些流量時,只需要用自建或者第三方的數據平台追蹤流量變化即可,第三方平台如 Google Analytics 、GrowingIO 等;

b. 自主投放追蹤
平時我們在微信等外部渠道投放文章、H5 等,許多產品都會很苦惱無法追蹤數據。
分析不同獲客渠道流量的數量和質量,進而優化投放渠道。常見的辦法有 UTM 代碼追蹤,分析新用戶的廣告來源、廣告內容、廣告媒介、廣告項目、廣告名稱和廣告關鍵字。

c. 實時流量分析
實時監測產品的訪問走勢,尤其要關心流量異常值。舉個例子,某互聯網金融平台因為一個產品 Bug 導致用戶瘋狂搶購造成的流量峰值,產品經理髮現實時數據異常後迅速下線該產品修復 Bug,避免了損失擴大。

(2)轉化分析

無論是做網站還是 App,產品裡面有很多地方需要做轉化分析:註冊轉化、購買轉化、激活轉化等等。一般我們藉助漏斗來衡量用戶的轉化過程。


影響轉化率的因素很多,我們總結了三個大的方面:渠道流量、用戶營銷、網站 / APP 體驗。以渠道流量為例,通過優選渠道並且量化分配我們的投放資源,可以有效提升總體的轉化率。

更詳細的轉化分析方法,可以參考我之前的這篇回答 如何提升轉化率? - 張溪夢的回答 。


(3)留存分析

在互聯網行業里,通常我們會通過拉新把客戶引過來,但是經過一段時間可能就會有一部分客戶逐漸流失了。那些留下來的人或者是經常回訪我們公司網站 / App 的人就稱為留存。
在一段時間內,對某個網站 / App 等有過任意行為的用戶,稱之為這個網站 / App 這段時間的活躍用戶,這個任意行為可以是訪問網站、打開 App 等等。

現在大家經常會用到所謂的「日活」 (日活躍用戶量,DAU)、「周活」 (周活躍用戶量,WAU)來監測我們的網站,有的時候會看到我們的「日活」在一段時期內都是逐漸地增加的,以為是非常好的現象,但是如果沒有做留存分析的話,這個結果很可能是一個錯誤。
留存是產品增長的核心,用戶只有留下來,你的產品才能不斷增長。一條留存曲線,如果產品經理不做什麼的話,那麼用戶就慢慢流失了。

這是一個常見的留存曲線,我把它分成了三個部分:第一部分是振蕩期,第二部分是選擇期,第三部分是平穩期。

從產品設計的角度出發,找到觸發留存的關鍵行為,幫助用戶儘快找到產品留存的關鍵節點。之前我們發現我們產品裡面,使用過「新建」功能用戶的留存度非常高;於是我們做了產品改進,將「新建」按鈕置於首頁頂部刺激用戶使用,效果非常好。

矽谷流行的 Magic Number(魔法數字)也是留存分析的一部分,比如 Facebook 發現「在第一周里加 10 個好友」的新用戶留存度非常高。作為產品經理,我們也需要通過數據分析來不斷探索我們產品裡面的魔法數字,不斷提高用戶留存度和活躍度。

更詳細的留存分析方法,可以參考這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · Magic Number 。


(4)可視化分析

用戶體驗,是一個非常抽象的概念,我們可以對其進行形象化。目前一個普遍的方法就是對用戶的數據進行可視化,以熱圖的形式呈現。


藉助熱圖,產品經理可以非常直觀了解用戶在產品上的點擊偏好,檢驗我們的產品設計或者布局是否合理。

熱圖的概念、原理、類型和應用,可以參考這個回答 熱力圖是什麼原理? - 張溪夢的回答 。


(5)群組分析 挖掘用戶需求、改進及優化產品

千人千面,產品經理對用戶精細化的分析必不可少。不同區域、不同來源、不同平台甚至不同手機型號的用戶,他們對產品的使用和感知都可能存在巨大的差異。產品經理可以對不同屬性的用戶進行分群,觀察不同群組用戶的行為差異,進而優化產品。


之前我們做過一次分析,網站的總體註冊轉化率是 6%;但是使用 Chrome 瀏覽器的新用戶註冊轉化率高達 12%,使用 IE 瀏覽器的新用戶註冊轉化率才 1%。這樣一分的話,問題就很明顯了,極有可能是瀏覽器兼容性的問題,產品經理應該關注一下這個問題。

詳細的群組分析操作流程,可以參考這個回答 產品經理一般是怎麼搜集產品不好用之處的? - 張溪夢的回答 。

Part 2 | 數據分析知識學習


從入門到精通:互聯網數據分析的書籍清單!

任何一個技能的學習,都有從淺到深的過程,數據分析也不例外。因此我把推薦書籍劃分成幾個段位,更便於大家挑選。

1. 入門版

適合對數據分析的入門者,對數據分析沒有整體概念的人,常見於應屆畢業生,經驗尚淺的轉行者。

深入淺出數據分析 (豆瓣):HeadFirst 類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。

誰說菜鳥不會數據分析 (豆瓣):不僅講解了一些常見的分析技巧,並附帶 Excel 的一些知識以及數據分析在公司中所處的位置,對職場了解亦有一定幫助。

赤裸裸的統計學 (豆瓣):作者年輕時是個追求學習意義的學霸,後來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

同樣類似的書籍還有「統計數字會撒謊 (豆瓣)」,這本書知名度要高點,不過我還沒看…


2. 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及數據產品經理。

精通 Web Analytics 2.0 (豆瓣):此書雖老,但其中很多思想和流量分析的案例仍然很有借鑒意義,現在紙質書只能上淘寶買舊書了。

與此類似的有「網站分析實戰 (豆瓣)」,是國內一本講網站分析的書,沒有上面經典,但勝在新出,很多案例和理念都有及時的更新。

深入淺出統計學 (豆瓣):Headfirst 類書籍,可以幫助你快速了解統計方面的知識。

數據化管理:洞悉零售及電子商務運營 (豆瓣):黃成明著,講解在企業中應用數據的例子,讀完受益匪淺,裡面舉的很多例子都很接地氣。雖說偏向於零售業管理,但大道歸一,可適用於很多行業,當時依據裡面的理念規划了美團外賣面向 BD 的數據產品。

MySQL 必知必會 (豆瓣):這本也是我當年學習 SQL 的入門書,薄冊子一本,看起來很快。SQL 是個性價比很高的技能,簡單而強大。任何想進一步提高自己數據分析技能的產品/運營/分析師 同學,都建議點亮 這個技能點。

互聯網增長的第一本數據分析手冊:我司 GrowingIO 出的一本數據分析的增長手冊(封面和目錄見下圖),我們一直在做互聯網行業數據分析知識的普及,目前我們已經做了 15 期「GrowingIO 數據分析公開課」,面向產品經理、運營等等,這裡是我們整理出來的「互聯網增長的第一本數據分析手冊」。為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可點擊書籍名字在 GrowingIO 技術論壇中免費下載。

3. 高階版

更高階的數據相對來說專業性較強了,如涉及到企業內部數據治理,數據結合的業務分析,數據可視化等。當然,還有數據挖掘演算法之類的更深入的東西,這塊沒有研究就不瞎推薦了。

決戰大數據 (豆瓣):阿里巴巴前數據副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理數據過程中的心得,所講「存-通-用」數據管理三板斧和「從數據化運營到運營數據」,字字珠璣,可堪借鑒。

精益數據分析 (豆瓣):此書優勢在於將企業分成了幾個大的行業類別,並分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。

The Wall Street Journal Guide to Information Graphics (豆瓣),華爾街日報負責商業分析的人做的可視化指南,精華且實用,我之前在公眾號上寫過讀書筆記「華爾街日報是這樣做數據可視化的(1)」,可供大家參考。

《數據倉庫經典教程》:網上有人整理出來的資料,優點是簡單明了,不像正常的數據倉庫教材厚厚一本。


4. 推薦關注

在知乎上有不少數據分析及 Growth 的大牛,在這裡推薦幾位我熟悉的,經常會寫一些相關的文章:

覃超,前 Facebook 早期工程師,關於增長黑客寫了許多優秀的文章;

鄒昕,Facebook 用戶增長數據分析,在數據分析方面很有見解;

范冰,「增長黑客」一書作者,人非常有趣,同時也非常推薦「增長黑客」這本書;

曾加,螞蟻金服 BI-數據分析,數學方面的牛人;

何明科,專註於數據和互聯網產品,許多回答很值得細看。


| 結語

數據分析是一門多學科、多領域的交叉學問,涉及到的東西非常多。要想做好數據分析,應該有一套完整的思維體系,在價值觀、方法論和工具三個層面上儲備相關知識。同時立足於產品和用戶,用數據來打磨產品,用數據來檢驗迭代,不斷提升用戶體驗。


註:本文中熱圖、實時等產品功能均來自 GrowingIO 官網 矽谷新一代數據分析產品 。


大家都談了很多機器學習、統計模型等高端大氣上檔次的知識,我來補充一些接地氣的入門書:

  • 《點擊流數據倉庫》:美河提供.點擊流數據倉庫.rar_免費高速下載,數據倉庫很臃腫,但原理是一樣的
  • 《精通excel2007數據分析與業務建模》:[精通Excel.2007數據分析與業務建模(附CD)].Excel.2007.Data.Analysis.and.Business.Modeling.pdf_免費高速下載,有沒有人試過用excel做回歸分析和規劃求解?
  • 《精通Web_Analytics》,第一版第二版都不錯。絕對的普及貼。
  • 《流量的秘密》,GA對流量的抽象以及各種辭彙的定義,已經很標準很全面了。
  • 《證析》,理論派書籍里,比較全面的一本
  • 《高性能MySQL》,《Oracle性能診斷藝術》,這兩本已經不那麼接地氣了,沒有接觸大量數據大量運算的情況下,比較難上手。對於複雜邏輯的業務數據分析,怎能離了強大的oracle

以上書都偏分析而非挖掘,都是沒啥難度的基礎書籍,容易被鄙視,也容易找工作。
關注點都在高端知識上,就容易陷入拿著鎚子找釘子的境地,缺乏對背景知識的關注。而現實總不會跟理論那麼貼合,一個很一般但是可以解釋的模型,要好過效果很好但無法解釋的模型。對於互聯網這種快速前進日新月異的公司,往往快速也比精準更好。


來寫一個非計算機/統計背景出身的人,如何利用業餘時間學習數據分析的技能吧。

數據分析將會作為一門通識技能,進入越來越多的不同工作崗位中。畢竟「技多不壓身」,掌握數據分析,一方面可以提升自己相應的業務能力,另一方面也可以讓自己建立一種data-driven的視角,去思考各種問題。

關鍵詞:非科班 + 業餘時間 + 數據分析

結合自身的經歷,我想從基本技能+動手實踐兩個角度談談。

基本技能

不論是學什麼,還是需要先有一個大的框架。對於學習數據分析而言,需要的技能模塊有統計基礎+資料庫知識+編程能力

統計基礎

理工科的學生在本科階段學習過概率論與數理統計,單從做數據分析的角度,其實已經夠用了。那麼在業餘時間裡,我們需要有一本書可以隨時查漏補缺,《深入淺出統計學》你值得擁有。

資料庫知識

關係型資料庫很重要,因為在學習數據分析的初期甚至很長一段時間,你接觸到的數據都存儲在關係型資料庫中,需要學習SQL語言去進行數據的查詢。SQL的上手很快,強力推薦《SQL必知必會》,整本書通俗易懂,是學習SQL語言的不二之選。我當年入坑也就是這本書開始的。個人覺得,學習資料庫的本質就是在學習一種與數據打交道的邏輯思維與能力。而且在編程中的很多思想都是和SQL之間相通的,比如:SQL中對data進行group by的操作,這個在Excel里類似於透視表,在Python/R中也有相應的group function去處理數據。甚至在以後的進階過程,你會接觸到分散式資料庫和所對應的no-SQL語句,本質上都是和關係型資料庫及SQL相通的。

編程能力

Excel --- 別拿Excel不當乾糧,之前看到過一個段子:投行的童鞋們用Excel根本不需要滑鼠,暫且放在這裡調侃一番。不過,Excel裡面的透視表(Pivot Table)確實是做數據分析的必備技能。透視表可以幫你迅速匯總數據,看到各類型數據的直觀特徵就像是讓你站在了一個更高的視角上去看你的數據。作為進階,Excel自帶的函數,各種插件,以及VBA也是很好的工具,將Excel用到極致也不是不可以。

Python --- 當數據量大到用Excel打開都要好久的時候,或者我們想進一步提升能力的時候,需要學習一些hardcore技能,即用編程語言做數據分析。這裡主要有R和Python兩大流派。我個人推薦Python,一方面Python代碼簡單易懂,容易上手;另一方面學習資料超級多。在這裡推薦一本書,《利用Python進行數據分析》,這本書涵蓋了利用Python做數據清洗,數據可視化及分析的技能點,可以作為一本工具書隨時查閱。

難道學習數據分析就一定要掌握這些基本技能嗎?答案是,並不一定在開始的時候就全部掌握,學習數據分析最重要的方式就是動手實踐,get your hands dirty at first。結合樓主的提問,重點講講動手實踐的部分

動手實踐:

這一部分其實就是在回答題主的幾個問題:

  1. 從哪裡弄到有分析價值的數據? --- 平台
  2. 在開源社區有沒有開源項目適合用來學習數據分析?
  3. 可以自己動手做個什麼項目來實踐
  • 好的平台社區:既然是利用業余時間學習數據分析,那麼一個好的平台社區將會起到事半功倍的效果。美國有Kaggle,中國有Kesci; 美國的kaggle是全世界做數據科學/數據分析的愛好者/從業者的聚集地,上面你可以看到各種大神的數據分析/挖掘項目,拿來自己練練手。中國現在也有了數據分析學習社區---科賽網Kesci; 在這裡可以找到很多開源數據集啟動你的數據分析之旅。What"s more, Kesci有一個目前國內獨有的在線數據分析平台,K-lab。當你在社區內看到不錯的項目之後,可以fork過來在K-lab上面做自己的分析項目並在社區內做展示。我們也在推動從0到1學習數據分析的活動,陪伴中國的第一代數據分析師成長。
  • 隨時查漏補缺:在這一路實踐的過程中,你可能會遇到各種問題,知乎就是一個強大的搜索引擎,有很多大牛寫的數據分析文章;當然,如果你英文能力強的話,歡迎copy and paste from StackOverflow, 你可以直接搜索你在寫代碼做數據分析遇到的各種問題,總有一款答案適合你。
  • 再進一步升級:這一路實踐就像是遊戲里打怪升級的過程,比如你發現自己對統計的知識點不是很清楚,你開始回過頭去看統計學書籍;你發現數據存儲在分散式系統裡面,你開始學習no-SQL的知識;你發現自己對某一行業比較感興趣,你開始通過數據分析去了解一個行業;你發現自己已經不滿足於利用現成數據作分析,你開始學習使用爬蟲去抓取數據作分析。逐個擊破知識盲區,滾雪球式累積,這也是學習數據分析的精髓。

小結

學習數據分析本來就是搭好框架體系不斷累積知識不斷hack技能不斷提升分析水平的過程。哪怕是業餘時間學習,假以時日,亦可成大器。也許正因為不是科班出身,所以在奔向遠方的道路上才會永不知足,永不疲倦,「stay hungry, stay foolish」。


以下方法僅適用開發出身或有語言基礎的同學。

我的情況跟題主是一樣的,軟體工程出身,在之前一直在做Java/Python開發,無意之中接觸到了爬蟲,接觸了一堆一堆的數據,之後慢慢開始對數據感興趣,開始學習一些數據分析的技能:憑著爬蟲以及數據分析的技能我找到了理想中的數據分析崗位。所以我對自己的評價一直是:科班出身的軟體工程師、野路子的數據分析師。

從Java/Python開發到Python爬蟲到數據分析,有很多人是看著我一步一步走過來的,我想在這裡根據我自己這段野路子的學習經歷說一說非科班如何利用業餘時間學數據分析,當然只是數據分析,不是數據挖掘。

數據分析師的能力分為:分析能力和業務能力, @鄒昕 大神說:分析能力決定一個數據分析師的下限,業務能力決定一個數據分析師的上限。

因為是開發出身,我的方法與其他人的不同,

我把數據分析的學習分為兩個大的階段,:

學習的第一階段:這一階段是為了培養自己做分析的能力

第一階段的基礎是要有數據

分析能力相對來說是死板的,通常你需要學會掌握下面這些技能:

  • 數據分析常用哪些演算法?
  • 需要用哪些庫?
  • 如何進行計算?
  • 進行可視化,每一種圖表的用途是什麼?

為了解決上面拋出的問題,你可以仔細學習閱讀下面的書籍:

1. 利用Python進行數據分析 (豆瓣)

2. SciPy and NumPy (豆瓣)

當然,如果你不想用Pyhton用R去搞這麼複雜的計算,那你也可以直接把清理好的數據扔在一些做計算和可視化的工具里,我比較熟悉的就是:Tableau,以及據說不錯的Power BI.當然最後你發現還是學習Python或者R的數據分析庫來的實在,因為他們更加靈活。

在第一階段用工具結合Python我留下了一些文章,可以作為參考,這些都是在爬蟲抓了很多數據之後,先有數據後結合教程書籍分析學習產生的內容。

1. 鏈家網的租房數據做些有意思的事情?

2. 豆瓣讀書分析報告

3. 爬取6.6w+豆瓣電影之後的分析故事

學習的第二階段:這一階段是為了培養自己做業務的能力

在第一階段的學習你已經學會了:

  • 對數據的整體感知
  • 知道什麼時候該用什麼圖表
  • 掌握了一些基本的演算法和分析庫

這一階段,技術不再是你的障礙,重點是要有IDEA

這一階段數據分析的步驟通常為:

  • 我想要做什麼?分析什麼?
  • 是否有數據能提供支持?把你想做的抽象成數據。
  • 數據獲取/數據清洗
  • 開始進行分析(語言、工具)

我們能看到這四個步驟後兩個步驟是在第一階段學習的內容,所以我們只要把精力聚焦在前兩個步驟就可以了,那麼怎樣培養自己數據分析的IDEA,我的方法是:多學多看多做。

多看:看一些實戰IDEA較多的書籍

1. 數據之美 (豆瓣)

2. 啤酒與尿布 (豆瓣)

3. 深入淺出數據分析 (豆瓣)

多做:

網路上有很多數據分析的案例,很簡單易懂,在深層的技術點也不難,你完全可以按照他的思路重新做一遍,就變成了你的思路了。

數據冰山的數據分析文章:

1. 生活中的數據犀利哥之一:開篇及選車

2. 生活中的數據犀利哥之二:排隊

3. 生活中的數據犀利哥之三:找座

4. 生活中的數據犀利哥之四:看趨勢

5. 生活中的數據犀利哥之五:找錯因果關係

6. 生活中的數據犀利哥之六:快遞員送貨

7. 北上廣深哪裡過得更瀟洒

8. 滄海橫流,看行業起伏(2015年)

9. 和頤事件之後: 怎麼定酒店更有安全感?

10. 老鹿玩數據——不光是求婚神器(一)

11. 老鹿玩數據——不光是求婚神器(二)

12. 《春節自救指南》之數據分析

還有我曾經寫的幾篇文章:

1. 如何判斷一場知乎live的質量?

2. 豆瓣5.6分的《西遊伏妖篇》有水軍嗎?

團支書的一些回答和文章:

1. 怎樣才能以最少的錢租個靠近地鐵的房子?

2. 「上海富了周圍,北京坑了周圍」? - 知乎

3. 如何不吹牛地形容北京有多大? - 知乎

等等幾位的文章都可以用來學習參考。

通過以上數據分析算是入門了,至於如何進階,我也在摸索中,希望有機會我可以更新到這篇回答里,也歡迎在學習數據分析的同學一起交流。

PS:如果你正在學習或者想要學習數據分析,又苦於沒有數據集,可以在微信公眾號「一個程序員的日常」後台回復關鍵詞「0」獲取一套我整理好的上百萬條各個網站的數據集合。


高票答案分兩種。

一是提供學習資源的,各種經典書籍、網站教程,都很好,能夠為初學者減少很多資源篩選的時間。但對於很多浮躁的小白來說,無疑是目標缺失的,每一部分學完能做什麼,如何應用,是一個很大的問題。這樣的學習,很容易未入門就放棄,所以並不建議從啃一本書開始。

另一種是從實際的問題場景入手的。這確實是一個不錯的方式,因為模擬了一個數據分析問題解決的流程。但這對於沒有數據分析經驗的人,特別是不怎麼了解業務的人來說,這種方式又會陷入另一種困境:如何提出高質量的問題、如何找到清晰的分析思路。數據分析的思維是在有經驗之後才能夠養成的,而這種方式要求一開始就具備這種分析的思維,如果不懂業務問題,其實很難有針對性地去分析一個問題。

我們就從數據分析技術和數據分析思維的養成,來談談如何在業餘時間高效學習數據分析。主要是給更多的人一條相對平滑的、簡單的學習路徑,讓學習的過程變成實踐的過程,每個階段都能輸出成果。

先給出一條學習路徑吧:

  1. 開始用數據玩起來
  2. 好像少點統計學知識
  3. 數據不幹凈怎麼辦
  4. 握草!python大法流弊
  5. SQL打開新世界的大門
  6. 數據分析的思維
  7. 通向更高的維度

1.開始用數據玩起來

你可能會疑惑:我什麼都不會,你就讓我玩起來?

不急,我們慢慢來解答。

題主可能沒什麼數據分析的基礎,但至少你還會編程,這比起很多小白來說這是一個相當大的優勢。當然你可能覺得應該循序漸進地看書學習,但無數人從入門到放棄的經驗告訴我們,那個過程本身就是不人性化的,特別是對於碎片化的學習來說。

怎麼開始用數據玩起來呢?

先找一個數據集,如果你工作中有一些現成的數據(用戶數據、銷售數據、產品數據等),是最好的,因為這些數據跟你的認知是高度相關的,能讓你更加的有針對性。當然如果沒有這樣的數據資源的話,也可以找一些網上的公開數據集,推薦幾個有公開數據集的網站。

UCI:加州大學歐文分校開放的經典數據集,真的很經典,被很多機器學習實驗室採用,強烈建議前期數據集缺乏並且不想花太多時間去找的情況下用這裡面的數據。

國家數據:數據來源於中國國家統計局,包含了我國經濟民生等多個方面的數據。

CEIC:超過128個國家的經濟數據,能夠精確查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數據。

中國統計信息網:國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息。

拿到這些數據,你就可以進行一些探索性的分析了。最常見的,就是把這些數據用可視化方式描述出來,最常見的就是 Excel,在把數據轉化成圖像的過程中,你就會發現一些數據分布的特點。

比如你拿到一個產品的銷售數據,把數據按照時間序列繪製出圖形,那就可以看到銷量與時間、季節、特殊節點之間的關係;當你分地區來展示,你可以看到產品受不同地區用戶的喜愛程度;當你把銷售數據和其他的一些因素結合起來(比如推廣行為),可以發現這些因素對銷售量的影響。

你看,其實冰冷的數據在進行圖形化的展示之後,我們可以發現很多基本的規律,這個已經可以得出一些很有用的知識了。

所以你看,其實你已經可以開始進行基本的數據分析了。當然如果你也不怎麼熟悉 Excel 的話,去熟悉一些這些基本的圖表的用法,我們經常用到的也基本是條形圖、折線圖(散點圖)、扇形圖。

覺得很簡單是吧,當然可視化你還可以去了解用編程的方式去實現,比如 python裡面的seaborn、matplotlib,R裡面的ggplot2,這些都是很好的可視化工具(這對於題主來說應該是小case)。小白也不要以為很難,這個階段你並不需要系統地去學習python或者R,只需要了解這些庫的一些基本函數和用法就可以了。比如下面這些圖,在python裡面就是一行命令的事情。

網上有很多這些可視化工具的教程,跟著做很容易上手,主要是記住具體的函數、方法的使用方式,多聯繫一下就可以了。

當然不是讓你瞎玩,畫幾個圖雖然簡單,但這還遠遠不夠,在畫圖的過程中,你需要真正去做一些思考,從這些可視化的圖表中,你能夠可能發現哪些規律,你可嘗試輸出一些簡單的結論和報告。

2.好像少了點統計學知識

如果你用可視化的形式做了一些探索性的數據分析,那麼你就會發現,得到的知識並不是那麼多,那麼,如何做更加精細化的分析呢?這個時候你需要補充一些統計學的知識了。

因為網上其實很少有系統的統計學的學習資料,這裡更加推薦去看一些統計學方面的書籍。推薦書:深入淺出統計學 (豆瓣)

在具體的數據分析中,主要用到統計方面的以下知識,在看書的時候重點學習:

  • 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等;
  • 概率分布:幾何分布、二項分布、泊松分布、正態分布等;
  • 總體和樣本:了解基本概念,抽樣的概念;
  • 置信區間與假設檢驗:如何進行驗證分析;
  • 相關性與回歸分析:一般數據分析的基本模型。

那通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析,這個時候也需要你去了解更多的Excel函數來實現基本的計算,或者python、R裡面一些對應的可視化方法。

有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。

你也可以應用假設檢驗的方法,對一些感性的假設做出更加精確地檢驗。

利用回歸分析的方法,你可以對未來的一些數據、缺失的數據做基本的預測。

了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法。也可以看書,先推薦一本非常簡單的: 深入淺出數據分析 (豆瓣)。

3.數據不幹凈怎麼辦

很多時候我們拿到的數據是不幹凈的,數據的重複、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。

比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重複的,還有一些數據是設備故障時監測無效的。比如用戶行為數據,有很多無效的操作對分析沒有意義,就需要進行刪除。

那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。

對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:

  • 選擇:數據訪問(標籤、特定值、布爾索引等)
  • 缺失值處理:對缺失數據行進行刪除或填充
  • 重複值處理:重複值的判斷與刪除
  • 空格和異常值處理:清楚不必要的空格和極端、異常數據
  • 相關操作:描述性統計、Apply、直方圖等
  • 合併:符合各種邏輯關係的合併操作
  • 分組:數據劃分、分別執行函數、數據重組
  • Reshaping:快速生成數據透視表

網上有很多pandas的教程,主要是一些函數的應用,也都非常簡單,如果遇到問題,可以參看pandas操作的官方文檔。

4.握草,Python大法流弊

通過pandas,你可能已經意識到,python真實一個神奇的東西。

但除了pandas,python還有其他優秀的數據分析、數據挖掘的庫,比如numpy、scipy、scikit-learn,那你可以去找一些教程來看看如何通過這些庫實現數據分析,先搞清楚那些最常用的方法,並結合實際的數據集進行練習。那些並不常用的方法,可以等到在遇到具體的問題的時候再去查閱相關的文檔。

比如利用numpy進行數組的計算,利用scipy實現不同的假設檢驗,利用scikit-learn實現完整的數據分析建模……這些網上有很多可以學習的教程,當然也可以去看書,推薦一本:

利用Python進行數據分析 (豆瓣)

當然前期並不建議你去追求各種高深的技巧,你更需要去熟悉最基本的用法,畢竟基本的才是最常用到的,常用的方法已經可以幫助你解決絕大部分初級階段的數據分析問題了。

比如利用回歸分析(線性回歸、邏輯回歸),你就可以去實現很多的預測型的數據分析,對未來的數據進行預測。

題主python這部分應該沒問題了,只需要去了解相關的庫即可。當然,如果是小白,還需要去了解一些python的基礎知識,比如變數、基本元素等,如果你對python無感,那麼R語言也完全可以幫助你解決數據分析問題。

5.用SQL打開新世界的大門

在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,打開文件都會是個問題,資料庫就能夠很好地解。而且大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。

SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:

提取特定情況下的數據:企業資料庫里的數據一定是大而繁複的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。

資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。

數據的分組聚合、如何建立多個表之間的聯繫:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更複雜的數據。

SQL這個部分相對來說比較簡單,可以去這個教程:MySQL-菜鳥教程

當然如果你一直面對的是不那麼大的數據,或者pandas等工具已經夠你用了,那你也可以暫時不了解SQL這一塊相對獨立的知識。

6.數據分析思維

如果你對業務本身有一定了解,那麼你可能在數據思維的養成方面會更加有優勢,你會知道哪些因素、哪些數據是相對重要的,那麼你可以在分析中更加容易地找出重要的問題,也能夠更清楚應該從哪些方面入手,這就是問題定義的過程。這是數據分析的第一個步驟,但往往要經過很多的實戰訓練才能養成。

開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。

你也可以看看行業的分析報告,推薦:艾瑞諮詢

看看優秀的分析師看待問題的角度和分析問題的維度,你也可以去參考優秀數據分析師的一些思考維度去進行分析,總結的多了,你會發現,其實這並不是一件困難的事情。

如果你想去獲取互聯網的一些數據,也可以學學爬蟲的一些技能,基於互聯網的數據,可以做很多的市場調研和輿情分析。

7.通向更高的維度

如果你並不滿足做基礎的數據分析,甚至想做一些數據挖掘、機器學習的事情,那麼你還需要學習更多的知識。了解更高級的數據挖掘演算法,比如決策樹、隨機森林、支持向量機、神經網路等等,光了解演算法還不夠,你還需要知道如何進行模型的優化,如何通過特徵工程、模型融合提升預測的精確度。

這就有點數據挖掘和機器學習的味道了。當然你可以根據你的職業發展來選擇具體的方向,如果你在編程、演算法上面比較有興趣,那麼你可以向更深入的機器學習方向發展;如果你更想往業務方向靠攏,以數據分析來支撐商業決策,那麼你可以深化這方面的能力,甚至去考慮做一些自動化分析的事情。

總的來說,學習的動力源於反饋,在碎片化學習的時候,尤其注意,你的每個學習過程都應該是有具體的目的導向的,你也需要考慮,學習這個知識點,最終想輸出的東西是什麼。每個階段只學習最需要的那部分知識,這樣可以很大程度上地提升學習效率。

如果你覺得學習資源的收集甄別浪費時間,也可以看看我們花大力氣製作的體系的數據分析課程:數據分析師(入門)-DC學院


復盤總結——數據分析階段性小結

我們應該從痛苦中學習和吸取經驗教訓,目的就是為了能夠讓我們更加快速地成長起來。

從9月5日開始到現在,已經進行了封閉式學習了20天。這些天走過來,有經過千方百計、千辛萬苦調通代碼之後的欣喜,也有去面試被人打臉的無地自容;有埋頭苦幹的咬牙堅持,也有完成任務之後的從容淡定。總之,經過了這一段時間實實在在的實踐,我建立起了數據思維,還經歷了面試的洗禮,並經過大神的點播,讓我雲開見月明,真正進入了數據分析的大門。

下面我總結一下到目前都學習了知識:

1. 前五關知識總結:

看了有些前輩的總結,總結的很到位,框架做的不錯,借鑒一下 @十三,我也下載了Xmind,依葫蘆畫瓢,實踐總結了,下面是我對所學知識做的梳理:

總體框架:

各關框架:

1.1 各關實踐和輸出鏈接如下:

第一關:從現在開始學習數據分析

主要是讓我們對大數據有一個大概的認識,了解什麼是大數據,同時有一個自己的學習計劃。

第二關:第二關:R語言描述的數據結構

主要是對數據結構進行了入門的學習,了解了向量、矩陣、數組、數據框、列表和因子。

第三關:第三關:簡單數據處理和分析

主要是說說簡單數據處理和分析的步驟,講述了如何對數據進行預處理,怎麼篩選缺失數據、列名重命名、分割字元串、轉換類型、數據排序等等。同時,還學了去除重複值、分組、繪圖等等基礎函數知識。

第四關:第四講:複雜數據分析

並實踐簡單的數據分析,初步認識及機器學習。

第五關:過五關斬六將——數據分析如何快速入門

主要是對SQL的學習,主要是通過書和網上的學習資源學習SQL。

認知一下機器學習對數據分析的重要性!

1.2 MySQL

本階段主要內容是MySQL,學習什麼是資料庫,資料庫是由什麼組成等等。

主要通過w3school學習,看《SQL深入淺出》,網上找題練習。主要是複習和鞏固以前不太明白的事務、存儲過程、第三範式和SQL的各種函數。

2.專欄文章分析

經過數據分析,我發現第一篇文章點擊率是最高的,可能是因為雞湯味道特濃吧。不過這不是重點,重點是我知道了學習數據分析更應該把主要的精力放在數理統計和概率論等數學知識之上;另外我發現第四關之後我的質量明顯提升了一個檔次,關注的人也有所提升,雖然不是很多了,但是他們留言的條數更多了,評價更加中肯了,說明了關於數據分析文章,大家更喜歡看有「深度的「,將數據分析應用到現實生活中的文章,將理論與實際相結合文章,偏離實際只是理論的知識仍然得不到很高的關注,因為你總結的書上都有!同時你的實踐中對他們又沒用,也決定了點贊率和評論質量。

有時花費三五天的時間才寫出一篇總結。我在寫作上主要還是秉承我個人心得總結和是否對讀者有幫助為主出發點,準確表達出自己的思想觀點,才能清楚的寫一篇對讀者有用的文章。

寫文章的可以讓你複習知識,對知識點有新的認知。而且頂尖高手都是那些善於復盤的人,在訓練了自己寫作能力的同時,更是為自己的成長注入了歷史的痕迹。

3.個人反思

學習數據分析以來,基本上是按照猴子老師的進度來的。但是發現自己的效率並沒自己預期的要高,有時安裝個軟體可能就花費一兩天的時間才可以正常使用,有時運行錯誤,解決也要花一定的時間。時間過得好快,好快!

書是看了,可是知識點到底學到了多少?只有在實踐中才會明白!有時你也許會有這樣的感覺--原來如此!

看到第一關的知識清單,發現自己要學的還很多,目前只是學習了R語言基礎部分和SQL。回顧自己的學習路程,發現一下問題:

為什麼效率不高、學得不夠紮實?

我認真的反思了一下,覺得是做到下面幾點很重要,很重要,很重要!

(1)計劃很重要,適當的激勵很關鍵

1、首先要設立明確的目標,就是學數據分析最終要達成什麼目的。我的目標就是找到一份工作,先做個數據分析師,然後開啟數據挖掘和機器語言學習,最終進入到人工智慧領域!

2、設定目標完成的期限,給自己一個截至日期,因為截止日期是最大的生產力!危機意識能夠很好地激勵砥礪前行,提高工作效率,並能最大限度避免拖延。

3、適當給自己獎勵非常有必要!無論是多麼宏達的目標,都是一個個小目標累加起來的,我們如果長期看不到結果,再宏偉的藍圖和構想都將是空中樓閣,因為我們沒有得到即時的反饋。所以階段性的獎勵就很關鍵了,我這裡設置的是看美國大片為主,其餘實踐都是耗費在美好的「啃書本」上,我相信耐心給我的複利效應。

(2)說到不如做到!

認認真真去做,哪怕是把其他同學的代碼一字不差地敲過一遍,然後去弄懂每個函數的作用和每個分析步驟的思路,漸漸地,我們也能夠做得很好。

一個很重要的信心鼓舞是我在泰坦尼克號生存預測中的實踐。我一開始也是一臉懵,也不知道如何下手。為了不做伸手黨,我就只好動手google並參考前輩的勞動成果,老老實實地演示了一遍,然後我自己親身實踐,不行,再重新看,然後繼續實踐,直到我弄懂了基本原理並且能夠講出來了為止,最終,經過4次的重複,我徹底掌握了數據分析的方法和思路,感謝不斷實踐給我帶來認知上的巨大轉變。

未來的你,一定會感激現在拼搏的自己!


Programming Collective Intelligence(集體智慧編程), 這本網上讚譽比較多。我也正在讀,確實非常淺顯,可操作性強。

本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得出有用的結論,通過複雜的演算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank演算法等)、搜索海量信息並進行分析統計得出結論的優化演算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網路的信息匹配技術、機器學習和人工智慧應用等。


不管你學習什麼知識,在學之前,都最好先了解你將要學習的知識能幫你解決什麼問題,然後把知識點都列出來,再把這些知識點分成你學習的不同階段,這樣學習才有針對性才快,不然一頭霧水去看書,一則慢,二則很難解決你的實際問題。總之,學一個知識點,馬上去實際操作一下子,這樣學習效果好。

我們這裡講學習數據分析( Google
Analytics),在這裡直接幫你捋清楚學習思路,你需要的結果是:看完這個回答,馬上知道應該學什麼,怎麼學,達到什麼結果,理解能力強的話,馬上可以上手練習

再穿插一嘴,誰適合學習GA(Google Analytics)?

營銷人員產品人員

營銷人員:學習數據分析是為了評估營銷效果(這裡提到的營銷效果,指的是實際得到了流量,以及這些流量帶來的轉化結果,這個結果,需要根據不同的產品來設置,比如電商要的結果就是付款,社區要的結果就是分享,關鍵指標,根據自己的產品屬性來定)這裡不具體舉栗子了,大家應該都能看懂。

產品人員:學習數據分析是為了通過觀察用戶在產品上的行為,來優化產品。比如一個課程教學的頁面,放上了很多種系列課,那麼最受用戶歡迎的課程,顯然要放到產品的顯眼位置作為「爆款」產品

———————————————————————

OK,別廢話,咱們進---

按照之前說的學習流程直接幫你總結出來:

學習分成3個階段:0基礎水平(毛都不會)、略懂皮毛(能監測到轉化率)、中級水平(會製作你自己的自定義報告)

知道你只看文字理解起來費盡,往後翻,每個知識點都給你做截圖示例了,我現在有一種深深的老媽子趕腳。

戲:你需要翻牆軟體,我推薦Lantern,百度就有如果找不到的話,那我勸你還是不要學的好,因為這是基礎。

一階段:零基礎水平

你至少得GA的工作原理,如果你的網站,沒有設置過監測鏈接,你至少知道如何跟你的工程師說「幫我把監測代碼部署到前端頁面」,以及如何設置一個你自己的監測鏈接,涉及到的知識點如下:

&<1&>了解GA的工作原理

很簡單,一個網站是由N多個頁面組成的,一個頁面是由N多行代碼寫出來的,當用戶訪問你的網站時,瀏覽器就在:加-載-代-碼!所以GA會給你的網站生成一段代碼,當工程師同學把這段代碼放到你的網站頁面時,用戶來瀏覽你的網站,先載入了你的監測代碼,這時候用戶的信息就留下了,你開始可以看到數據了。

找到網站的跟蹤代碼,如圖:



&<2&>學會設置一條監測鏈接

設置檢測鏈接不用多解釋了,就是把一條正常的鏈接,加上可被GA識別的監測

比如數據分析教學網站:【http://www.shicao.talang100.com】,這就是一個正常的、沒有加監測的網址。加了監測的網址是醬紫的:【數據分析篇學習課程】

大家看到了,

這裡面source,也就是來源,是微博。

這裡面medium,也就是媒介,是微博直通車

這裡面廣告系列名稱,你寫了一個你能看懂的規則weiboshujufenxi15112,我是15年11月2號投的廣告,著陸頁是數據分析的課程

至於在哪裡製作你的監測鏈接,附上網址構建器地址(注意,翻牆後使用):https://support.google.com/analytics

一條監測鏈接,如圖:


&<3&>查看監測報告

閱讀數據報告不多說,提3點吧。

第一,在GA裡面的菜單欄,選擇查看【來源/媒介】,再加上你的時間維度,可以看到一段時間內的全部流量來源

第二,你設置過的監測鏈接的這些數據,比如,你在微博發布了一條內容,附上了加了監測的鏈接,你要查看這次微博的引流效果,這時候你需要在【廣告系列】查看你的數據

第三,GA提供了很多數據篩選器,比如你要看一天內各個時段的用戶行為,就是用對用的數據篩選器

從廣告系列裡面看設置了監測的數據,如圖:


ok,到這裡你已經學會製作監測鏈接,並且能看到數據了。

你可以意識到,這意味著你可以開始算真實流量的獲取成本了。

之前總是關注微博轉發評論數,微信閱讀數的同學,可以醒醒了。現在你可以看到真實的渠道引流效果,然後做一個小學除法,你就知道你花錢了多少錢,帶來了多少個真實流量,每個流量你花了多少錢。

零基礎水平的你,已經有一點料去跟別人逼逼了對吧

二階段:略懂皮毛

ok,你現在已經學會怎麼設置監測鏈接,但是你還不知道流量來了之後,轉化率到底怎麼樣,第二階段你要學會這些,包括對提高轉化率有幫助的一些功能

&<4&>監測目標達成結果(goal

舉例,當用戶付款成功後,會來到一個/success的頁面,你可以把這個頁面作為目標(goal)。這樣你就能知道,【有多少人】,【通過什麼廣告】,【最終完成了付款】,你在微博通過粉絲通投放了一個廣告,花了200塊錢,帶來100個流量,帶來一個轉化,也就是1%的轉化率,你的產品單價是2000,也就是說,你花了200塊,掙到2000塊(沒刨除成本,僅僅舉例),所以你才知道,對應的這個微博粉絲通是划算的,所以你繼續增加投放。這就是goal給你帶來的數據意義。

如圖:

&<5&>知道用戶用什麼瀏覽器或設備瀏覽你的網站,用戶是什麼地區

你可以通過GA知道網站訪客使用什麼設備,以此來調整宣傳內容,舉例,你在微博投放了一個廣告,你放上了一條鏈接,這條鏈接來到了一個製作精美的網頁。但是一直用戶停留時間很短。你巨費解,這時候你用上了GA,你吃驚的發現,70%的用戶是手機訪問你的網站,而是你的網站,在移動端根本沒有適配,你現在整個人都不好了對不對。

還要注意的是,不管你投放百度競價,還是其他媒體,在投放過程中,都涉及到一個【投放維度】的選擇,地域是一個重要的維度,一個適合一線城市的產品,投放到農村,這事兒就不好玩了,所以你需要通過數據,清楚地知道你的訪客都是什麼地方的人。

如圖:


&<6&>實時了解用戶行為

這個很容易理解,就是實時看到你的網站有多少訪客,有多少是新訪客,多少是老訪客,大家都在分別看什麼頁面,這個功能對於一個大的營銷活動來說,實時觀察用戶行為,很有必要

如圖:


&<7&>了解用戶喜歡在你的網站上做什麼

了解用戶行為,既屬於營銷問題,也屬於產品問題。針對營銷人員,當製作了一個營銷的著陸頁面時,需要根據數據調優頁面,針對產品人員,就需要對整個網站、或者APP產品進行基於用戶行為的產品調整

如圖:


&<8&>知道用戶達到你的網站目標之前,都做了什麼(目標流)

哇,這個相當重要。網站都有這個目標,不管你是做一個電商網站,還是做一個社區網站,都有自己的目標。以電商網站為例,顯然目標是付費,那麼這時候,清楚的了解付費用戶在付費之前都做了什麼,非常重要,因為這意味著你可以在網站產品、營銷內容上做調整,把用戶最希望看到的頁面呈現給他。
三階段:中級水平

這時候GA給到你的模板工具已經滿足不了你的需求了,隨著數據量越來越大,你開始需要自定義數據報表,簡單理解,就是你在微博天天都發內容,回收了很多數據,但是你總不能每天數據自己去做加法來看整個渠道的數據情況吧,所以我們製作自定義報表,通過正則表達式,來把自己需要的數據篩選出來。

&<9&>製作自定義報表

舉例,你分別在2天,發布了3條微博鏈接,分別設置的監測規則為:1008weibo1、1008weibo2和 1009weibo1

我們發現這些監測規則的格式是統一的,所以我們可以把統一的規則,通過正則表達式篩選出來,在計算機的眼裡,這個規則是【4位數字】+【weibo全拼】+【1位數字】

如圖:


一休哥,休息,休息一會。以上列了9個比較常用GA操作,學會這些,你已經算是一個中級的數據分析人員了。還要最後啰嗦一嘴,不論你是一個產品人員,還是一個營銷人員,單單學會數據分析,是沒有卵用的,重要的是學會,從流量來的你的網站,直到達到你的網站目標,系統的工作方法。

一個正確的營銷路徑:1.用戶調查。2.內容製作。3.渠道選擇。4.數據回收。5.調優。這些環節都是環環相扣的,這就要求你必須掌握更多的技巧,才能做到有效果、有明確目標的數據優化工作。


本人張智,互聯網營銷的愛好者,我在踏浪100這個網站學習【數據分析篇學習課程】互聯網營銷知識,課程有很多從文案,到微信、數據分析、sem,跟營銷整個流程需要用到的技能都有講到。而且都是乾貨決不忽悠,只要你執行力強你就去。


沒怎麼回答過問題,試試這個?

1、從現在開始關心數據
從前我們都是認為數據就是數據,要麼是本來就在,要麼無從獲得,但是從數據分析的角度,如何搜集數據卻是踏踏實實的第一步,於是需要學習如何正確看待正在發生的業務,哪裡是數據的盲點,它們非常有價值卻尚未被搜集,找准了,想盡辦法搜集它們,擁有它們,關心它們

2、從數據的角度思考問題
從前我們都是從邏輯的角度思考問題,因為A所以B,這樣很好,甚至你都沒有機會犯錯,因為規則或者說邏輯都是別人告訴你的,要錯也是他們錯了,但,這就夠了嗎?答案顯然是否定的,你需要學習從數據的角度思考問題,那些已經發生的事情正被一點一滴的用數據的形式記錄下來,它們就是事實,它們蘊藏更豐富的規則,不要等待,睜大眼睛觀察它們,如果發現一個看似合理的數據現象,總結出來,這就是你的數據告訴你的真理,用它來驅動你的程序開發。切記,擁有數據,你早已擁有一切,切莫等待別人發號施令。

3、拒絕平庸,拒絕膚淺
從前我們都是心安理得的接受「差不多」,得到數據的唯一想法就是導出一些報表,僅此而已,白白的浪費無數貴比黃金的數據,一個最簡答的檢查你的數據是否被吸干最後一滴血的方法就是問自己一個很庸俗的問題:這玩意怎麼掙錢

錢啊,一貫表現出萬能,這裡也不例外,而且這裡很積極。
舉個例子吧,你有關於商品A的所有維修記錄,盡情想一想吧,怎麼掙錢?
你可以開一個網站,提供一個關於A的維修查詢,如果查的的人多了,你賣廣告位不就掙錢了?

好了,現在的問題是:怎麼讓查的人更多呢?豐富查詢的內容看起來是不錯的選擇

提取出商品的編號吧,讓消費者查詢此商品是否維修過,以確定是否為返修品

提取出維修品的屬性,型號,大小,購買日期等等,當用戶購買新的A類商品時可以算出此類商品的維修建議,簡單來說,他選購的商品是否是更容易壞的類型

匯總整個維修記錄,總結出每個類型的連續工作時間,給廠家提供保修建議,簡單來說,如果A1一般都是1年就壞,那麼你就保修8個月,如果一般都是2年才壞,那麼你就保修20個月,總之雖然保修範圍增大了,實際真的來修的數目是可控的,成本就是可控的

我在這裡就不繼續了,但是你要繼續,繼續聯想,拒絕平庸,拒絕停在膚淺

4、大膽創新,用數據支持你的觀點
從前我們很難界定創新的點子是好主意還是餿點子,現在好啦,可以用數據支持你的觀點,注意,這裡是個偉大的轉變,你從數據的開發者變成了數據的使用者,你站在了和你的客戶同一個戰壕里,與他們並肩作戰。

從程序開發來看,如果你常常配置各種「魔術數字」,什麼這裡限制3個,那裡默認選擇B選項等等,別傻了,讓數據決定這一切,被用戶選擇最多的當然是默認選擇,不是么?

個人觀點:創新的關鍵在於新,而不是創,如果有一件好東西,誰創造的便無所謂了,即使是一堆看起來雜亂的數據,不是么?


數據是金,一起來吧


=====2016年5月30日=====
現在再看回來,覺得當年的想法太過幼稚。感謝並希望不要再贊~以後有更新會寫在這
=====正文=====


這個問題很好玩~小弟嘗試回答一下,說得不對拍磚輕輪啊

首先,說一下數據向工作分類:
1,數據分析師:最要求對行業熟悉精通,強悍的商業思路和邏輯,具有較強的分析能力;
2,演算法工程師:類似於數學科學家的存在,對數學基礎知識的要求最強,其次是商業模式要懂,針對行業問題設計數學分析和挖掘演算法;
3,數據工程師:最要求編程能力和大數據統籌能力,比如數據倉庫、海量數據採集器、統計分析系統的開發,維護,迭代;
回來看題主的條件,第三類是題主最能上手的工作方向。遺憾的是小弟只是偏向第一類,大學雖是計算機專業,但是編程能力實在比翔還翔,無法勝任第三類工作,能夠提出的建議只能是學習hadoop,當然,對java的要求很高,而且對於企業的要求也不低,至少業務能夠用得上分散式資料庫的級數。

然後,談談現在被妖魔化的大數據
現在,我領導一向外在吹噓大數據,我腦袋就開始痛,不是因為我做不到,而是因為,領導根本不懂什麼是大數據。
現在很多人只是看到了大數據的優點,比如說可以將企業發展的各種情況進行量化,並且可以以可視的方式檢閱企業,提出最有利的決策,在許多行業能夠進行大規模的應用,等等。
但是,大數據的局限性也相當多的:
首先,大數據只能是通過過去已經發生的數據進行預測,使用的變數也只能是過去的,大數據不可能在07年預測到現在nokia撲街了,蘋果和安卓稱雄的事情。很多年前,曾經想用神經網路去模擬股市的發展趨勢圖,現在回想起來,只能對自己呵呵了。大數據對於未來的大型的變數無法預測。
其次,確保數據的真實性和全面性。比如說在某些無法量化效果的行業,如傳媒,電影,數據分析只能依照觀看數(PV)、票房、搜索引擎的關鍵詞搜索數等此類可以量化的數據進行決策,本質上產品向的演員能力、劇本能力、文筆水平等等都無法量化,此時大數據剩下的功能就只有向企業高層賣萌和馬後炮的功能了。
最後,確保數據在行業鏈條中的確呈現閉環狀態。數據(用戶)從一個業務流向另一個業務的時候,無可避免地會生成轉化率的問題,分析數據的目的就是為了提升(降低)轉化率,但是遺憾的是,對於數據(用戶)在兩個業務中的留存數的記錄,很多部門或者很多企業或者很多行業都無法做到完善,在轉化的方向也無法統計清晰。如果數據無法形成閉環,則建立在這些數據之上的決策,都是鏡中花水中月,看起來很美,用起來撲街。
這個可以在兩個方面進行提升,一是題主,令廣大苦逼數據分析師普大喜奔的人,你們設計的系統要有足夠強的統計能力、反應能力、容錯能力與可維護能力,一個優秀的數據分析工程師,可是人見人愛花見花開的;
二是行業進化,一些行業在發展的過程,用戶的信息收集的過程是從無到有,從少到多,這個不可避免。這個只能有兩個字,忍,熬。當然,數據收集設計也是數據分析工作中的一項好玩的工作。

先說到這...缺午覺傷不起....一會兒省人事的時候再說說關於產品向的數據分析的發展方向..

===========分割線==========
現在省人事了,好吧,有位盆友說貌似不對題,嗯,其實我是想先答一下關於數據分析的一些誤區,畢竟先把地雷陣點出來,對於題主比較好,畢竟現在胡說大數據的東郭先生太多了(比如我領導的事情我會隨便說嗎)。
對於題主,其實我還是挺信任的,能夠在知乎上面說「掌握」和「比較熟悉」的人還是挺強的,應該有很好的執行力,指出來幾本書,幾個方法給題主看也不錯,但是我相信題主比較想知道的是技能樹怎麼養成吧
先寫好~
===========繼續線==========
嘗試著說說自己的企劃吧,但願能夠給題主有點兒幫助。

現在從事著數據分析工作,越來越覺得分析其實只是一項基礎的技能,核心還是要針對具體工作和行業和職能分工。
所以,對於具體的工作技能上面,我會傾向於向產品、策劃、運營、項目的方向發展,因為對於產品向職位來說,數據分析的終結目標還是為了給產品提供量化的需求分析,指導策劃的方向,監察運營的質量,提供運營點和缺陷,等等相關工作,幾乎每一項都和分析有關,分析的目標是描述現狀、評估結果、提供決策。
以一點而後擴充一線,以一線擴充一面,是我未來的發展方向。以此作為對題主君的參考。

如果是按照題主的發展思路,應該是往數據倉庫,海量分髮式設計,比較地合適,具體的話建議多看看大挨踢企業的招聘信息,這個會比較有幫助。

話就說到這兒,祝題主學習快樂,也祝自己早日轉事業群轉部門成功...兔子給給!

Ende.


這邊的分享,基本精神與此篇類似:想學數據分析(人工智慧)需要學哪些課程? - 知乎

數據分析,需要熟悉的基礎知識太多了,包含了「multivariable calculus, linear algebra, probability, statistics, machine learning」等等。基本上,不可能也不建議把上述課程學習完畢後,才開始數據分析的工作。

個人認為,最好的學習方式,是採取problem-based learning,直接提槍上戰場解決問題。 步驟有三 (1) 先選好問題 (2) 深入理解問題後,設法找到資源解決問題 (3) 檢討與學習step 2 中遇到的新名詞、新知識。

更具體的建議:

(1) 先上 kaggle, https://www.kaggle.com,選 competitions ,在這頁面上, https://www.kaggle.com/competitions, 可以看到各種有趣的問題:

(2) 假設,我對 titanic 的問題充滿了興趣,並點選了他,就能看到以下簡介。

(3) 從簡介知道,他是要讓我們使用 python 或 R 來練習 binary classification的問題。 但是假設我不知道 binary classification 是啥? 所以我搜尋了一下,找到wiki 上的解釋: https://en.wikipedia.org/wiki/Binary_classification, 經過一番努力,終於明白這個練習,是要讓我們用機器學習的方法,來預測titanic 上的乘客,是否有存活下來。

(4) 理解了這個問題後,點選了「tutorials」,發現:

裡面有好多資源,假設我點了 titanic data science solutions python notebook ,

就會發現裡面有非常完整的代碼 https://www.kaggle.com/startupsci/titanic/titanic-data-science-solutions, 包含了 data processing 和 data inspection 的 package 「pandas」、繪圖工具「matplotlib、seaborn」、machine learning 的package 「sklearn」:

設法把這些代碼和分析邏輯都搞清楚,這樣對於machine learning & data science 就有初步的體驗了。

(5) 接下來,有兩條路可以選 (a) 再選一個 kaggle 上的 tutorial 的不同題目研究一次 (b) 開始找線上課程了解機器學習的原理: ex: Stanford Andrew Ng 的課程 http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning, 林軒田教授的機器學習課程 (中文):http://www.csie.ntu.edu.tw/~htlin/mooc/

結語:數據分析、機器學習、人工智慧,涵蓋的知識層面太廣太深,所以會建議採取 problem-based learning 的方式,(1) 先選定問題 (2) 找到資源來解問題 (3) 更深入的去了解,解問題過程中,遇到的名詞與知識。


今年6月份加入了猴子老師的數據分析學習社群,7月份在知乎上寫了自己的第一篇文章,制定了一個大概的學習計劃,算是正式開始數據分析的學習之路。

先說下個人經歷:本科專業是船舶與海洋工程,12年畢業後進了國企,到17年從事船舶結構計算相關的工作接近5年,深感船舶行業甚至傳統製造業發展太有限,整體待遇水平相對於互聯網行業來說簡直是天上地下(至少對我來說是這樣的)。今年5、6月份時候總算找到了比較前沿也比較感興趣的數據行業,從零開始學起,到10月份拿到了幾個大互聯網公司的OFFER,雖然不是BAT級別的,但現階段對我這個傳統行業轉過來的人士來說已經非常滿意了,這也讓我有了重新出發的起點。

像我這種完全沒有數據分析基礎的人,我覺得最重要的是要先找到一個方向,一個學習的方向。如果在一開始無人指引只有一個所謂學習書單的條件下,學習是很難堅持下去的,可能會越學越迷茫。我是覺得這種關卡式的學習非常適合入門級別的學習,完成每關的學習任務也能得到正向的反饋,形成一個良性的學習循環。學習獎勵方面我是設立了一個旅遊用的賬戶,完成學習計劃會得到相應的旅遊用金錢獎勵。

1.R語言的學習

分析工具學的是R語言,目前R語言只學習了《R語言實戰》比較基礎的部分和一些比較常用的包,後面還會繼續學習R並補充python的知識。

與R初相識:R的數據結構與EXCEL數據導入

R語言簡單數據分析-朝陽醫院2016年銷售數據

ggplot2入門簡介

泰坦尼克號生存率預測(R),kaggle排名220

當時制定的學習計劃表是這樣的,實際完成情況比這個稍微慢一些。

2.SQL學習

SQL的學習主要是《深入淺出SQL》這本書

SQL 教程

SQL語句練習:SELECT basics/zh

3.統計概率知識

主要是《深入淺出統計學》,還需要更深入的持續學習

與正在學習數據分析的小伙們共勉!


數據分析需要一項基本技能,已經越來越受到技術、業務、產品的重視,不管是有這方面背景的,還是其他行業的,都還是需要能夠結合業務,對相應的數據理解明白剖析價值。

我做這塊已經有很久了,所以如果你想速成的話,那可以報些培訓班(這個我有認識的朋友在做這塊);

如果是自己花時間自學的話,1.到數據分析群里多交流交流,看看數據分析師都是在做什麼;

2.找些這方面的書看看,數據分析、工具類、哪些實際分析問題等等,我也寫了本。也可以搜專欄【數據分析俠】

至於怎麼真正提升你的數據分析能力,那隻能實踐才能檢驗。

歡迎加入數據分析微信群交流:

http://weixin.qq.com/g/ARzdt03OI8xqqjST (二維碼自動識別)


強搭一發,因為最近花休息時間做了個小分析

-----------------------分割線------------------------------------------

因為最近和朋友吃飯,大家都到了大三季,都在糾結自己該以哪裡作為自己職業發展的起點?

也想看看自己的背景,能不能找到靠譜的師哥師姐幫忙,那麼師哥師姐都在哪裡發光發亮呢?

我當時也是午休的時候想到,知乎有那麼多結構化的好的數據,不如抓取之,拿來分析

可以看看名校生們都在哪?

我們行業的人都喜歡哪,哪裡每年帶走一堆人?

然後花半小時寫了個多線程爬蟲,爬下來幾百萬數據(其實是我爬的太猛。。。爬到幾百萬被知乎封號了。。。誰有多的測試號的話可以給我一個)

好的,我們先來看看結果

首先是清華大學的優秀畢業生都去了哪?

接著是北大的

接著我很多兩財一貿的同學,我想知道他們會去哪?

接著我旁邊很多兩電一郵的朋友

復旦的畢業生呢?

上海交通大學的同學呢?是霍格沃滋么?

再看看人民大學的,人民大學的朋友也很多

南京大學的朋友呢?

浙江大學的朋友呢?

中科大呢?

以上的都是學校的,納悶想看看那些有名的公司都招了哪裡的人,去了那些公司我們會遇到哪些學校的校友呢?

首先是BAT

接著是北美FLAG

然後我很多去四大的同學,他們那裡都喜歡收什麼人呢?

那麼諮詢行業呢?

最近大三認識特別多學經濟金融的同學,他們會去哪呢?

那麼我那麼多學法律的同學呢?

這次抓取的數據量有將近200萬,跑了一個下午,然後我把沒有公司或者教育學校的篩掉,就還剩25萬了

拿來公開的,有興趣的朋友可以自己玩玩,我給的是CSV格式,如果excel打開有亂碼,自己百度怎麼辦

https://pan.baidu.com/s/1ceuBjK

我這裡已經有寫好的爬蟲,之後還會爬取,但是賬號暫時被封了。。。。。

誰有測試賬號可以給我一個2333

想要全部數據的也可以私信我~

另外,好內推的可以隨時私信我~


歡迎入坑!!!
我是勤勞的搬運工
https://www.quora.com/How-do-I-become-a-data-scientist


來寫一下自己是如何利用業餘時間學習數據分析的。先看數據分析應該具備的技能有哪些吧!
首先就是熟知行業與業務,理解業務中產生的數據。在我看來,數據分析必須是基於業務。它的目的只有一個:解決某個問題,或者給某項決策提供依據。中間不管你用什麼樣的工具、方法,Excel、R、Python,只要你的結論是有利於解決問題的,或者是能為老闆提供決策依據的。
第二就是能提取數據。一個應用數據的人,自身沒有數據獲取能力,這是非常尷尬的。
目前大多數互聯網公司都是用的關係型資料庫,需要學習SQL語言去進行數據的查詢。
第三就是結合業務進行數據分析,分析數據、解讀數據。過程中需要業務知識做支撐,用數據分析工具做具體分析
最後就是展示數據,即分析結果的可視化。做一份好的報告,將結果展示給業務部門,甚至你的老闆。
下面是我的學習路線:
①統計基礎:作為一個文科生,既沒有統計背景,計算機類的更是會的不多。大學裡的概率論知識也已還給了老師。目前一直在看《商務與經濟統計》,裡面的知識、公式都是重在理解。其實網上有很多資源途徑,找一下關於統計的電子書也不難。
②資料庫知識:我學的是MySQL,用的是《SQL必知必會》。再結合W3school來學習,入門很快。主要是學會用SQL做查詢,多看書,多動手寫代碼。
③編程能力:數據量小時,還是要熟練運用Excel 的。透視表、各類函數,各種插件。當數據量大到用Excel已經影響工作效率時,就要用專門的數據分析軟體了。我選擇了R,畢竟它對新手還算友好。
其實學習最重要的就是動手實踐,隨時查漏補缺。知識是不斷累積的過程。
最後說一句:「臨淵羨魚,不如退而結網!」


我想讓大家思考一個問題,你想通過數據分析解決什麼問題?

我不贊成盲目地去學習一個東西。你學習一個東西,這個東西總要為你帶來些什麼。

那麼回到正題,如何在業餘學習數據分析呢?

帶著問題學習。我們先來看看數據分析是什麼。

根據維基百科——數據分析是一類統計方法。既然是方法,那麼它就是用來解決問題的。所以如何 學習數據分析就變成了,你想通過數據分析解決什麼問題呢?

也許,你是要解決商業問題;也許,你要解決人力資源問題;也許,你要解決某個生物學或者物理 學問題;也許,你想從事人工智慧的研究;又也許,你只是想通過數據分析,考慮一下今天晚上吃 什麼。因此,你的學習應該根據自己的實際情況。

這是我把Excel、資料庫、SPSS、R都了解了一些之後,所遇到的瓶頸。

所以我建議大家一開始就問自己這個問題,你越早明白,你的目的性就越強,你也會越早朝著目標 努力。想通了學習的目的,那麼知道如何學習就是水到渠成的自然結果。今後的學習就會輕鬆很 多。

比如說,你想知道Java工程師的前景如何?這個動機,會倒逼你去思考如何解決這個問題

1. 首先,要得到好的數據源,你必須要知道獲取數據的方法,可以是python/R/excel爬取、 Google爬蟲插件、通過專門的數據諮詢網站/公司獲得等等。你只要掌握其中一個方法即可, 學習更多有備無患。

2. 得到了有效的數據源,你會根據數據量大小選擇不同的工具,然後進行清洗和整理。你會仔 細考慮這個數據量應該用什麼工具,10萬以內用excel,百千萬級用spss、sas、R、 Python,億級考慮用雲計算或Hadoop等。

你會倒逼自己學習數據清洗的方法,對於任何情況都是有用的,例如填補空值、更改數據類 型、分詞處理,這個過程你會了解Excel、spss的基本用法,python、R的基本語法和正則表 達式。但是絕不僅限於此。

3. 為了更好地呈現數據,進行探索式數據分析,你會要求自己學習數據可視化,繪製圖表。 Excel、spss插入圖表的方法、R的ggplot2包、python的matplotlib包等。

4. 為了進一步分析發現規律,你會思考用什麼統計分析方法比較好。決策樹、線性回歸、分類 聚類、各種機器學習演算法都會浮出水面,當然還是具體問題具體分析,你問題的深度決定你 學習的深度。

5. 為了驗證和優化你的結果,你會學到驗證演算法正確性的方法,調優的方法。就業前景這個問 題可以歸結為市場分析那一類的。為了得出更好的結論,你必須了解整個行業的情況,也可 以諮詢Java程序員。

6. 最後的結果你可以寫成報告,那麼你需要掌握word,和數據分析報告的撰寫思路。

根據這些步驟,我相信你可以在這個過程中學習到很多東西。最重要的,你會學習到如何通過數據 分析解決實際問題。

學習方法分享:

  • 確定學習的方向和目標,並制定計劃
  • 先學習統計學邊學習數據分析工具,用工具把遇到的統計學案例實踐一下,方便知道這些統計學方法可以用在哪些地方以及怎麼用
  • 找案例實踐,去解決一個實際問題,遇到不懂的查資料
  • 加入一個團隊,互相鼓勵,共同進步

題主想積累項目經驗,可以考慮參加國內外各種平台的競賽,先從簡單的做起,但是這一塊我沒有經驗,幫不上忙。

最後,感謝第一名的回答給我很多啟發。

如何在業餘時學數據分析? - 李明殊的回答 - 知乎
https://www.zhihu.com/question/22119753/answer/152679250


推薦閱讀:

用於數據挖掘的分類演算法有哪些,各有何優劣?

TAG:Python | 如何學習 X | 數據挖掘 | 數據分析 | R(編程語言) |