如何快速入行數據分析師?

我本科學習的國際貿易,畢業後從事出納工作,有兩年經驗。上學期間接觸過統計學相關知識,對數據分析一直比較有興趣,現在想從出納轉行做數據分析師,已經開始學習R語言和PYTHON。之前從網上對數據分析做了些了解,但大多是介紹了些應該看的書、應該學會的技能之類,看完之後對數據分析師的印象還是停留在文字上。希望有數據分析大牛能結合自己所在的行業,介紹下自己日常的工作內容有哪些,並給我一些快速求職入行的建議或是工作中的心得體會。


謝邀。抱歉這麼久才回,不是不想回答,而是實在不知道說什麼。

我讀完四年本科+四年博士成為數據科學家,卻偏偏很多人問我怎麼才能速成,我要是知道不就不用花這麼多年了嗎(哭笑不得)?

事實上我不認為世上做任何事有速成的捷徑。一分耕耘一分境界,老老實實學吧。

同意這一點的話,可以參考下我另一個問題下的回答,關於數據分析師,科學家都在幹什麼:

如何著手商業數據分析? - 知乎用戶的回答

數據分析師日常工作是什麼? - 知乎用戶的回答

=================

有人說速成是指不走彎路,不浪費時間。特補充以下內容:

首先,我不認為我真的有什麼經歷是無用的,即便在數學本科時候學了很多不直接相關的課程,也對培養嚴謹的思維邏輯有極大的幫助。統計博士的學習讓我對各種課本上學不到的模型和演算法有了深刻的認識。也許從公司的角度看,我有些科研經歷是無用的,我提出的有些方法他們覺得是rocket science根本派不上用場(其實是他們不懂而已),但同樣是從我的以往經歷中,可以找出對公司業務發展大有用處的模型方法。一些項目經驗、建模的想法和技巧可以抽出來整合到新的問題中,而整個思考操作的過程是跟之前嚴謹的思維訓練分不開的。

然後,我對這一類為了進某一行求速成(包括不想走彎路)問題都不太感冒,我覺得個人發展是個追求本心+適應現實的過程。不能一味只想著自己要幹什麼,也不能一心只想著現實是怎樣的。從本心出發,想學就去學(網上超級多推薦的教材和技能),一邊了解市場的需求,看自己能做什麼,和自己的興趣有哪些結合的地方。有一定積累後自然就會對自己想要在哪一個領域繼續發展有一定的線索。

最後,數據分析行業尚處於剛開始的擴張階段,指代的內容實在太雜。知乎上有些是數據分析領域的碼農,有些是只會用一點數據分析的傳統商業分析從業者,有些是數據科學家(從數據獲取到成品全都會,個人覺得真要到這一步太難,精力太分散,而且什麼都會其實就是什麼都不會),有些是專註研發新模型演算法的數據科學家(比如本人)。也很難給出一個簡單明確的答覆,什麼有用什麼沒用。這樣籠統地求速成只能越問越糊塗,碼農會告訴你要學R、Python,Ruby、MapReduce、Hadoop、HIVE、PIG。。。所以你該去學各種軟體,做傳統商業分析的告訴你數據模型只是工具,你要學習一個企業是怎麼運作,業務要怎樣開展。像我這樣的數據科學家會告訴你,想發展到我這一步,你必須去讀個博士。全能型數據科學家告訴你,上面你全得做。以上每條路都不一樣,需要的技能側重也不相同。真正要思考的是個人發展規劃。所以我一般只會寫介紹性的東西,而不會告訴別人怎麼速成。


半年前從數學專業轉行到了互聯網行業做數據挖掘和推薦系統,在做具體的業務的時候遇到了一些知識點,於是自己整理出來。如果有後來人需要轉行的話,可以用這份資料來參考一下。大牛請忽視以下的內容,小白可以參考下。

從數學專業轉行到工業界做數據挖掘需要的知識儲備:

1. Hadoop,HIVE,SQL資料庫操作。

Hive用於提取數據,做基本的數據分析。hive的基本函數,比如聚合函數,數學函數,字元串的函數,連接表格函數等。hive的各種語句,比如if else,case等語句。

EXCEL的基本操作需要掌握,可以進行各種數據的處理、統計分析和輔助決策操作,用熟悉了其實挺方便的。

2. 編程語言

最好會python,c/c++,或者java,至少一種。做機器學習的話感覺用python會多一些。

3. 操作系統

Linux系統,腳本語言Shell。

4. 數據挖掘和機器學習的基礎知識和演算法

邏輯回歸演算法 Logistic Regression(LR),

支持向量機演算法 Support Vector Machine(SVM),

物質擴散和熱傳導演算法(Heat Spreading),

Gradient Boosting Decision Tree(GBDT),

聚類演算法,神經網路演算法,決策樹,隨機森林,異常值檢測等常用演算法需要掌握。

特徵工程的基礎知識:根據相應的產品進行必要的特徵構造,物品特徵,交叉特徵等。

其中LR使用廣泛:由於LR是使用線性方法來處理非線性的問題,導致特徵工程十分複雜,交叉項多(二維或者三維的交叉)。

工程上的最優化論文推薦:

Ad Click Prediction a View from the Trenches

需要了解的是相關論文的背景SGD演算法,Truncated Gradient演算法,RDA演算法,FOBOS演算法,FTRL演算法等。

5. 統計學

時間序列模型,變數的相關係數,ROC和AUC,交叉驗證,主成分分析。

6. 業務背景

大數據,推薦系統,計算廣告學的科普書籍。

以上就是筆者在公司工作半年了的一些簡單的總結,如果有啥不正確的地方,還希望大家賜教。

.........................................................

歡迎大家關注我的公眾賬號

(長按圖片,識別二維碼即可添加關注)


數據分析無法快速入門。

找一份數據分析的工作

找一個靠譜的老師帶你

每天背數據培養感覺

閑暇時間研究統計學和統計軟體

慢慢進步......

數據分析不能停留在書本上和軟體上,要實操、積累、總結、回顧......

Ps:統計學和R/Python這些東西上手沒那麼簡單,門檻不低,光靠自己的興趣肯定堅持不下去的,要麼有及其嚴苛的學習計劃,要麼有一個老師在一直帶你,自學很難的...


最基本的要求:對數字敏感,會Excel,能寫SQL,熟練使用PPT將研究的內容思路清晰的展示出來。


數據分析沒那麼玄乎。業內有人招人的時候一定要別人背出置信度的計算公式才覺得這個人是個合格的分析師,但是我覺得踏踏實實的工作態度勝過一切。

樓主不是愛數據分析想要轉行么,那麼就轉行吧,沒那麼困難,轉行以後有個謙虛的學習態度和認真的辦事態度就成功了一半。

我記得當年入行,痴迷於數據,我會從公司資料庫中調出各種數據,以我所知所學的各種方法在閑暇時間試著做出各種分析,得出結論,然後對比分析結果和自己的常識以及業界他人的結論,這大概是我用過的最快的方法,也是外人眼中最枯燥最耗時間的方法了。

所以樓主,人生短短几十年,如果你熱愛數據分析,你去做就數據分析好了,管他人說什麼呢。


反正不要去學什麼坑人的CDA數據分析師就成,坑人的培訓,但可以通過其他渠道體系化學習。看清真面目哈人大的CDA數據分析師培訓以及考試怎麼樣? - 大數據


統計學是基礎


有幾門課或者書是一定要看的:回歸,時間序列,羅輯回歸等。用r的話可以網上學習一些machine learning的東西,用r自帶的package幾行就搞定,主要是要了解原理和應用範圍。


推薦閱讀:

App的數據分析怎麼做?
數據分析師的成長之路?
做用戶研究如何系統學習數據分析?
自學數據分析需要看哪些書(從初級到高級)的?
如何快速成為大數據開發實戰專家?

TAG:數據挖掘 | 數據分析 | 數據分析能力 | 數據分析工具 | 數據分析師 |