數據分析師是怎樣煉成的，數據分析在不同行業有什麼不同要求？如互聯網、金融、傳統行業。

01-21

本人希望從事數據分析方面的工作，本科研究生都是信息管理的專業，俗稱懂一點IT知識的圖書管理員。個人覺得Excel是處理數據的神器，也會一些VBA和SQL。也自學過一些軟體如tableau， R。總之覺得數據分析是一個很有前景的事業。曾經在保險公司做過數據管理和分析，基本上是報表和數據支持的工作。所以希望大神指導一下。

學會搜索，同學！！！知乎上這樣的答案一大堆，我就給幾個我寫過的鏈接吧

如何快速成為數據分析師？ - 卡牌大師的回答

如何在業餘時間學習數據分析？ - 卡牌大師的回答

你是如何走上數據分析之路的？ - 卡牌大師的回答

前面寫的一個答案如何表達自己的數據分析能力？ - 數據分析師，覺得大部分內容可用來回答本題，針對樓主說的不同行業的具體要求，等有時間再回來根據我所了解的部分行業寫！

個人覺得，宏觀上需要具備以下三點吧：

1、理論知識：

首先，最起碼應該清楚描述統計與推斷統計各自包含的內容。能夠清晰的了解各種假設檢驗的使用場景，其實在《統計學（賈俊平等著）》這本教材里講的很詳細了（統計學專業的童鞋應該都用過(*^__^*) ），相對應的練習題目很多也站在應用的角度出題去幫助讀者消化知識，可以去挑一些相關題目深入練習。另，最好有點數學的基礎，其實本科期間學好高等數學這門課，就可以啦。
進一步，熟悉多元統計的相關理論知識。要熟悉：主成分分析、因子分析、判別分析、聚類分析、多元方差分析、關聯分析、貝葉斯統計分析、時間序列等內容，最好能夠清楚它們的原理及應用場景。
進階：了解數據挖掘的各種演算法，深入學習回歸、logistic、聚類、關聯規則、決策樹、隨機森林、機器集成學習、svm、神經網路、文本挖掘等演算法，接近達到數據挖掘需要了解的演算法啦，當然這需要較多數學功底、編程功底等，不是很容易！

2、軟體工具：

Excel裡面的數據分析工具你應該會用，簡單常用的函數你應該熟練，這是干「體力活」所必備的，就不多說了。
最好能夠熟練掌握：R SAS SPSS中的一種或多種。其實樓主說自己自學了R語言，就夠了（個人建議，僅供參考）：數據分析的話，可能不會面對太複雜或者太大量的數據處理工作，其它兩者能做的R都可以做，而且R更加輕巧實用易上手，各種模型的精度R跟SAS幾乎一樣（SPSS我覺得略差點）。當然，如果是點子背公司就要求用某某工具，純屬意外：）
資料庫。應該掌握基本的sql查詢語句等內容，這是很多公司在招聘數據分析師的時候要求必須要掌握的。
重點：利用工具去把1（理論知識）中提到的統計學知識+多元統計知識相關練習題練習一遍。
進階：可以去學習Python語言，可以去關注Julia等。了解大數據平台（Hadoop、spark等），熟悉下Unix系統，自己沒事可以搭個Hadoop集群玩玩。對應1中進階內容：最好用Python或者其他工具把各種演算法自己實現一下，這對成長很有意義，尤其想做數據挖掘的童鞋！

3、實踐經驗：

對於在校的童鞋，無疑就是去找相關實習嘍
對於，已經畢業轉行的（比如：樓主），那就在學習期間多做一些有意思的數據分析項目（現在各種途徑吧：阿里天池大賽，kaggle等，請自行百度吧，路子都是自己想的），比如答主上段時間自己寫的一個小案例就很實際啊：用logistic去預測nba球員能否入選全明星（詳見：怎麼學慣用 R 語言進行數據挖掘？ - 據數的回答），這就是現實中很實際的問題啊，也能通過這樣的練習收穫很多，用在面試的時候也未嘗不可啊（FYI 樓主），順手寫個小報告就更好了！

綜上，我個人覺得面試不是刻意表現出來的，面試官比我們要聰明的多，我們專業實力如何人家基本上幾個問題就能猜到八九不離十，再多的面經準備不如扎紮實實的知識經驗儲備，這樣才能有資格談更多的條件，去做更有價值、更有興趣的工作。

最後貼幾張，人大老教授吳喜之一次演講中的內容：

你真的想好要入行數據分析了嗎？！

如上，祝樓主好運！

利用詞頻統計看企業對數據人才的需求

首先利用爬蟲從獵聘網爬取職位名稱包含「數據」的所有正在發布的招聘信息，共計得到3416條截止2015年11月23日的詳細招聘信息，招聘信息內容包括職位名稱、公司行業、公司名稱、薪資、工作地點、學歷要求、工作經驗要求、年齡要求、職位描述、彙報對象、公司介紹等。

以下是招聘信息各個部分相關關鍵詞的出現的次數：

職位名稱：

工程師,1467 | 高級,485 | 經理,478 | 開發,443 | 分析師,436 | 數據挖掘,421 | 數據分析,420 | 資料庫,370 | 產品,285 | 架構師,203 | 研發,174 | 技術,162 | DBA,130 | 資深,127 | 專家,124 | 總監,117 | 運營,116 | 數據中心,107 | 數據倉庫,89 | 服務部,82 | 資料庫管理員,69 | 主管,64 | Java,62 | 演算法,60 | 運維,54 | 分析,51 | 金融,50 | 專員,50 | BI,48 | 建模,43 | 北京,40 | 互聯網,34 | 顧問,32 | 雲,30 | 管理員,28 | Hadoop,27 | java,26 | 銷售,25 | 挖掘,25 | 營銷,24 | JAVA,24 | 負責人,23 | 架構,23 | 深圳,22 | 科學家,22 | 杭州,21 | 總部,21 | 數據系統,19 | 解決方案,19 | 總公司,19 | 諮詢,18 | 項目經理,18 | ETL,18 | 數據處理,17 | 計算,17 | 數據管理,16 | 事業部,16 | 中高級,16 | 機器,16 | 風險,16 | 數據模型,15 | 測試,15 | 支付,15 | 售前,15 | 統計,15 | 軟體,14 | 上海,14 | 設計師,14 | 分散式,13 | 移動,13 | MySQL,13 | 廣告,13 | 首席,13 | hadoop,13 | 供應鏈,12 | 爬蟲,12 | 可視化,12 | 中級,11 | 規劃,11 | Oracle,11 | 網路,11 | 市場,11 | 採集,11 | 數據業務,11 | 研究員,10 | 設計,10 | 財務,10 | 前端,9 | 管理部,9 | 電商,9 | 軟體開發,9 | 技術部,9 | 風控,9 | Engineer,9 | 眾籌,9 | 支持,9 | 服務,8 | 運維部,8 | 總經理,8 | 陽光,8 | P2P,8 | 人壽,8 | 醫學,8 | 信息,8 | Python,8 | Manager,8 | 安全,8 | oracle,8 | 網站,7 | 機房,7 | ORACLE,7 | 搜索,7 | 研究,7 | mysql,7 | 集成,7 | 數據測試,6 | BSS,6 | 處理,6 | Consultant,6 | 存儲,6 | 引擎,6 | 數據通信,6 | CRM,6 | 策略,6 | 主任,6 | 遊戲,6 | 抓取,6 | 部門經理,5 | 拓展,5 |

職位描述：

（註：已經剔除了一些無效的虛詞、標點符號等）：

分析 5614 | 開發 4456 | 產品 4028 | 資料庫 3959 | 數據分析 3579 | 設計 3227 | 數據挖掘 2426 | 優化 2197 | 溝通 2055 | 用戶 1941 | 運營 1925 | 演算法 1741 | 互聯網 1580 | SQL 1420 | 挖掘 1384 | 模型 1361 | 建模 1316 | 數據倉庫 1253 | 統計 1214 | 維護 1198 | 架構 1144 | 研究 1110 | 本科 1088 | Hadoop 1055 | 計算機 991 | 數學 971 | 海量 928 | 研發 857 | 監控 809 | 建立 803 | 實現 795 | 制定 782 | 機器 757 | 處理 757 | 編程 741 | 數據處理 729 | 金融 706 | 流程 671 | Java 658 | 存儲 655 | 編寫 647 | Linux 642 | MySQL 641 | 邏輯 633 | 框架 627 | 策略 607 | 調優 574 | 統計學 573 | 市場 551 | 責任心 548 | 計算 536 | 決策 534 | 解決方案 534 | 分散式 520 | ETL 514 | 過程 511 | 報表 510 | Python 506 | Oracle 505 | BI 505 | R 502 | SAS 497 | 發現 480 | 創新 478 | Hive 472 | SPSS 471 | hadoop 465 | 搭建 459 | 原理 457 | 架構設計 451 | 測試 442 | 運維 439 | Spark 433 | 改進 428 | 邏輯思維 426 | 數據模型 422 | 協作 419 | 網站 405 | 構建 398 | 撰寫 394 | 敏感 390 | 集群 374 | 數據中心 373 | 風險 367 | 整理 366 | 統計分析 360 | 壓力 352 | 大規模 351 | 快速 346 | 備份 343 | 規範 342 | 收集 339 | 運行 333 | 開源 329 | 部署 326 | 電商 319 | 操作系統 318 | 雲 313 | 表達能力 312 | 代碼 309 | 敏感度 306 | 計算機相關 306 | 腳本 298 | 移動 295 | 調研 295 | spark 293 | 網路 293 | java 291 | C++ 286 | python 285 | 工程師 281 | 碩士 280 | 數據結構 272 | 提供數據 269 | 資料庫系統 261 | shell 257 | 分散式計算 250 | 產品設計 250 | 數據管理 244 | hive 240 | 廣告 238 | 預測 237 | Mysql 235 | 腳本語言 234 | linux 234 | 編程語言 229 | 模塊 227 | 實踐經驗 225 | HBase 218 | Excel 215 | 聚類 214 | Storm 212 | 安全 210 | 可視化 206 | mysql 204 | MapReduce 204 | JAVA 203 | Shell 203 | 三年 199 | 戰略 197 | 回歸 188 | 大學本科 180 | Hbase 176 | 伺服器 174 | 查詢 171 | 分散式系統 170 | 自動化 168 | hbase 164 | Unix 162 | sql 161 | storm 161 | 數理統計 158 | 畫像 153 | 自然語言 153 | Perl 152 | 搜索 143 | 興趣 141 | 監測 137 | 指標體系 135 | PPT 135 | 分析模型 131 | 遷移 129 | 英文 129 | 電子商務 127 | Redis 127 | NoSQL 127 | 引擎 127 | DBA 120 | oracle 118 | Server 117 | MongoDB 111 | 產品開發 110 |

職位所在地：

北京,1526 | 上海,822 | 朝陽區,371 | 深圳,305 | 海淀區,236 | 杭州,212 | 廣州,185 | 浦東新區,122 | 南山區,80 | 南京,73 | 天河區,49 | 徐匯區,46 | 成都,45 | 大興區,39 | 東城區,38 | 福田區,28 | 西湖區,27 | 武漢,26 | 蘇州,25 | 長寧區,23 | 重慶,20 | 閘北區,20 | 楊浦區,19 | 閔行區,18 | 靜安區,18 | 黃浦區,18 | 高新區,17 | 廣東省,17 | 濱江區,16 | 雨花台,16 | 虹口區,15 | 珠海,15 | 昌平區,14 | 西城區,14 | 天津,13 | 普陀區,12 | 廈門,11 | 青島,11 | 佛山,10 | 蘿,10 | 長沙,10 | 福州,10 | 崗區,10 | 工業園,9 | 玄武區,8 | 寶山區,8 | 龍崗區,8 | 城區,8 | 丰台區,8 | 荔灣區,8 | 順德,8 | 江干區,8 | 越秀區,6 | 西安,6 | 建鄴區,6 | 洪山區,6 | 合肥,6 | 東莞,6 | 大連,6 | 花都區,5 | 濟南,5 | 石景山,5 | 瀋陽,5 | 思明區,5 | 餘杭區,5 | 鄭州,5 | 江寧區,4 | 渝中區,4 | 寧波,4 | 通州區,4 | 香洲區,4 |

學歷要求：

本科,2244 | 不限,700 | 大專,317 | 碩士,148 | 博士,7 |

工作年限要求：

3年 ,1181 | 2年 ,684 | 5年 ,575 | 不限,441 | 1年 ,220 | 8年 ,93 | 4年 ,92 | 10年 ,51 | 7年 ,19 | 0年 ,5 | 9年 ,3 |

原文鏈接：利用詞頻統計看企業對數據人才的需求，轉載請註明來源！

統計是科學研究最重要的工具。在大部分行業是作為工具存在的。

搜集數據是第一步。

分析數據是第二步。

大部分人都能做出很漂亮的圖表，給出各式各樣的value。但是知道每個數據、圖表的每個拐點，異常值，函數，背後的意義，才能讓你與眾不同。

我的語文老師說過一句話很適合統計學「發現問題是簡單的，但是發現問題卻沒有解決辦法是可悲而無效的」。

工具是必要條件，如何分析的思想方法才是核心競爭力。

半枚電信工程師，不能給出過多意見。不過就數據處理而言，在大學期間的數模和曾經網頁用戶數據分析時候用到些，大量數據計算採用的matlab，數據整理分類採用的python。個人感覺都是比較方便簡易好學的