數據分析師是怎樣煉成的,數據分析在不同行業有什麼不同要求?如互聯網、金融、傳統行業。
本人希望從事數據分析方面的工作,本科研究生都是信息管理的專業,俗稱懂一點IT知識的圖書管理員。個人覺得Excel是處理數據的神器,也會一些VBA和SQL。也自學過一些軟體如tableau, R。總之覺得數據分析是一個很有前景的事業。曾經在保險公司做過數據管理和分析,基本上是報表和數據支持的工作。所以希望大神指導一下。
學會搜索,同學!!! 知乎上這樣的答案一大堆,我就給幾個我寫過的鏈接吧
如何快速成為數據分析師? - 卡牌大師的回答如何在業餘時間學習數據分析? - 卡牌大師的回答
你是如何走上數據分析之路的? - 卡牌大師的回答前面寫的一個答案如何表達自己的數據分析能力? - 數據分析師,覺得大部分內容可用來回答本題,針對樓主說的不同行業的具體要求,等有時間再回來根據我所了解的部分行業寫!
個人覺得,宏觀上需要具備以下三點吧:1、理論知識:
- 首先,最起碼應該清楚描述統計與推斷統計各自包含的內容。能夠清晰的了解各種假設檢驗的使用場景,其實在《統計學(賈俊平等著)》這本教材里講的很詳細了(統計學專業的童鞋應該都用過(*^__^*) ),相對應的練習題目很多也站在應用的角度出題去幫助讀者消化知識,可以去挑一些相關題目深入練習。另,最好有點數學的基礎,其實本科期間學好高等數學這門課,就可以啦。
- 進一步,熟悉多元統計的相關理論知識。要熟悉:主成分分析、因子分析、判別分析、聚類分析、多元方差分析、關聯分析、貝葉斯統計分析、時間序列等內容,最好能夠清楚它們的原理及應用場景。
- 進階:了解數據挖掘的各種演算法,深入學習回歸、logistic、聚類、關聯規則、決策樹、隨機森林、機器集成學習、svm、神經網路、文本挖掘等演算法,接近達到數據挖掘需要了解的演算法啦,當然這需要較多數學功底、編程功底等,不是很容易!
- Excel裡面的數據分析工具你應該會用,簡單常用的函數你應該熟練,這是干「體力活」所必備的,就不多說了。
- 最好能夠熟練掌握:R SAS SPSS中的一種或多種。其實樓主說自己自學了R語言,就夠了(個人建議,僅供參考):數據分析的話,可能不會面對太複雜或者太大量的數據處理工作,其它兩者能做的R都可以做,而且R更加輕巧實用易上手,各種模型的精度R跟SAS幾乎一樣(SPSS我覺得略差點)。當然,如果是點子背公司就要求用某某工具,純屬意外:)
- 資料庫。應該掌握基本的sql查詢語句等內容,這是很多公司在招聘數據分析師的時候要求必須要掌握的。
- 重點:利用工具去把1(理論知識)中提到的統計學知識+多元統計知識相關練習題練習一遍。
- 進階:可以去學習Python語言,可以去關注Julia等。了解大數據平台(Hadoop、spark等),熟悉下Unix系統,自己沒事可以搭個Hadoop集群玩玩。對應1中進階內容:最好用Python或者其他工具把各種演算法自己實現一下,這對成長很有意義,尤其想做數據挖掘的童鞋!
3、實踐經驗:
- 對於在校的童鞋,無疑就是去找相關實習嘍
- 對於,已經畢業轉行的(比如:樓主),那就在學習期間多做一些有意思的數據分析項目(現在各種途徑吧:阿里天池大賽,kaggle等,請自行百度吧,路子都是自己想的),比如答主上段時間自己寫的一個小案例就很實際啊:用logistic去預測nba球員能否入選全明星(詳見:怎麼學慣用 R 語言進行數據挖掘? - 據數的回答),這就是現實中很實際的問題啊,也能通過這樣的練習收穫很多,用在面試的時候也未嘗不可啊(FYI 樓主),順手寫個小報告就更好了!
綜上,我個人覺得面試不是刻意表現出來的,面試官比我們要聰明的多,我們專業實力如何人家基本上幾個問題就能猜到八九不離十,再多的面經準備不如扎紮實實的知識經驗儲備,這樣才能有資格談更多的條件,去做更有價值、更有興趣的工作。
最後貼幾張,人大老教授吳喜之一次演講中的內容:
如上,祝樓主好運!
利用詞頻統計看企業對數據人才的需求
首先利用爬蟲從獵聘網爬取職位名稱包含「數據」的所有正在發布的招聘信息,共計得到3416條截止2015年11月23日的詳細招聘信息,招聘信息內容包括職位名稱、公司行業、公司名稱、薪資、工作地點、學歷要求、工作經驗要求、年齡要求、職位描述、彙報對象、公司介紹等。
以下是招聘信息各個部分相關關鍵詞的出現的次數:
職位名稱:工程師,1467 | 高級,485 | 經理,478 | 開發,443 | 分析師,436 | 數據挖掘,421 | 數據分析,420 | 資料庫,370 | 產品,285 | 架構師,203 | 研發,174 | 技術,162 | DBA,130 | 資深,127 | 專家,124 | 總監,117 | 運營,116 | 數據中心,107 | 數據倉庫,89 | 服務部,82 | 資料庫管理員,69 | 主管,64 | Java,62 | 演算法,60 | 運維,54 | 分析,51 | 金融,50 | 專員,50 | BI,48 | 建模,43 | 北京,40 | 互聯網,34 | 顧問,32 | 雲,30 | 管理員,28 | Hadoop,27 | java,26 | 銷售,25 | 挖掘,25 | 營銷,24 | JAVA,24 | 負責人,23 | 架構,23 | 深圳,22 | 科學家,22 | 杭州,21 | 總部,21 | 數據系統,19 | 解決方案,19 | 總公司,19 | 諮詢,18 | 項目經理,18 | ETL,18 | 數據處理,17 | 計算,17 | 數據管理,16 | 事業部,16 | 中高級,16 | 機器,16 | 風險,16 | 數據模型,15 | 測試,15 | 支付,15 | 售前,15 | 統計,15 | 軟體,14 | 上海,14 | 設計師,14 | 分散式,13 | 移動,13 | MySQL,13 | 廣告,13 | 首席,13 | hadoop,13 | 供應鏈,12 | 爬蟲,12 | 可視化,12 | 中級,11 | 規劃,11 | Oracle,11 | 網路,11 | 市場,11 | 採集,11 | 數據業務,11 | 研究員,10 | 設計,10 | 財務,10 | 前端,9 | 管理部,9 | 電商,9 | 軟體開發,9 | 技術部,9 | 風控,9 | Engineer,9 | 眾籌,9 | 支持,9 | 服務,8 | 運維部,8 | 總經理,8 | 陽光,8 | P2P,8 | 人壽,8 | 醫學,8 | 信息,8 | Python,8 | Manager,8 | 安全,8 | oracle,8 | 網站,7 | 機房,7 | ORACLE,7 | 搜索,7 | 研究,7 | mysql,7 | 集成,7 | 數據測試,6 | BSS,6 | 處理,6 | Consultant,6 | 存儲,6 | 引擎,6 | 數據通信,6 | CRM,6 | 策略,6 | 主任,6 | 遊戲,6 | 抓取,6 | 部門經理,5 | 拓展,5 |
職位描述:(註:已經剔除了一些無效的虛詞、標點符號等):
分析 5614 | 開發 4456 | 產品 4028 | 資料庫 3959 | 數據分析 3579 | 設計 3227 | 數據挖掘 2426 | 優化 2197 | 溝通 2055 | 用戶 1941 | 運營 1925 | 演算法 1741 | 互聯網 1580 | SQL 1420 | 挖掘 1384 | 模型 1361 | 建模 1316 | 數據倉庫 1253 | 統計 1214 | 維護 1198 | 架構 1144 | 研究 1110 | 本科 1088 | Hadoop 1055 | 計算機 991 | 數學 971 | 海量 928 | 研發 857 | 監控 809 | 建立 803 | 實現 795 | 制定 782 | 機器 757 | 處理 757 | 編程 741 | 數據處理 729 | 金融 706 | 流程 671 | Java 658 | 存儲 655 | 編寫 647 | Linux 642 | MySQL 641 | 邏輯 633 | 框架 627 | 策略 607 | 調優 574 | 統計學 573 | 市場 551 | 責任心 548 | 計算 536 | 決策 534 | 解決方案 534 | 分散式 520 | ETL 514 | 過程 511 | 報表 510 | Python 506 | Oracle 505 | BI 505 | R 502 | SAS 497 | 發現 480 | 創新 478 | Hive 472 | SPSS 471 | hadoop 465 | 搭建 459 | 原理 457 | 架構設計 451 | 測試 442 | 運維 439 | Spark 433 | 改進 428 | 邏輯思維 426 | 數據模型 422 | 協作 419 | 網站 405 | 構建 398 | 撰寫 394 | 敏感 390 | 集群 374 | 數據中心 373 | 風險 367 | 整理 366 | 統計分析 360 | 壓力 352 | 大規模 351 | 快速 346 | 備份 343 | 規範 342 | 收集 339 | 運行 333 | 開源 329 | 部署 326 | 電商 319 | 操作系統 318 | 雲 313 | 表達能力 312 | 代碼 309 | 敏感度 306 | 計算機相關 306 | 腳本 298 | 移動 295 | 調研 295 | spark 293 | 網路 293 | java 291 | C++ 286 | python 285 | 工程師 281 | 碩士 280 | 數據結構 272 | 提供數據 269 | 資料庫系統 261 | shell 257 | 分散式計算 250 | 產品設計 250 | 數據管理 244 | hive 240 | 廣告 238 | 預測 237 | Mysql 235 | 腳本語言 234 | linux 234 | 編程語言 229 | 模塊 227 | 實踐經驗 225 | HBase 218 | Excel 215 | 聚類 214 | Storm 212 | 安全 210 | 可視化 206 | mysql 204 | MapReduce 204 | JAVA 203 | Shell 203 | 三年 199 | 戰略 197 | 回歸 188 | 大學本科 180 | Hbase 176 | 伺服器 174 | 查詢 171 | 分散式系統 170 | 自動化 168 | hbase 164 | Unix 162 | sql 161 | storm 161 | 數理統計 158 | 畫像 153 | 自然語言 153 | Perl 152 | 搜索 143 | 興趣 141 | 監測 137 | 指標體系 135 | PPT 135 | 分析模型 131 | 遷移 129 | 英文 129 | 電子商務 127 | Redis 127 | NoSQL 127 | 引擎 127 | DBA 120 | oracle 118 | Server 117 | MongoDB 111 | 產品開發 110 |
職位所在地:北京,1526 | 上海,822 | 朝陽區,371 | 深圳,305 | 海淀區,236 | 杭州,212 | 廣州,185 | 浦東新區,122 | 南山區,80 | 南京,73 | 天河區,49 | 徐匯區,46 | 成都,45 | 大興區,39 | 東城區,38 | 福田區,28 | 西湖區,27 | 武漢,26 | 蘇州,25 | 長寧區,23 | 重慶,20 | 閘北區,20 | 楊浦區,19 | 閔行區,18 | 靜安區,18 | 黃浦區,18 | 高新區,17 | 廣東省,17 | 濱江區,16 | 雨花台,16 | 虹口區,15 | 珠海,15 | 昌平區,14 | 西城區,14 | 天津,13 | 普陀區,12 | 廈門,11 | 青島,11 | 佛山,10 | 蘿,10 | 長沙,10 | 福州,10 | 崗區,10 | 工業園,9 | 玄武區,8 | 寶山區,8 | 龍崗區,8 | 城區,8 | 丰台區,8 | 荔灣區,8 | 順德,8 | 江干區,8 | 越秀區,6 | 西安,6 | 建鄴區,6 | 洪山區,6 | 合肥,6 | 東莞,6 | 大連,6 | 花都區,5 | 濟南,5 | 石景山,5 | 瀋陽,5 | 思明區,5 | 餘杭區,5 | 鄭州,5 | 江寧區,4 | 渝中區,4 | 寧波,4 | 通州區,4 | 香洲區,4 |
學歷要求:本科,2244 | 不限,700 | 大專,317 | 碩士,148 | 博士,7 |
工作年限要求:3年 ,1181 | 2年 ,684 | 5年 ,575 | 不限,441 | 1年 ,220 | 8年 ,93 | 4年 ,92 | 10年 ,51 | 7年 ,19 | 0年 ,5 | 9年 ,3 |
原文鏈接:利用詞頻統計看企業對數據人才的需求,轉載請註明來源!
統計是科學研究最重要的工具。在大部分行業是作為工具存在的。搜集數據是第一步。分析數據是第二步。大部分人都能做出很漂亮的圖表,給出各式各樣的value。但是知道每個數據、圖表的每個拐點,異常值,函數,背後的意義,才能讓你與眾不同。我的語文老師說過一句話很適合統計學「發現問題是簡單的,但是發現問題卻沒有解決辦法是可悲而無效的」。
工具是必要條件,如何分析的思想方法才是核心競爭力。
半枚電信工程師 , 不能給出過多意見。不過就數據處理而言,在大學期間的數模和曾經網頁用戶數據分析時候用到些,大量數據計算採用的matlab,數據整理分類採用的python。個人感覺都是比較方便簡易好學的
推薦閱讀:
※如何評價英國《經濟學人》發布的全球「仇富榜」中國倒數第四的情況?
※Mann Whitney U test中為什麼單尾檢定是比較alpha,而雙尾是比較alpha/2呢?
※陌陌 2015 年第三季度月度覆蓋人數 5838.1 萬。請問我從沒遇見過一個陌陌用戶的概率?