如何快速成為大數據開發實戰專家?


我感覺任何領域要成為所謂高手的一個必要條件就是少問問題。不到萬不得已,別問別人,自己弄。問問題應該只問戰略問題,戰術性的東西自己搞定。


下面是StuQ 發布的大數據工程師技能圖譜(僅供參考)

大數據通用處理平台

  1. Spark
  2. Flink
  3. Hadoop

分散式存儲

HDFS

資源調度

Yarn

Mesos

機器學習工具

Mahout

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微軟分散式機器學習工具)

數據分析/數據倉庫(SQL類)

  1. Pig
  2. Hive
  3. kylin
  4. Spark SQL,
  5. Spark DataFrame
  6. Impala
  7. Phoenix
  8. ELK

8.1 ElasticSearch

8.2Logstash

8.3Kibana

消息隊列

  1. Kafka(純日誌類,大吞吐量)
  2. RocketMQ
  3. ZeroMQ
  4. ActiveMQ
  5. RabbitMQ

流式計算

  1. Storm/JStorm
  2. Spark Streaming
  3. Flink

日誌收集

Scribe

Flume

編程語言

  1. Java
  2. Python
  3. R
  4. Ruby
  5. Scala

數據分析挖掘

MATLAB

SPSS

SAS

數據可視化

  1. R
  2. D3.js
  3. ECharts
  4. Excle
  5. Python

機器學習

機器學習基礎

  1. 聚類
  2. 時間序列
  3. 推薦系統
  4. 回歸分析
  5. 文本挖掘
  6. 決策樹
  7. 支持向量機
  8. 貝葉斯分類
  9. 神經網路

機器學習工具

  1. Mahout
  2. Spark Mlib
  3. TensorFlow (Google 系)
  4. Amazon Machine Learning
  5. DMTK (微軟分散式機器學習工具)

演算法

一致性

  1. paxos
  2. raft
  3. gossip

數據結構

  1. 棧,隊列,鏈表
  2. 散列表
  3. 二叉樹,紅黑樹,B樹

常用演算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,最大子數組

4.最長公共子序列

5.最小生成樹

最短路徑

6.矩陣的存儲和運算

雲計算

雲服務

  1. SaaS
  2. PaaS
  3. IaaS
  4. Openstack
  5. Docker

End.


我特么就沒聽過有所謂專家速成的,只有孜孜不倦的不斷學習,拋開偏見,自己動手才是正道。

只是方法論和心態的區別讓你對過程的態度不同。

真雞湯,但咋就是那麼多人問呢。


謝邀~

題主是程序員,用了多少時間成為程序員的?

題主的問題很務實:成為大數據開發實戰專家。落腳點是實戰,實戰肯定不是一蹴而就的事情,當然是有大量案例堆積起來才能夠稱之為專家。這條路相對來說很難,基本上都得拿年齡、時間和頭髮去熬,頭頂的頭髮稀疏了業內差不多應該也叫你專家了。

上面這是第一種辦法,很辛苦,需要大量時間和大量案例支撐,好處是基礎紮實,壞處是,光陰易逝,佳人還在遠方等你,且即便你聰明絕頂了,如果不會包裝自己可能也還是在行業默默無聞。

第二種方法,這比第一種簡單,但是需要你天資聰穎或家境不錯。本科名校出來,海外名校讀碩、博,第一份在海外的話找微軟、領英、谷歌、臉書等這樣的公司,國內的話BAT、美團、網易、滴滴等等,進去後姿態放低點,從基礎程序員做起,每滿1到2年如果沒升職,就趕緊跳槽,就前面這幾個公司跳,前提是越跳越高,預計畢業5年後,你稍微努力的話,會開始有人叫你專家了。這種方法是借勢,借名校名企的優勢迅速提升自己。

第三種方法,英雄不問出處,做幾個成功的案例出來,幾個就足夠了,最好再去一線互聯網公司鍍下金。多多參加一些行業講座並做分享發言,百忙中抽點時間寫書、寫總結、寫分享,會包裝自己(實在抽不開時間,這個時候你可以拿出工資的一部分招幾個人幫你包裝,基本上快成為專家的人年薪至少也在30W以上,拿個20萬來包裝自己,等水到渠成了這個預算可以大幅降低哦~)。這方法也差不多要在你畢業5年後實現。

後面兩種方法可能與答主期待的實戰有一點距離,但是這應該是最快的了。

通往成功的路充滿荊棘,捷徑人滿為患。


沒辦法很快


轉一篇大數據文摘整理的:8步煉成數據科學家

第一步:學好統計、數學和機器學習

數學:可汗學院(Khan Academy)的數學,MIT公開課的線性代數;統計學:Udacity和Openintro;機器學習:Stanford在線中吳恩達(Andrew NG)的機器學習,Coursera上John Hopkins的實用機器學習。

第二步:學習編寫代碼

掌握計算機科學的基礎知識;掌握從頭至尾的開發過程(end-to-end development),因為你做的東西終將被整合到其它系統中;確定你的首選編程語言,開源的R , Python等,商業軟體SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class進行互動式學習。

第三步:理解資料庫

作為學生,你會經常與文本數據打交道。但是,一旦進入該領域,你會發現該領域幾乎都是用資料庫存儲數據,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。

第四步:掌握數據整理、可視化和報表製作

1)數據整理,是將原始數據轉換成方便實用的格式。可自學Coursera中John Hopkins的Getting and Cleaning Data課程,實用工具有DataWrangler和R。

2)數據可視化,是創建和研究數據的視覺表現。實用工具有ggvis, D3, vega。

3)數據報表,作為數據分析的最後一步,是將數據分析和結果製作成易於理解的報告。實用工具有Tableau, Spotfire和R Markdown。

第五步:提升到大數據級別

當你開始處理網路級規模的數據時,數據分析的基本方法和過程就都改變了。絕大多數的數據科學家要解決的問題,都無法在單機上完成。他們面對的是需要分散式處理的大型數據集,使用的工具是Hadoop,MapReduce,Apache Spark。

第六步:獲得經驗、實踐,結交大牛

[古人云:]熟能生巧!你可以參加比賽,結交數據科學專家,通過小項目小試牛刀,培養自己的直覺。

第七步:實習、實戰、或找份工作

甄別自己是不是一個真正的數據科學家的最佳途徑,就是用你新學的知識迎難而上,進入數據分析的叢林。

第八步:關注並參與社區

關注網站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;關注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要數據?上quandl看看。


這麼說來,做一個大數據平台從策划到上線運營是一件非常難的事,沒有一年半載的功夫是不太現實的。但是,中科點擊經過多年的積累,形成了一整套的大數據平台打造流程,將打造一個大數據應用平台的流程標準化。中科點擊將打造大數據應用平台的流程分解成了16大任務包,196個任務節點,100天就可以開發上線一個大數據應用平台。其中慧數汽車平台100天上線了兩款產品,在整個行業來說都是一次不小的突破。

只有將大數據平台的開發過程標準化、流程化,才能流水線式快速打造一個大數據應用平台,這要得益於多年的經驗積累和對行業的深度理解。更多內容【大數據】中科點擊:如何快速打造一個大數據應用平台?_中科點擊


欲速則不達。

職業上的成長,創業都是同樣的道理。因為一直想快,結果就是速度快了但是質量很水,然後就放棄了。基本上所有的失敗都是這樣的過程。


首先聲明一點,千萬不要以為看完了這篇就能修鍊為大數據高手了,不然就不會用「修鍊」這個詞了,要修鍊成大數據高手決不是件容易的事。

這裡實際上是給你指一條過程異常艱辛,但前途異常光明的路。沒有毅力的人,看看就好了,千萬別認真。

要想成為大數據高手,首先要從理念上徹底轉變,徹底理解大數據思維,並滲透到血液和骨髓中,否則是不可能成為高手的。換句話說,你的世界觀要徹底轉變!

未完待續..


有些人說,我喜歡這個行業,我很努力,我自學成才,是否堅持十年就可以磨成一代名師?

西方的研究告訴我們,怎樣磨?如何磨?是要需要精心設計的。

精密訓練包括以下幾個要素:

1、精密訓練是精心設計地為滿足某一專業需求而進行的密集訓練

精密訓練的設計不但需要具備全套的專業知識,更需要科學融入課程設計的原理。例如博納中美首席顧問鄧小芳博士,在美國主攻學習和績效專業,並為五百強企業設計課程。在課程設計領域,鄧小芳博士積累了20年的專業經驗。不僅如此,鄧博士自從2009年接觸美國宇航局的4D領導力以來,已經具備超過5000小時的第五力4D系統的精密訓練,被查理譽為「中國導師」的稱號。第五力4D系統的百天TTT訓練體系,就是在查理的指導下,鄧博士專門為中國市場設計的將第五力4D系統落地到企業的一套成功方法論。博納中美培養出來的中級認證學員對系統的理解深入,能夠將第五力4D項目植入到企業中去,幫助企業、政府和機構打造高績效團隊。

2、確定需要提升績效的方向,然後有意識地反覆訓練

在上中級認證之前,每一位學員要提出自己未來的發展方向,比如有些人希望成為導師,有些人希望成為項目管理者。針對每個人的個性需求,在7個模塊的訓練過程中,學員可以著重自己的發展方向,有意識的反覆訓練。

3、需要專家的反饋和指導

光靠自己,是無法達到精密訓練的。因為,當個體在投入一個練習活動中,是看不到自己的行為和表現的。從他人,特別是專業視角或者中立的教練視角來觀察個體的表現,這樣的反饋和意見對個人成長十分有益處。在中級認證訓練中,中國導師會給學員提供實時反饋,確認和鼓勵學員做得好的地方,並及時糾正學員在過程中的偏差部分,保證學員在每日的訓練中收穫新的價值。

4、精密訓練需要全神貫注

不同於日常的活動,研究發現精密訓練需要學員百分之百的投入。因為思維集中,每日訓練不要超過4個半小時。超過這個小時數,效果未必更好。每日訓練時長不要低於60分鐘,因為只有一定的時間段才能讓學習達到最好的效果。

5、精密訓練需要不斷接受適當挑戰

管理大師NOEL TICHY提出,在成長過程中,一般人要關注三個圈。最裡層是「舒適圈」,這是學員最想呆的地方。外一層是「學習圈」,精密訓練就在這個圈兒里。如何識別出這個圈子?需要教練或輔導員的幫助!學習圈的練習和活動能夠幫助學員不斷看到自己的局限性,看到自己需成長和進步的空間。對自學者來說,能夠識別出學習圈是一件不容易的事情。最外圈是「恐慌圈」,挑戰巨大,學員根本不知道如何接近這個圈。對於學員來說,也要做好準備-有勇氣超越自我。學習圈的訓練聽起來並不太好玩。最好玩的是來自於強大的內在驅動力-內在獲得成就和快樂感。


這個問題卻問出一個問題的問題,你問的問題在於收據大數據的話題,世上根本沒有什麼磚家,所謂的磚家是一個圈子的人需要他的這種觀點,磚家在一定的場面上取代言作用而已,因為這些數據都是事實。若想成為這方面的專家也不難,只要勤奮學習,勇於探索,多了解一下如何應用互聯網信息技術的工具也完全可以搜集一些數據,數據的廣泛應用才稱得上是大數據,但這類數據是否廣泛有用,就在於你提煉出來的價值,是否有屬於你自己的方法論。


1,學好基本的技能;

2,編程盡量參考各種開源項目的源碼;

3,多看看大神的項目demo;

4,如果是做演算法的 看看 spark mllib 社區特別活躍 ;

5,參加一個技術小圈子;

6,維護好一個技術博客,寫好技術文章。


首先要獲取數據,熟悉sql語言是基本技能

其次,要會分析數據。起碼要了解基本的數據挖掘和統計知識。

最後,要掌握一個操作數據的語言,類似R,python什麼的,起碼要會vba吧


謝邀。 @李趟甾@顧畹鎣

能力有限,說一下怎麼入門吧。

在上家公司的時候請教過技術總監,大數據和原來的數據倉庫有什麼區別。總監覺得,列式存儲是核心的技術差異,大數據往往列數急劇膨脹,如果還沿用行式存儲,在取數據的時候內存消耗量會高到無法承受的地步。

由此,Hadoop是一個比較好的切入點,以上海現在的行情,本科應屆生,如果能使用Hadoop開發的話,起薪應該在10k以上。現在經常能見到有人說Hadoop落伍了,在招聘市場上看來,這個言之過早,前一段時間有家二線電商招Hadoop架構師,有價無市,看起來真正精通Hadoop的人還是太少,基本都被大公司瓜分了。

Hadoop只是敲門磚,實際做項目還是以傳統的ETL為主,再往旁邊擴展一下,就是機器學習,淺層學習已經很成熟了,在搜索和推薦系統上有廣泛的應用,深度學習我不了解。

還有一個方向是複雜網路:

文萱逃課秀9:傳媒時代的基本科學素養 - 老王的文章 - 知乎專欄


進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷範圍以及存貨的補給已經得到全面的改善與優化。

而在以後,也將迎來大數據的時代!


這個比較新興,要求也比較高,覺得還是報班學比自學靠譜,速度也更快。實戰是最主要的,多找有經驗的人學習!


想起個一萬小時定律。。 要成為某個領域的專家,需要10000小時,按比例計算就是:如果每天工作八個小時,一周工作五天,那麼成為一個領域的專家至少需要五年。


推薦閱讀:

Python numpy,scipy,pandas這些庫的區別是什麼?
如何高效地使用RStudio?
考慮從事 SAS 程序員工作,有哪些需要注意的點?
想學習數據分析,有哪些書籍或資料參考學習?
暴雪最近的幾款遊戲作為公司的產品來說表現如何?

TAG:數據分析 | 大數據 | 大數據運維 |