大數據方向實習生到底該做些什麼?
最近逃離學校在某大數據公司實習,雖然我不認為大數據像現在很多人說的那麼邪乎,但是我認為互聯網時代所帶來的大量數據是很有價值的。所以便在這個公司做實習生,已經一個多星期了,都是做一些簡單的搜索,排序,去重的活。excel就完全搞定了。每天需要找的東西毫無技術含量,卻挺耗費時間。不知道這是不是實習的融入期。大三就逃離學校,冒的風險也挺大的。我該學點什麼,做點什麼準備才能讓未來走的更快。畢業目標,在北上廣年薪10w+這個目標容易實現么,需要具備什麼樣的素質。甚是疑惑,求指點。
Excel2013目前可以支持104萬行數據,即使是這樣也遠遠算不上大數據。
以下是華院數據整理的2015年大數據相關公司排名
話說回來,對於一個實習生來說,讓你處理Excel不能說不合理,因為Excel處理是數據分析的基礎中的基礎,拉拉數據透視表,寫寫vlookup等函數甚至用vb寫一些自動化,一旦熟悉了對於你的數據分析是大有卑益的!還別說,一般公司的數據分析師崗位或者說一些市場調研公司還就只是要求會Excel和PPT。
說到薪資,對於北上廣來說10W+是應屆畢業生的程序員職位的起薪,如果你僅會Excel,去一些靠譜的市場調研公司做數據分析,大一點的公司如尼爾森、華通明略這種可以拿到6K左右的薪資,6*13就是8W左右了,如果你想去BAT這種公司裡邊做數據分析,只會Excel是不夠的,你還需要至少懂點SPSS或者R,當然如果能進去的話10W+是有的。
個人建議的話,最好不要為了錢而去學一樣東西,這樣內在驅動力不會大到讓你走得比別人快,儘快確定一個感興趣的方向,隨著大數據概念的興起以及企業的越加重視,數據相關的崗位細分越來越多,每一個細分都足夠你好好鑽研個10年+。
看到評論區有人問到是否會SPSS就可以進BAT做數據分析,答案是肯定的,並不是說進BAT一定要會擼代碼,因為隨著數據職位的細分,互聯網公司需要一些有產品思維並且略有統計背景的人來做數據分析,以下貢獻一張圖。
我喜歡根據職位離業務端(如產品、運營、銷售等)的遠近以及離技術端(開發部門)的遠近來描述職位,可以看到,在不同的位置都有數據相關的職位
說說市場調研,這種職位是最靠近業務的,他們的工作主要是調研外部數據,比如產品目標用戶的情況,競爭對手的情況,整個行業的情況等,為產品的每一個改版提供數據支撐,對於互聯網公司來說這種職位一般會放在UED(用戶體驗部)或者產品部下面,日常工作比如去各個城市開用戶訪談會,用調研問卷的形式收集用戶數據,打用戶調研電話,設計訪談問卷等,崗位要求不會涉及到編程,一般的要求就是統計學基礎知識,EXCEL跟PPT,SPSS懂一些更好,BAT及其他中小型互聯網公司都有崗位招聘。對於這種類型的崗位,建議一開始可以去諮詢公司,市場上有非常多好的諮詢公司可以選擇,比如全球最大的尼爾森、華通明略、易普索、蓋洛普之類,互聯網行業的有艾瑞、艾媒、易觀之類,都是不錯的選擇。從職業發展道路來講,市場調研除了是各個行業普適的職位之外(快速消費品行業對市場調研的需求量很大),在大公司縱向發展可以做到市場調研總監,橫向發展可以去做品牌經理或者互聯網公司產品策劃類的產品經理。
數據分析師,各行各業都有做數據分析的崗位,但估計是最近1,2年在互聯網公司才有數據分析師這個title的職位出現,之前一直是產品經理或者運營經理在做數據分析的活,之所以細分出來是因為隨著數據量越來越大以及數據價值的凸顯,做數據分析的門檻越來越高,舉個栗子,做數據分析你需要取數據吧,取數據一般需要寫SQL語句從資料庫里取,你讓一個產品經理或者運營經理去寫SQL估計有些難度,當然技術出身的除外,另外說到分析,數據量大的話Excel總歸不好分析,你得會點能處理大數據量的工具如SAS或者R,如果是SAS的EG模塊還可以圖形化操作,如果是R的話就是純編程了,所以我認為數據分析崗位有30%在於技術,是因為在數據處理層面它需要涉及很多大數據量的操作。從業務端來看,數據分析師的價值在於能夠為公司搭建數據流,通過數據來對產品功能進行反饋,支持日常的業務部門取數,以及為產品改版提供數據支撐,做到這些你需要跟進整個數據流從頭到尾的流動過程,源頭端比如產品開發時候的數據埋點,你需要跟產品經理及開發溝通哪個功能需要上報哪些數據,有數據上報了你需要跟進這些上報的數據要錄入哪個資料庫的哪張表,數據錄入口徑怎麼定,數據存在資料庫了你需要讓這些數據產生價值,除了業務部門跑來跟你要數據之外,你需要主動地定一些分析課題,自己取數自己用工具進行分析,最後寫成PPT呈現給業務部門並最終影響決策,如果業務部門的取數任務多了,你需要思考怎麼去將這些重複性的取數工作形成報表,自動化地呈現數據,這時你需要去跟後端開發以及數據倉庫的人溝通,並從頭到尾跟進報表的實現。
另外有一種職位叫數據產品經理,它跟數據分析師的職責有重疊的部分,不同的地方是這個職位關注的點是數據分析的產品化。這是普通互聯網公司數據產品經理的日常:
那數據產品經理跟互聯網公司里的產品經理有什麼區別呢?在大的互聯網公司,產品經理有各種細分的,有偏向功能界面設計的產品經理,這類型的產品經理關注的是產品界面的美觀吸引,他們要會用Axure畫各種界面按鈕,最好有繪畫功底,他們跟數據相關的地方在於需要通過數據反饋來改進產品界面;有偏向功能實現的產品經理,這類型的產品經理關注的是產品功能實現是否滿足用戶預期,效率是否夠高,實現步驟是否夠短,他們要求最好有技術背景,能了解開發的各種實現邏輯,他們跟數據相關的地方在於需要通過數據反饋來提高功能實現的成功率,降低崩潰率以及提高實現速度;前面兩者都是屬於前端的產品經理,而後端的產品經理除了幫助各個部門搭建管理平台的產品經理外,剩下的就是數據產品經理了。
從以上可以看到,產品經理有各種細分,而數據產品經理也有他不一樣的要求和關注點。
這是智聯上某公司數據產品經理的職位描述:
職位描述:
1) 負責門戶端、APP端數據統計產品開發及推薦演算法迭代等相關工作,獨立負責產品線的日常迭代工作,以數據為導向對運營結果負責。
2) 監管全部產品核心KPI數據,可對運營團隊及時輸出價值數據。3) 負責產品上線後的數據管理和運營工作,對相關數據進行持續監控和分析,並定期對自身產品、整體行業、競爭對手等進行數據分析並評估,不斷優化產品,完成產品生命周期管理。4) 彙報項目核心數據指標和項目進度,對產品生命周期內各項指標負責。5) 負責產品的持續運營,不斷優化、改進、迭代,深度挖掘用戶需求。從以上描述可以看到該數據產品經理職位有三個關注點:一是數據統計後台;二是推薦系統;三是對產品數據的監控和分析。那麼延伸出來該職位的要求應該是對數據要敏感,了解一定的數據挖掘演算法,於是一個數學或統計學的學位會有所助益。
下圖簡單地從背景以及工作中打交道的人來區分數據產品經理和其他產品經理:
終於說到數據挖掘工程師了,在數據相關職位里,我認為數據挖掘和數據架構門檻最高,也是最能體現數據價值的職位。大部分公司在招聘數據挖掘工程師時的門檻都是數學、統計學或者計算機的碩士以上,為什麼本科不行非要碩士?大部分企業認為,只有4年的本科學習不足以理解數據挖掘相關演算法的推導以及應用場景,要做好數據挖掘,除了堅實的數學和統計學基礎之外,演算法的代碼實現也是很重要的考察地方。數據挖掘何以門檻這麼高,他對企業真有那麼高的價值么?如果將其應用場景搬出來便知分曉。某音樂公司A成立多年,一直以界面小清新用戶體驗絕佳著稱,可惜多年來對音樂版權的重視程度不夠,導致用戶因下載不了喜歡的歌曲而頻頻流失。後來公司痛定思痛,決定另闢蹊徑於是重金聘請了一支數據挖掘工程師團隊,打造了音樂界最好的推薦系統,一下子挽回了大量用戶,現在用戶佔有率穩居行業前三。是的,推薦系統可以說是數據挖掘最重要的應用場景,最初來源於電商網站的瀏覽了該商品的用戶還瀏覽了什麼,購買了該商品的用戶還購買了什麼,現在發展到各種複雜的特徵度提取並從各個維度來計算相關性。很多著名的數據挖掘演算法,如樸素貝葉斯、神經網路、邏輯回歸等,都需要紮實的統計學基礎以及相關項目經驗才能成熟地應用於業務實踐。數據挖掘是隨著大數據技術的發展而崛起的一門職業,過去由於技術的局限,很多時候只能通過抽樣來選取訓練數據,導致最後通過演算法出來的預測概率只有60%左右,而大數據的成熟讓工程師能夠對接近全量的數據進行建模,導致最後出來的預測概率能達到80%甚至90%,從而更能體現數據挖掘的價值。從職業發展角度來說,BAT是最適合做數據挖掘的地方,巨量的數據,對技術的重視甚至崇拜以及成熟的應用場景讓數據挖掘工程師如魚得水。一個碩士畢業並有1,2年工作經驗的數據挖掘工程師在互聯網行業能輕易拿到25K往上的月薪。
最後,請關注我,我會好好維護你的時間線的 *( ^ v ^ )/*
有一篇關於數據相關職位的學歷剖析,可以參考看看
大數據崗位更看重學歷還是工作經驗?關於數據相關職位的起源,可以看一下我另外一個問題下的答案數據分析/挖掘工作的疑惑? - 挖數的回答
我說點實話吧。 真是看不下去了。
沒有大數據方向。。 就像當年說我是電子商務方向的一樣,我估摸著以後還得開一個互聯網+方向,你說學點什麼好呢?
數據分析行業一直就沒變,統計數據需要的是新點子,觀察數據靠的是眼界和遠見。
那些張口就是各種分散式工具的,比如必須要提一波hadoop這種,根本就不是數據分析行業相關,他們是數據倉庫工程師。
作為分析人員你要對公司的數據和業務負責。你的分析和數據會成為你公司下一個新業務的基石,也是你老闆口中的談資。
所以這個行業想要做好做精,需要有豐富的行業經驗,和實踐經驗,並且這很重要。
至於錢,我就不多說了,新人千萬別看錢。
有句話叫苦盡甘來。干這行年薪10w+不難,具體能拿多少取決於你能產生多大價值。
實習階段最重要的事情在於打開眼界,從學校到社會是一個很殘酷的蛻變過程,實習讓你有個緩衝,實際上是一個很難得的機會。你不用太過在意工作時你在做什麼,任何一家有一定規模的公司都不會把太過重要的事情交給實習生做,即使這些事情你有能力可以做好。
你要做的是多看多問多交朋友,和前輩們去聊,結交一些行業朋友,向他們提出你現在這個問題以及種種工作上的疑問或者對這個社會、行業的疑問,相信一定會有人指導你。
睜眼看世界,這是你的首要任務,看到真實的世界之後就該低頭做事,結合你所見所聞踏踏實實學習幾個方向的先進技術,當你畢業的時候至少應當做到能獨立完成工作。
如果你認為你所在的公司是一個血汗工廠,那也很不錯,見識一下社會的兇險也很好,你年輕,你玩得起。
如果做事,無論多麼簡單無聊的工作,請務必兢兢業業做好做仔細,養成好的工作習慣和工作節奏,你在以後的工作中將會受用無窮…不管是不是大數據公司,招聘實習生的目的都是差不多的:提前截流優秀的人才、從零培養忠誠度、前置性入職培訓以及提前進行團隊磨合、節約資金。
實習生最終是要轉正的,在剛入職的時候,你可能會做一些excel數據處理之類的事情,但是在你轉正之後,你將會從事和你們團隊正式職工同樣的工作,所以觀察一下他們現有的工作,從自己能夠入手的基礎事務開始做起,逐漸成長吧。
給題主來一篇雞湯:
實習生工作注意事項:
積極和同事說第一句話;積極去要求第一份工作。主動去要求、索取工作任務,問同事有什麼可以幫得上忙的。與導師進行溝通。上班時可以比導師早一點到辦公室,然後主動詢問今天有什麼工作。工作做好並評估好之後去問導師有什麼更好的辦法,有什麼更好的軟體之類的。這也是一種有效的學習方法。參加內外部的會議。公司或者團隊的內外部會議如果有機會一定要參加。並且做筆記。做筆記不是讓自己做會議紀要,當然如果可以向領導詢擔任會議紀要的工作就更好。在做筆記的時候不是什麼都需要記錄,需要記錄的是與自己未來工作相關的,可以用到的東西。回去整理筆記,思考有哪些問題和細節不清楚的,可以尋找向職場導師或者關懷自己的人詢問。如果不擅長正面的,壓力較大的外交,平時可以多參加團隊的活動,甚至是午飯的時間放鬆的時間,通過自己熱心、主動地溝通可以與同事拉近距離。同事在放鬆的狀態你可以更好地表現自己。在閑聊中尋求幫助,可以讓同事教些技巧性的東西讓自己去學習和操作。安排的工作一定要按時完成並且及時反饋,才能得到更多的指點。努力訓練自己有提前完成的能力,初入社會,工作上不會的東西太多,就像打遊戲一樣,你解鎖的速度越快,遇到的Boss越強,說明你的能力也在增長。而這更大的挑戰都需要自身更強的實力去爭取。不要在領導面前說職業抱負,不要談過多自己的經驗,少說判斷句,少用形容詞。說的越多,往往會給人不務實的負面印象。這個世界上少有人真的關心你的理想和未來,一個人仰望星空,在所有人面前腳踏實地。還有,剛進去幾月就想著成為不可替代的啥角色,純粹傻蛋。 進去了幾個月還感覺自己做的事沒一點技術含量,不怪上面沒給你好任務,怪你自己蠢。沒有主動向別人展示你的思考你的能力,希望別人突然放心把重要擔子給你,還要多幼稚? 如果能真正理解我的話,我認為這會改變你的一生。
一個真正好的領導需要的尊敬不是奉承,而是認可和禮貌。認可體現在工作上,就是一句嚼爛了的話,少給領導做問答題,多讓領導做選擇題。你要認同你的領導(或者上司)是一個決策者的身份。對於一個任務,儘可能的多方案備選,優缺點備註,選項部分的大量繁瑣工作是你能做的,而把最後的決定權交出去。禮貌體現在工作上,就是一些細節上的教養。比如,進出門的時候讓別人先走,有客戶來談事的時候視情況給別人倒一杯水後再走,還有合適的運用敬語,好比「謝謝你」就比「謝謝」要更真誠,等等很多細節。「度」的把握尤其重要,見過同事為了給上司拎包而讓上司尷尬不已,過度的表現就像一個畸形的小丑讓人苦笑。禮貌是一種建立在同理心上的自然表達,應該讓彼此都舒服。
最後大數據方向實習生應該做什麼?
剛開始實習,你可能會接觸一個比較正常的工作內容:
1.協助進行業務系統數據的規劃、設計、實施,設計並優化資料庫物理建設方案;
2.對資料庫進行管理,負責資料庫應用系統的運營及監控;3.業務系統資料庫的定期維護和異常處理;4.協助對資料庫性能分析與調優、保證數據安全、進行定期備份、和按需恢復;5.配合其他部門進行的數據處理、查詢、統計和分析工作。
這個階段你的工作內容主要關鍵詞是「協助」。
實習一段時間之後,你會接觸到比較高級的工作內容:
1、參與大數據平台的設計與開發,解決海量數據面臨的挑戰;
2、管理、優化並維護Hadoop、Spark等集群,保證集群規模持續、穩定;
3、負責HDFS/hive/HBase的功能、性能和擴展,解決並實現業務需求;4、協助團隊成員建立數據模型,對數據進行挖掘、優化及統計。
這種時候你會自己開始接觸一些正式員工的工作內容,承擔一些責任。
如果你碰到一個不靠譜的公司,你就只能接觸到一些二逼的工作內容:
1、負責公司項目的技術方案的編寫、標書準備、講解及用戶答疑;
2、配合客戶經理完成與用戶的技術交流、技術方案系統演示;3、配合業務、商務做好用戶溝通、資料共享、技術協調,文檔管理工作;4、配合市場人員完成應用系統演示、產品宣傳資料撰寫;5、與合作夥伴、廠商等客戶的技術交流;6、對實施、售後維護人員的技術培訓;7、配合技術經理完成對技術人員的考核及其它管理工作。
這是大數據?這是一個集合文案、行政、銷售、運維為一身的四不像。
最後,萬一這公司就是個騙子公司呢?你可能會接觸到下面這種:
有些答案,實在是沒法看。
大數據就一定要大么?一個相對的概念而已!數據的分析結論的應用價值才是最終目的,我見過某行業大牛分析師,工具只會用excel,沒見過誰因為這個否認他的工作成果的。---------------------------------這幾個冷嘲熱諷的答案不看也罷。樓主實習而已,什麼公司也不會把實習作為一個關鍵崗位,所以也別期望你會真實現關鍵崗位的職能。把你現在經歷的作為學習的一部分,你能一天做好的東西,是否可以一個小時坐好。每天手動的流程,是否可以自動完成。大數據只是一個概念,excel也就是一個工具。搞不懂為什麼,就先做著吧建議題主考慮這麼幾個問題:1. 數據分析師,數據挖掘工程師,大數據平台工程師等有什麼區別?2. 你畢業後想從事怎樣的崗位?3. 對於你想從事的崗位,一般企業在招人時有怎樣的要求?(學歷,工具熟悉,比賽經歷,實習經歷等)4. 自己目前在哪些方面還達不到要求的?5. 從現在到校招,能做些怎樣的提升?
這個問題題目太對我胃口了!大三升大四的暑假的時候實習內容與大數據有點相關,零基礎沒導師開始的,主要靠一起實習的學長的指點。現在回過去小結,希望對你有幫助。
關於知識塊學習(建議直接網上搜索先學一遍有初步認識,之後有興趣/機會可以再深入學):Hadoop、函數式編程,語言學python、spark-sql、Scala(這三個都是簡單粗暴地過了幾遍,寫不出來的時候繼續度娘谷歌),演算法方面當時主要接觸了聚類和隨機森林。
關於大數據相關工作:1、excel下給指標取欄位名(因為比較多,記一下防忘)、計算方法(防開始算的時候思路亂)、數據來源(有時候不能直接用源表,需要自己做中間表方便之後的計算)、欄位分類;2、各種取數據合表方便之後計算(主要用了python、sql);3、計算(Scala、python、sql都可能用到);4、最坑爹的部分找出各種結果值不合理的欄位一步一步倒著追溯哪一步出錯,改了再順一遍,改不出來的記excel;5、建模(部分和4夾雜著進行)。
對大數據接觸不多,以上方法能走通,但不知道這個方法科學么,熱烈歡迎大神批評指正ε-(′?`; )說難聽點,只用excel做個屁大數據,一個200萬行的數據集,你用excel 打都到不開。
什麼算大數據?
我處理過2億行的數據,6GB大小,只能算小數據,大數據的工具都用不到! 達到10TB級別才算穩穩的是個大數據。數據挖掘根本不用EXCEL
不是不用EXCEL,數據挖掘頂多只用EXCEL看數據和製表製圖。但是就是不搞大數據,搞普通數據,幾百兆大小的,你數據清洗用Excel試試,建模用Excel試試,你做過決策樹用Excel 試試。拜託學好SAS,R其中一種,SQL必須學好。1、VBA學好是一個大數據分析的實習生應該學會的基本。2、Matlab SAS R這些統計軟體相信大家都會用,但是我在實習的時候發現了一個脫節的地方,就是很多方法我會,但是要麼原理搞不清楚,要麼前提假設沒弄懂,導致沒發很精準的分析問題。3、可視化軟體才是核心競爭力。學會數據處理是第一步,把數據分析用可視化軟體做出來才是牛逼。推薦Tableau等新興可視化軟體,有空多學學。4、清洗處理數據前,多看報告,少走彎路。
Excel用好了,真心牛逼。最近kaggle上的一個bnp比賽,第一名就是用Excel分析出很多東西,看的一愣一愣的。
人家就是讓你打打下手,去觀察下別人在做什麼吧
看到樓主的問題,首先說聲感謝,原因是作為大四的我 正在培訓機構學大數據,無論好壞,我選擇了他,也認為前景可以,但是困難是有的,無論技術上,性格上,思維上,我都感覺到力不從心,但我不會放棄。從Java,Linux,MySQL,Hadoop,spark....等等,需要自己學習去擴展的太多太多,基本很多都要了解。樓主所說的只是基礎(雖然我並我經驗可談),但是大數據跟我以上所說的肯定是有很大聯繫,範圍確實太廣泛,只能逐步去學習。
一些數據分析、機器學習工具集和開源庫。
scikit-learn
基於Python語言的機器學習工具,簡單高效的數據挖掘和數據分析工具,所有人都適用,可在不同的上下文中重用,基於NumPy、SciPy和matplotlib構建。
Numpy
增加對大型多維數組和矩陣的Python支持,以及一個大型的高級數學函數庫來操作這些數組。
SciPy
SciPy是基於Python的Numpy擴展構建的數學演算法和便利函數的集合。 通過為用戶提供用於操作和可視化的高級命令和類,它為互動式Python會話增加了巨大的能量
Pandas
為Python中的數據操作和分析編寫的軟體庫。 提供操作數字表和時間序列的數據結構和操作。
Dyson
DYSON智能分析系統是一個強大的大數據融合,分析和可視化平台,採用探碼科技自主研發的TMF框架為架構主體,支持開發可操作的智能。用戶通過一系列分析選項發現複雜的連接並探索其數據中的各種關係,包括圖形可視化,全文多面搜索,動態直方圖,互動式地理空間視圖和實時共享的協作工作空間。
大數據分析出來的數據的話 針對企業,可以把對企業項目,感興趣的 有需求的 被動引流 讓企業的的管理模式,思維模式得到提升,從而改變企業的整個形態
敢問這剛出道的小白能自學這個大數據么?
先要明白大數據分析的什麼?機率的上限和下限,你就要明白自己要做什麼了。
人家是來問大數據實習生應該做些什麼的好嗎,,我都沒看見對題的答案
不明覺厲
哈哈 不錯的趨勢
。。。這是整理文檔吧。。。你確定是數據分析么
一、Excel起步
作為一個入門級工具,Excel是快速分析數據的理想工具,也能創建供內部使用的數據圖。
二、SQL起步
如果你了解SQL,說明你已經具備了更快速提升的基礎。
三、R語言起步
作為用來分析大數據集的統計組件包,R是一個非常複雜的工具,掌握R意味著你比其他IT專業人士可以更快上手一些專業分析工具和服務。
四、Python起步
五、MySQL起步
六、微軟SQL Server起步
七、Tableau起步
八、Java起步
九、PostgreSQL起步
十、Visual Basic起步
首先贊同@挖數老師的觀點,Excel處理的數據量可能不能達到大數據的級別。
然後我想講講關於數據分析行業實習以及畢業生就業我的一些淺薄看法。
在我看來,題主本身的實習應該不是正規的summer intern,那麼公司並不會把學生作為長期培養對象。 反之,公司需要的是馬上能上手做事的能力。
因此我覺得開始實習時的數據分析能力(統計,編程,業務),基本上決定了你的工作任務的上限。
就比如我當時在學校做summer research internship的時候,就是靠自己的基本Python能力來完成工作。 如果說非要有什麼進步的話就是matplotlib package, 特別是Basemap的技巧(整整兩個星期都在做Visualization ORZ )
所以我覺得題主應該展現下自己數據分析的skill sets,這樣公司才能給你安排儘可能的合適的position
那麼學生實習生們到底在實習時能收穫什麼呢? 如果你很幸運,真的有全職員工願意帶我們,那當然極好。如果沒有,好歹我們也能豐富自己的簡歷。當然還有更重要的, 那便是開闊自己的眼界。
而眼界具體是什麼呢……
It largely depends on what the firm is doing先填一部分坑
10W 年薪以及畢業生的問題我回頭再填(主要還是不太懂 T T )推薦閱讀:
※分析、抽象代數這種課對搞 data science 幫助大嗎?
※喜歡量化自己的生活是一種什麼體驗?
※大數據網站有哪些?
※需要做財務數據分析,有什麼好用的工具?