你是如何走上數據分析之路的?
現在數據分析和大數據越來越火,可是不管是國內還是國外,都很少有 直接的專業與數據分析相關。那麼問題來了,你們是怎麼決定學習數據分析的呢?又是如何學習的呢?
我的職位不是數據分析師,是數據運營。很多工作和數據分析重合,屬於既做運營、又做數據,可能還參雜其他角色。
最開始我是從運營接觸上手數據,沒有編程的基礎,也沒有統計的知識。大學的幾門課我都是靠同學才過的,掩面哭。可能我零經驗的經歷對大部分有志於從事數據分析的朋友都是一個參考。
剛開始工作我可是連vlookup都不會,也沒人教我,excel只會很基礎的操作。那時要關聯多張報表,我仗著手速快,一個個對照複製黏貼的…要是數量一多肯定哭。後來我想這可不是辦法啊。於是藉助萬能的百度:
「excel怎麼匹配多張表的數據。」
於是看到vlookup函數。每次用都要先看一遍網上的樣例,不然會有各種問題。用了幾次才會用。
那時候運營方面的數據需求還好,很多都是自己間歇時間琢磨。比如什麼樣的用戶願意用我們APP。於是我希望研發能有各種報表的下載,然後我用excel關聯,做一些簡單的分析。
期間當然犯了很多新手犯的錯誤,比如相關性不代表因果性,比如極值的影響,比如樣本數量不滿足置信度。
少年不知天高地厚,不過我依舊樂在其中。做數據分析要有勃勃的好奇心。
記得是15年初,老闆給了我一個任務,收集各地的醫院數據。我一看網上醫院有幾萬家,我又要快哭了,我手速再快也複製黏貼不了啊。於是求助了解到爬蟲這麼一個磨人的好東西。
那時水平不夠用Python+Scrapy,找來了一款火車頭的爬蟲工具。然後按著教程走,順便了解了Html+CSS的網頁結構。
加了兩天班,終於抓下來數據。
再次哭了,不是感動的。
這都什麼亂七八糟的數據。不僅有錯位,亂碼,空格,還有重名。什麼上海市第一醫院,上海第一醫院,上海市第一人民醫院,上海市第一醫院。你同一家醫院給我網上放四個!!更別提分院、地址不匹配等等。
後來才知道這步驟叫數據清洗。繼續用excel函數整理。我一直信奉的準則是:如果能用簡單的,可復用的方法,就絕對不重複操作。我堅信永遠有省時省力的方案。這期間Excel水平提高的飛快。另外也養成了隨時保存的好習慣,微笑臉。
雖然爬蟲從學習到成功還是花了不少時間。但是和從網上拷貝下來比,那效率是高多了。
大概同一時期,我把網站也學習了。
我們產品是APP+Web框架,很多功能和活動都是用Web頁實現。當時用的是百度統計。系統的學習了漏斗轉化,訪問路徑,跳出率退出率等。
那時針對各類活動的分析都能迅速落地,比如活動期間的流量,用戶的轉化率等,都是能很快獲得反饋的分析,是能對運營產生直接了解的。後續的活動都納入了分析,也將百度統計的相關應用推廣到運營部門。
隨著分析的深入,自己對分析也有更高的數據要求。比如什麼樣的用戶更容易參加活動?用戶流失的原因是什麼?
不論是下載的報表,還是網頁統計,在當時都很難做到。很長一段時間只能用粗略的描述性統計,而不能定位到具體的人。
數據分析很多技能都能後天磨練,但我覺得一個好的數據分析師一定會有好奇心,會去提問,會想問題,也能去解決問題。不是為了分析而分析。
隨著公司業務線的拓展、用戶數量的提升。我用Excel做關聯越來越吃力,效率也幾何程度的降低。15年8月的時候,我再一次向研發老大提需求時,他對我說:要不給你開個資料庫許可權,你自己查吧。
我:我不會SQL啊。
研發:不要緊,很容易學的。
我:好啊好啊。
我內心是很爽的,老子再也不用求你們了!
一個月後,所有部門的數據需求都不走研發,而是堆疊到我這。顯然讓我用SQL是有天大的預謀。可我還是很感謝接觸SQL,讓我能接觸到的數據呈幾何上升。
那時期還有一個任務挑戰,我需要搭建用戶運營的數據體系,包括留存、活躍、迴流、分層等指標。我網上一邊查運營指標的應用和解釋,一邊查SQL的實現。
這是我第一次開始接觸、了解和建立以業務為核心的數據體系。
當時,我們運營,好長一段時間的推送、簡訊、營銷都是全量。一故腦兒的都推給用戶,沒有細分。在指標建立後,我們部門開始嘗試用自己數據體系去運營。
舉兩個最簡單的例子:比如你最近打開過我們APP,那麼我們就不會給你推最新的活動簡訊,因為我們默認你能在APP中看到。
再比如,用戶用過APP很長一段時間,我們冠他叫忠誠用戶,後來突然他連續幾周不用,那麼我們會找出這個用戶,電話詢問為什麼不用,嘗試喚回他。
也是從那時開始,我有意的去衡量各類運營效果,比如活動的人均成本,簡訊的人均效果成本,用戶價值周期等。並且不斷優化。
利用數據建立指標,對業務最直觀的感受就是有據可依,分析和運營能夠有針對性。
數據多起來後,每日維護數據報表成了最花時間的事。雖然當時我們用了Presto+Airpal的數據平台,但不管各類業務線,還是APP基礎數據,我和我部門花費在整理上的時間越來越多,分析越來越少,更不要說落地和執行。
之後則順理成章地引入BI,在此之前我都不知道BI是個什麼鬼。
BI的學習曲線沒那麼陡峭,為了實現運營的數據報表自動化(依舊是為了省時省力),請求研發(一頓飯)單獨開了一台伺服器進行私有化部署,連接資料庫,花了大約一個月的時間將所有的報表需求都遷移到伺服器上。
爽。
很多工作都簡化或者剔除:能夠監控任何的推送和簡訊效果,市場銷售的分析能夠定位到人,隨時掌握業務線的波動。
有數據才能分析,能有充裕的人手安排監控和觀察數據,至此,運營的數據體系有了基礎。
在15下半年,我則向產品提出(沒請吃飯)需求希望布置APP和Web埋點,通過用戶的路徑了解用戶,也彌補百度統計的缺點。埋點數據亦全不亦少,亦早不亦遲,我們埋點比較遲,如果早一點,可能有更多時間進行優化工作。
當時經過考慮,埋點數據會比較多,要用到Hadoop,雖然從後續看,Hadoop並不是必需的選擇。但是也提前讓我了解到大數據(當然數據本身不大,具體是相關領域技術)。
埋點數據使用Hive建立離線的腳本清洗、分區、加工後導入到MySQL。蠻遺憾的是業務用不太到Hadoop,只是數據管理而已,所以我了解不怎麼深。
到此底層的數據都已經完善。後續都是上層的加工。
今年初,我開始學習數據挖掘,往數據分析更高層進階,先入手的是R。
自身沒有啥編程基礎,基本上是工作後和研發的耳濡目染,所以學起來較為吃力。主要是敲書上的語句學習。整本書敲下來,基本了解拿到一堆數據知道怎麼清洗,怎麼使用描述性統計,怎麼進行作圖。
基礎學的差不多,開始啃演算法,我是應用型為主,所以絕大部分的演算法都不學習數學推導。當然決策樹,K聚類這種簡單的都掌握。
大概所有數據挖掘的初學者,都會用到Iris Data的數據,然後就是泰坦尼克的倖存者分析吧。是的話點個贊,哈哈。
我不是啥數據挖掘工程師,我喜歡稱自己調包俠。
後來還去參加了數據挖掘的比賽,是一個信用欺詐模型,典型的數據不平衡問題。數據完全脫敏,從欄位上無法得知業務意義。
這和平時直接拿乾淨的數據源做模型完全兩回事,模型的recall一直不理想,最終也沒有什麼成績,最大的幫助就是知道自己有多井底之蛙。
後來重視特徵選擇、特徵加工這塊。好的數據和特徵,能夠很大程度決定模型的優劣。我之前練習時,因為我本身是運營,挑選的特徵都是經過擇優和強相關的,實際特徵工程是我非常大的短板。
關於數據挖掘我還在不斷學習的過程中,以後有機會再多補充吧。
Python的學習,說來還是歸因於研發大哥們(這次不請飯了)。因為我們業務線的數據比較多,產品改需求更多,很多表的結構不堪入目,常用的SQL必需各種嵌套,應用起來比較麻煩。
我不喜歡重複無意義的工作,我希望有清洗整理過的數據,於是提需求。
結果當然是需求延期。
這個讓我想起了一段經典的對話:
產品運營:這個很簡單的
研發:U Can U Up
仔細思考了一下,數據清洗我肯定會不斷改需求(我就是對自己如此不自信),請研發大哥們的咖啡和晚飯會比較多,那還不如自己動手,反正數據分析將來也得用Python,撩袖管UP。
下載Python,安裝GitLab,開啟CI許可權,然後進行數據倉庫的規劃。我自然不知道數據倉庫應該是啥樣子。反正目標是我們運營數據怎麼用怎麼爽…
繼續拿起書本,用Pandas編寫ETL和數據倉庫的相關代碼。期間對數據表進行了無數次的調整,性能優化查詢優化,怎麼樣能適應業務的拓展,如何防止數據膨脹。
Truncate無數次,換其他公司早被砍了吧。
最終總算滿意,並且將常用的幾個清洗過程函數化,以後可以快速復用建表。比如七天內某業務數據,三十日內某業務數據。
數據挖掘的常用特徵庫一併建立,會用離線演算法進行一些業務響應模型的預測,準確率達到75%以上。雖然和大牛們比不咋滴,但是作為運營有演算法模型,感覺還是蠻爽的。
下一步,我們團隊開始用數據倉庫中的數據,抽象成用戶畫像。
我網上看過很多用戶畫像的文章,比如用戶的年齡、性別、愛好、財務狀況等畫像,可我們不是電商行業,用戶的興趣對我們的業務沒有實際幫助。我則只根據自身對業務的理解制定畫像標準。
例如以經典的RFM框架,製作標籤:一個月沒有產生訂單、近期產生的訂單頻率較低等。幫助銷售和運營判定用戶需要激勵還是發展。
說白了,我不了解其他企業的用戶畫像,可能水平再高點,會用上主成分分析或者聚類等。但我依舊堅持以自身運營的角度去分析和提煉,只要對業務有幫助就是好的用戶畫像。幸好畫像的代碼都是自己搞定,後期要改需求也是自己改,不用請吃飯了。
自己對數據分析的了解和深入,都是工作中一步一個腳印走下去的。有模仿前人的經驗,也有團隊的摸索。不敢說自己有多少心得,從去年用MySQL到現在也才一年多時間,還有很多有意思的數據想嘗試和學習:
網站數據分析和APP數據分析的異同在哪裡;
我了解SEO的知識,但是流量沒有實戰檢驗,很想用Python爬蟲+AB測試去獲得權重;
營銷很希望有大金額的預算操作,通過優化不斷降低CPC;
Spark已經是趨勢,可還沒有接觸過;
數據學的越多,越覺得不算入門,更別提還有運營的本職工作。
另外,我還知道自己的不足和局限,比如不知道大廠的數據產品是什麼樣的,比如有沒有更棒的數據運營案例,都很願意和大家一起交流。小數點採訪了30位知乎用戶,他們每個人來自不同行業,不同崗位,我們來了解下他們為什麼想走向數據分析之路。
@梁十月 銀行職員 :掌握技能,開拓思維
@塢垃 遊戲動作:生活中發生的大多數事情都有跡可循,而大多數規律都來源於數據分析
@谷溪石 通信行業 :學習數據分析是為了數據驅動業務增長、數據驅動決策效率
@岩雀 塔莉埡 GIS數據分析師:為了轉行(已轉)
@趙高瓊 電商行業項目經理:挖掘業務痛點,提升客戶滿意並驅動業務增長
@bigod0jin 企業員工:掌握技能,為轉行做準備
@劉隱蟾 影院投資公司 :公司需要在數據可視化方面吸納市場先進經驗,而我恰好能幫一點忙
@wandres 互聯網 :從職業發展的角度,數據分析是決策的基礎;個人興趣角度,數據分析是門藝術,有意思
@楊懷超 新材料及技術研發:開拓視野,掌握可視化工具
@夢回唐朝 供應鏈管理:數據分析為管理插上翅膀,使你站的更高,看的更遠!
@Rain 產品經理:未來產品經理將會更多的變為業務,數據,運營三位一體的融合角色。因此數據分析變為一項核心競爭力
@chanbaer 互聯網:用戶觀察和探索世界
@舒皮嘻嘻 數據分析師:學習數據分析是為了增加技能,拓展視野,提升高度,實現數據驅動業務增長,為管理提供決策支持
@仇紅酒 爬蟲工程師:因為用數據的人特別帥
@隔壁王師傅 車企銷售部員工:快速洞察數據,發掘背後真相
@sherrydou 產品經理:通過數據分析,認識和了解事物運作的規律
@HuiyuJ 數據運營 :希望通過數據分析發現商業規律
@陳展宏 運營分析:通過數據尋找理性和智慧
@梅傳勇 數創中心:公司是tableau的代理商 需要我拿下銀牌資質
@空不空 信貸經理 :學習技能,轉投互聯網
@吳邪 財務分析師 :新的風口,時代的召喚
@劉超英 中醫藥行業從業人員(離職中):想做到自己負責的事物任何時候都心中有數,並且能一目了然的對別人進行輸出
@周圓方 數據分析師:從繁雜的數據中提煉出價值,需要的是超越平凡的洞察力。這是很酷的能力
@赤啊兔 數據支持:學習數據分析,是想創造價值。做一個燃燒的小太陽
@王王月 節目測試和受眾調研:對於人們想聽什麼想看什麼感到好奇,內容創造過程看似主觀,但我相信其中有規律可循,而數據分析是讓我抵達這些洞察的武器
@鮮衣怒馬 數據分析:對未知的好奇,由淺入深,更系統更專業
@Epsilon 運維工程師:起因是數據分析是現在十分熱門的一個方向,幾乎什麼東西都會或多或少與之有所聯繫,當然希望自己也能對此稍有了解。後來看到大神們通過數據分析可以解釋結果背後的一些真實原因,希望自己通過學習也可以具有部分這樣的能力
@劍小月 BI Reporter:跳出本行業,接觸其他行業是怎麼處理分析數據的。希望學到知識再運用本職工作中。簡單說來,為了動手實踐,真真實實開眼界
@於經文 大數據工程師:手裡有點兒數據,卻只會count,是一個很尷尬的事情
@萬成祥 學生:數據分析無處不在,不完全是工具,更像是一種思維,能讓自己更加全面的看待問題、了解世界!
@楊公子 外貿:主動擁抱改變,實現數據夢想
@楊Ruby 全職媽媽:學習是為了做一個不被時代淘汰不斷進步的媽媽
@上官塵 開發:數據展現和解讀是以後的必備技能、這是趨勢我們應該迎上去
@涼度 產品經理: 君子之言信有徵,心中有數行無疆
@姚姚 財務:會計數據分析很酷,想酷
更新與2015年11月30號! 篇幅原因,刪除以前的文章
最近剛好工作一周年,特別想寫點東西總結一下。借著自己之前寫過的文章,索性就打算寫個續集,主要記錄點自己工作這一年來深入學習數據分析的經歷。一方面是總結自己學到的知識,查漏補缺,另一方面也是想和大家交流,希望自己的經歷對大家有所幫助。
在之前的兩篇文章中,我主要講述自己是如何從一個文科生慢慢像數據分析方向轉變的過程。描述的是自己在學校中的學習經歷,因此有些地方會與實際工作脫節。這篇文章將會主要從工業應用的角度去講述我這一年來的學習歷程,多會集中在一些學習心得上面。
踏入社會
我在14年接近年底的時候才開始正式工作,時至今日換了三份工作。換工作的原因很簡單:乾的不爽,錢給的不夠!
在擁有第一份工作的時候,頭銜是「數據分析師」,薪資4500。當時很開心,第一次賺錢,而且還賺這麼多,於是乎我工作很賣力。在幹了半個月左右的時間時,我發現這個小組純屬是公司的附屬產品,沒有什麼核心價值。其實不怪公司不重視,組裡的數據分析師連概率論都沒搞清楚,更別說數據挖掘和編程了。每天那就是折騰折騰EXCEL,寫寫報告,十足的一個「表哥」。對於我這樣的技術控,一個會編程的數據分析師,這是完全不能忍受的。而且當時自己開始搜索職位的時候,發現我掌握的技能遠遠不止4500塊這麼便宜!於是乎想著離職,目標鎖定在上海的互聯網公司。
在這期間,我研讀的是《Data Mining:concepts and techniques》 裡面的關於assocation analysis 的章節。還有第一次學習了一點關於Python的語法。那個時候我還沉迷在SAS的世界裡不能自拔,總覺得除了SAS,萬般皆下品!!
接下來就是順利跳槽上海,這半年也是我進步最快,學的最多的半年
我的學習得益於三大利器:google,MOOC,知乎
先簡單說說入職後的事情。我剛加入部門的時候,小組只有四個人(算上我),我驚訝的發現大家還在用excel進行分析。
我在做第一個項目的時候,使用了我最擅長的SAS配上logistic regression,並且在會議室里展示了我使用SAS的效果。那是第一次我在真實的項目中使用一個機器學習模型去解決問題,雖然解決的很爛。 大家對於我當時演示的「黑魔法」表示很好奇(很牛逼),我足足解釋了一個多小時~~
在那以後組裡的同事開始接觸R和PYTHON,我也是在那個時候第一次學習PYTHON,然後便是一發不可收拾。。
SAS這樣的軟體太過於昂貴,而且體積大,動輒10個G的空間,其語法格式也較為奇怪。如果整個模型脫離SAS環境,那麼將會毫無意義。 我仔細搜查了國內各大公司的工具使用情況(主要是招聘網站o(╯□╰)o),結合自己以後會在互聯網發展的職業規劃,果斷拋棄SAS,投入到R和PYTHON的懷抱中!
得益於這兩門開源語言,我的工作進行的如魚得水,工作效率奇高! 我會儘力將自己的全部工作都寫成腳本,每天能夠自動運行,然後省出來的時間用來學習新知識。感謝我的老東家,給我提供了一個輕鬆而又自由的環境,沒有打壓我學習的動力,這一點是我最讚賞東家的!
後期就是開始配合同事進行一些自動化工作的開展,同時陸續的投入幾個機器學習模型。用我當時的領導話說:我們部門的數據分析工作已經在全公司領先(真不是我說的,是我領導說的)。
但是後期的工作越來越缺乏新意,每天都是重複的機械工作,加上領導不斷的強調:數據分析師就是為產品經理服務的! 這一點讓我非常的不爽,非常非常非常不爽!! 而且,我的工資竟然還沒有產品經理高!!最後終於忍不住辭職滾蛋了!!
這半年我桌上的書籍由我半個身子高!
《利用PYTHON進行數據分析》
《數據挖掘導論》
《機器學習實戰》
《多元統計學》
《R語言實戰》
《R數據分析》
《R語言數據挖掘》
《機器學習》
《人工智慧》
等等。。。。
雖然沒有全部看完,但至少都摸過封面((*^__^*) )
那麼再來說說前面提到的三大利器
我當時買了紅杏的VPN(王八蛋老婆帶著小姨子跑了),幾乎沒有上過baidu
Google的一系列服務像是給我打開了世界的另一扇大門。我幾乎每天都會從google 上面搜索文獻進行閱讀,會去搜索最新的電子書籍用作參考。YouTube上有著眾多的學習視頻,我當時學習scrapy(Python的爬蟲框架)就是在youtube上搞定的! 更為重要的是,每當我代碼或者模型遇到問題時,Google 總是能第一時間幫我找到解決方案,這會讓我更有耐心和時間去調試代碼和模型。如果你嘗試去百度進行搜索,你會發瘋的! 我不是美分,但是google真的是要比百度強N倍!
我不得不推薦兩個網站:quora和stackoverflow
MOOC
coursera和EDX是我最早接觸的兩個學習平台。 我聽的第一門課是MIT的python,第二門是NG的machine learning,第三門是約翰學校的R語言課程,然後就是越來越多!
我不敢想像如果沒有MOOC,我該如何去學習一門新知識。 MOOC給我這樣的普通人提供了接觸世界頂級課程的機會。 我的大部分機器學習技能全部來自於MOOC上的幾門著名課程。
我非常的喜歡上MOOC,雖然很多人說它只能幫你入門,不過這依舊不能減少我對它的熱情! 我最記憶猶新的是在學習伯克利大學的spark課程的時候,學習論壇裡面非常活躍。你提一個問題,基本上幾分鐘後就會有人過來解答,而且老師和助教參與度非常的高。這種交流式的學習真的很鍛煉人,也能深化你所學的知識。這導致有一陣子我沒事就去論壇上閑逛,看各種問題和解答,甚至還拿個本子摘抄!
目前國內的網易,學堂在線,慕課網等都是非常優秀的資源。我也不斷的在繼續學習各種各樣的課程。學的越多,你越會覺得自己無知,越會如饑似渴的追求知識!
知乎
嚴格意義上來說,知乎並沒有在學習上給與我直接的幫助。但是它卻從某個側面給我進行一種提醒:你離大神還很遠很遠很遠。。。。。。。。。。。。。。。。。。。。。。。。。。
知乎上聚集了很多機器學習的大牛,我會默默的關注他們,看他們分享的文章和書籍,看他們愉快的解答難題。我記憶猶新的是有一個叫「豆豆葉」的知乎er,他回答的核函數讓我感覺到了重生!!
知乎也讓我清醒的認識到什麼叫智商上的差距!我時常幻想自己能夠成為一名頂級的什麼什麼什麼。。。。 現在想想還是算了,有些東西你越努力,越爭取,你就會越清晰的發現:智商上的差距是無法彌補的!
既然做不到頂尖,那麼就踏踏實實的做好自己力所能及的事情,不要去YY,不要去幻想一些不切實際的東西。
當然,更為重要的是知乎告訴我怎麼去努力的生活和工作,怎麼去努力的不甘平庸!雖然很多心靈雞湯讓人覺得厭煩,都是偶爾看看覺得還是挺能調味的!
在這家公司,我基本上是早上6點起床(睡不著),七點到公司。開始聽MOOC到九點或者看書,然後花一個小時處理一下繁雜的業務,跑跑腳本。接下來就是看電子書或者逛論壇學習東西了。
晚上下班7點左右到家,基本上不會學習,我這人晚上沒有學習效率。但是會早早的睡覺,然後第二天才能早起啊!
總之,在這半年我從以下幾個方面武裝了自己:
機器學習演算法
PYTHON的深入
SPARK
資料庫知識
scikit-learn的實戰運用
互聯網常規數據挖掘流程
hadoop的相關知識
但是也還有很多東西缺乏,比如說計算機原理,JAVA,演算法的深層子的東西,分散式數據等等!! 這些會是我未來的學習計劃。
這些知識為我打開了通往機器學習的另一扇大門,也開闊我在學習上的視野。認識到自己是多麼的渺小,還有很多未知的領域等待著自己去發現和探索!
更為重要的是,憑著這半年的自學,我成功的跳槽到目前自己工作的公司。在新的公司里一切又是從頭開始,因為我之前學的那些東西只能是進入目前公司的一個小門檻,是屬於必備的基礎技能。
關於我在新公司如何學習,如何順利完成轉正,我會在下一篇文章張再次講述,我也會分享自己找工作和面試的心得,希望到時對大家有所幫助~~
歡迎添加我們的微信公眾號:soton2014sky
在線下數據分析分享會上,我聽到不少同學對數據分析師如何發展感到困惑。有對職場發展方向的疑問,比如數據分析師在企業中具體是做什麼樣的工作,大家都在談論的數據分析師到底該是什麼樣子,菜鳥如何從事數據分析工作,在大學的專業是非計算機和非數學系的能否從事數據分析工作等;也有對具體的數據分析師的技能要求未知的,例如,需要掌握哪些數據分析的應用工具,需不需要會寫Java、C++開發語言,PPT如何才能寫好等。
老實講,這些也是我曾經剛入行時遇到的問題,可當時也想得很簡單:我熱愛數學,邏輯分析能力還不錯。然後就一股腦地投入到數據分析的行業中,當時也沒有數據分析師,而是網站分析師,每天的工作就是分析網站的流量、運營整體的情況。主要的日常工作包括:1)常規的流量運營日報、周報和月報;2)專題活動分析報告;3)數據監控平台的運維工作;4)跨部門的數據挖掘項目。
常規的數據分析報告主要是為了彙報給公司的高管和領導決策層,方便監控平台的運營動態和異常情況。
專題的活動分析報告主要是和運營團隊一起來針對大的活動項目進行總結,對效果的好壞做一個分析。
數據監控平台的運維包括平台基礎數據的搜集、加工處理還有存儲這些,特別是伴隨著網站用戶量的爆炸式增長,網站的LOG日誌也突然增加了伺服器的存儲負荷和計算性能的要求。
跨部門的數據挖掘項目更多是結合技術手段來通過大數據的分析方式,挖掘一些潛在的商業機會。
後來工作的幾家公司工作內容都很類似,而伴隨公司業務量的迅速增長,對數據團隊的要求也越來越高。
數據分析這個行業在國外發達國家,不僅僅在企業有大量的從業人員,並且發展了很多專業的服務機構。其中美國有近萬家從事數據分析服務的公司,年營業額達到幾千億美元。而像英國、日本這樣國家也有幾千家這樣的數據分析服務公司。
像IBM、微軟、Oracle、亞馬遜這些為代表的互聯網巨頭公司,不斷收購大數據分析相關的公司。此外,許多投資機構也看好數據分析的市場發展前景,紛紛投資數據分析領域,這也推動了數據分析行業的快速發展。
開源分析機構wikibon預計,未來5年的全球大數據企業的市場複合年增長率將達到58%,到2017年營收將達到500億美元。另外IDC也是預測大數據技術和數據分析服務市場將有大幅的增長。這兩家機構對數據分析行業的發展是相當的有信心。而像splunk作為第一家專註大數據領域的上市公司,憑藉數據監測和數據分析服務業務,營業收入連續4年80%以上的高速增長,充分說明了數據分析市場的巨大空間。
在國外數據分析從業人數眾多,特別是在美國,幾乎所有大中型的企業都會有自己專業的數據分析人才,有數百萬之多。數據分析高端人才的需求這幾年仍在迅速擴張,數據分析人才的供給量遠遠趕不上需求量,缺口巨大。
麥肯錫公司曾經預測,美國到2018年深度數據分析人才缺口將達到14萬~19萬人,能夠分析數據幫助公司獲得經濟效益的技術和管理人才有150萬的缺口。
而在國內,擁有最多的人口數量,每天在互聯網上產生的數據量也是巨大的。身在大數據時代,中國正在布局大數據產業,各地政府、通信公司、科研院校、IT企業都在摩拳擦掌,希望能夠參與其中。像傳統電信運營商在各地開設大數據中心、呼叫中心和運營中心。而阿里巴巴也設置了「首席數據官」的職務,管理數據共享平台和數據資源。
數據分析這個行業在國外發達國家,不僅僅在企業有大量的從業人員,並且發展了很多專業的服務機構。其中美國有近萬家從事數據分析服務的公司,年營業額達到幾千億美元。而像英國、日本這樣國家也有幾千家這樣的數據分析服務公司。
像IBM、微軟、Oracle、亞馬遜這些為代表的互聯網巨頭公司,不斷收購大數據分析相關的公司。此外,許多投資機構也看好數據分析的市場發展前景,紛紛投資數據分析領域,這也推動了數據分析行業的快速發展。
開源分析機構wikibon預計,未來5年的全球大數據企業的市場複合年增長率將達到58%,到2017年營收將達到500億美元。另外IDC也是預測大數據技術和數據分析服務市場將有大幅的增長。這兩家機構對數據分析行業的發展是相當的有信心。而像splunk作為第一家專註大數據領域的上市公司,憑藉數據監測和數據分析服務業務,營業收入連續4年80%以上的高速增長,充分說明了數據分析市場的巨大空間。
在國外數據分析從業人數眾多,特別是在美國,幾乎所有大中型的企業都會有自己專業的數據分析人才,有數百萬之多。數據分析高端人才的需求這幾年仍在迅速擴張,數據分析人才的供給量遠遠趕不上需求量,缺口巨大。
麥肯錫公司曾經預測,美國到2018年深度數據分析人才缺口將達到14萬~19萬人,能夠分析數據幫助公司獲得經濟效益的技術和管理人才有150萬的缺口。
而在國內,擁有最多的人口數量,每天在互聯網上產生的數據量也是巨大的。身在大數據時代,中國正在布局大數據產業,各地政府、通信公司、科研院校、IT企業都在摩拳擦掌,希望能夠參與其中。像傳統電信運營商在各地開設大數據中心、呼叫中心和運營中心。而阿里巴巴也設置了「首席數據官」的職務,管理數據共享平台和數據資源。
另外新書出售中ing
具體購買鏈接:【任何問題諮詢 微信784414374】
數據分析俠 《人人都會數據分析》20萬字電子書-淘寶網
購買成功拉進數據分析聯盟微信群
手機用戶可複製鏈接手機淘寶:
【數據分析俠 《人人都會數據分析》20萬字書籍】http://m.tb.cn/h.AJEkoq 點擊鏈接,再選擇瀏覽器打開;或複製這條信息¥fSnh09F0Vpy¥後打開 手淘
回答了這個問題之後,有一些畢業生或者正在從事零售行業的知友們私信我詢問情況。首先,我不是大神,我主要是看知乎文章的,所以我只能盡量像朋友一樣給大家提供建議,希望大家不要認為我是大神哦;其次,我上知乎的頻率正常,但是登陸自己賬號上的次數很少很少,所以知友們的私信我可能都滯後回復了,希望大家不要介意,謝謝。------------------------------------------------------我是可愛的分割線------------------------------------------------------------本人211/985統計學專業本科出來。學校將統計學放在經濟管理學院下面,畢業的時候提供理學學士的證書。畢業工作三年。我感受到社會上數據分析這一類的工作,要麼就是偏IT的,會SQL Server/MySql等;要麼就是偏底層的,會會EXCEL,最多會會ACCESS就好了。本來在國內數據分析這種職位就是剛剛起步,各類企業開始慢慢重視分析的這塊,所以對於我這種統計學(算是專科出身)的人來說不好找工作。我的大學導師建議我們是,在國外讀master,最好能夠在國外找到工作,因為國外用到Statistic專業的人才會很多。除了傳統的銀行金融機構等,醫學藥物等大型公司或者研究機構都會招收統計學人才。所以我也建議各位在有家底的情況下,去國外好好讀一下書。出不了國門怎麼辦?我也像樓上一位知友一樣,一畢業去了快消行業做管培生。零售行業真的是傳說和實際中的大數據行業。系統非常全面,一些excel能做出來的表系統直接導出來。看似美好,但是深層次的統計思想在零售行業根本用不上,零售行業要的是全面的各項數據指標,但是這些指標都是粗淺的。我自己有下班後做過一些數據分析,希望能夠套用一些模型做出深層次的分析。最後發現真是自己想多了,因為零售行業的這些指標在統計學意義上不是很優良的指標,很容易受到外因的作用力而波動。再加上公司裡面也沒有和我一樣的人可以交流和學習,所以過了兩年就放棄了。後來轉互聯網,是個中型企業,但是公司不care這方面,就希望業務能夠上去,所以我總是不斷刷簡歷。通過很多招聘網站和招聘啟事,發現「數據分析師」這種職位,總是掛靠在IT部門下面,而且總是會要求了解各種IT知識,各種語言,所以自己目前正在自學各類資料庫系統知識。同時打算還是轉到金融領域裡面,鍛煉好自己的數據分析技巧。最後想說告誡各位統計學專業學生們,在學校裡面請學好excel/c++/SPSS/EVIEWS/SAS/R,然後多看看金融方面的書籍,多蹭蹭IT專業的課程。能夠出國的,請努力出國;能夠保研或者考研的,請努力往統計學、金融學或者金融工程方面靠;出來工作的,請多找找企業實習一下,多找找老師做做項目。無論以後工作能否用上專業的東西,如果自己還是致力於數據分析,請一定自己給自己開開小灶,多多積累。P.S.無論現在多難找工作,還是要說請盡量往大型金融和互聯網公司找,因為其他行業真的不會用到中層次的統計分析。
數據分析的範圍很大,可能需要統計,MIS,計算機等多個專業的知識。我有幾個專業的碩士學位,轉眼做數據分析已經五年,換了幾個工作,工作中時常接觸到不同領域的知識體系,覺得數據分析特別好玩。
具體的感覺:1. 普通的數據分析只要是理工背景的誰都可以做,難點和熱點是可以水平擴展的數據分析。換句話說,數據越來越多,越來越複雜,處理起來能不能通過加入更多的機器解決。Hadoop解決了數據存儲的問題,數據分析的問題如何解決。
2. 行業越來越需要computer science方向的技能。數據分析的兩個極端化的要求是 big data和real time,那麼代碼的時間複雜度和空間複雜度就不能太大,大家都不想把內存擠爆或者等幾天才能看到結果。另外,工作需要同事間的通力合作,誰都不想讀不懂其他人的代碼,所以大家都得寫乾淨的代碼。3. 需要選擇合適的全棧的語言或者工具。可以在簡歷上列很多工具,但最好對某個工具特別熟悉,因為我覺得寫代碼需要精神高度集中,在一堆工具中跳來跳去效率很低。4. 解釋結果很重要。需要結果的人往往不看代碼,不懂統計,解釋起來很難。我的辦法是把結果放到web上,讓他們自己看,自己做出結論。切記,做數據分析的人不要代替他人作決定。總之,數據分析是個發展很快的領域,工具和知識都在快速更新,需要強烈的熱情和持續不斷的學習。粗略掃了一眼這個問題下的答案,發現大部分朋友要麼是從工作中意識到數據分析的重要性,從而轉到數據分析上來的,要麼是統計學專業的學生,很自然的從小規模的統計過渡到大規模的分析上來的。作為一個基本靠自學拿到Data Mining PhD position的學生,我想從計算機專業的角度來和大家分享一下我的經歷,希望能給其他計算機專業想要從事Data Mining相關工作的朋友們一些參考。
- 怎麼決定學數據分析的?
編程語言就是工具。計算機從業者只不過是把這個工具用在不同的場景和業務下面,於是有了web開發、移動端開發等等各個分支的程序員。數據分析也沒有什麼特別的,對於計算機出身的朋友來說,就是用編程來解決數據帶來的問題。其實走上這條路是很理所應當的。如果還要多說兩句原因的話,大概是覺得數據分析能夠挖掘出新的信息和insight,是一件很有趣的事情。- 如何學習的?
我覺得說自己的經歷有點太具體了,就說說自己見到的和體會到的,計算機出身的同學應該如何來學習數據分析:1. 入門打基礎。
基礎就是編程。從計算機專業進入Data Mining這個領域和別的途徑有所不同,首先你的切入點很大程度上是工程向的。Data Mining這個領域,一小部分人在提供high level的idea,大部分人在實現和優化這些想法。作為一個fresh data miner,是很難給出high level intuition的,因此包括我個人在內,都是先從實現和優化開始做起的:針對一個具體問題,用已有的方法和手段,使其能夠發揮應有的作用,以及進一步地在工程上改進這些方法。這就需要你的編程功底非常好。很多人覺得Data Mining的理論知識非常重要,這是沒錯,但是也不要忽視良好的編程能力給你帶來的強大競爭力。有時候能夠乾淨整潔高效地實現一些現有的方法,就已經超過很多自稱是Data Scientist但是從來沒有真正在數據的泥潭裡掙扎過的紙老虎了。這個階段,多去打基礎,看別人的工作,實現別人的方法,優化別人的模型。強烈建議不要去拍腦袋想一些稀奇古怪的idea來實現,相信我,即使你覺得想到的idea很天才,多半也是不work或者早就有人想到了比你好得多的方法(我自己的臉都被打腫了)。對於不是計算機專業的朋友,我也向你們強烈建議,學好編程,學寫好看好用的code。知乎上很多人覺得自己會寫兩句python,會寫幾隻爬蟲就感覺良好的人不在少數,希望大家多多self-motivate一下。2. 進階提升。
進階就是Machine Learning。現在的數據越來越大越來越複雜,基本的統計分析已經不能滿足現在人民群眾日益增長的文化需求了。一個典型的例子就是personalization。隨便翻一翻一個Data Mining頂會的paper,基本上都是Machine Learning的模型。這個階段的要求就是,你要對所有常用的Machine Learning 模型熟到不能再熟了,隨便問你一個模型的推導都要能夠信手拈來,給你一個應用場景你要馬上反應到改用什麼模型什麼優化方法。很遺憾,我自己也做不到這個程度,不過和很多業界的大牛接觸過之後,我也深刻地體會到了這些人的功底之深厚。無他,唯手熟爾。能在Machine Learning方面做到非常熟練,你就已經是各大公司搶著要的人才了。而且大多數互聯網公司正經的數據崗位面試(某度用數據分析的title找一些做推廣的就不算了)都集中在這個層面。能做好這個方面,下半輩子財務自由還是很輕鬆的。3. 創新。
創新就是你的intuition和domain knowledge。到了這個層次,你的數據分析能力就不是可以量化的了,就不是你的precision做到多少,或者你的model運行效率有多高的問題了。而是數據到了你的手裡能有多少可能性。比如說我扔給你中國25個城市的微信數據,你能如何uncover一些深層次的規律,從而創造價值和利潤,而不是做做什麼年齡性別時間的統計而已。再比如,Facebook用戶的資料完整性和活躍度的正相關就是一個非常精彩的例子,一個簡潔高效的intuition價值連城,同時也是千金難求。擁有好的intuition是要經過非常深入的訓練和長時間的經驗積累才能達到的。要做到這一點必須持續接觸新的數據和問題,保持自己思維的敏捷性,跳出自己的comfort zone。同時也很重要的一點是,多跟同行交流來啟發自己。現在的互聯網公司在Data Mining和Machine Learning方面招了很多高校的老師和海外的PhD,很重要的一點就是,他們有這樣的intuition,能夠勝任high level的工作。最後多扯一點無關的,我自己從本科慢慢摸索到PhD階段,已經推翻了自己太多次。每次都覺得自己的能力已經足夠勝任Data Mining的工作,直到現在已經不再去想這個問題。不管你是轉行過來的還是科班出身的,要時刻告訴自己,還有更大的世界更厲害的人你沒有發現,不要為自己的一點成就而沾沾自喜。希望能夠永遠求知若渴、虛心若愚。基本線條是:
我前任職位的人是不是傻逼?Excel Template做完不是不用幹活了么?
→財務是不是傻逼?Excel表外引用你保證文件名不出錯嗎?你丫不會VBA嗎?
→財務你特么能不能不要橫著做表,你丫你的數據每次進資料庫我都得重新理一遍,能不能動點腦子啊?
→IT是不是傻逼?你開個資料庫許可權有那麼登天難么,整天讓我從UI跑數據,我跑個半天還分析個什麼鬼?
→銷售你丫傻逼嗎?你客戶產量那麼低你給個什麼鬼價錢?去年高?我拉給你,一分鐘打臉好嗎?什麼?你要快點,來來來,我們開發個BI平台,3秒打臉好不好?
→老闆,是,我不是運維啊,對我搞數據的,對。哎呀,你說的市場數據那是外部數據,你內部又沒有。什麼,你跟CEO吹牛拉?那得爬蟲啊,你給台伺服器,我給你24小時跑。
→啥?預測不準。你按去年的曲線去報導當然會有偏差啦。行行行,上貝葉斯,行,上隨機森林,行行行,k鄰近k臨近。
→所以老闆,為什麼我工資比我前任還低?他連excel公式都不會啊!
管培生身份進了某家獨角獸創業公司,平常一直有來往的數據部門據說需要一些懂業務的小夥伴。毛都不懂我就去了。。。。
發現數據分析需要的主要技能就是:SQL+Excel+shell
純技術來講,學兩個月就夠了吧。
對數據感興趣的小夥伴,歡迎交流,微信公共號:一白侃數
走上數據之路,有點上錯花轎的感覺。
美麗說校招,作為非計算出生的計算機學習者,我打著前端好學,面試簡單的旗號,走到了美麗說校招,一面的數據結構面試試題讓我懵逼了,我是圖情專業,搞不懂。只能秀秀自己的學習能力,必盡自己還是一匹千里馬,萬萬沒想到,通過一面,到了二面,聊聊資料庫方面知識,其餘都是人生理想,談完我覺得有戲。
順利進入美麗說,可以萬萬沒想到,我的工作不是前端工程師,可以寫SQL,命運如此悲慘,我也不想折騰,還是安身立命吧,寫SQL,寫呀,寫呀,從1行到上千行的!
第一次聽說自己的職位叫 BI
BI ??什麼鬼,我完全不知道是啥意思,好羞愧,幹了大半年不知道自己的職位。商業智能 英文縮寫 BI ,霸氣的名稱,簡單的SQL ,做一些運營需要的各種千奇百怪的數據報表。
慢慢接觸的數據量越來越多,理解了hadoop 的價值,也學著寫python 用來清洗數據,同時也理解互聯網相關的各種數據指標,數據維度,比如 日活,留存,轉化,GMV 。累積做過的數據報表都有幾百個了,一入數據深似海,從此都是數據和報表。
數據被譽為21世紀的石油,這是對數據價值的肯定,也是我們努力做好數據的一種自我激勵。讓數據提高工作效率,減少工作成本,促進經濟發展。
社會總會讓合適的人,在合適的時間段,做合適的事。就像自己走上數據之路。簡單言之,社會選擇了我,我上錯花轎,嫁對郎吧統計一定要做好兩點:可靠的專業流程邏輯;可靠的數據來源。做到這兩點能保你找出未來的方向。至於各種軟體SAS、R、SPSS、Matlab、Excel、AMOS、LISREL、MLwin...,只是工具,基本原理都一樣,只是各有側重而已。遇到問題的時候,先靜下心,列出工作流程,明確問題,再動手選擇適合自己的工具--明白清晰的教程、容易上手的工具,清楚明白的解釋結果。
我也來說一下吧!大概13年我接觸到塗子沛先生的《大數據》,兩本都看過,當時對於大數據充滿了好奇和憧憬,本身從事養殖行業,也有個更多的想法,好像給我打開了一扇門,後來養肉雞天天給別人講大數據,幹了半年,各種原因離職,這個階段對數據分析還沒有太清晰的概念,反正就是想的非常大,又不知道該怎麼做。後來去養豬,踏踏實實認認真真的養豬,於是我才發現所謂的大數據只不過是個概念而已,真正要想落地生根還是得越好一線,然後根據生產來做數據分析,但是讓我感到無奈的是,公司過度信奉數據,我也同樣認為數據非常重要,但是重視又不得方法,生產上的問題還是解決不了,我們之所以要做數據就是要輔助決策,說白了就是工具,主題還是人。
我們公司也有自己的數據管理系統,非常強大,沒有之一,然並卵,依然養不好。而在我看來養殖上的問題我就用眼看就能解決50%的問題(我只是個飼養員),如果是經驗豐富又有管理才能,如果他以經驗為主,數據作為輔助分析相信會如虎添翼,沒有所謂的數據分析他依然可以根據自己經驗(自己經驗我覺得就是數據,只是形式不一樣,不是統計到你表格的才是數據)養好。所謂的數據收集系統只是輔助工具,沒有真正的行業基礎做鋪墊,數據分析就是個渣渣,而且數據在收集過程中錯誤和偏差太多了(錄取系統的人都是小組負責人,對於數據的認識完全外行,雖然他們很認真)。我們的目的就是要解決問題,既然能看到問題,何必要繞一大圈搞什麼數據分析,數據分析只是工具,完全依賴這個做決策,在養殖行業簡直是毀滅性的。目前在美國讀數據分析碩士。之前一個碩士也是在美國,讀的公共關係,每天各種寫paper和學理論,很煩躁... 在學習的過程中,也總是接觸到「大數據」這個概念,畢竟沒有數據,怎麼深入分析消費者行為... 學著學著覺得數據特別重要,感覺不趕快學,我的人生會有一個巨大的遺憾... 畢業以後就馬上申請了數據分析,專業名字叫Business Analytics,我的方向是市場。第一個學期剛結束,上了三門課,一門統計學基礎,一門Excel modeling,一門消費者行為。
統計學因為暑假在Coursera上自學了很長時間,所以這學期的課上得挺輕鬆的,覺得統計越來越有意思,反正後面就是各種hypothesis test,了解各種因素之間的關係,挺好玩的~ Excel modeling有一丟丟難度,學了project scheduling, optimization, linear programming, nonlinear等等,不過跟著課本一步步操作,多花點時間還是很容易學懂的~
自從轉了數據分析,就徹底跟文科paper和無窮無盡的reading拜拜了...期末的時候也挺輕鬆的,就考考試,美國文科的期末一般就是考試加巨長的paper,每個期末都要跪,特別痛苦...下個學期可以把主要的數據分析課都上完,Decision Analysis,Data Mining, Forecasting~ 目前也在自學R和SQL,只能算是一個數據分析小菜鳥吧~不過很Enjoy學習的過程~這個問題回答的人有點兒少,我就拋磚引玉吧。我本科學習的專業是信息工程,12年工作了以後剛開始是在一家服裝零售公司進行系統維護,有機會學習sql,ireport,excel等一些報表工具,後來有機會自己選擇方向了,根據興趣選擇了bi系統維護,兩年多累積了一些分析知識與業務知識,也逐漸找到自己今後要走的方向了。現在在一家小支付公司就職,想進一步提升自己的數據分析能力並逐步積累支付行業的經驗,爭取有一天去自己理想的支付公司,目前正在努力奮鬥中……總結一句話呢,我選擇這條道路主要還是自己的興趣自己性格使然,並且十分熱愛這個方向
本科電子信息工程,畢業後進入一家叫做帆軟軟體的公司。公司就是專門從事報表(finereport)和商業智能(finebi)產品開發的。相比於樓上各位學習的spss,數學概率,回歸方程之類,我所學到的更多是如何使用這些工具去利用我的數據創建各種各樣的主題分析,比如財務分析,物流分析,銷售分析,績效分析等等等等。工具通過拖拽數據,即時用圖表展示出結果,還可以進行聯動和鑽取等更高級的操作,很多東西可以一目了然。我不敢稱自己是數據分析師,但我依舊可以以我的方式去和數據打交道,報表和商業智能工具,讓數據分析變得更加平等
唉 統計學專業的不知道還能幹嗎 畢業就稀里糊塗的去做數據分析了
通過校招進入某金融集團IT公司,該公司是將應屆畢業生隨機分配到各個部門,我當時就被分配到數據挖掘組,從此走上了數據分析之路,現在想想真是幸運,哈哈。
大二的時候開始接觸數學建模,學的matlab、spss,excel一直在用,數學建模國賽省級一等獎、美賽打個醬油獎。專業動物科學,二學位會計,非計算機專業。起初是覺得將生活中的問題用模型來進行分析這個很棒,沒想到這一入江湖就掉進去了。現在用的spss 做基本數據分析,spss modeler做挖掘。自我檢討覺得還是學習不能停。目前正在學sas、sql和R,感覺這些軟體都是有共通之處的,慢慢學唄!感覺做個因子分析把matlab、spss 、sas都用一遍的人葯不能停的啊
目前數據分析運用比較廣,比如在運營方面也有運用,成為數據運營,我們公司最近在招聘此類職位,不過比較優秀的人不多,這算是一個比較好的方向。
我的經歷比較坎坷。
最早是做一名物流管理員。其實就是統計每天的貨物。
保證不出錯。
後來公司上了個ERP系統,我就慢慢的玩起來了。
這裡給出個人成長經歷:記錄我從一個門外漢,一點點經歷酸甜苦辣的過程。
一個本科生的救贖(一)中南民族大學-無法入睡的夜晚
Live地址: 非計算機專業,如何進入IT行業。
推薦閱讀:
※為什麼Modem沒有像路由器那樣火起來?也沒有互聯網公司進入?
※定製類服裝、鞋品怎麼樣更好的走線上渠道銷售?
※知乎上不乏優秀的程序員,卻鮮見卓越的電子(硬體)工程師,為何?
※如何看待劉強東在 2017 世界互聯網大會上調侃王健林馬雲的言論?
※如何看待人工智慧未來十年的發展空間?