數據分析/挖掘工作的疑惑?
您的問題提到三個概念,數據分析、數據挖掘還有目前炒的火熱的大數據,談這些概念的區別和聯繫,以及未來的就業前景,就不得不從這些職業細分的來源以及公司的業務需求談起,通過公司的業務流程把他們串起來,自然能豁然開朗。
------------------------------------------A公司是一家音樂軟體公司,一開始只是一個簡單的音樂網站,提供其他網站的mp3下載鏈接和搜索服務,因為訪問量小而且沒有自己的曲庫,所以基本不涉及數據分析,團隊構成就是網站前端開發為主。慢慢地,隨著音樂行業競爭加劇以及對版權的重視,A公司開始通過購買版權建立自己的曲庫,慢慢地曲庫開始有幾十萬首歌,同時為了現金流開始推廣付費會員服務,搭建了一套賬號體系,這時因為有了很多自己的數據(歌曲信息數據,會員數據),購買了很多伺服器同時團隊引進了DBA(Database Administrator),這是技術端最初的數據相關崗位,同時因為數據量小,公司用的是MySQL資料庫,因為免費且開源。此時業務端因為每個月都有會員付費情況,而會員的轉化率跟付費率是很重要的指標,需要專門的人去跟進並寫Excel進行分析,一開始是由產品部的同事在做,慢慢地開始招聘一些專門做報表的人,這是最初的數據分析師,或稱數據運營,工作就是簡單地處理一下Excel函數,做一下PPT。
後來A公司拿到了風險投資,開始發展多元化產品戰略,不僅做音樂軟體,還做MTV視頻軟體,產品線慢慢從1變成2,3,數據源本來只存在於一個產品,現在分散到多個產品,各個產品團隊由於數據上報格式不一,口徑不一,導致數據無法規整統一地進行分析,於是公司決定成立一個數據中心,統一地從各個產品部門的資料庫、網路日誌里拉取數據,用統一的格式處理並存儲,此時光有DBA就不夠了,於是公司決定招聘幾個ETL工程師或稱數據倉庫工程師,負責從各個部門的伺服器進行數據的抽取(Extract)、轉換(Transform)、載入(Load),形成統一的數據倉庫,或稱數據集市,這時業務端也不甘寂寞了,你們招工程師,那我們也招分析師,而這時招聘要求也提高了,除了Excel,多了對SPSS及統計背景的要求。 來到了2012年,由於Google的Mapreduce框架大大提高了數據處理的速度,誕生了Hadoop,也就是大數據的技術代名詞,大數據的概念吹遍大江南北,很多國內公司都不甘寂寞地整起Hadoop,這時A公司也挖了BAT的工程師過來擔任數據架構師,搭建了整套Hadoop系統,雖然是跟風,其實也是因為數據量越來越大,傳統的關係型資料庫已經不能滿足大數據量的存儲以及因為快速迭代的互聯網開發模式所帶來的數據及時性的需求,而隨著數據量的增多,數據的價值越來越顯重要,這時一種職業開始嶄露頭角,他們是數據挖掘工程師,挖掘機可不是普通的精通Excel就能幹的數據分析師能開的,數據分析師說白了是馬後炮,為管理層寫寫報表,展現一下數據,讓管理層知道一下過去一年公司有哪些成長,並不直接產生業務價值,而數據挖掘工程師乾的活是預測,是分類,是依託數據為公司開拓更多的產品線,帶來更多的用戶,他們不僅需要有紮實的統計學背景,還要會編程,會用代碼來實現演算法,並最好能將演算法在分散式平台上實現。A公司的死對頭B公司就是靠數據挖掘工程師做的歌曲推薦系統拉來了上千萬的日活。
慢慢地數據分析師發現完了,自己做的事情越來越低價值了,工資死活漲不上去,於是轉型,變成了數據產品經理,負責分析業務部門的各種業務需求,並負責協調數據倉庫團隊或數據挖掘工程師,將需求變成數據後台或者如推薦系統、用戶畫像這樣的挖掘類產品。關於數據產品經理,在我另一個問題的答案下有詳細的描述,請參考:
為何很多公司要將數據產品經理獨立出來? - 挖數的回答
數據分析師跟數據挖掘工程師只有在大的互聯網公司才有細分,兩者還是有比較明顯的區別的,前者在很多公司只需掌握Excel外加一種數據分析軟體如SPSS就可以做,而後者一般門檻是碩士以上,因為公司覺得本科的數學和統計學學的不夠深入,不能對演算法有很好的理解更不用說應用在業務上,一般要求熟悉Linux系統,至少會一種編程語言,如JAVA、Python、Scala,有數據挖掘的項目經驗或者拿過數學建模的獎項等。從薪資的角度講,數據分析師一般薪資幅度波動比較大,月薪從4K到15K都有,15K以上一般就是帶團隊的了,而數據挖掘工程師一般都是20K以上,甚至一些拿到35K都不稀奇。
關於大數據的起源和發展,可以參考這篇文章
[職業]現在學習大數據晚嗎?最後,請關注我,我會好好維護你的時間線的 *( ^ v ^ )/*首先來看看你的問題,你首先提出了實際工作中數據分析與數據挖掘的分工問題,然後是兩個工種使用的工具、技術、職責等,再談公司在對待數據分析、挖掘的態度,最後是求問該方向今後發展前景。
一口氣提出這麼多每個回答都可以講半個小時的問題,足見你是有有了足夠了解,並且進行了深入思考的。我認為你的真正需求不是在於是否有人能把上面四個問題講明白,而是在於如何領你入門,帶你做你想做的事情。
我猜你一開始是被各種分析結果吸引,進而逐步深入了解,產生濃厚的興趣,開始學習,並開始著手規劃畢業後的工作方向。在這時你發現很多公司招的數據分析和數據挖掘的人工作大多數重疊了,含義混淆,職責混亂,讓你迷茫,於是開始產生行業前景的懷疑。
同學,你現在需要的不是答案,而是雞湯。去學習吧,勇敢的踏出這一步。你不必在學習的時候就選擇小方向。
分析與挖掘是相輔相成的,比如你要做男女購買的分析,可是你的網站不記錄購買商品會員的性別,那咋辦?你通過數據挖掘的方法,給所有用戶打了性別的標籤,之後,你就可以做數據分析了~在數據分析這塊,有兩種工種,一個是工程師,一個是分析師,分析師用來做離線的模型,工程師用來把模型上線,很多要求C++或者JAVA的,當然很多公司,工程師可能既充當分析師的角色,也充當分析師的角色。還有一批分析師是做報告的,類似諮詢公司里的那種。
R和SAS/SPSS都一樣,都是用來做離線的模型的,或者分析的。R貌似也可以用到生產系統里,這塊我水平不夠,不清楚。SAS和Clementine可以用到生產系統的,比如你購買了版權,在伺服器里裝了Clementine,你可以根據其生成的PMML語言嵌入到自己的系統里。SAS這些都挺貴的,銀行或者大企業才買的起,很多互聯網公司都不願意買,所以很多人轉到了R/Python,開源的東東,當然大家也可以用SAS了,我猜基本都是單機的,做離線的分析或者模型用。你要看哪個部門招聘數據分析的了,如果是銷售部門,運營部門,研發部門,都會招聘數據分析的,你可以根據招聘的部門來估計這個數據分析的職位的作用是啥。說實話,做業務分析的,會比做數據挖掘工程師的起薪少,畢竟工程師要求都蠻高的,要求演算法,要求代碼啥的,當然也不是絕對的。如果是做業務這塊的數據分析,建議先去大的諮詢公司(比如德勤,埃森哲,FICO,SAS等等),或者大的企業去,畢竟分析的方法論還是蠻重要的,小公司可能做事沒章法,雖然大家可能做出了的東西差不多,都是用決策樹或者kmeans之類的模型,但細細扣起來,還是很有區別的,數據的清洗,特徵的選取,參數的選擇等都會影響最終的結果。還有一種在公司銷售部門裡做業務分析的,主要是出報表,出分析報告,每周每月每季度每年,各種各樣的Excel報表,需要你對Excel精通,最好對VBA也精通,可以做一些自動化處理,當然也有人用R做自動化,看你的專長和意願啦。互聯網公司,數據量很大,所以很多都在hadoop上建的數據倉庫,然後寫sql去把數據提出來,所以有些地方要求你懂hadoop啥的。大數據,我個人感覺是炒作,現在大部分企業還停留在看報表階段,數據驅動的時代還沒到來,畢竟數據驅動的話,那得要求數據質量相當高才行呀。上面說的有點亂,也算作為一個工作1年多的loser的感想吧,可能有很多都說的不對,希望你能去其糟粕,取其精華吧。數據 (Data) 是 DIKW Pyramid (Data, Information, Knowledge, Wisdom) 中最低級的材料。而數據工程是一整套對數據進行採集, 處理, 提取價值(變為 I 或 K)的過程。首先介紹一下相關的幾種角色: Data Engineer, Data Scientist Data Analyst。 這三個角色任務重疊性高, 要求合作密切, 但各負責的領域稍有不同。大部分公司里的這些角色都會根據每個人本身的技能長短而身兼數職, 所以有時候比較難以區分。
Data Engineer 數據工程師: 分析數據少不了需要運用計算機和各種工具 automate 數據處理的過程, 包括數據格式轉換, 儲存, 更新, 查詢。 數據工程師的工作就是開發工具完成 automate 的過程, 屬於 Infrastructure/Tools 層。
這個角色出現的頻率不多。因為有現成的MySQL, Oracle等資料庫技術, 很多大公司只需要DBA就足夠了。而 Hadoop, MongoDB 等 NoSQL 技術的開源, 更是使在大數據的場景下都沒有太多 engineer 的事兒,一般都是交給 scientist 。據我所知 Facebook 有專門的 database team,因為數據量太超常了而且業務特殊; Square 有 Data Engineering team,因為對數據穩定性上要求苛刻;Google 就不用說了, 膜拜一下 GFS, BigTable, MapReduce 這些名字就可以了。
Data Scientist 數據科學家: 數據科學家是與數學相結合的中間角色, 需要用數學方法處理原始數據找出肉眼看不到的更高層數據, 一般是運用 Statistical Machine Learning 的方法, 最近也有流行玩 Deep Learning的。 有人稱 Data Scientist 為 Programming Statistician,他們需要有很好的統計學基礎, 但也需要參與很多 learning 程序的開發(基於 Infrastructure 之上), 而現在很多很多的 Data Scientist 職位都要求身兼 Data Engineer。 Data Scientist 是把 D 轉為 I 或 K 的主力軍。
Data Analyst 數據分析師: 工程師和科學家做了大量的工作用計算機程序儘可能多地提取了價值(I/K),然而真正要從數據中洞察出更高的價值, 則需要依靠豐富的行業經驗和洞察力, 這些都需要人力的干預。 Data Analyst 需要的是對所在業務有深刻了解, 能熟練運用手上的工具(無論是 Excel, SPSS也好, Python/R也好,工程師給你開發的工具也好,必要時還要能自己充當工程師和科學家,力盡所能得到自己需要的工具)有針對性地對數據作分析,並且需要把發現言之有物地向其他職能部門呈現出來,最終變為行動。這就是把數據最終得出 Wisdom。
這個職位出現也不是很多, 在很多公司里沒有這樣的職位, 因為都是 C-level 的人或產品經理在做著數據分析的事情。 這樣的職位大量出現的地方我只知道 Wall Street 和 NSA,因為有大量的 case 需要處理, 而每個 case 都需要有人分析。值得一提的是 PayPal 當年內部處理 fraud 的問題, 積累了大量欺詐分析的經驗, 後來 PayPal 創始人 Peter Thiel 又創立了 Palantir, 專門做數據分析工具平台, 在美國成功幫很多機構解決著反恐, 人口販賣等很多需要專家參與的問題。 Palantir 有一句口號是 Surface data, not mining it(呈現數據,而非挖掘)。是一個比較有意思的觀點 :)首次回答於 如何成為一個數據分析師?需要具備哪些技能?1 數據挖掘與數據分析在 !實際工作中! 真的有很大區別甚至是區別嗎?我知道一些定義,比如數據分析偏重於統計,而數據挖掘的工作是分類,聚類,是信息的提煉,但是實際工作中是不是往往兩方面都在做?分不清,分不開。
答:第一個問號你指哪方面有區別?第二個問號,實際工作中是「誰」兩方面都在做?
給些提示:實際工作中,數據挖掘通常後面跟的是工程師(engineer),而數據分析,英文是analyst。通常,一個人或者是分析師,或者是挖掘工程師,不會同時是兩個角色,至少會有所側重。2 有些單位(互聯網、軟體)找數據方面的人會要求編程比如python,r,hadoop等。有些則似乎要求的是應用,比如spss,sas,modeler(過去叫clementine)等。是不是編程的那部分人使網站能動態的響應,而應用的那部分人的工作是通過了解分析改善運營跟業務狀況?是不是有些公司把這部分人叫做需求分析師,業務分析師等?
答:數據方面的人,這個用詞反映出你對實際工作確實了解不多。什麼叫「數據方面的人」?數據有很多方面,因而也會有很多方面的人。我的理解是,你說到的編程,更偏基礎層建設,而你提到的應用,是基於基礎層進行的應用,屬於analyst範疇。
3 針對與2所提問及的搞應用的人,現在的公司真的有對他們的分析結構給予足夠重視嗎?這部分人一般在什麼部門?崗位多嗎?
答:分析結果公司是否給予足夠重視,這個問題還是太大,因而很那回答。我來解構一下:誰代表公司?業務方嗎?業務方的什麼級別的人呢?進而,假設你的分析結果是給業務部門的總經理做彙報,那麼你的分析結論真的對總經理的工作有助益嗎?如果回答為是,我想總經理會重視的。而如果你的分析結果沒到總經理關注的層面,一來你可能沒有機會把結論曬給總經理,二來即使曬了,總經理也不會buying,你是否會得出結論這家公司不重視你的分析?
這部分人的分布通常可能是這樣:大型公司會有獨立的BI部門(商業智能部),這部分人集中於此;某些小公司,這部分人直接歸屬在業務部門,比如運營部、銷售部,甚至財務部等。崗位多嗎?這個問題大致可以這樣算,分析師與服務的業務部門的人數比例在1:50.假如一家公司人數是200人,分析師團隊就是4人左右。4 對於整個數據分析/挖掘,你們覺得是一次概念炒作,又或是我們遇到了大數據/雲時代,所以有比很大的應用前景?
答:又是個很大的問題,前景二字,不用管概念如何炒作,你總能判斷出來人類未來的決策會越來越依賴信息,即越來越依賴數據的產出(數據是信息的重要來源嘛)。那麼前景很大,這個結論肯定不會太離譜。問題是,前景很大,跟你有啥關係?
我按照QA的方式,逐一儘力回答你的問題。但其實從你的發問中,我能感覺出,你所謂的興趣其實是相當模糊的。你原話是「對這個方向特別感興趣」,那我說我對心理學這個方向特別感興趣,你嚼著我到底是對啥感興趣呢?隨便買本心理諮詢師的書來,翻翻目錄,就知道這個名詞下面細分的結構,進而進行的深入和展開,都有很大的差異。你看了書,也充滿疑惑,然後你還有興趣嗎?到底對什麼有興趣?我建議你認真地考慮下這個問題。
這樣說,也許你還是一頭霧水,那麼看些該方面牛人的博客吧,知乎上也有人提問,你先從真人身上體會,疑惑可能就慢慢揭開了。希望能幫到你。
分析的目標是找出問題挖掘的目的是找到模式一個傾向於數據的業務應用一個傾向於單純數據之間的數學統計性規律本人供職於一家大型國企,正好工作內容也是整天跟數據打交道,就來隨便扯扯.
以下回答只針對本人所從事工作中遇到的情況做分析,未必有很大通用性1 數據挖掘與數據分析在 !實際工作中! 真的有很大區別甚至是區別嗎?我知道一些定義,比如數據分析偏重於統計,而數據挖掘的工作是分類,聚類,是信息的提煉,但是實際工作中是不是往往兩方面都在做?分不清,分不開。
在我供職的企業中,數據倉庫的建立以及數據挖掘主要是省一級的技術部門(信息化中心)在做.生產系統中產生了數據,經營分析(BI)廠家按技術部門的需求,清洗沉澱數據,然後在系統中製作成報表,專題,預警,分析等等. 這些個系統只是數據挖掘的成果,是根據業務部門(市場部,集團部等)的需求來製作的.這個過程可以稱作數據挖掘的過程.
但是自動化的數據挖掘不能解決所有問題(甚至是只能解決小部分問題),大部分問題有時候還需要手工挖掘,這時就需要技術部門來精鍊沉澱的數據.然後所有這個東西匯總了形成一套材料.這套材料的製作人想要從材料中討論出的結論的過程,我認為是所謂的"數據分析"的過程.
總結:
數據挖掘總體上是業務部門提需求建議,總體規劃實施還是技術部門主導.偏向於自動化,大方向上;數據分析則是業務部門主導,在數據挖掘結果及手工整理材料的基礎上,得出他們需要知道的事情.重心在於決策和結果.2 有些單位(互聯網、軟體)找數據方面的人會要求編程比如python,r,hadoop等。有些則似乎要求的是應用,比如spss,sas,modeler(過去叫clementine)等。是不是編程的那部分人使網站能動態的響應,而應用的那部分人的工作是通過了解分析改善運營跟業務狀況?是不是有些公司把這部分人叫做需求分析師,業務分析師等?
參照上一個問題的答案.
3 針對與2所提問及的搞應用的人,現在的公司真的有對他們的分析結構給予足夠重視嗎?這部分人一般在什麼部門?崗位多嗎?
以技術為核心的企業會更重視這方面,譬如互聯網企業,電商企業等.偏重銷售與市場的企業,如果規模很大,市場情況很複雜,則會重視.
如果分析對於決策的影響很小,則不會太重視.這個沒法一概而論,要看哪個行業,具體問題具體分析.4 對於整個數據分析/挖掘,你們覺得是一次概念炒作,又或是我們遇到了大數據/雲時代,所以有比很大的應用前景?
大數據時代沒有疑問,只不過推進的進程是快是慢,我們要把握好.因為一年兩年對於大數據時代沒什麼影響,對於我們自己的職業生涯的發展還是非常重要的.
數據挖掘也是數據分析的一種方式,一種不同的分析思路。
為什麼這幾年數據挖掘和大數據這麼火?從商業角度,來談談為什麼會有數據分析的不同思路,產生的邏輯是什麼?基本思路
經典思路:目前在做數據分析時,採用的是傳統的邏輯推理的分析的思路。先提出問題,再通過嚴謹的邏輯推理進行驗證,解釋商業問題。新思路:嘗試使用相關性進行數據挖掘分析;就是數據挖掘的一些技術,比如聚類、決策樹、隨機森林等高級統計模型。這種思路做出的東西,一般而言是技術門檻較高、解決經典思路無法解答的問題,也符合當前流行的大數據思維、人工智慧思維。新思路的處理問題邏輯,先有相關性分析,找出導致問題的相關性因素,然後再解釋背後的商業邏輯。
適用範圍
經典思路:符合人腦的思維模式,由A —&>B —&> C的邏輯順序。在解決小而美的獨立case時,效率高。當然,實際商業環境中,80%的問題都是小而美的問題,但是出風頭的往往是那20%。比如,「為什麼今天某個頁面的轉化率突然升高啦」這類的問題,通過邏輯推理,一步一步下鑽,可以很快定位原因。但是對於多因素的問題,交叉影響之下,各有權重,這種思路就有了瓶頸。新思路:這是AlphaGo下圍棋是採用的思路,決策next move是因為next move對最終贏得棋局概率最高。這是一種結果導向的思維,將智能問題變成了數據問題。AlphaGo不需要知道如何布局,只關注每一次的落子都在提高最終勝利的概率。這種思路可以解決目標明確且影響因素眾多的決策問題。這個思路現在越來越火主要由於計算力和數據量的提升和增多,機器有了足夠的樣本進行testing,如同中國式填鴨式教學,看多了,下意識里就知道如何處理了。
不請自來。建議先了解數據分析、數據挖掘、數據統計、OLAP 之間的差異是什麼?再做結論。搬運過來一部分。
簡單說:數據挖掘就是從海量數據中找到隱藏的規則,數據分析一般要分析的目標比較明確,數據統計則是單純的使用樣本來推斷總體。
主要區別:舉個簡單的例子:
- 「數據分析」的重點是觀察數據,「數據挖掘」的重點是從數據中發現「知識規則」KDD(Knowledge Discover in Database),數據統計的重點是參數估計和假設檢驗。
- 「數據分析、數據統計」得出的結論是人的智力活動結果,「數據挖掘」得出的結論是機器從學習集(或訓練集、樣本集)發現的知識規則。
- 「數據分析」需要人工建模,「數據挖掘」自動完成數學建模,「數據統計」則是把模糊估計變得準確而定量。可以通過機器學習自動建立輸入與輸出的函數關係,根據KDD得出的「規則」,給定一組輸入參數,就可以得出一組輸出量。
- 有一些人總是不及時向電信運營商繳費,如何發現它們?
數據分析:通過對附近人口的生活習慣、業餘愛好、教育背景、收入分布、家庭組成等進行全方面分析,發現很多人都習慣在收到欠費通知以後再繳費。結論就是提前發放簡訊提醒。
數據挖掘:通過編寫機器學習聚類演算法發現無法通過觀察圖表得出的深層次原因。發現家住在五環以外的人,由於居住環境偏遠沒有時間上營業廳繳費。結論就需要多設立一些營業廳或者自助繳費點。
數據統計:通過統計學推理方法組成樣本的試驗單元進行參數估計和假設檢驗,我們發現不及時繳錢人群里的貧困人口佔82%。所以結論是收入低的人往往會繳費不及時。結論就需要降低資費。
建議:單純的依靠技術很難混出名堂,還得依靠對業務深入骨髓的理解。兩者相結合方能成大事。以上。
你可以看看這個回答,不要脫離也實際業務純談技術,分析,那都意義不大啊。數據科學家 (Data Scientist) 的職業發展路徑是什麼? - Kevin Chen 的回答1 數據挖掘與數據分析在 !實際工作中! 真的有很大區別甚至是區別嗎?我知道一些定義,比如數據分析偏重於統計,而數據挖掘的工作是分類,聚類,是信息的提煉,但是實際工作中是不是往往兩方面都在做?分不清,分不開。
第一個問題其實不重要,因為用人單位往往分不清這兩個詞的區別,會把數據分析職位寫成數據挖掘,反之亦然。如果非要解釋,數據分析師一般指上個世紀的BI(商業智能)的工作,使用統計工具(一般是用軟體,而不是編程的方式),和Excel對小數據或者採樣數據(結構化的數據)進行數值上的分析,提供報表,幫助公司進行產品推廣或者重大決策等等。而數據挖掘是指在大數據背景下,使用編程的方式結合分散式計算框架,對全量的數據(非結構化的數據)進行知識抽取。簡單的如興趣劃分,通過已知的部分人口信息預測全量數據中確實的人口統計信息,人群中影響力中心的挖掘。常用的工具是回歸模型做預測,聚類/分類演算法做人群的劃分,分詞/LDA演算法對文本進行主題的劃分,反作弊/反垃圾用到的模式識別等都屬於數據挖掘的範疇(可以簡化成2個,預測,分類)。
2 有些單位(互聯網、軟體)找數據方面的人會要求編程比如python,r,hadoop等。有些則似乎要求的是應用,比如spss,sas,modeler(過去叫clementine)等。是不是編程的那部分人使網站能動態的響應,而應用的那部分人的工作是通過了解分析改善運營跟業務狀況?是不是有些公司把這部分人叫做需求分析師,業務分析師等?
第二個問題,我對第一個問題的回答第一句話就說明了這個問題——公司往往不知道什麼叫數據挖掘,什麼叫數據分析。有來我們公司面試的人說有Hadoop的經驗,我就問了一下:「您之前的公司每天有多少數據需要處理?」,對方答道:「10個G」。我差點沒把心聲說出來「你TMD在耍我么!!!」。總之各種公司管什麼不相干的職位的叫法都千奇百怪,不用糾結名字。
3 針對與2所提問及的搞應用的人,現在的公司真的有對他們的分析結構給予足夠重視嗎?這部分人一般在什麼部門?崗位多嗎?
第三個問題,哪個部門為公司整來了錢,哪個部門受重視,這是一個簡單的道理。如果公司是一個資訊網站,受重視的就是編輯、記者。如果公司是搞安利的,受重視的就是銷售部門。如果公司是靠數據收集和加工來掙錢(比如,RTB,DMP,電商)自然就會重視數據這一塊。
4 對於整個數據分析/挖掘,你們覺得是一次概念炒作,又或是我們遇到了大數據/雲時代,所以有比很大的應用前景?
99%的公司自己在炒作,也覺得別人也是在炒作,1%的認真在做的公司在悶聲發大財。
我也是這方面的愛好者,但是從從業的角度來看,只有較為大型的企業或競爭較為激勵的行業才會重視數據分析這塊,一般的小企業更多的注重的經驗,不太注重數據分析。我個人認為,如果想要做好數據分析這一塊,必須先了解數據分析的本質是什麼。一味的鑽進數據裡面,只會讓自己變成一個紙上談兵的秀才而已,好的數據是用來指導企業發展的。
1、實際工作中往往兩方面都做。分析偏向於短期、快速的問題解答;挖掘偏向於長期、未知的問題探索研究。工作中方法很多,但唯一沒有區別的是:解決需求、解決問題。2、面對的數據環境不同,所以使用的工具不同。互聯網數據格式變化快,非格式數據偏多,現有的spss工具等只能處理格式化數據。會編程才能應付變化的需求。3、不同的公司,制度、流程、文化不同,所以要看具體的公司。另外,數據不是萬能的,也不能解決所有問題。數據是輔助決策,輔助這兩個字決定了定位、崗位、部門4、靜下心來搞出實際的產品、服務,才是真正的應用。否則更多是概念炒作。不要動不動就喊大數據,很多時候,小數據包含更多信息。小數據都沒學好,喊大數據有啥用。先說下我自己的背景:
2014-03—2015-05,聯想項目管理一枚,造手機~1年研發拆了近500台手機做驗證,練就無上神功:看到手機不拆就知道啥問題
2015-05—2015-06,學習文案課+數據分析,順便創立onework遠程工作社區(www.apcow.com)
2015-07,到深圳3天,面試3家P2P,均得OFFER,最後入職前金所,先為公司數據及策劃工作
以上總結一句,一個拆了500台手機的小工科,腦袋一熱辭職,遇到踏浪100,學了20天課,順便做了個網站,混入互聯網金融公司,年薪不多10萬。
今天,看到很多人對數據分析仍然有些迷茫,決定分享自己的一次線下推廣的數據分析過程。
背景:
產品:10元起投,年化收益13%-15%的類銀行存款產品
推廣人群:某4萬級工廠普工
原因:經與工廠老總及人力部門充分溝通,該工廠員工年齡集中在兩個區域,20-30歲,40-48歲。工廠提供食宿,員工一周工作6天半,員工工資3500-4500元。
目標:對該工廠區4萬名員工進行線下推廣,完成10%的註冊轉化。
通過蹲點調查,其中有5000左右員工會在員工食堂進餐,15000人在公司外小吃一條街進餐。所以共設置3個地推點,食堂門口,公司與小吃一條街的必經之路上,第三個點設置在一個超市門口(前期觀察員工在吃完飯後該超市有700人次流量,且基層管理人員居多,佔比60%)
推廣方式:送小禮品,註冊,發傳單
準備工作完成,做等開工。
首日,註冊500人,發放1000張傳單,通常地推結束了,數據定格,500人註冊,1000次曝光,但這有毛用。
整個活動分解:以食堂為例
1.5000人流量湧來
2.小禮品吸引X人(以獲得獎品數量算)轉化率A
3.獲得獎品註冊數Y(後台統計)轉化率B
4.體驗金及真實標投資人數Z(後台統計)轉化率C
轉化率A通過首日不同獎品領取數量調整第二天獎品類別,增加A
由於必須註冊才能拿獎品,所以B受A直接影響
轉化率C要咋找問題呢?討論了半天,才找到關鍵點,直接影響C的是那張傳單,但傳單有多少人看我們不知道啊,突然想到翻垃圾桶不就知道了,員工吃過飯要繼續上工,沒用的東西肯定隨手扔掉,所以只要看所有垃圾桶被扔掉的張數,就知道傳單的內容他們感不感興趣。所以我就把廠區的35個垃圾桶翻了個遍,35個我仍記憶猶新,兩小時,翻出954張,只有46張沒被扔掉。回去檢查了傳單,傳單的內容突出的賣點均針對白領設置,並且內容較多,回去後,用了一晚上,把三折頁精簡成了1張紙,列印,再開工,再掏垃圾桶,還是發1000張,879張被扔,回去再改,5天後降為456張,有544張沒被扔!打掃衛生的大媽問我:你是新來的?打掃衛生不能這麼干,孩子。掏了5天垃圾桶,傳單留存率有0.46%轉化為54.4%,掏垃圾桶功不可沒。轉化率C高出了線上3倍(數值不便透露)。
其實說這麼多我只想表達,數據分析不是高不可攀,也不是坐在電腦前面算算EXCEL,數據有的時候按照常規途徑不能得到,那就換個方式,比如掏垃圾桶。
同時,給大家分享一個自己的心得,一個公司其實有很多事情要做,而作為一個新人不要等著老闆給你分配任務,自己發現了哪裡有問題,就主動去做,解決,因為1個問題在那,很多人都會說啊,什麼什麼問題,但卻沒人去做,而這個時候都是你去解決了,那麼老闆不給你漲工資,還給誰呢?
如果哪條路走不通,就換條路,因為你的目標是到達終點,而不是走哪條路。
作者:老衲,踏浪100學習者,在踏浪100(專註學習互聯網營銷知識)你也可以學會數據分析。
好像沒多少人能看懂分析報表,就算看懂也做不出發展趨勢預測,沒有實際的應用價值和風險管控。數據分析目的是輔助營銷人員。參考報表並把數據迭代到未來的營銷方案中,就像醫生與醫療檢測設備的關係。無論是懂數據分析的營銷人員,還是懂數據技術的開發人員,都很有前景。
這就是計算機背景的幻想和實際揉合的分析吧,還是國內的實際。 我大學讀數學 順便修了統計 負責的告訴大家 不管數據挖掘還是分析,在理論數學面前都是1+1。 現在工作最大的感觸就是數學要再好一點就好啦。 如果想找工作 去投行 學好it就夠了 如果想成為專家 不可取代的人 數學才是根本。 如果你什麼都不懂 coding和stat是可以快學快用的,而math是很多年也不知道學了怎麼用的。 但是就像p value,hypotest等概念,不用什麼數學就能懂 就能用。 看但是簡單的neyman test 為什麼是最有power的分割方法?&
為什麼iid rv的 expectation可以相加?很明顯吧 但是證明起來很頭疼。&
&
這就是要耐心學的東西。然而在基本的分析時這理論根本沒什麼用。但是如果你要做開創性的 你要為你的inference負責的時候 你是說 「額 書上說的啊 而且邏輯是 balabala,」 還是拿出嚴謹math proof。 我相信很多人點進來 是剛讀大學的 所以碼了這些 數學是根 厚積薄發。 &
當然如果你是編程大牛 那世界都是你的 還說什麼呢數據分析的產出一般是一份報告,通過這份報告來影響產品的方向,間接的提升用戶體驗。數據挖掘的產出可能就是一個產品,能夠直接提升產品的用戶體驗。如果還想實習可以聯繫我,我們這邊需要這方面的人才。
我是個正在自學技術的渣渣業務分析,,,按照我現在的情況來看,能學技術就先學技術,以數據分析的一些技術作為基礎,再熟悉業務,做個業務向的數據分析崗要好,,,畢竟現在掛名業務分析的職位待遇不高,升職不快,事情還雜且累,最重要的是你學不到技術,所謂的分析方法只有細分抽樣和分類,什麼統計分析的方差分析假設檢驗以及大數據的一些模型如kmeans根本用不到,全靠自學!!!可能業務分析崗就這麼低等級?其實也不是這麼樣,因為工作性質不一樣,因為所謂的業務分析的重點工作,能增加你在領導心目中分量的工作,是項目管理,而不是數據分析。。。如果你想未來考pmp或者已經有pmp證書,你倒是可以嘗試下業務分析,,,本人正在學一些統計學,sql,r這種東西,希望未來可以轉到業務向的數據分析崗(手機碼字無排版見諒)數據分析入門與實戰 公眾號:weic2c
數據挖掘入門與實戰 公眾號:datadw
數據分析:一般要分析的目標比較明確,分析條件也比較清楚。
數據挖掘:目標不是很清晰,要依靠挖掘演算法來找出隱藏在大量數據中的規則、模式、規律等。實際上,數據挖掘,機器 學習,模式識別,BI,商務智能等學習是內容差不多,在工作中側重點不一樣,有的側重演算法開發,有點側重數據報表呈現等等。糾結在這些差別沒有意義的,建議去招聘網站查看相關崗位,比如數據分析師,數據挖掘工程師等這些崗位的崗位職責,崗位要求,對比下自己跟這些要求差哪,選擇性補補。
哈哈,@卜浪 同學回答了比較全面,其實我個人做挖掘,專門回答下第4個問題:4 對於整個數據分析/挖掘,你們覺得是一次概念炒作,又或是我們遇到了大數據/雲時代,所以有比很大的應用前景?個人認為不是炒概念,演算法雖然並沒有用多少,但是現在一個至關重要的因素是機器處理數據的能力得到空前增強。挖掘或者分析雖然不是發明或者發現數據規律,只是把數據中應有的模式發現而已,但這已經很了不起了。在大量數據前提下,肯定比拍磚強好多好多。
推薦看張文彤的spss統計分析基礎和高級教程,看完之後clementine,然後《數據挖掘概念與技術》,接著r語言實戰,接著python,同時掌握SQL,這些都掌握,你的疑惑應該能解開
本人大二,化工,也對這個問題感興趣
作為一隻公衛狗怒答一個,數據分析是我大公衛的基本工具,為此我們要學習統計學和流行病學,而這種方法已經使用了近200年了。200年來在基礎醫學無法向我們解釋某些疾病的發病原因時,公共衛生就利用數據分析來找到可能的病因,並提出可能的解決方法。所以大數據並不是概念的炒作。
推薦閱讀:
※互聯網數據分析的網站有哪些?
※根域名伺服器的作用是什麼?全球 13 組根域名伺服器中有 10 組在美國,意味著什麼?
※明年想在上海找到一份數據分析相關的工作,如何學習準備,避免少走彎路?