數據分析如何轉數據挖掘?
本科通信,畢業後一直從事與數據不太相關的工作。去年6月份轉到一家互聯網公司做數據分析師,半年來大部分工作是SQL提數,活動效果跟蹤,寫分析報告等工作,想轉數據挖掘,但發現挖掘崗位對專業要求高,一線公司基本需要科班出身。自學過統計學,數據挖掘相關只看過一本《數據挖掘導論》,都是野路子,不得其法。請教大牛們,分析崗位想轉挖掘,有無可行方法建議?
看到 @張大萬的回答深有感觸
跟題主一樣也是無統計/計算機背景,也大致了解過各種常用的數據挖掘方法,之前一心想著從數據分析轉數據挖掘(膩了單純統計、算值、分解升降、看KPI升降原因等,覺得能從細微度或者模型的角度去研究數據會更有意思,而且錢多也高大上一些)但是後來深入了解發現:
1)數據挖掘模型往往就那幾種,有些互聯網的大公司,實際用的模型也就那麼些,數據挖掘【設計層】,如真正高大上的演算法設計啊以及把模型自動化、工業化等,往往涉及大量對模型底層的應用,這些也是他們要高學歷高相關的人的原因,對我們半路出家的人而言門檻過大2)如果只是會用一些機器學習模型,了解彼此利弊(舉例:了解coursera相關課程,或者各種書,各種比賽),只是【套用模型】層的數據挖掘,它的工作一定程度與數據分析重疊,難點依然集中在清理數據、以及最終結果呈現等等,而模型的評估業界已有規範化的定論(誤差等),這個是日常分析工作中也可以用現有數據做練習的。而且日常應用其實也不容易3)大公司要的數據挖掘,往往偏第一種底層實現。而偏第二種套用模型的崗位,首先崗位比較少也亂,其實模型選擇與數據分析套路類似,往往孤軍奮戰,常常要跟非專業人士(很可能就是你的老闆)解釋選擇這套分析方法的道理,實際數據分析有的難點痛點這種都有……
按照題主背景,做第一類演算法設計難度太大,而且面臨學歷和基礎雙重歧視,做第二類套用模型的話,感覺數據挖掘和數據分析沒什麼兩差?但是一直往套用模型走的話,總有一天會走到演算法那類與人拼基礎,
反過來,從帶點套用數據挖掘的數據分析從業來看,題主可能可以繼續深造的方向有:
1)繼續鍛煉自己的表達能力與數據可視化能力,寫出各種合理合規好看又一針見血的報告,可適當嘗試多種方法輔助數據分析,可同時熟悉常用模型
2)繼續學一些編程語言如R/PYTHON,或熟悉資料庫如HADOOP等,學會更快更自動化做數據處理和生成自動化圖表,提高自己工作效率,杠杠的,把處理數據時間省下來了才有餘力想想怎麼套用各種模型,再往挖掘機這裡靠一靠不過容我吐槽一句,感覺往可視化或者數據處理方向走多了,慢慢的你可能會不滿足於現有工具,覺得別人的包不好用,覺得不夠滿足業務,覺得用EXCEL作圖表好傻想要自己建個智能化dashboard想自己建個站,覺得溝通好累想自己獨立做事情,代碼寫太多嫌棄麻煩,
然後你會發現往第一種崗位靠吧,你要補演算法,把不滿足的東西弄懂吧,建站基礎知識,程序測試啊,演算法啊,軟體工程啊,你似乎都缺,對,就是考研考計算機的大綱的那些,突然這些基礎都要補,補科班的漏
所以與其到最後慢慢補基礎,題主你要不要考慮在穩住自己數據分析能力(處理數據+評估模型+展示)基礎上,業餘提前補補計算機基礎,向科班學習,說不定還能跨界轉行做一個懂數據分析的程序員or數據產品經理之類的,至少路子比數據挖掘更廣一些??而且很多數據挖掘的工作其實是碼農兼任的?
共勉,同在轉型思考期之前的各答主說的都很好,我給題主另外一個思路:對現有的工作有什麼不滿之處?是否真的需要轉數據挖掘才能達到目的?
直接引用題主的工作描述:半年來大部分工作是SQL提數,活動效果跟蹤,寫分析報告等工作
第一項屬於數據分析師的必備技能,但並非獨有技能;第二、三項表明題主目前做的是運營數據分析,且需要將結果輸出成報告。那麼,題主你產生職業倦怠的問題,有可能是你認為這些工作沒有技術含量,不如數據挖掘看上去那麼高深。而我想說,題主你看到的,只是數據分析的冰山一角。
引用我另一篇專欄文章中的內容(建模那點事兒(上) - 一個數據分析師的自我修養 - 知乎專欄):數據分析是一個包含數據檢驗、數據清洗、數據重構,以及數據建模的過程,目的在於發現有用的信息,有建設性的結論,輔助決策的制定。數據分析有多種形式和方法,涵蓋了多種技術,應用於商業、科學、社會學等多個不同的領域。
商業數據建模,乃至商業數據分析,其最終目的都是要支持某種商業流程,要麼優化原有流程,提高各部分效率;要麼重構原有流程,減少步驟;要麼告訴決策者,哪些流程改造方向是錯誤的,以避免走錯路。最終的目標,一定是提升效率。
題主你可以對照一下,看看你目前所做的事情,是否涵蓋了以上所有的內容。如果確實涵蓋了,並且你仍然覺得沒有意思,那麼我認為你轉數據挖掘的想法是對的。如果你只是因為目前做的是基礎性工作,那麼我建議你可以考慮向數據分析的更深層次發展。
謝邀,比較贊同【尾巴】的看法,數據分析的就業很廣,沒必要一定要往數據挖掘上面靠,雖然數據挖掘是頂尖的存在,但是沒有紮實的數學基礎,學各種高大上的演算法就是空中樓閣。
數據挖掘的三大技能樹是【數學/統計學知識、演算法、編程能力】,三者缺一不可,而其中數學是基礎,紮實的數學知識讓你能理解並且推導演算法,而編程又是實現演算法的工具,他們是承上啟下的關係。本科畢業轉數據挖掘,最大的門檻其實是數學基礎,如果你是數學專業的還行,如果不是僅靠自學是很難把這一塊基礎敦實的,基礎的不紮實會深深影響其他,【尾巴】說的基礎和學歷的雙重歧視是存在的,我部門裡做數據挖掘的一個是Top5大學的數學專業博士,一個是Top10的數學專業碩士並且拿過省數學建模金獎,想像一個本科的非數學專業置於這樣一群人當中...(不過其實興趣是最好的動力,如果你對數學深深著迷,自學也未嘗不可)。
數據分析轉數據挖掘,最容易靠自學來補全的其實是編程能力,程序員有很多是靠自學成才的。而數據挖掘在編程這一技能樹的枝椏是怎樣一個發展呢。
以下是我用爬蟲爬取了智聯招聘深圳地區608個數據挖掘的崗位描述做的一個詞頻統計,越大的字體說明提及的職位越多可見提及最多的是SQL,有194個職位提及,其次是JAVA,有143個職位提及,然後是Hadoop,124個職位,SAS和Python都是100個左右職位提及,SPSS是86,C++和Spark是65左右,Matlab和Scala都是18。
半年來大部分工作是SQL提數
看來樓主已經掌握了數據挖掘最重要的編程技能,如果樓主打算做大數據方向的數據挖掘,建議主攻JAVA和Hadoop/spark。
如果樓主有興趣多了解一些數據挖掘之外的數據相關職位,可以參考數據分析/挖掘工作的疑惑? - 挖數的回答
謝邀,那就是學習基礎演算法與數據結構,學習編程,學習分散式,學習機器學習與數據挖掘演算法,做相關項目,看論文,保持學術fellow。
最近也是從分析崗轉到機器學習方向,先感謝 @Slade Sal 老司機對我面試的指導 = =
我應該有資格來答一下這道題。首先題主說的:半年來大部分工作是SQL提數,活動效果跟蹤,寫分析報告等工作。
這個我能理解,感同身受:),因為我大半年來基本也是這樣,或者說我組的同事90%的工作就是寫sql提數,活動分析等等。不過這也是國內大部分互聯網公司里數據分析師的現狀。
題主的處境應該在於不知道怎麼邁出第一步,既然想要轉數據挖掘方向的話,那麼一定要利用好自己的空閑時間,具體可以從下面幾方面準備:
- 數據挖掘演算法 如:決策樹,聚類演算法,LR,SVM, Random forest,Adaboost等等。至少要掌握演算法的核心思想,估計方法,優化方法,對偶形式等等。推薦閱讀:《機器學習》-周志華,《統計學習方法》適合準備面試,建議將書上的所有公式自己推一邊。
- 應用能力 主要學習實際的數據挖掘處理方法。這部分可以重點學習python中的sklearn包,或者r中的e1071,caret包等。熟悉整個數據挖掘流程:數據預處理,降維,模型評估與參數優化,集成學習等等。推薦閱讀:《python機器學習》---機械工業出版社;《統計學習導論-基於R語言》,建議把書上的代碼自己敲一遍。
- 業務能力 這部分主要看題主想從事哪一行業的研究了。比如在互聯網金融公司主要是做風控模型,在電商則是做推薦和文本比較多。建議通過參加不同類型的kaggle比賽來培養自己對不同業務類型的理解能力。
作為一名數據分析師,我默認題主在MYSQL/HIVE方面的基本是有的,對數據的理解能力也是有的,溝通表達能力也是有的。那麼第一步的過渡就是在1,2兩點。等你覺得自己數據挖掘入門了,不滿足去一些小公司做數據挖掘的話,可以再參看如何準備機器學習工程師的面試 ?和面試官如何判斷面試者的機器學習水平?來準備面試。
以上
1.數據挖掘分析師,又稱建模分析師,需要深入掌握高級多元統計方法,並且拓展時間序列分析和主要數據挖掘的理論知識與業界運用;能夠熟練使用SPSS Modeler、SAS、R、Pyhton等至少一個專業數據挖掘軟體實現相關演算法;具有按照數據挖掘標準流程進行項目需求分析、數據驗證、建模與模型評估的能力。
2.數據挖掘分析最困難的地方不是建模,也不是編程,而是結合業務背景和自己的知識儲備,商業感覺提出問題的能力,解決問題的思維習慣。這些都需要多實踐練習;
3.參加相關專業進修或者相關培訓或者考試也是快速提升的方法之一;4.Kaggle: The Home of Data Science 比賽項目和數據可供參考練習。不要嘗試,不建議自學數據挖掘!
題主現在可能處於瓶頸期,數據分析找不到突破口,想要找點「高大上」的東西學習下!
以前有一段時間也是覺得數據挖掘高大上啊,好想學,感覺是個鐵飯碗,算是一技之長!
現在發現數據分析的變現速度極快,比較貼合業務,在指導決策上效果顯著!
而數據挖掘的需求面還是太窄,小公司用不著,大公司要求高,變現周期長,實際應用困難!編程很累!編程很累!編程很累!
題主可以研究研究數據分析如何做的更加深入吧!把統計學再學一學!希望有所幫助!完全可行啊,sql是必備的,在做挖掘項目過程中,數據清洗佔了很大一部分,清洗的質量決定模型效果,取數鍛煉寫sql,但仍然不夠,資料庫數據倉庫知識還要學,另外,挖掘導論看完,藉助spss modeler,r,sas等工具實踐,一步步走,逐步成長。互聯網時代都是先開槍再瞄準,動不動考研機器學習深度學習的,沒意思,能產生直接價值的方法和途徑即是最佳選擇。
謝邀。看樓主背景,有sql經驗,統計學知識,以及了解數據挖掘,其實更建議在Data Science努力。
「Data Science = statistics who uses python and lives in San Francisco」,這句話有些戲言,不過也說明Data Science與統計學、python關係很大。
純在數據挖掘領域去努力,不如努力在Data Science這種交叉學科努力,而且這個方向也要學習數據挖掘,當然也要好好把統計學學會學深。祝好。數據挖掘是高大上,但是適用性畢竟有限;小而美的數據分析,反而能夠讓你看清商業世界的本質。
下面,從思路和產生邏輯,說說為什麼這是一種必然。基本思路經典思路:目前在做數據分析時,採用的是傳統的邏輯推理的分析的思路。先提出問題,再通過嚴謹的邏輯推理進行驗證,解釋商業問題。新思路:嘗試使用相關性進行數據挖掘分析;就是數據挖掘的一些技術,比如聚類、決策樹、隨機森林等高級統計模型。這種思路做出的東西,一般而言是技術門檻較高、解決經典思路無法解答的問題,也符合當前流行的大數據思維、人工智慧思維。新思路的處理問題邏輯,先有相關性分析,找出導致問題的相關性因素,然後再解釋背後的商業邏輯。
適用範圍
經典思路:符合人腦的思維模式,由A —&>B —&> C的邏輯順序。在解決小而美的獨立case時,效率高。當然,實際商業環境中,80%的問題都是小而美的問題,但是出風頭的往往是那20%。比如,「為什麼今天某個頁面的轉化率突然升高啦」這類的問題,通過邏輯推理,一步一步下鑽,可以很快定位原因。但是對於多因素的問題,交叉影響之下,各有權重,這種思路就有了瓶頸。新思路:這是AlphaGo下圍棋是採用的思路,決策next move是因為next move對最終贏得棋局概率最高。這是一種結果導向的思維,將智能問題變成了數據問題。AlphaGo不需要知道如何布局,只關注每一次的落子都在提高最終勝利的概率。這種思路可以解決目標明確且影響因素眾多的決策問題。這個思路現在越來越火主要由於計算力和數據量的提升和增多,機器有了足夠的樣本進行testing,如同中國式填鴨式教學,看多了,下意識里就知道如何處理了。
我之前也是數據分析,感覺沒什麼錢途,準備轉數據挖掘,斷斷續續看了兩年左右書,目前正在找工作中,找到再回來補答案,哈哈。
數據挖掘確實是個大坑,越學習越發現要學的東西太多,每個知識點要看完都需要很多時間,我本身是數學專業出生,統計,演算法知識還算好,比較難的是編程...
找工作的感覺,數據挖掘人很缺,公司都很熱情要你去,可是公司大多都是專業特彆強,比如醫療,金融,社會等特別具體的數據挖掘案子,需要很深入的了解那個部分領域才可以,不管了,面一次補一點再繼續,哈哈。
期間很容易滑回數據分析的老本行,只有堅持堅持,再堅持...
建議先去kaggle做幾個入門級的比賽感受一下,學幾個簡單常用的機器學習模型,LR,決策樹,naive bayes這種,自己寫代碼實現一下。覺得有還興趣也做得來再想怎麼轉的事。你也知道,一線公司要求高,很難進是一回事,僥倖進去了沒什麼基礎很難跟上節奏。
再說了,數據挖掘真的也是個大坑。
最好的辦法是去考個研。
推薦閱讀:
※一般通過什麼軟體收集、分析和可視化數據?
※怎樣分析烘焙店客戶滿意度數據,怎樣撰寫研究報告?
※數據化的自我都用哪些???
※如何看待中國 2017 年第一季度 GDP 同比增長 6.9%?
※大數據華而不實么?大數據的本質是什麼?