28歲女孩想轉行做數據挖掘靠譜嗎?

我今年28歲了,女孩,本科專業是應用數學專業,在培訓行業工作,現在想轉行去做數據挖掘,數據分析一類的工作,無經驗,想報個班學習,然後轉行,大牛們覺得我的想法靠不靠譜呢?謝謝指點~ @謝科@肖智博@風塵棋客@數據分析花公子@數據分析獅@社交數據分析哥@Charlotte


看到這個問題來回答一下。筆者的本科也是數學與應用數學,後續讀了一個數學PHD,和機器學習也沒啥關係。然後也是28歲重新開始搞機器學習,下面是轉行兩年半之後的一些知識點和經驗,希望對題主有一些幫助。之前寫過四份轉行攻略,可以明顯地看到自己每半年或者一年的成長經歷。

《轉行數據挖掘與機器學習(四)》

目前從純數學專業轉行到機器學習領域已經有兩年半了,又到了該總結轉行經驗和個人成長的時候。筆者在公司裡面已經做過智能推薦系統,智能安全系統和智能運維繫統。除此之外,筆者對量子計算等前沿內容也有所了解。不過,還是那句老話,大牛們請主動忽視以下內容,初學者可以用作參考。

  1. 編程語言

目前工業界的機器學習編程語言很多,基於個人的一些淺顯的工作經驗,發現目前比較常用的編程語言是 Python 和 SQL。

通常來說,SQL 是為了從資料庫中提取數據,然後進行必要的數據過濾,數據分析,數據提取。對於 SQL,需要掌握的內容有以下幾點:聚合函數,數學函數,字元串函數,表格的連接函數,條件語句等。SQL 的經典教材有兩本,分別是:

《HIVE編程指南》,作者 Edward Capriolo

《SQL基礎教程》,作者 Mick

PS:個人特別喜歡《SQL基礎教程》,極易上手,易學易通。之前寫過一篇文章總結 HIVE 的使用細節,提供給大家做參考:《HIVE基礎介紹》

對於編程語言 Python 來說,目前深度學習的框架 Tensorflow 等,都可以使用 Python 進行編程。除此之外,Python 還有各種各樣的數值計算庫和機器學習庫等著大家去使用,例如 Numpy,Scipy,ScikitLearn,matplotlib 等。其中,Scikitlearn 的文檔是非常詳細的,特別適合初學者入門學習。至於 Python 教材的話,其實有很多,例如:《Python基礎教程》,作者是 Magnus Lie Hetland,這本書特別適合初學者看。如果是網路教材的話,推薦參考 廖雪峰 的官方網站,地址是:http://www.liaoxuefeng.com/

至於開發環境的話,一般來說公司都會使用Linux,有一本書可以提供給大家做參考:《Linux命令行與Shell腳本編程大全》,作者 Richard Blum/ Christine Bresnahan

既然是處理大數據,那麼 MapReduce,Hadoop,Spark 等內容需要了解。參考文章:《一文看懂大數據的生態技術圈,Hadoop,Hive,Spark都有了》

2. 機器學習

既然是做數據挖掘和機器學習的工作,那每個人都需要了解這方面的內容。在這裡筆者推薦教材《機器學習實戰》,作者是 Peter Harrington。閱讀這本書需要讀者掌握 Python 語言,加上 Numpy,Scipy,matplotlib 函數庫的一些基礎內容。源代碼的話可以在網上找到,然後根據書本的章節逐步學習即可。

除了《機器學習實戰》之外,周志華老師所寫的《機器學習》西瓜書也是不錯的選擇。建議初學者結合這兩本書一起學習,周志華老師的《機器學習》介紹了多種機器學習演算法,並有簡單的例子和數學原理進行描述。

既然提到了機器學習,那就簡單地總結一下裡面的一些演算法吧。

如果是做推薦業務的團隊,那麼使用地最多的還是邏輯回歸演算法(Logistic Regression),ItemCF 和 UserCF,物質擴散和熱傳導演算法(Heat Spreading) 演算法。由於 LR 是使用線性的方法來處理非線性的問題,並且實際的環境中會有物品的特徵和用戶的特徵,因此會導致特徵工程比較複雜,交叉項多(二維或者三維的交叉)。因此,在實際的工作中,特徵工程的作用就顯得十分重要。工程師和業務人員要根據物品和用戶進行必要的特徵構造,形成物品特徵,用戶特徵,交叉特徵等。之前也寫過一篇文章《特徵工程簡介》,供大家參考。

除此之外,涉及到在線優化的問題,Google 在幾年前提出了一個 FTRL 演算法。論文是 Ad Click Prediction a View from the Trenches,裡面會涉及 SGD 演算法,Truncated Gradient 演算法,RDA 演算法,FOBOS 演算法,以及最終的 FTRL 演算法等。這一個內容其實只寫過一份網頁版,後續會改成 ppt 的格式。

比邏輯回歸演算法還要簡單的那就是線性回歸演算法了,目的都是針對連續型的數據進行預測,結果都十分容易解釋。除了直接的線性回歸之外,還有局部加權線性回歸,嶺回歸,Lasso 和前向逐步線性回歸等演算法。這些細節可以參考文章《線性回歸》。

決策樹 ID3,C4.5,CART 都是一些非常經典的演算法,但是在工業界裡面的使用場景不是很多。不過隨著時間的推移和筆者對業務的理解,發現決策樹在智能運維領域的根因分析上面有著獨特的優勢,正如這兩篇文章所寫的:《智能運維繫統(一)》,《根因分析的探索》。

如果是針對轉行的同學的話,那麼大家肯定關心的是如何把之前的技能平滑地切入到新的領域中。如果學過數理統計的話,那麼《最大似然估計》就是一個不錯的切入點。

除了上面所說的演算法,支持向量機演算法(Support Vector Machine),GBDT 演算法,隨機森林演算法,XgBoost 演算法都是在工業界比較常見的演算法。目前個人還沒有對這類演算法進行過總結,不過還是強烈建議大家去學習一下。2018年筆者應該會對這些演算法進行一些個人的總結。

無監督學習演算法也是整個機器學習領域的一大方向。提到無監督學習演算法,就不得不提到聚類演算法,其中最經典的還是 Kmeans 演算法。這個可以參見文章《聚類演算法(一)》,《聚類演算法(二)》。聚類演算法的反面就是異常點檢測演算法,之前在異常點檢測演算法上面研究過一陣,也寫過不少的文章。例如:

《異常點檢測演算法(一)》,《異常點檢測演算法(二)》,《異常點檢測演算法(三)》,《異常點檢測演算法綜述》。

關聯分析,也就是所謂的「啤酒與尿布」的故事。Apriori 和 FpGrowth 演算法都有自己的優點和缺點,在智能運維裡面經常會涉及到關聯性的分析。無論是事件與事件的關聯,時間序列與時間序列的關聯,時間序列與事件的關聯,都需要進行分析。之前微軟也研究過《時序數據與事件的關聯分析》,在這裡分享給大家。

除此之外,強化學習也是機器學習的一個研究方向。隨著 DeepMind 公司的 AlphaGo 打敗圍棋頂尖選手,能夠自動玩遊戲的智能 AI,強化學習已經成為了一個比較熱門的研究方向。之前寫過三篇關於強化學習的小文章《當強化學習遇見泛函分析》,《用強化學習玩文本遊戲》,《深度學習與強化學習》供大家參考。

目前深度學習已經成為了機器學習的熱門研究方向,無論是卷積神經網路 CNN 還是循環神經網路 RNN,都是研究的主流。之前在學習反向傳播演算法的時候,寫過一篇如何基於 BP 演算法訓練 RNN 網路的文章《循環神經網路-Reccurent Neural Networks》。

通常來說,循環神經網路是可以用來處理一些文本內容的,然後在這裡也寫過一篇文章來介紹文本裡面的基本概念:《TF-IDF簡介》。

在現實社會中,社交網路已經成為了大家不可或缺的一部分,無論是在工業界還是學術界都有人對社交網路進行研究。之前也研究過 Google 的排序演算法 PageRank 和其餘的一些圖演算法,在這裡也列舉出來供大家參考《Graph Analysis and Its Application》。

近些年,Google 等一些大公司也在大力發展量子計算,也有人進行量子計算與機器學習的研究,之前寫過兩篇科普性質的文章來介紹量子計算:《量子計算(一)》,《量子計算(二)》。

3. 數理統計

數理統計方面還是有一些東西是蠻常用的。例如時間序列模型 ARMA 模型等。一些數據的指標,例如均值,方差,標準差,變異係數,相關係數,ROC曲線和AUC,召回率和正確率,交叉驗證等。

除此之外,時間序列的異常檢測在智能運維上面也有著自己的用武之地,例如對 KPI 曲線的異常檢測和定位。有的學者也提過相應的方法《智能運維繫統(二)》,裡面用到了有監督的方法來進行時間序列的異常檢測。

4. 業務

在實際的工作中,最重要的一個因素就是理解業務,只有理解了業務的需求,才能夠更好的完成領導所布置的任務。在做事情的時候,一定要形成閉環。那就是:了解業務需求-》調研業界方案-》查看是否適用-》上線效果。通過最終的效果和我們要做成的目標,來反推當前需要做的事情。一些學生時代的思維方式需要逐漸拋棄,參考文章:《開公眾號之後的一些感想》


這個題目下所有的回答都不靠譜!

給你一個靠譜回答:可以轉,但是不要報輔導班,也不要自學,兩者都是看起來簡單,但會讓你的轉行之路崎嶇艱難,甚至根本無法實現。你可以問自己一個問題,別人憑什麼不要科班出身的要一個半路培訓班學習的員工。

你花半年時間好好學習一下考個研究生,好大學考不上就考一個相對弱的大學,跟一個搞數據挖掘的導師認認真真學兩年R,畢業了就可以華麗轉身。

不要覺得這三年的時間浪費,這是轉專業應該付出的代價。不付出這個代價的人,往往只能在最底層遊走。


31歲的女人不想在事業單位就這樣蹉跎歲月,想要轉行做數據挖掘,有編程基礎,可能性大嗎?www.zhihu.com圖標鍋爐設計轉行 AI,可行嗎?www.zhihu.com圖標射頻IC想轉機器學習,我要怎麼做?www.zhihu.com圖標女生大三下,想考數據挖掘方向的研究生,女生念這個會不會不好就業啊?www.zhihu.com圖標對於女生來說,數據挖掘這個研究方向以後好找工作嗎?www.zhihu.com圖標

最近真的好多這種問題,我就一句話,如果你不喜歡,那就是浪費青春。上面那些人都是為了「找份穩定的好工作」,「工資」才去轉的。這樣沒錯,但如果你自己對這個行業除了「錢『以外,根本沒有任何打心眼裡的喜歡,你會學的很痛苦。


28,感覺還是晚了一點,好在學的是應用數學,基礎應該不差。當然,「有志不在年高」,如果是興趣所向,何不闖一闖?

個人覺得沒必要報班,但是可以曲線救國。把現在所謂的各種琳琅滿目的大數據培訓班的課程綱要搞到手,然後到牆外找對應的資源來學習。我這裡有個號稱3萬元的培訓班的課程綱要,也是一個知乎朋友報班換來的,你需要的話送你,到時候你可以按照這些綱要找對應的資源學習。

說句實話,找個人帶要快於自學,自學要靠譜於培訓班。培訓一下出來就能月薪數萬,迎娶白富美,嫁給高富帥,包教會包就業,這樣的宣傳真的是忽悠人。


天哪,還會遇到與我如此相似情況的,實在不可思議????我也28,女孩子,做行政,接觸過一點經濟學 統計之類的,但都不深。這和專業背景相關,屬於那種交叉型的專業,啥都學,都不深。我也好想做數據挖掘 數據可視化這塊呀。不過,這實在離我太遙遠,不敢想像。不過,既然已有想法,我想也同樓上那位一樣先看書。我們加油


題主在問題中說到了「數據分析」和「數據挖掘」,這裡我要說明一下,這本質上是兩個不同的崗位,其對於技能的要求和偏重點也是不同的。

數據分析的技能要求:

工具/編程☆☆☆

專業要求☆☆☆

思路要求☆☆☆☆☆

講故事能力☆☆☆☆☆

PPT撰寫☆☆☆☆☆

溝通能力☆☆☆☆☆

演講能力☆☆☆☆

數據挖掘的技能要求:

工具/編程☆☆☆☆☆

專業要求☆☆☆☆☆

思路要求☆☆☆☆

講故事能力☆☆

PPT撰寫☆☆

溝通能力☆☆☆

演講能力☆☆

可以這麼說;數據挖掘比較專業,主要聚焦在建模這一塊;數據分析相對涉獵較廣,對綜合水平要求比較高。

和軟體開發一樣,數據分析本質上是一個工具類的工種。單純的數據分析沒有絲毫的意義,必須與具體的業務場景、業務類型相結合,才能夠體現出數據分析的價值。

數據分析既然是一門技能,和學習的年紀沒有關係。在我接觸過的從事數據分析的同學來說,既有來自銀行,財務的工作人員,也有董事長,投資人這樣的公司高層。年齡從20多歲到40歲都有。我觀察了下,有過跨界行業的經驗,對於他們的數據分析學習大有益處,很多同學將數據分析和自身的行業相結合,在思路上會超過科班出身的數據分析師。

如果目前是某個行業的在職人員,最好把數據分析作為一個加分項。數據分析本質上是通過數據來對現實事物進行分析和識別的能力。所以掌握了數據分析能力的業務人員,在自身的崗位上很容易做出提升。我的建議是,無論大家是否要轉型,都應該掌握一些數據分析的能力。然後結合自身的行業特點和業務背景,在現有的公司里運用數據分析,對現有的業務、流程、現狀做出調優。

與其與計算機專業出身的「程序猿」搶飯碗,不如紮根自己熟悉和擅長的領域,做一個運用數據分析的專業人才。這樣才最容易做出成績,形成自己獨特的競爭力。


不邀自來。(●─●)

90年生,剛過完新年的現在應該算28歲了,女生,未婚。(??ω??)?應該和題主一樣啦~

本科學得機械設計製造及自動化,研究生考研失利,犯懶調劑了個光學工程的專業,畢業了主要做的是光學機械結構設計,人在體制內。(想想專業和工作經歷都是劣勢吧(ノДT)

花了幾個月時間自學了python,最近拿到了一份創業公司的爬蟲工作offer。因為還是菜鳥所以不太清楚數據挖掘和爬蟲差多少不過技能點肯定有交叉~數據分析我也會一點~

知乎關於轉行,關於數據挖掘數據分析,關於大齡,關於女性,甚至關於中年危機的話題,太多太多了,回答里@寧采桃花不採臣 這位大佬就分享了很多,我看了很多,不同的人觀點不同,因為每個人都是從自己的角度,自己的眼界,自己的經歷來發表自己的看法。

我大概是開竅比較晚的那一波人,過了很長一段混吃等死的生活:不喜歡現在的工作,就這樣吧,跨專業多難啊,我又是個女孩子,而且讀完研年紀又大了,找工作還會被性別歧視,還會被問結婚沒生孩子沒,還是繼續混吃等死吧。

有一天我突然發現自己活成了自己最討厭的樣子,一邊抱怨,一邊自我放棄;看到別人成功了覺得是特例,看到別人失敗了覺得理所當然;把絕望丟給這個社會對你的歧視,丟給自身的劣勢。

但你看,我還是拿到了offer(≧?≦)?(雖然是個又小又充滿不確定性的創業公司)。

我開始學爬蟲的時候,簡單的部分我會想別人一定也會做的_(|3」∠)_,難的部分我會想明明是基礎問題我居然還搞不定(?﹏?)。

我開始分析自己爬到的數據的時候,覺得自己做得分析爛透了,內容一點技術含量都沒有,都是渣渣。(_(:3」∠?)_是的我就是這樣的負能量體質

我開始找工作的時候,每次被拒,都覺得是因為自己不是科班,自己年紀大了,自己是女生;每次面試,被問到為什麼要離開體制內,結婚沒有,為什麼要轉行,我都覺得受到了質疑。(〒▽〒面試官我年輕時候選專業腦子裡進過水最近剛晒乾自己啊!我也想去變性啊但我沒有錢啊而且我覺得當妹幾挺好的啊!

但你看,我還是拿到offer了啊。

所以妹幾,如果你真的不喜歡現在的工作,如果你真的想從事數據挖掘方面的工作,不要擔心年紀(才28呢年輕著呢),不要擔心性別(怎麼的這工作妹幾不能幹了么)。開始行動吧,這個行業,你需要的更多的是耐心和不斷學習的恆心,當你在學習時遇到困難後所採取的行動,大概就可以知道對於你做數據挖掘靠不靠譜了。ヾ(*ΦωΦ)ツ加油喵

如果有杭州的hr小哥哥小姐姐在偷窺,如果你們在尋找一個會爬蟲會數據分析的逗比程序媛,請聯繫我!我很能幹的,一頓可以吃兩袋速食麵!?(﹒??﹒?)?


和樓主情況差不多,28歲,物理類博士,也在準備轉數據類崗。

說一下我的感受,今年六月時開始有想轉數據崗的想法,年齡大和專業跨度大是考慮的主要問題,年齡的事改變不了,那就先看書吧。

近兩個月看了《Python基礎教程》,《R語言實戰》,《商務與經濟統計學》,《MySQL入門很簡單》,《利用Python進行數據分析》,《數據挖掘導論》,《機器學習實戰》,《深入淺出數據分析》幾本書,沒全部看完,也沒全理解透。但是基本有了一點點認識,離崗位要求還差很多,但比想像中的要快一些,而且最重要的是有興趣,覺得這東西有意思,寫代碼和理解演算法是能讓人興奮的。

我的感受就是時間很寶貴,別等到自己百分百下定決心了再做,先開始做起來,做到一定程度自然就知道決定了。祝好。


首先,年輕就行,這行當和性別無關!

其次,不需要知道數據分析和挖掘的差別,

先開火,後瞄準!

最後,本主30+擼Python(土木狗),

從數據採集,網站建設,數據分析,

再到現在的Sklearn,NLP,Tensorflow,

且樂在其中,

無他,興趣使然!

僅供參考:

Python數據分析及可視化實例目錄

https://zhuanlan.zhihu.com/p/29576732?utm_source=com.android.mmsutm_medium=social


轉數據分析比較容易,既然有培訓行業經驗, 瞄準培訓教育的數據分析工作,先自學Tableau這樣容易上手的


數據挖掘,如果沒經驗,基本沒戲。

數據分析師,還有點可能性。

我的專欄,正好準備做一期,數據分析的視屏。

你感興趣可以看看。

sylar:數據分析:視頻課程目錄zhuanlan.zhihu.com圖標


發個簡歷過來 我幫你看看


同是28,剛剛測試轉了程序媛,想藉助今天生娃空閑時間多學學數據相關,看到很多小夥伴呀,互勉~~興趣是最大的老師,學習能力強的相信半年就能入門找工作。不過我現在主要困惑是怎麼找到比較好的實戰機會。


老套的話是,只要你想做,不管年齡性別,都靠譜。

推薦找個data science roadmap看看,對不同領域大概做什麼,需要哪些技能有個了解,然後根據自己的特長和興趣從某一方面入手。

我自己的情況是大學研究生都讀的信息工程,畢業後在諮詢行業做分析師,基本就用個Excel,後來又出國讀了個data science方面的研究生,嗯,28歲出國的,現在做data scientist相關的工作。

從自己的經歷看,轉行完全不後悔,很慶幸自己當時做的決定。

美國的情況是幾乎各個行業每個公司都有數據相關的職位,可能會根據公司的情況以及部門的職能,對數據相關職位的要求不一樣。國內的情況了解的不夠深,但聽到很多朋友說想轉,估計需求量是很大的。

好的一方面講,題主數學背景,很多東西理解起來應該不難,尤其概率還有一些演算法的數學原理。主要還是看自己能有多大精力投入學一些東西,還有行業的熟悉程度。幾年前出國的時候感覺國內數據用的比較多的就是互聯網和金融,但這兩個行業最不缺年輕、學得快以及有相關背景的人,尤其cs,入門數據方面簡直不要太快。


暑假實習碰到好多畢業幾年的女生,人很聰明,專業也是現在非常熱門的計算機,甚至還是211碩士,結果呢,幹了三年互聯網運營,回到老家找工作,EXCEL都不太會用,工資自然不會高,感覺很可惜。說這個例子只是說,在你最有精力的幾年,有自己喜歡的東西一定要去爭取,對什麼感興趣就學什麼,沉下心,必有收穫。

下面來回答轉行的問題,我也是應用數學畢業,曾經跨考計算機,最後研究生還是繼續讀數學,做過數據分析的工作,認真讀過幾本機器學習的書,我的建議是如果你無比清晰地堅信自己要做這方面的工作,目前只需要讀幾本書,看幾門公開課,掌握一些計算機技能,就可以進入一些小公司做數據分析,在實踐中實踐,需要什麼就學什麼,自然而然站得越來越高了,數據處理也有很多方向,數據分析可以慢慢向下挖掘,走向機器學習也不是不可能,書就不推薦了,怕班門弄斧。


學習最好的時間是三年前,其次是當下。我本科是市場營銷專業,但是自己對編程感興趣,所以了解一些基礎,今年研究生一年級,從頭開始學習,目前已經學習了機器學習的經典演算法,把機器學習實戰用python實現了一遍,接下來學習自然語言處理。就業目標是數據分析師,一起努力吧。

附上我的個人公眾號,裡面記錄了我的學習路徑。


我28歲的時候報了個班學習服裝設計,在那之前做對外漢語老師做了5年多,然後17年年初學業結束成功找到了設計助理的工作,拿著比畢業生還要低的薪資平均隨時準備要加班畫稿,但是很開心,每天都會主動的去思考第二天下周下個月明年的計劃,自己會有意識的去找相關的資料。一年不到的現在,我還是在服裝行業,薪資已經回到當老師的水平,關鍵是我想繼續努力下去。有幹勁有奔頭,這是最大的改變。所以你真的想做去做的時候,什麼時候都不晚。


看到這個問題突然覺得我每天憂傷個什麼勁..我本科都還沒畢業(?ì _ í?)

題主是應用數學出身,應該在校參加過數學建模上過統計學、計量、概率論、經濟學一類的課程,如果忘了複習也會比小白來的快,所以還是自己先確定一條複習路線!

還有,

不要問別人行不行,你覺得行就肯定行啦~

其次,

但是不要一開始就盯著數據挖掘,技術性比較強,可以把技術放在自己從事的行業中,或者從基礎一點的業務崗運動崗開始一步步來。


滴,轉行卡,男,現在失業中。也是轉數據分析,已經系統自學EXL和SQL語言,在煩惱找工作事宜~哎


滴,轉行卡。

我是16年12月才了解數據分析這行的,今年27,現在的工作完全不涉及數學和計算機,也是準備轉行的。

我會把我的進度在這更新,先走一遍轉行路看可不可行,同轉行的朋友做一個參考吧。

2017.1.10


推薦閱讀:

有不錯的工作你還會讀研嗎?
是進入遊戲行業還是其他互聯網行業?
日本的軟體業和互聯網行業為何相對落後?
為什麼阿里巴巴18位創始人只有7位最終成為合伙人?
互聯網即將顛覆的行業是哪個?

TAG:互聯網 | 數據挖掘 | 數據分析 | 轉行 | 大數據 |