數據挖掘還能火幾年?
16年讀國內普通985的數據挖掘的phd,四年畢業之後,會不會相關領域人才已經飽和了?
大數據和人工智慧是相輔相成的東西,在人工智慧沒有徹底成熟之前,大數據並不會成熟,相同,在大數據沒有徹底成熟之前,人工智慧也不會徹底成熟,現在的數據量雖然大,但是數據挖掘工作相互獨立性太強,雖然可以通過一類數據得到指示性的結果,但是每類數據之間的聯繫並沒有建立起來,這樣的數據挖掘還太初期,相互沒有聯繫,比如票價預測,只是通過歷史上的票價曲線以及一些購票行為得到預測結果,但是並沒有結合諸如天氣,某些社會突發因素等等,進行建模,模型變數的單一,各類數據之間沒有聯繫,數據挖掘的角度很深度也不足夠,很多地方都可以看出大數據還處在一個很初級的階段,放心吧,大數據不是轉瞬即逝的熱點,這會是以後滲透在我們生活每一處細節的東西,這個行業距離成熟都有很長的路要走,更不要提飽和了
放一下這個技術成熟度曲線圖在
科技誕生的促動期 (Technology Trigger),過高期望的峰值(Peak of Inflated Expectations,泡沫化的底谷期 (Trough of Disillusionment),穩步爬升的光明期 (Slope of Enlightenment),實質生產的高峰期 (Plateau of Productivity)。
飽和?這才剛剛上路!
-------------------------------------------在一門大數據課程中放了一下2014年的圖,因為放的時候2015 年還沒有到下面更新一張2015的圖
對比可見最大特點是Big Data is Out, Machine Learning is in對其有人給出解釋是 Big data is no where to be seen the hype cycle 2015 where as last year it is shown to enter trough of disillusionment. This may mean that the most talked about big data related technologies are now into practice and no more a hype.但大數據相關領域如Internet of Things,Machine Learning,Citizen Data Scientist,Data security,Digital Humanism還是保持很高熱度。
-
謝邀,都是過來人,在下非常能理解這種憂慮中國有句古話:男怕入錯行
職業選擇相信對每個人來說都是非常重要的
具體數據就不放了,舉個17年前的例子:
騰訊1998年11月11日成立的時候
當時主要業務是「BP機尋呼系統」後來發現整個市場趨於飽和
於是改做「互聯網尋呼系統」這套系統一直賣到1999年的夏天重點是:全程只賠不賺。
pony馬化騰1999年2月頂著其他股東的壓力
執意開發「OICQ」原話是:人生就像一場賭局,大不了回去做程序員。
回到問題
BAT剛滿十八歲,數據挖掘還能火幾年沒人能預測
我們都是在摸著石頭過河,沒有前人的歷史經驗和教訓做參考整個世界正處於一個高速發展、信息爆炸的時代未來某一天,人工智慧和機器學習將顛覆所有傳統行業所以,傳統行業的專家們比你更加煩惱智者順時而謀,愚者逆理而動。
吾以為好好修鍊數據科學這門技術,將來定會有用武之地。只要大方向選對了,小方向慢慢調整即可。
以上
-
如果有更多問題,歡迎Live中交流:Han Hsiao 的 Live -- 點數成金:如何從數據中發現金礦?聲明:
答主只是個學士,看到的不全面,如果有講的不好的地方,還請見諒。內容:
我看到的是從學術界,到工業界,幾乎都在找那些會數據挖掘的人。先說下學術界。
這個就是參加暑期夏令營的時候的見聞了。我認識的一些朋友,出去參加面試,跟老師聊SVM、NN、遺傳演算法的基本上都被要了,哪怕是跨了很大領域的。比如計算機到經濟,數學到心理學……
然後有個同班同學,數學轉生命科學,去了浙大和上海生命科學研究院,被對方當成寶貝→_→快到要填推免那些日子天天打電話催著。
然後有個教物理的老師,下班的時候抱著本PRML在那裡看,據說是因為做出來的機器人智能太低……騙不到基金了。
然後還有個帶我裝逼帶我飛的老師,現在手上基金應該有200萬+了,做的方向,在這裡就不好透露了。反正原理就是統計學習,數據挖掘里的方法。
再說下工業界:
國內某教育機構找我們公司合作項目,在閑聊的時候,該教育機構董事長問我們,我手裡有幾百萬學生的數據,不知道這一塊你們能不能幫我利用好,幫我做一些推薦業務,或者幫我更加精準的定位潛在客戶。
還有就是某國企,每次跟我們公司合作完之後,都會向我們要統計數據。其實我一直在想假如這些統計數據都做成可視化,而且是特別好看的那種可視化,不知道會不會讓那個企業把業務都交給我們公司來做23333。
總結:個人看來這一塊才剛起來呢。很多地方都可以有還有很大的發展。
比如學數學的人,理論有餘,代碼不足。
學計算機的人,代碼有餘,理論不足。
假如一個人能做到從數學理論到演算法到基礎平台的搭建再到項目的應用全部通吃。
那真是了不得啊 !
以上是個人的一點微薄之見。說難聽點,真以為會個hadoop,會調用sk-learn跑個svm,拿別人的模型跑個cnn、rnn就是搞這行的啦,這東西,腦子不笨的人,三個月穩穩學會了。作為phd,核心競爭力肯定還是論文啊,深入了解原理,時刻關注各頂會的動向,b類以上的paper總歸要個三五篇吧,自己領域的頂會總歸要有那麼幾篇吧,然後找准個小領域,玩命往裡做,努力成為給別人挖坑的人。教研室師兄,博二已經兩篇tkde,兩篇tmm,再加幾篇頂會。結果不說國外那些大神,光國內都照樣還是被各路大神碾壓,申個msra的實習都差點沒過。真打算好好讀博士,msra是能去還是要去的,國外交流也是必須的,積攢自己的核心競爭力。當然要是只求混日子,發幾篇水期刊,就當我啥也沒說。
「人工智慧領域,大家活下來,一定要牢記,學會換馬甲這個技術。」-----by 鮑捷所以呢,就算數據挖掘以後不火,它的馬甲一定會火,不過到時得識時務了。
不管什麼專業,什麼方向,真正的大牛是不會考慮去會不會飽和,飽和只會影響渾水摸魚的人。個人認為,現在談飽和也太早了,數據挖掘在各個領域的應用才剛剛起步,人工智慧離我們也還有一定距離,想這些問題還不如多看幾頁paper,領域頂層的人不會被所謂的飽和影響,或者說如果有影響那也不大。
謝邀。實際開發不是這一塊的,很難說。不過個人覺得遠沒有到飽和。
現在的數據挖掘更多基於互聯網的大數據,實際上隨著個人用戶使用電腦的早齡化,周期延長,以及存儲設備的多樣化,容量和讀取速度增加,未來的數據挖掘同樣像個人開展。而數據挖掘本身,從整理分類到檢索,工作逐漸的細分化,可以展開的工作也很多。
跳出個人,就企業軟體來說,數據存儲依賴於早期設計,尤其是dba設計至關重要,設計不好對於前期開發和後期維護以及新功能追加都有很大牽制。如果數據挖掘未來能發展到弱化架構dba的工作和影響,對於開發的風險來說能下降好幾個層次。現在企業級軟體已經到了一定高度了,數據挖掘和分析也許在等待一次革命你。
相對來說,數據挖掘更偏向於精,所以不在人多,在於人的能力。讀到博士對自己職業的前景不了解,前面是怎麼堅持下來的?是人才就沒有飽和一說,即使是飽和了,你優秀可以把別人擠掉
我是從ERP轉入大數據的過來人,前前後後跨了幾個信息化行業,順手來一答。
截止到2016年我接觸的信息化項目而言,即便是一個建立很久的公司企業,還是有門戶網站,基本辦公OA,財務等業務方面信息化建設的需求,隨之而來的還有一系列的維護方面的內容,費用也不能說低到白菜價,感覺一個網吧網管都能搞定的地步。所以,任何技術都有進化,沒有一項業務會過時(當然會進化),唯一需要考慮的僅僅是錢途和社會地位(大數據分析師和網吧網管肯定社會認可度是不一樣的)。
人才飽和在任何一個行業都會有,以以前我從事的ERP這種信息技術和產品為例,到現在市場日趨飽和,也還是有趙家人鄙夷:「你做的也配叫ERP?」(很多人還是固執地認為只有生產製造企業用的生產計劃控制體系的ERP才叫ERP),而現在各種大數據折騰也是各種趙家人混戰,你覺得我的只配叫界面好看的BI,我覺得你那個不過是ETL的HADOOP加強版,各種浮躁的情緒漫天飛舞,要等大家能夠在大數據和數據挖掘上達成共識我覺得基本是不可能的。在我看來,現階段真正最能體現數據價值的數據挖掘能力在實際業務中是皇冠上最頂層的寶石,能夠在實際應用(直接點,賣高價)中真正體現價值的存在。但是現階段很多連數據質量都無法保證的情況下,能夠用到的客戶少之又少,從一開始,數據挖掘就是少而精,人才必然在商業應用上過剩的存在。而且這種人才還必須是專精一個行業體系的業務高手,不是說我是個醫生能夠包治百病的存在,例如你要做醫療行業的數據挖掘,進去連HIS、PACS系統都不知道幹嘛使的,又從哪裡挖掘呢?做政法的數據挖掘,連我國公檢法配合體制都不知道,別人還得從基礎開始講起,又怎麼去展現數據價值呢?
所以,與其在那裡空想四年後的事情(四年後的事情誰都不能精準占卦出來,敢於預言的人是有,四年後飽和和不飽和對預測來說就是50%的幾率,猜不猜的中反正又不需要吃鍵盤,對你而言是100%和0%不說,還不一定適用,行業形勢或許一片大好,但是對你個人不友好的情況也是有的)。不如現在先腳踏實地學好本事,學會學習的方法,跑人生馬拉松這種事,不要老覺得終點遠,一步一步走好才是正途。不會
分散式並行計算,深度神經網路,個人互聯網(即手機網路)和物聯網(智能感測網路)這幾個技術合起來,是工業革命級別的技術。
對比的話相當於蒸汽機、發電、石油+內燃機、計算機的發明。
容我直白點,如果不去搞金融,搞這個DM也是極好的了。哈哈,唱唱反調。
會飽和的,現在是個學校的研究生都是大數據數據挖掘,這裡的研究生專業包括但不限於計算機、電子、數學、經濟、生物(逃
立帖為證,但願到2020年知乎還在。那麼多答案,少有命中的。
數據分析這個行業,近現代一直都有,不同時代,工具不同,職位名稱不同,而已。
但和從前一樣,若只會數據分析,依然只為工程師。
IBM 全稱 是國際商用機器公司,覺得自己牛逼時,想想這家企業的歷史。
當你們掰PC好不好,人家正在賣PC線給聯想接盤,同時提出」智慧的地球」。
當你們提出發展 IDG,人家又主導著「綠色IT經濟」。
大概2015年晚些時候,「認知智能」,在採納 IBM 方案並接受相關諮詢服務的「三一重工智能製造車間」交付驗收前,正式開始推廣。已被美國空軍科技諮詢委員會正式採納。
不是「深度學習」,是「認知智能」,處於陌生環境中可感知自學習並通過反饋加以自適應的——「認知智能」。
路漫漫其修遠兮。利用統計學的方法做數據挖掘叫機器學習,機器學習中有個比較好的深度機器學習模型叫卷積神經網路。人工智慧的基礎是深度學習。萬法歸一,阿彌陀佛
個人覺得,你有這個擔憂和危機感是很好的。畢竟大部分人辛辛苦苦讀書十幾二十年最終還是為了找份好工作,讓未來有個比較好的保障;而這一切的前提就是選個好行業了。
入錯行的後果確實比較嚴重,舉個很簡單的例子:
當年我們村出的第一個一本大學生,大概在零幾年初吧,當時機械自動化什麼的比較火,然後他就去了國內一個排名40幾位的211學校選了這個專業,大四順利保研接著讀了本校研究生,畢業後工作到現在,應該最少有五六年了吧,結果去年過年回家問他現在工資多少時,讓我大吃一驚,居然還是一萬多(當時畢業的時候就號稱快一萬一個月的人啊!)。更讓人吃驚的是,我那個同村的師哥並不是個例。作為對比說下我自己這邊的情況吧:目前在上海交大讀研,現在研二,馬上要參加校招了,自己做的是機器學習數據挖掘方向,從我上一屆的師兄師姐的情況來看,我們課題組第一年入職年薪低於20萬的幾乎是個例,大部分還是24左右,碩士最高的一個32萬(稅前),幾個個博士師兄最高的40萬,另外兩個37萬。雖然可能交大的學歷潛規則的佔了一定優勢,但從其他專業的同學來看,最本質的原因還是行業問題!所以你現在就開始思考這個行業的發展問題我覺得是比較明智的。(上面有點扯偏了,不好意思!)
下面說說具體數據挖掘這個行業吧!說實話,現在的時代發展確實太快了!有時候感覺根本就跟不上節奏,更別說去預測和掌控了;特別是互聯網方向,各種新技術不停的冒出來。對於數據挖掘這個方向吧,也就是最近幾年突然大熱起來的。結果很正常,一邊是這個方向本身的飛速發展,這給了我們很多機會;但另一邊是社會上各種相關甚至不相關的人才蜂擁而入,大家都想來搞搞(趨利性是人的本性)!
結果會怎樣呢?這個覺得也是大家各抒己見,因為任何時候,對任何事物,總會有人唱好有人唱衰,其實沒有誰說的一定是對的;只能說大部分時候,那個大群體和總趨勢對的概率要大很多。所以建議你也不要偏信偏聽,總歸還是要有自己的批判性思維。我個人的看法呢,照目前這種發展情況來看,數據挖掘遲早會人才飽和,造成知識紅利下降,最後到達一個跟現在的Android開發差不多的情況(以前安卓開發多火,大家一窩蜂湧入,現在慢慢飽和了,大家就歸於理性了吧?)但是,別灰心!目前就我來看,首先,一方面雖然想學數據方面的人好像特別特別多,但是實際上能堅持下來,並且真的學好的人並不多(高校這個專業一年培養不了多少人,大部分還是在自我摸索和學習),你作為這方面的博士,你的專業性肯定會遙遙領先絕大多數人的。其次,數據挖掘目前並沒有很多人感官的那麼神,它目前還存在很多的欠缺與不足,從這方面說,我覺得數據挖掘目前還僅僅只是剛過了一個嬰兒期不久,它正在走向青壯年的路上,但毫無疑問這需要一個過程。為什麼這麼說呢,因為數據科學現在不管是從演算法建模還是實際應用都還需要進一步的成長,特別是實際應用方面,未來,數據科學肯定會進一步落地,真的跟各行各業去結合,去驅動各行各業的發展。這些難道在你博士期間就都能做完嗎?反正我是不信!所以個人建議,總體來看,你不用擔心這個行業會馬上過氣,好好發揮你自己的優勢,把理論基礎打紮實,後面跟具體的業務去結合應用,你的競爭力絕對很高的!
或者你這樣考慮吧,現在搞Android和Java的那麼多,但你看現在市場上這兩個崗不還是需求量很大么,企業給一個真正牛逼的Android工程師開出的待遇不還是很高么?所以,感覺選了數據挖掘這個方向呢,你不用太擔心其他的,專心把你的注意力放在提高自己身上吧,那才是你的核心競爭力!
【說了一大通,希望對你有點用,我個人也是做這個行業的,在上海交大電子系,還有半年參加校招,如果你看得起我的話可以加我一起交流;另外我也特意做了個這方面的微信公眾號「DT新紀元」,主要目的就是幫幫想入這行的迷茫者,你有興趣的話也可以關注看看;當然,不要覺得我是什麼大牛,真不是!做這個只是想作為「半個過來人」給後來者帶帶路,盡點自己的綿薄之力!】不會過時的
我覺得讀 Ph.D. 是培養能力不是技能,能力到了drop也沒事,沒能力讀出來也是基層工兵。
不請自來,正好最近根據公開的招聘數據做了個【數據挖掘】的簡單職業前景分析,藉此引用過來。整體來看,這個職位其實還在起步階段,發展潛力看好。個人覺得不應該擔心還能火幾年的問題,倒是該更多關心如何提升大數據挖掘實戰能力。
原文移步:https://www.zhihu.com/question/36496680今天,我們不做標題黨,以數據樣本來分析下【數據挖掘】這個職業的發展錢景。(註:為了圖標更清晰,城市、行業方面僅去了前幾位)
【城市】方面:為了圖表更清晰,只取了前六位的城市,北上深前三需求最高。並且北京高薪水比例更高。
【城市】平均薪水方面:北京在20K左右,其次是深圳18K左右。
【行業】方面:移動互聯網、數據服務、O2O、金融這幾方面需求相對更多。整體薪資水平都非常給力,後面會聊到具體的。
【公司規模】方面:以2000人以上的大型企業,需求最多(薪資在15-25K為主),其次是中型企業,再次是一些新創的小型企業。
【學歷】方面:招聘方主要要求本科和碩士學歷,當然因為大數據發展較晚,整體還是以本科學歷為主,本科學歷的薪資16-25K的比例較高,整體看好。研究生則直接是21-25K區間最高。
【工作年限】方面:1-3年、3-5年區間需求最高,工作年限越長,薪水區間越高。屬於比較朝陽型職業。
簡單總結:總體來看,非常有潛力的職業,北京需求最大,薪水最高,本科學歷,3-5年工作經歷非常受歡迎,並且在北上廣以外的二線城市也有著非常不錯的薪水。
作為剛剛從一線互聯網公司回來的實習生,說一下我的看法。 我認為數據挖掘遠遠沒有達到飽和的狀態。數據挖掘和機器學習這類技術在公司里其實有兩種職位,一種是基礎研究崗位,這類崗位要求比較高,需要的人也比較少,專門為公司研究最前沿的技術。另一類是偏向於業務的數據挖掘工程師,這類崗位在公司里需求量非常大,幾乎每個團隊都需要這樣的RD,而現在符合要求的很少,基本還處於供不應求的狀態。當然,博士的話,還是應該爭取基礎研究的崗位,這類崗位一般對學術能力還是有要求的,建議在校期間多發一些高質量的論文。 希望能夠對你有所幫助。
數據挖掘是最近比較火的一個概念,在這裡我們不談整個這個學科,只談談我個人做出過一點工作的核函數方法這塊,實際上還有很多路要走:
我去年上半年寫過兩篇核函數優化的論文,首先kernel在SVM中的應用真心只是冰山一角,做kernel的人基本不關心這個問題,就像用SVM的人也不關心kernel是啥一樣。早在SVM提出以前,reproducing kernel Hilbert space(RKHS)的應用就比較廣泛了。實際上在數學上這個也是簡單的,就是一些標準的泛函分析和調和分析的結合應用。一個經典的例子就是信號處理中signal detection的問題:給一條time series我如何知道它不是一個random walk的噪音而是有一個特定的pattern在裡面呢?在這個情景下,RKHS理論就給出了一個通過現實求解likelihood ratio的假設檢驗方案,其中的kernel實際上是某個隨機過程 R(t) 在兩個不同時間點的correlation。很多人覺得kernel定義了一個從低維度到高維度的映射,這是不準確的。首先,並不是所有空間都像歐式空間那樣有所謂「維度」的良好定義,很多空間是沒有維度的意義的,或者可以認為維度都是無窮大,這樣就無法區分不同的RKHS了。但是kernel確實可以定義一個映射,而且確實是一個非常強大的映射,很多方法在這個映射下是可以直接推廣到kernel space的,包括SVM,logistic regression, least squre,dimension reduction。那麼這個映射是什麼呢?我略過數學的setup(估計也沒有人看)簡單講講RKHS是什麼一個故事:實際上RKHS的定義是反過來的,首先在原空間上考慮所有連續函數,這些連續函數可以做加法和數乘,所以真主給他們(中的一部分)施加一個內積結構,比如所有二階多項式其係數在歐式空間展開構成的內積就是高票主提供的例子;這個內積實現中的一部分就可以對應到原空間中的兩兩之間點的kernel。所以RKHS是先有內積才有kernel的,但是另個一個牛逼的定理說,只要kernel滿足一些條件,就存在這樣一個(唯一的)內積結構與之對應。(其實這部分的數學,一個普通大學數學系的本科生就能看懂了或者學過了,並不是什麼高深的內容)kernel有什麼作用?kernel不僅可以建立點對點的映射(如SVM那樣),還可以建立原空間上一個分布對點的映射,有興趣的讀者請谷歌 kernel embedding of distributions。 在這一個映射下,人們會關心這麼一個問題,給兩組數據,我如何知道他們是不是從同一個分布中來的呢?在kernel map下,兩組數據被map成了kernel space的兩個點,我們可以看看在那個空間里他們距離是遠還是近,如果很近就很可能是同一個點加上一點sample variance,以此來判斷兩組數據是不是同一個分布(two sample test)。最後談一談不同的核函數,應用中最常見的估計就是RBF kernel了比如Gaussian kernel,這類kernel的強大之處在於他們提供的embedding space非常豐富(當然有人可以理解為維度非常高,但是既然是無窮維,談維度已經沒有意義了),以至於原空間中不同的分布可以被直接map到不同的點,這類kernel有個名字叫characteristic kernel。回到我們最初的kernel 定義到底什麼樣的kernel才能reproduce如此豐富的embedding 空間呢?答案是能把整個連續函數空間填滿(dense)的kernel。比如一般的多項式kernel就不行,因為二階多項式的線性組合不能表示更高階的多項式函數了。這種能把整個連續函數空間填滿的kernel,叫universal kernel。一個重要的結果是universal kernel就是characteristic kernel,換句話說只要你能把連續函數空間填滿,那麼原空間上不同的分布在這個map下都會變成不同的點。
暫時寫這麼多,有人感興趣的話我把論文貼出來。推薦閱讀:
※多維高斯分布是如何由一維發展而來的?
※我想做一個基於神經網路的數字識別程序,請問我應該看哪些書?
※知識圖譜怎樣入門?
※為什麼梯度下降法每次找到的都是下降最快的點?
※如何評價 Coursera 的機器學習 (Andrew Ng) 課程?