現在的 IT 行業對數據挖掘-機器學習的職位需求究竟有多大?現在的情況是怎樣的?
尤其是想知道國內的情況
- 我個人感受,時常會有獵頭或者公司HR聯繫我,不過通常都不是找我的,都是讓我幫忙推薦人的,唉,杯具。。。整體感覺都是好公司,而且需求在增加。
- Resys 組織的線下活動,業內參與的個人和公司越來越多了。
- 推薦你看兩篇文章,第一手的乾貨!
- 推薦的現狀和未來,以及對創業者的忠告 http://www.resyschina.com/2010/11/recsys-situation-and-startup.html
- 互聯網趨勢與推薦系統的機會 http://www.resyschina.com/2011/01/web-trend-and-recsys-1.html http://www.resyschina.com/2011/01/web-trend-and-recsys-2.html
我最近在做一些機器學習和數據挖掘的職位,也在和一些企業溝通這個方面的需求,現在還沒有形成系統的觀點和預測,把我最近接觸到的一些情況零散的介紹一下。
1、百度的多媒體部有個余凱前輩帶領團隊在做機器學習,昨天去中科院聽了他分享的一些關於deep learning的東西;我的理解是之前搜索重要的幾個發展階段是目錄式服務、檢索、推送,那麼下一步的重要的發展方向可能是圖片和語音等材料的檢索;那麼要想做好這樣的檢索的前提是聚類要做好,這樣的情況下可能機器機器學習還會在搜索領域有巨大的應用,這也看來搜狗、360等在搜索領域的發力可能也和這個有關。(但是不知道為何網上出現了騰訊搜索的認識調整新聞,不知道是向移動端跨越呢?還是減少了在搜索上的資源投入)。
2、最近在幫一個移動互聯網廣告平台公司和一個PC互聯網廣告平台公司招聘數據方面的人才,這倆個領域對於人才的需求有一定的相似性;第一點就是要對用戶特徵進行提取,然後的就是需求預測以及廣告的推送問題。除了這倆個核心的工作內容以外,廣告平台所處的是廣告、IT的交叉領域,且由於用戶數量的巨大增長以及需求的不斷提升,這些平台在運營方面也對數據挖掘和機器學習提出了較高的需求。
3、最近也在幫一個微博營銷公司找數據挖掘方面的人才。這個領域我想主要的挑戰是從快速增長的社交內容中提取出有商業價值的信息,並且為策略的制定提供支持。在我服務的這個客戶的內部,這個小組的名字叫「評估組」,另外公司還有策略、平台、運營等小組。當然這個領域的應用更是剛剛起步,在發展階段上比廣告平台相對更新,因此也需要有人做很多具體的工作,比如分類方面的分類師,需要把商業上的需求和索引和分類中的關鍵字設定聯繫起來。
4、還有一些零星的信息,暫時還不知道有什麼意義。上海的盛大互動之前收了一幫機器學習的人,但是目前沒有看到商業化的項目出來;其中有一些人是來自ebay和微軟;當然也看到微軟的hr在招機器學習相關的人。
還有一個零星的補充是在2011年國內的機器學習相關的會議上,谷歌和騰訊的人都有發布相關的會議論文;同時也聽到余凱前輩講谷歌的Jeff Dean(他爸可能很喜歡當官吧,我記得這個Dean 是主任的意思,前幾年網說一個姓鐘的人給倆個孩子分別起名鍾共鍾央。)也在做一個大的機器學習相關的項目。
另外也在微博上看到大約有十幾家公司的數據負責人在呼朋喚友,我想可能是業務上的挑戰已經到了比較迫切的階段!
我的觀點是機器學習很多時候雖然沒有走抽樣的路線,但是也是對於現實社會的一種盡量的逼近;所以機器學習能夠發揮多大的威力,一是看數據量的大小以及數據的質量,還有一個因素是對於模型的藝術性的使用;好在模型的評估是比較快的一個過程,同時大多數工業應用對於機器學習的期望是只要能有不斷的優化就是可以接受的,因此我的判斷是今後數據挖掘和機器學習的應用和人才需求會非常高!之前聽聞我校一個可用性工程方向的一個女生,把SPSS用得特別好,就被淘寶招進去了。試想一下如果數據挖掘做得好,會如何呢?我覺得數據挖掘學好的人前景很光明呢。
數據挖掘應該會越來越受到行業的重視。數據增長的速度太快,大量有用的信息隱藏在更大量的噪音數據之中,必須通過數據的挖掘、關聯、整合,過濾出有用的信息,進而改進產品、提高用戶體驗等等。
一些大的公司,本身掌握了大量的數據,如淘寶、豆瓣、人人等,應該是有自己專門的數據挖掘團隊;另外,還有些公司,主要業務就是數據挖掘,更加專業些,如http://www.social-touch.com/,做的東西就非常有意思。
我的感覺是需求越來越大。我剛到Hulu時,他們和我說美國做數據挖掘的NB人大多去投行,所以美國很多NB的IT公司招聘中國的數據挖掘人才。不過就從研究鄰域看,數據挖掘也是中國和國外差距最小的鄰域之一吧。
隨著WEB2.0時代,互聯網上的信息得以爆炸性發展。幾乎可以肯定的是,如何讓普通用戶充分的利用好這些信息一定是下一階段技術發展的主要方向。在國內,就我知道的很多大、中型互聯網公司都非常重視數據挖掘,尤其是SNS性質的互聯網工作。如果你能力夠強的話,薪資水平會非常不錯。應該還是很有前途的。不過做數據挖掘對個人的要求是比較高的。
首先編程能力要靠譜,你可以不寫最終實現代碼,這些代碼可能需要更專業的人完成,比如用分散式加快計算速度。但至少你要完成分析的原型,驗證你的想法是否正確。
其次,要求你要有良好的產品分析能力,當你面臨浩瀚的行為數據的時候,如何理解數據之間的關係等等這些問題都需要在對產品充分的了解基礎上。最後,單純的數據挖掘公司好像不太有市場,我知道的只有一個從facebook出來的數學天才開辦了一個類似的公司,還算不錯。我感覺數據挖掘最好還是去一個靠譜的互聯網公司.SNS或者電商類得公司都可以。我覺得目前國內的數據挖掘崗位可以分為業務流和技術流兩種類型。
1、業務流。這類崗位是受業務驅動的,特點是將現有數據與業務相結合,最大程度的變現數據價值。主要工作放在數據預處理階段,並不關注演算法層面的東西,將經過清洗的數據放在挖掘軟體裡面調用演算法跑一下就ok了,並不會對現有演算法進行改進。這類人主要分布在諮詢公司、電商、或者依託於甲方的等公司。屬於偏服務性質的。
2、技術流。這類崗位主要偏向技術、演算法層面。因為現有演算法已經不能滿足業務要求了,必須開發出新的演算法或者對現有演算法進行相應改進。所以要求有較好的編程能力。從目前來看,業務流的崗位貌似沒有技術流的需求強勁。個人感覺。歡迎討論。很大,電商、團購、UGC類以後數據會很大,數據能幫助他們理解需求、組合功能,只是目前有的IT行業還沒有重視而已
因為數據可以告訴你一個客觀的事實,避免自己主觀判斷的影響。所以用數據去驅動商業更容易成功。而國內的商業模式大多還是老闆驅動性,老闆決定一個公司和企業的未來。所以國內若老闆重視數據的企業更容易成功。
希望如此,許多人還沒看到,中國的潛力比任何國家都更好
推薦閱讀:
※什麼是海計算,他和雲計算有什麼區別?
※相似圖像查找的基礎演算法邏輯是如何的?
※程序員老了怎麼辦,可有出路?
※國內有哪些雲計算的培訓和認證考試比較靠譜的?(別太貴)
※國內有什麼好的代理IP(http)提供商?