像kaggle、datacastle、天池等大數據競賽,一般涉及哪些專業呢?
像kaggle、datacastle、天池等大數據競賽,一般設計哪些專業呢?
參加了很多比賽了,僥倖拿到了天池平台的數據科學家
以我個人經歷來說
需要統計學基本知識,數據挖掘主流演算法了解(推薦李航的統計學習方法和周志華的機器學習)
另外推薦幾本實戰的書&<利用python進行數據分析&>&
&<集體智慧編程&>
流程熟練:問題分析,預處理,設計特徵,設計模型,關鍵點優化(即你與前幾名的差距),模型融合等等
工具熟練:SQL,JAVA,PYTHON(推薦SQL,python,如果要參加天池複賽的話還必須得會基於Java的MapReduce,工作之後用的更多的估計是基於scala的spark平台)
業務熟練:這個可能就有點蛋疼了,但是也是拉開差距最大的地方。哈哈
技術不用深入,了解會用就行,知識是學不完的,用到啥再學啥,重點是多動手!
大家都是調包俠,區別就在於對問題的理解,對業務的深入。
另外我的博客是:Bryan__的專欄
裡面有之前我參加比賽的一些思路
我的天池個人主頁:天池大數據科研平台-打造「數據眾智、眾創」第一平台
之前比賽的開源代碼在這裡:wepe (wepon) · GitHub
是我隊友的git,裡面還有其他很棒的代碼
另外這裡還有kaggle的一些solution
http://www.chioka.in/kaggle-competition-solutions/
天池競賽的solution
[天池競賽系列] 歷屆天池競賽答辯PPT和視頻
以上只是菜鳥級別的見解
需要進階的話需要熟悉各種演算法原理以及推導,最重要的是對問題和數據的深入理解
這樣才能在具體應用的時候做出相應改進
參加過中國計算機學會(CCF)主辦,WID承辦的大數據競賽,進入了決賽,並獲得了二等獎~ 非常感謝這次大賽,讓我學到很多,也見識到很多。我就大概講講這次比賽的參加用到哪些知識吧。大數據競賽一般有兩種吧,一種是你得寫個演算法,給出個結果。另一種,你可以利用大數據數據和技術做一些創意的方案,我選擇的是第二種,因為自己覺得演算法拼不過P大啊,清華啊,中科院這些選手。因為比賽給出的賽題有很多,涉及到很多的領域,甚至有預測生豬價格這樣的有趣的賽題。我選擇的是運用運營商的大數據來做一個互聯網金融創新方案。由於我是一個學計算機的學生所以跨度還是比較大。總體而言,我是把整個方案分為技術層次(用什麼計算機技術來解決大數據問題)和非技術層級(設計的相關金融、保險、財務等非計算機技術問題)來解決。
- 對於技術層級的主要得設計到數據分析,機器學習等領域的知識,還有一些方案需要利用到Hadoop等一些技術去解決問題。
- 對於非技術層次的問題,以前我也看過相關的書籍等,主要設計了一些金融模式,商業模式,可以到相關的期刊網站到一些論文來看,然後請教一下相關專業的同學,老師。
這就是我對大數據相關競賽涉及的領域的理解了。另外今年又要開賽了,準備繼續找個合適的賽題參加~貼個大賽的主頁 WID|WeInData|首頁。希望更多大牛參加比賽,和更多大牛認識!
專業領域從計算機科學到統計學、經濟學和數學都有涉及~
以上是我自認為的~具體哪些就由專業人士回答啦~推薦閱讀:
※一道bat面試題:快速替換10億條標題中的5萬個敏感詞,有哪些解決思路?
※2013 年末,IBM 連續 6 個季度業績下降,是出了什麼問題?
※人工智慧需要學習海量數據,數據的準確性如何來保證呢?
※浙江預測擁堵準確率超90%,如何實現的?
※北風網培訓大數據,費用 12800,怎麼樣?