標籤:

像kaggle、datacastle、天池等大數據競賽,一般涉及哪些專業呢?

像kaggle、datacastle、天池等大數據競賽,一般設計哪些專業呢?


參加了很多比賽了,僥倖拿到了天池平台的數據科學家

以我個人經歷來說

需要統計學基本知識,數據挖掘主流演算法了解(推薦李航的統計學習方法和周志華的機器學習)

另外推薦幾本實戰的書&<利用python進行數據分析&>&

&<集體智慧編程&>

流程熟練:問題分析,預處理,設計特徵,設計模型,關鍵點優化(即你與前幾名的差距),模型融合等等

工具熟練:SQL,JAVA,PYTHON(推薦SQL,python,如果要參加天池複賽的話還必須得會基於Java的MapReduce,工作之後用的更多的估計是基於scala的spark平台)

業務熟練:這個可能就有點蛋疼了,但是也是拉開差距最大的地方。哈哈

技術不用深入,了解會用就行,知識是學不完的,用到啥再學啥,重點是多動手!

大家都是調包俠,區別就在於對問題的理解,對業務的深入。

另外我的博客是:Bryan__的專欄

裡面有之前我參加比賽的一些思路

我的天池個人主頁:天池大數據科研平台-打造「數據眾智、眾創」第一平台

之前比賽的開源代碼在這裡:wepe (wepon) · GitHub

是我隊友的git,裡面還有其他很棒的代碼

另外這裡還有kaggle的一些solution

http://www.chioka.in/kaggle-competition-solutions/

天池競賽的solution

[天池競賽系列] 歷屆天池競賽答辯PPT和視頻

以上只是菜鳥級別的見解

需要進階的話需要熟悉各種演算法原理以及推導,最重要的是對問題和數據的深入理解

這樣才能在具體應用的時候做出相應改進


參加過中國計算機學會(CCF)主辦,WID承辦的大數據競賽,進入了決賽,並獲得了二等獎~ 非常感謝這次大賽,讓我學到很多,也見識到很多。我就大概講講這次比賽的參加用到哪些知識吧。

大數據競賽一般有兩種吧,一種是你得寫個演算法,給出個結果。另一種,你可以利用大數據數據和技術做一些創意的方案,我選擇的是第二種,因為自己覺得演算法拼不過P大啊,清華啊,中科院這些選手。

因為比賽給出的賽題有很多,涉及到很多的領域,甚至有預測生豬價格這樣的有趣的賽題。我選擇的是運用運營商的大數據來做一個互聯網金融創新方案。由於我是一個學計算機的學生所以跨度還是比較大。

總體而言,我是把整個方案分為技術層次(用什麼計算機技術來解決大數據問題)和非技術層級(設計的相關金融、保險、財務等非計算機技術問題)來解決。

  • 對於技術層級的主要得設計到數據分析,機器學習等領域的知識,還有一些方案需要利用到Hadoop等一些技術去解決問題。

  • 對於非技術層次的問題,以前我也看過相關的書籍等,主要設計了一些金融模式,商業模式,可以到相關的期刊網站到一些論文來看,然後請教一下相關專業的同學,老師。

這就是我對大數據相關競賽涉及的領域的理解了。另外今年又要開賽了,準備繼續找個合適的賽題參加~貼個大賽的主頁 WID|WeInData|首頁。希望更多大牛參加比賽,和更多大牛認識!


專業領域從計算機科學到統計學、經濟學和數學都有涉及~

以上是我自認為的~具體哪些就由專業人士回答啦~


推薦閱讀:

一道bat面試題:快速替換10億條標題中的5萬個敏感詞,有哪些解決思路?
2013 年末,IBM 連續 6 個季度業績下降,是出了什麼問題?
人工智慧需要學習海量數據,數據的準確性如何來保證呢?
浙江預測擁堵準確率超90%,如何實現的?
北風網培訓大數據,費用 12800,怎麼樣?

TAG:大數據 | Kaggle |