有人參加KDD CUP 2012嗎?應該怎樣入手呢?

http://www.kddcup2012.org/

ACM搞的數據挖掘的一個大賽,我們的人工智慧課將其作為一個大作業來參與,可小女對於數據挖掘幾乎絲毫沒有了解,不知如何下手。

大概是根據騰訊發布的巨大的騰訊微博的資料庫(包括用戶最近行為、用戶的TAG、以往為用戶推薦某人是否成功等等)來對一個test data判斷應該為用戶推薦哪些名人。

就是不知道從何下手,當然不求獲獎,只求跑出來一個還行的結果,是通過WEKA之類的數據挖掘軟體呢,還是自己寫演算法?總之現在非常迷茫,希望前輩點撥一下~~~

又看了看,協同過濾演算法(collaborative filtering)?

如何利用已有的一些資源實現呢?


現實世界中的問題都比抽象出來的模型要複雜,從模型上來講,和這個問題最相近的是傳統的內容推薦的方法。如下是一些思路:

  1. 基於用戶興趣以及被推薦Item本身的Feature的方法,也稱為Content-based filtering。這在Item變化頻繁的產品中,比如Google News考慮得較多;
  2. 基於被推薦Item之間的關係,比如Item-based collaborative filtering。Amazon等商品推薦中對這個方法利用是最早的;
  3. 基於用戶的資料信息的方法,比如Demographic-based recommendation,在早期用的相對多些;
  4. 基於用戶關係的方法,比如Social recommendation,Facebook的基於好友關係網路的好友推薦演算法也可以歸到這個類別中來;
  5. 基於被推薦Item的屬性的相關性的方法,比如Knowledge-based recommendation,一些問答類產品基本上對這個方法使用較多。

當然,更多的方案是根據問題中的數據和目的,綜合考慮如上一些方法。總的來講,對於效果來講,問題本身的定義,以及數據的收集整理,相比推薦方法更重要。


python+《集體智慧編程》,剩下的就是創意啦~

補充:

恩恩,是這樣的,推薦其實是一些策略的混合使用

主要先介紹兩個:

1.基於人口統計(比如我們可以挖掘得知男人更愛買避孕套女人更愛買衛生巾),然後就可以給任何一個要推薦的item打標籤(適於男或適於女)或給任何一個user打標籤(男女,年齡)

然後我們有了某個user的人口屬性(標籤,比如男),再知道男人愛打男性標籤的item(如避孕套),這個mapping有了,推薦就可做了

核心是建立userProfile和itemProfile,然後推薦系統就是他倆之間的映射關係

2.基於協同過濾(只說item-based),所謂協同過濾,就是通過用戶對某個item的行為(如購買,收聽,打分等)來反向計算兩個item相似度(歐式距離,cos,交集比並集等等)。然後相似的物品打包推薦

然後還可以有很多策略或規則,比如好友喜歡的也許自己也會喜歡(好友推薦,朋友的朋友基本也是朋友,對吧)發揮創意的時刻,看你看世界的角度啦~

paper如果看不懂就先別看了,描述的太學術了...數學儲備的話呢,理解啥是向量,會向量化的看item,會算並理解一些向量間距離計算(歐式,cos夾角等)公式,就差不多了,基本都是初中高中數學(如果做的很簡單的話)

如果只是想做個推薦系統,不求精深,還是容易的,以上這些如果看不懂可以舉下例子,做這個不難的


數據太大,需要特殊處理的。比如用map reduce 或是其它方法,weka肯定是秒殺的。


準備做track2的,結果自己的小PC弱爆了,硬碟、內存神馬的各種不夠


可以用R和Python試試看,最好找台大內存的機器,2G肯定是不夠的。。


您好,我想問一下有關KDD Cup2012的問題,我下載了tencent給出的數據,做一個聚類分析,用matlab,hierarchical聚類,K-means,FCM,譜聚類,混合高斯模型等,track1的數據我怎樣預處理呢~~~要用關聯規則怎麼用呢~~~我用什麼屬性,聚出什麼樣的類比較有意義呢,給點建議吧~~


推薦閱讀:

實時操作系統(RTOS)和通用操作系統(OS)之間的區別
綜述論文:情感分析中的深度學習
智能金融變魔術的6個步驟
人工智慧社會學—未來新興學科?
千里之外取人貞操要還是不要

TAG:人工智慧 | 數據挖掘 | KDDCUP |