個人推薦系統有哪些開源項目？

12-30

個性化推薦系統？

1.SVDFeature

主頁：SVDFeature - SVDFeature 語言：C++

一個feature-based協同過濾和排序工具，由上海交大Apex實驗室開發，代碼質量較高。在KDD Cup 2012中獲得第一名，KDD Cup 2011中獲得第三名，相關論文發表在2012的JMLR中，這足以說明它的高大上。

SVDFeature包含一個很靈活的Matrix Factorization推薦框架，能方便的實現SVD、SVD++等方法, 是單模型推薦演算法中精度最高的一種。SVDFeature代碼精鍊，可以用相對較少的內存實現較大規模的單機版矩陣分解運算。另外含有Logistic regression的model，可以很方便的用來進行ensemble。

2.LibMF

主頁：LIBMF: A Software for Matrix Factorization for Recommender Systems 語言：C++

作者Chih-Jen Lin來自大名鼎鼎的台灣國立大學，他們在機器學習領域享有盛名，近年連續多屆KDD Cup競賽上均獲得優異成績，並曾連續多年獲得冠軍。台灣大學的風格非常務實，業界常用的LibSVM， Liblinear等都是他們開發的，開源代碼的效率和質量都非常高。

LibMF在矩陣分解的並行化方面作出了很好的貢獻，針對SGD（隨即梯度下降）優化方法在並行計算中存在的locking problem和memory discontinuity問題，提出了一種矩陣分解的高效演算法FPSGD（Fast Parallel SGD），根據計算節點的個數來劃分評分矩陣block，並分配計算節點。系統介紹可以見這篇論文（ACM Recsys 2013的 Best paper Award）。

3.LibFM

主頁：libFM 語言：C++

作者是德國Konstanz大學的Steffen Rendle，他用LibFM同時玩轉KDD Cup 2012 Track1和Track2兩個子競賽單元，都取得了很好的成績，說明LibFM是非常管用的利器。

LibFM是專門用於矩陣分解的利器，尤其是其中實現了MCMC（Markov Chain Monte Carlo）優化演算法，比常見的SGD優化方法精度要高，但運算速度要慢一些。當然LibFM中還實現了SGD、SGDA（Adaptive SGD）、ALS（Alternating Least Squares）等演算法。

4.Lenskit

主頁：LensKit Recommender Toolkit 語言Java

這個Java開發的開源推薦系統，來自美國的明尼蘇達大學的GroupLens團隊，也是推薦領域知名的測試數據集Movielens的作者。

該源碼託管在GitHub上，lenskit/lenskit · GitHub。主要包含lenskit-api,lenskit-core, lenskit-knn,lenskit-svd,lenskit-slopone,lenskit-parent,lenskit-data-structures,lenskit-eval,lenskit-test等模塊，主要實現了k-NN，SVD，Slope-One等典型的推薦系統演算法。

5.GraphLab

主頁：GraphLab - Collaborative Filtering 語言：C++

Graphlab是基於C++開發的一個高性能分散式graph處理挖掘系統，特點是對迭代的並行計算處理能力強（這方面是hadoop的弱項），由於功能獨到，GraphLab在業界名聲很響。用GraphLab來進行大數據量的random walk或graph-based的推薦演算法非常有效。Graphlab雖然名氣比較響亮（CMU開發），但是對一般數據量的應用來說可能還用不上。

GraphLab主要實現了ALS，CCD++，SGD，Bias-SGD，SVD++，Weighted-ALS，Sparse-ALS，Non-negative Matrix Factorization，Restarted Lanczos Algorithm等演算法。

6.Mahout

主頁：Apache Mahout: Scalable machine learning and data mining 語言：Java

Mahout 是 Apache Software Foundation (ASF) 開發的一個全新的開源項目，其主要目標是創建一些可伸縮的機器學習演算法，供開發人員在 Apache 在許可下免費使用。Mahout項目是由 Apache Lucene社區中對機器學習感興趣的一些成員發起的，他們希望建立一個可靠、文檔翔實、可伸縮的項目，在其中實現一些常見的用於聚類和分類的機器學習演算法。該社區最初基於 Ngetal. 的文章「Map-Reduce for Machine Learning on Multicore」，但此後在發展中又併入了更多廣泛的機器學習方法，包括Collaborative Filtering（CF），Dimensionality Reduction，Topic Models等。此外，通過使用 Apache Hadoop 庫，Mahout 可以有效地擴展到雲中。

在Mahout的Recommendation類演算法中，主要有User-Based CF，Item-Based CF，ALS，ALS on Implicit Feedback，Weighted MF，SVD++，Parallel SGD等。

7.Myrrix

主頁：http://myrrix.com/ 語言：Java

Myrrix最初是Mahout的作者之一Sean Owen基於Mahout開發的一個試驗性質的推薦系統。目前Myrrix已經是一個完整的、實時的、可擴展的集群和推薦系統，主要架構分為兩部分：服務層：在線服務，響應請求、數據讀入、提供實時推薦；計算層：用於分散式離線計算，在後台使用分散式機器學習演算法為服務層更新機器學習模型。Myrrix使用這兩個層構建了一個完整的推薦系統，服務層是一個HTTP伺服器，能夠接收更新，並在毫秒級別內計算出更新結果。服務層可以單獨使用，無需計算層，它會在本地運行機器學習演算法。計算層也可以單獨使用，其本質是一系列的Hadoop jobs。目前Myrrix以被 Cloudera 併入Oryx項目。

8.EasyRec

主頁：easyrec :: open source recommendation engine 語言：Java

EasyRec是一個易集成、易擴展、功能強大且具有可視化管理的推薦系統，更像一個完整的推薦產品，包括了數據錄入模塊、管理模塊、推薦挖掘、離線分析等。 EasyRec可以同時給多個不同的網站提供推薦服務，通過tenant來區分不同的網站。架設EasyRec伺服器，為網站申請tenant，通過tenant就可以很方便的集成到網站中。通過各種不同的數據收集（view,buy.rating）API收集到網站的用戶行為，EasyRec通過離線分析，就可以產生推薦信息，您的網站就可以通過 Recommendations和Community Rankings來進行推薦業務的實現。

9.Waffles

主頁：http://waffles.sourceforge.net/ 語言：C++

Waffles英文原意是蜂蜜甜餅，在這裡卻指代一個非常強大的機器學習的開源工具包。Waffles里包含的演算法特別多，涉及機器學習的方方面面，推薦系統位於其中的Waffles_recommend tool，大概只佔整個Waffles的1/10的內容，其它還有分類、聚類、採樣、降維、數據可視化、音頻處理等許許多多工具包，估計能與之媲美的也就數Weka了。

10.RapidMiner

主頁：Predictive Analytics, Data Mining, Self-service, Open source 語言：Java

RapidMiner（前身是Yale）是一個比較成熟的數據挖掘解決方案，包括常見的機器學習、NLP、推薦、預測等方法（推薦只佔其中很小一部分），而且帶有GUI的數據分析環境，數據ETL、預處理、可視化、評估、部署等整套系統都有。另外RapidMiner提供commercial license，提供R語言介面，感覺在向著一個商用的數據挖掘公司的方向在前進。

補充一個python的surprise lib，本人也有小小地貢獻過代碼：surprise