機器學習各語言領域工具庫匯總-中文版

01-26

主要資源來自TensorFlow中文社區，翻譯藉助谷歌翻譯，僅用於資源分享。

相關鏈接：機器學習分享第一彈，TENSORFLOW 資源大全-中文版 - 知乎專欄

以下是根據不同語言類型和應用領域收集的各類工具庫，持續更新中。

C && C ++

通用機器學習

推薦人 -一個產品推薦的?語言庫，利用了協同過濾。

計算機視覺

CCV – C / Cached /核心計算機視覺庫，是一個現代化的計算機視覺庫。
VLFeat – VLFeat是開源的計算機視覺演算法庫，有Matlab工具箱。

OpenCV – 最常用的視覺庫。有C ++，C，Python以及Java介面），支持Windows，Linux，Android和Mac OS。
DLib – DLib有C ++和Python臉部識別和物體檢測介面。
EBLearn – Eblearn是一個面向對象的C ++庫，實現了各種機器學習模型。
VIGRA – VIGRA是一個跨平台的機器視覺和機器學習庫，可以處理任意維度的數據，有Python介面。

通用機器學習

MLPack – 可拓展的C ++機器學習庫。
DLib – 設計為方便嵌入到其他系統中。

encog-CPP鯊魚

Vowpal Wabbit（VW） – 快速的核心外學習系統。
sofia-ml – 快速增量演算法套件。
幕府將軍 – 學徒機器學習工具箱
Caffe – 深度學習框架，結構清晰，可讀性好，速度快。
CXXNET – 精簡的框架，核心代碼不到1000行。
XGBoost – 為並行計算優化過的梯度提升庫。
CUDA – 這是一個快速的C ++ / CUDA實現卷積[DEEP LEARNING]
Stan – 一種使用哈密爾頓蒙特卡洛取樣執行完全貝葉斯統計推理的概率編程語言
BanditLib – 一個簡單的多武裝強盜圖書館。
Timbl – 實現了多個基於內存的演算法，其中IB1-IG（KNN分類演算法）和IGTree（決策樹）在NLP中廣泛應用。

自然語言處理

MIT信息提取工具包 – C，C ++和Python工具，用來命名實體識別和關係抽取。
CRF ++ – 條件隨機場的開源實現，可以用作分詞，詞性標註等。
CRFsuite – CRFsuite是條件隨機場的實現，可以用作詞性標註等。
BLLIP解析器 – 即Charniak-Johnson解析器。
colibri-core – 一組C ++庫，命令行工具以及Python綁定，高效實現了n-gram和skipgrams。
ucto – 多語言tokenizer，支持面向Unicode的正則表達式，支持FoLiA格式。
libfolia – FoLiA格式的 C ++庫
MeTA – MeTA：ModErn文本分析從巨量文本中挖掘數據。

機器翻譯

埃及（GIZA ++）摩西法老SRILMNiuTrans簡SAMT

語音識別

Kaldi – Kaldi是一個C ++工具，以Apache許可證V2.0發布.Kaldi適用於語音識別的研究。

序列分析

ToPS – 這是一個面向對象的框架，有助於在用戶定義的字母表上整合序列的概率模型。

Java

自然語言處理

Cortical.io – Retina：此API執行複雜的NLP操作（消歧義，分類，流文本過濾等），快速，直觀如同大腦一般。
CoreNLP – Stanford CoreNLP提供了一組自然語言分析工具，可採取原始英語文本輸入並給出單詞的基本形式。
斯坦福解析器 – 解析器是一個程序，能分析出句子的語法結構。
Stanford POS Tagger – 詞性標註器
斯坦福大學名稱實體識別器 – 斯坦福大學NER是一個Java實現的命名實體識別器。
Stanford Word Segmenter – 原始文本的令牌化是許多NLP任務的標準預處理步驟。
Tregex，Tsurgeon和Semgrex – Tregex是匹配樹模式的工具，基於樹的關係和正則表達式的節點匹配（「樹正則表達式」的縮寫）。

斯坦福Phrasal：基於短語的翻譯系統

斯坦福英語Tokenizer – Stanford Phrasal是最先進的統計的基於短語的機器翻譯系統，用Java編寫。
斯坦福令牌正則表達式 – 標記器將文本劃分成一系列令牌，大致對應於「單詞」
斯坦福時代標籤 – SUTime是識別和規範時間表達式的庫。
斯坦福SPIED – 從種子集開始，迭代使用模式，從未標註文本中習得實體。
斯坦福主題建模工具箱 – 主題建模工具，社會學家用它分析的數據集。
Twitter Text Java – Java實現的Twitter文本處理庫。
MALLET – 基於Java的軟體包，包括統計自然語言處理，文檔分類，聚類，主題建模，信息提取，以及其它機器學習應用。
OpenNLP – 一個基於機器學習的自然語言處理的工具包。
LingPipe – 計算語言學工具包。
ClearTK – ClearTK提供了開發統計自然語言處理組件的框架，其建立在Apache UIMA之上。
Apache cTAKES – Apache臨床文本分析及知識提取系統（cTAKES）是從電子病歷，臨床文本中進行信息抽取的一個開源系統。

通用機器學習

氣溶膠 – Airbnb從頭開始設計的機器學習庫，易用性好。
Datumbox – 機器學習和統計應用程序的快速開發框架。
ELKI – 數據挖掘工具。（非監督學習：聚類，離群點檢測等。）
Encog中包含用於創建各種網路，以及規範和處理數據的神經網路Encog訓練採用多線程彈性的傳播方式。Encog還可以利用GPU的進一步加快處理時間。有基於GUI的工作台。
H2O – 機器學習引擎，支持Hadoop，Spark等分散式系統和個人電腦，可以通過R，Python，Scala，REST / JSON調用API。
htm.java – 通用機器學習庫，使用Numenta的皮質學習演算法
Java-deeplearning – 分散式深度學習平台Java，Clojure，Scala
JAVA-ML – Java通用機器學習庫，所有演算法統一介面。
JSAT – 具有很多分類，回歸，聚類等機器學習演算法。
Mahout – 分散式機器學習工具。
Meka – 一個開源實現的多標籤分類和評估方法。
Apache Spark中的 MLlib – Spark分散式機器學習庫
Neuroph – 輕量級Java神經網路框架
ORYX – Lambda架構框架，使用Apache Spark和Apache Kafka實現實時大規模機器學習。
RankLib – 排序演算法學習庫。
斯坦福分類器 – 分類器是一種機器學習工具，它將獲取數據項並將它們放入k類之一。
SmileMiner – 統計機器智能和學習引擎
SystemML – 靈活的，可擴展的機器學習語言。
WalnutiQ – 面向對象的人腦模型
Weka – WEKA是機器學習演算法用於數據挖掘任務的演算法集合。

語音識別

CMU Sphinx – 開源工具包，用於語音識別，完全基於Java的語音識別庫。

數據分析，可視化

Hadoop – Hadoop / HDFS
Spark – Spark快速通用的大規模數據處理引擎。
Impala – 實時Hadoop查詢。
DataMelt – 數學軟體，包含數值計算，統計，符號計算，數據分析和數據可視化。

邁克爾·托馬斯·弗拉納根博士的Java科學圖書館

深度學習

Deeplearning4j – 可擴展的產業化的深度學習，利用並行的GPU。

PYTHON

計算機視覺

Scikit-Image – Python中的圖像處理演算法的集合。
SimpleCV – 一個開源的計算機視覺框架，允許訪問幾個高性能計算機視覺庫，如OpenCV。可以運行在Mac，Windows和Ubuntu Linux操作系統上。
Vigranumpy – 計算機視覺庫VIGRA C ++的Python綁定。

自然語言處理

NLTK – 構建與人類語言數據相關工作的Python程序的領先平台。
模式 – 基於Python的Web挖掘模塊。它有自然語言處理，機器學習等工具。
Quepy – 將自然語言問題轉換成資料庫查詢語言。
TextBlob – 為普通的自然語言處理（NLP）任務提供一致的API。構建於NLTK和Pattern上，並且很好地與兩者交互。
YAlign – 句子對齊工具，從對照語料中抽取並行句子。
jieba – 中文分詞工具
SnowNLP – 中文文本處理庫。
loso – 中文分詞工具
天才 – 基於條件隨機場的中文分詞工具
KoNLPy – 韓語自然語言處理
堅果 – 自然語言理解工具
Rosetta – 文字處理工具和包裝紙（例如Vowpal Wabbit）
BLLIP解析器 – BLLIP自然語言解析器的Python綁定（即Charniak-Johnson解析器）
PyNLPl – Python的自然語言處理庫。還包含用於解析常見NLP格式的工具，如FoLiA，以及ARPA語言模型，Moses短語，GIZA ++對齊等。
python-ucto – ucto（面向unicode的基於規則的tokenizer）的Python綁定
python-frog – Frog的Python綁定。荷蘭語的詞性標註，lemmatisation，依存分析，NER。
python-zpar – ZPar的Python綁定（英文的基於統計的詞性標註，constiuency解析器和依賴解析器）
colibri-core – 高效提取n-gram和skipgrams的C ++庫的Python綁定
spaCy – 工業級NLP與Python和Cython。
PyStanfordDependencies – 將Penn Treebank樹轉換到Stanford依存樹的Python介面。

通用機器學習

機器學習 – 構建和Web界面，程序化界面兼容的支持向量機API。相應的數據集存儲到一個SQL資料庫，然後生成用於預測的模型，存儲到一個的NoSQL的資料庫。
XGBoost – eXtreme Gradient Boosting（Tree）庫的Python綁定
Featureforge一組工具，用於創建和測試機器學習的特徵，具有與scikit學習兼容的API
scikit-learning – 基於SciPy的機器學習的Python模塊。
度量學習 – 度量學習的Python模塊
SimpleAI – 實現了「人工智慧現代方法」一書中描述的許多人工智慧演算法。它著重於提供一個易於使用的，文檔良好的和經過測試的庫。
astroML – 天文學機器學習和數據挖掘庫。
graphlab-create – 基於磁碟支持的DataFrame的庫，實現了各種機器學習模型（回歸，聚類，推薦系統，圖形分析等）。
BigML – 與外部伺服器交流的庫。
模式 – Web數據挖掘模塊。
NuPIC – Numenta智能計算平台。
Pylearn2 – 基於Theano的機器學習庫。
keras – 基於Theano的神經網路庫
hebel – GPU加速的Python深度學習庫。
Chainer – 靈活的神經網路架構
gensim – 易用的主題建模工具
topik – 主題建模工具包
PyBrain – 另一個Python機器學習庫。
Crab – 靈活的，快速的推薦引擎
python-recsys – 實現一個推薦系統的Python工具
限制玻爾茲曼機器 – 受限玻爾茲曼機
CoverTree – 覆蓋樹的Python實現，scipy.spatial.kdtree的近似替換
nilearn – NeuroImaging機器學習庫
幕府將軍學習機器學習工具箱
Pyevolve – 遺傳演算法框架
Caffe – 深度學習框架，結構清晰，可讀性好，速度快。
breze – 基於Theano的深度神經網路
pyhsmm -貝葉斯隱馬爾可夫模型近似無監督的推理和顯式時長隱半馬爾可夫模型，專註於貝葉斯非參數擴展時，HDP-HMM和HDP-HSMM，大多是弱極限近似。
mrjob – 使得Python程序可以跑在Hadoop上。
SKLL – 簡化的scikit-learn介面，易於做實驗
neurolab – zueve/neurolab
薄荷 – 貝葉斯演算法的優化。方法見於論文：機器學習演算法的實踐貝葉斯優化。Jasper Snoek，Hugo Larochelle和Ryan P. Adams。2012年神經信息處理系統進展。
Pebl – 貝葉斯學習的Python環境
Theano – 優化GPU元編程代碼，生成面向矩陣的優化的數學編譯器
TensorFlow – 用數據流圖進行數值計算的開源軟體庫
yahmm – 隱馬爾可夫模型，用Cython實現
python-timbl – 包裝了完整的TiMBL C ++編程介面。Timbl是一個精心製作的?最近鄰機器學習工具包。
deap – 進化演算法框架
pydeep – Python深度學習
mlxtend – 對數據科學和機器學習任務非常有用的工具庫。
霓虹燈 – 高性能深度學習框架
Optunity – 致力於自動化超參數優化過程，使用一個簡單的，輕量級的API，以方便直接替換網格搜索。
惹惱 -近似最近鄰居執行
skflow – TensorFlow的簡化界面，類似Scikit Learn。
TPOT – 自動創建並利用遺傳編程優化機器學習的管道。將它看作您的數據科學助理，自動化機器學習中大部分的枯燥工作。

數據分析，可視化

SciPy – 一個基於Python的數據，科學和工程開源軟體生態系統。
NumPy – 用Python進行科學計算的基礎軟體包。
Numba – Python JIT（及時）編譯為LLVM，由Cython和NumPy的開發人員針對科學Python。
NetworkX – 複雜網路的高生產率軟體。
熊貓 – 提供高性能，易於使用的數據結構和數據分析工具的庫。
開放採礦 – Python中的商業智能（BI）（熊貓網路界面）
PyMC – 馬爾可夫鏈蒙特卡洛取樣工具包。
zipline – 一個Pythonic演算法交易庫。
PyDy – Python Dynamics的簡稱，用於協助基於NumPy，SciPy，IPython和matplotlib的動態運動建模中的工作流程。
SymPy – 符號數學的Python庫。
statsmodels – Python中的統計建模和計量經濟學。
astropy – 一個用於天文學的社區Python庫。
matplotlib – 一個Python 2D繪圖庫。
散景 – Python的互動網路繪圖。
劇情 – Python和matplotlib的協作網路繪圖。
vincent – 一個Python到Vega翻譯器。
d3py -一個plottling庫的Python，基於D3.js。
ggplot – 與ggplot2相同的API
ggfortify – ggplot2流行的R包的統一介面。
Kartograph.py – 在Python中呈現美麗的SVG地圖。
pygal – 一個Python SVG圖表創建者。
PyQtGraph – 一個基於PyQt4 / PySide和NumPy的純python圖形和GUI庫。

pycascading

Petrel – 用於編寫，提交，調試和監視純Python中的風暴拓撲的工具。
Blaze – NumPy和Pandas與Big Data介面。
emcee – 仿射不變MCMC的Python集合採樣工具包。
windML – 風能分析與預測的Python框架
vispy – 基於GPU的高性能互動式OpenGL 2D / 3D數據可視化庫
cerebro2 NuPIC的基於Web的可視化和調試平台。
NuPIC Studio一體化NuPIC分層時態內存可視化和調試超級工具！
PySpark上的SparklingPandas Pandas（POPS）
Seaborn – 基於matplotlib的python可視化庫
bqplot – 用於在Jupyter（IPython）中繪製的API

Lisp

通用機器學習

mgl – 神經網路（boltzmann機器，前饋和複發網路），高斯過程
mgl-gpr – 進化演算法
cl-libsvm – libsvm支持向量機庫的包裝器

Clojure

自然語言處理

Clojure-openNLP – Clojure中的自然語言處理（opennlp）
感染 – clj – Clojure和ClojureScript的Rails樣拐彎庫

通用機器學習

Touchstone – Clojure A / B測試庫
Clojush – 他推動編程語言和在Clojure中實現的PushGP遺傳編程系統
Infer – 推理和機器學習在clojure
Clj-ML – 一個用於Clojure的機器學習庫，建於Weka和朋友之上
Encog – 用於Encog（v3）的Clojure包裝器（專門從事神經網路的機器學習框架）
Fungp – Clojure的遺傳編程庫
Statistiker – Clojure中的基本機器學習演算法。
clortex – 通用機器學習庫使用Numenta的皮質學習演算法
comportex – 功能可組合的機器學習庫，使用Numenta的皮質學習演算法

數據分析，可視化

Incanter – Incanter是一個基於Clojure的R類統計計算和圖形平台。
PigPen – Map-Reduce for Clojure。
Envision – Clojure數據可視化庫，基於Statistiker和D3

MATLAB

計算機視覺

輪廓 – 實現輪廓變換的 MATLAB源代碼及其效用函數。
Shearlets – 用於小波變換的MATLAB代碼
曲線 – 曲線變換是小波變換的更高維度泛化，旨在表示不同尺度和不同角度的圖像。
Bandlets – 用於帶狀變換的MATLAB代碼
mexopencv – OpenCV庫的收集和MATLAB mex功能的開發工具包

自然語言處理

NLP – 一個用於Matlab的NLP庫

通用機器學習

t分布隨機相鄰嵌入 – t-SNE是一個獲獎的技術，可以降維，尤其適合高維數據可視化
蜘蛛 – 蜘蛛有望成為matlab里機器學習中的完整的面向對象環境。
LibSVM – 著名的支持向量機庫。
LibLinear – 大型線性分類圖書館
Caffe – 深度學習框架，結構清晰，可讀性好，速度快。
模式識別工具箱 – Matlab機器學習中一個完整的面向對象的環境。
Optunity – 一個致力於自動化超參數優化的庫，具有簡單輕便的API，便於網格搜索的替換。Optunity是用Python編寫的，但與MATLAB無縫連接。致力於自動化超參數優化的一個簡單的，輕量級的API庫，方便直接替換網格搜索。Optunity是用Python編寫的，但與MATLAB的無縫連接。

數據分析，可視化

matlab_gbl – MatlabBGL是一個用於處理圖形的Matlab包。
gamic – 圖形演算法的高效純Matlab實現，以補充MatlabBGL的mex函數。

AForge

計算機視覺

OpenCVDotNet – 用於與.NET應用程序一起使用的OpenCV項目的包裝器。
Emgu CV – OpenCV的跨平台包裝器，可以在Mono中編譯為在Windows，Linus，Mac OS X，iOS和Android上運行。
AForge.NET – 開發人員和研究人員在計算機視覺和人工智慧領域的開源C＃框架。發展現在已經轉移到GitHub。
Accord.NET – 與AForge.NET一起，該庫可以為Windows，Windows RT和Windows Phone提供圖像處理和計算機視覺演算法。一些組件也可用於Java和Android。

自然語言處理

Stanford.NLP for .NET – 一個完整的斯坦福NLP包到.NET，並且可以作為NuGet包預編譯。

通用機器學習

協調框架 – 一個完整的框架，可以用於機器學習，計算機視覺，計算機試聽，信號處理，統計應用等。
Accord.MachineLearning – 支持向量機，決策樹，樸素貝葉斯模型，K均值，高斯混合模型和一般演算法，如機器學習應用的Ransac，交叉驗證和網格搜索。此包是Accord.NET Framework的一部分。
DiffSharp – 一種用於機器學習和優化應用程序的自動差分（AD）庫，提供精確和高效的衍生物（梯度，Hessians，Jacobians，方嚮導數和無矩陣Hessian和Jacobian矢量產品）。操作可以嵌套到任何級別，這意味著您可以計算精確的高階導數並區分在內部使用差異化的功能，例如超參數優化應用程序。
Vulpes – 用F＃編寫的深度信念和深度學習實現，並利用與Alea.cuBase的CUDA GPU執行。
Encog – 一個先進的神經網路和機器學習框架。Encog包含創建各種網路的類，以及支持類來規範和處理這些神經網路的數據。使用多線程彈性傳播的火車。Encog還可以利用GPU來進一步加快處理時間。還提供了基於GUI的工作台來幫助模擬和訓練神經網路。
神經網路設計師 – DBMS管理系統和神經網路設計師。設計師應用程序是使用WPF開發的，是一個用戶界面，允許您設計神經網路，查詢網路，創建和配置可以從您的反饋中提出問題和學習的聊天機器人。聊天機器人甚至可以刮擦互聯網以獲取信息以返回其輸出以及用於學習。

數據分析，可視化

numl – numl是一個機器學習庫，旨在簡化使用標準建模技術進行預測和聚類。
Math.NET數學 – Math.NET項目的數學基礎，旨在為科學，工程和日常使用中的數值計算提供方法和演算法。支持Windows，Linux和Mac上的.Net 4.0，.Net 3.5和Mono; Silverlight 5，WindowsPhone / SL 8，WindowsPhone 8.1和Windows 8與PCL攜帶型配置文件47和344; Android / iOS與Xamarin。
Sho -Sho是用於數據分析和科學計算的互動式環境，可讓您將腳本（在IronPython中）與編譯代碼（.NET）無縫連接，以實現快速靈活的原型設計。環境包括用於線性代數的強大而高效的庫，以及可以從任何.NET語言使用的數據可視化，以及用於快速開發的功能豐富的互動式shell。

Ruby

自然語言處理

對待 – 文本REtrieval和注釋工具包，絕對是我迄今為止遇到的最全面的工具包
Ruby語言學 – 語言學是用於為任何語言的Ruby對象構建語言實用程序的框架。它包括通用語言無關的前端，用於將語言代碼映射到語言名稱的模塊，以及包含各種英語工具的模塊。
Stemmer – 將libstemmer_c發布給Ruby
Ruby Wordnet – 該庫是WordNet的一個Ruby介面
Raspel – raspell是一個綁定ruby的界面
UEA Stemmer – UEALite Stemmer的Ruby埠 – 搜索和索引的保守干預
Twitter-text-rb – 在Twitter中自動鏈接和提取用戶名，列表和主題標籤的圖書館

通用機器學習

Ruby機器學習 – 一些機器學習演算法，在Ruby中實現

機器學習Ruby

jRuby Mahout – JRuby Mahout是在JRuby世界釋放Apache Mahout的力量的寶石。
CardMagic-Classifier – 一種允許貝葉斯和其他類型分類的通用分類器模塊。

數據分析，可視化

rsruby – Ruby – R橋
data-visualization-ruby – 使用Ruby進行數據可視化的Ruby Manor演示文稿的源代碼和支持內容
ruby-plot – 用於ruby的gnuplot包裝，特別是用於將roc曲線繪製到svg文件中
plot-rb – 建立在Vega和D3之上的Ruby中的繪圖庫。
襤褸 – 一個美麗的圖形工具包Ruby

SciRuby

Glean – 人類的數據管理工具

Bioruby阿雷爾

雜項

Listof – 以社區為基礎的數據收集，包裝在寶石。在txt，json或hash中獲取幾乎任何東西（停止詞語，國家，非單詞）的列表。演示/搜索列表

R

通用機器學習

ahaz – ahaz：半參數加性危險回歸的正則化
弧形 – 弧形：採礦協會規則和頻繁項集
bigrf – bigrf：大隨機森林：大數據集的分類和回歸森林
bigRR – bigRR：廣義嶺回歸（對於p >> n個情況具有特殊優勢）
bmrm – bmrm：用於正則化風險最小化包的捆綁方法
Boruta – Boruta：用於所有相關特徵選擇的包裝演算法
bst – bst：漸變提升
C50 – C50：C5.0決策樹和基於規則的模型
插入符號 – 分類和回歸訓練：統一介面到?150 ML演算法在R.
護理裝配 – 護理裝配：適合多個插入符號模型的框架以及創建這種模型的集合。

機器學習的巧妙演算法

CORElearn – CORElearn：分類，回歸，特徵評估和序數評估
CoxBoost – CoxBoost：Cox模型通過基於可能性的單一生存終點提升或競爭風險
立體主義者 – 立體主義者：基於規則和實例的回歸建模
統計部門的其他功能（e1071），TU Wien
地球：多變數自適應回歸樣條模型
elasticnet – elasticnet：彈性網稀疏估計和稀疏PCA
ElemStatLearn – ElemStatLearn：本書的數據集，功能和示例：Trevor Hastie，Robert Tibshirani和Jerome Friedman預測的「統計學習，數據挖掘，推理和預測的要素」，由Trevor Hastie，Robert Tibshirani和Jerome Friedman
evtree – evtree：全球最佳樹的進化學習
fpc – fpc：靈活的聚類過程
frbs – frbs：用於分類和回歸任務的基於模糊規則的系統
GAMBoost – GAMBoost：通過基於可能性的增強的廣義線性和加性模型
gamboostLSS – gamboostLSS：GAMLSS的增強方法
gbm – gbm：廣義增強回歸模型
glmnet – glmnet：拉索和彈性網路正則化廣義線性模型
glmpath – glmpath：L1廣義線性模型和Cox比例危險模型的正則化路徑
GMMBoost – GMMBoost：廣義混合模型的基於可能的推動
grplasso – grplasso：適合用戶指定的模型與組拉索罰款
grpreg – grpreg：具有分組協變數的回歸模型的正則化路徑
h2o – 快速，平行和分散式機器學習演算法的框架 – 深度學習，隨機森林，GBM，KMeans，PCA，GLM
hda – hda：異方差判別分析

統計學習簡介

ipred – ipred：改進的預測器
kernlab – kernlab：基於內核的機器學習實驗室
klaR – klaR：分類和可視化
Lars – lars：最小角度回歸，Lasso和Forward Stage
lasso2 – lasso2：L1約束估計aka』lasso』
LiblineaR – LiblineaR：基於線性C / C ++庫的線性預測模型
LogicReg – LogicReg：邏輯回歸

機器學習黑客

maptree – maptree：映射，修剪和圖形樹模型
mboost – mboost：基於模型的增強
混合混合：混合回歸模型，使用貪心逐步的方法
mlr – mlr：機器學習在R
mvpart – mvpart：多變數分區
ncvreg – ncvreg：SCAD和MCP懲罰回歸模型的正則化路徑
nnet -nnet：前饋神經網路和多項對數線性模型
slope.tree – tilt.tree：分類數據的斜樹
pamr – pamr：Pam：微陣列預測分析
黨派：遞歸提問實驗室
partykit – partykit：一個遞歸提交工具包
懲罰 – 處罰：在GLMs和Cox模型中的L1（套索和融合套索）和L2（脊）懲罰估計
懲罰LDA – 處罰LDA：使用Fisher線性判別的懲罰分類
懲罰的 SVM – 處罰的SVM：使用懲罰函數的特徵選擇SVM
quantregForest – quantregForest：分位數回歸森林
randomForest – randomForest：Breiman和Cutler的隨機森林進行分類和歸一化
randomForestSRC – randomForestSRC：為生存，回歸和分類隨機森林（RF-SRC）
rattle – rattle：R中數據挖掘的圖形用戶界面
rda – rda：Shrunken Centroids正則判別分析
rdetools – rdetools：特徵空間中的相關維度估計（RDE）
REEMtree – REEMtree：回歸樹與縱向（面板）數據隨機效應
relaxo – relaxo：輕鬆的套索
rgenoud – rgenoud：R版本的使用衍生物的遺傳優化
rgp – rgp：R遺傳編程框架
Rmalschains – Rmalschains：使用R中的本地搜索鏈（MA-LS鏈）的Memetic演算法進行連續優化
最簡單的：在分類和回歸中更簡單地使用數據挖掘方法（如NN和SVM）
ROCR – ROCR：可視化評分分類器的性能
RoughSets – RoughSets：數據分析基於粗糙集與模糊粗糙集理論
rpart – rpart：遞歸分區和回歸樹
RPMM – RPMM：遞歸分區混合模型
RSNNS – RSNNS：使用斯圖加特神經網路模擬器（SNNS）的R中的神經網路
RWeka – RWeka：R / Weka界面
RXshrink – RXshrink：通過通用脊或最小角度回歸的最大似然收縮
sda -sda：收縮判別分析和CAT分數變數選擇
SDDA – SDDA：逐步對角判別分析
超級聽眾和組合 – 多演算法集成學習包。
svmpath – svmpath：svmpath：SVM路徑演算法
tgp – tgp：貝葉斯高斯過程模型
樹 – 樹：分類和回歸樹
varSelRF – varSelRF：使用隨機林的變數選擇
XGBoost.R – R綁定用於eXtreme漸變提升（樹）庫
Optunity – 一個致力於自動化超參數優化的庫，具有簡單輕便的API，便於網格搜索的替換。Optunity是用Python編寫的，但是可以無縫地連接到R.

數據分析，可視化

ggplot2 – 基於圖形語法的數據可視化包。

scala

自然語言處理

ScalaNLP – ScalaNLP是一套機器學習和數字計算庫。
微風 – 微風是Scala的數字處理庫。
粉筆 – 粉筆是自然語言處理圖書館。
FACTORIE – FACTORIE是可部署概率建模的工具包，在Scala中作為軟體庫實現。它為用戶提供了一種簡潔的語言，用於創建關係因子圖，估計參數和執行推理。

數據分析，可視化

Apache Spark中的 MLlib – Spark中的分散式機器學習庫
Scalding – 用於級聯的Scala API
總結鳥 – 流行的MapReduce與Scalding和風暴
Algebird – Scala的抽象代數
xerial – Scala的數據管理工具
煨 – 減少你的數據。用於algebird供電聚合的unix過濾器。
PredictionIO – PredictionIO，用於軟體開發人員和數據工程師的機器學習伺服器。
BIDMat – CPU和GPU加速矩陣庫，旨在支持大規模的探索性數據分析。
沃爾夫聲明機器學習

通用機器學習

推測 – 可擴展機器學習在縮放
刷火 – Scala中的分散式決策樹合奏學習
ganitha – 燙金機器學習
adam – 使用Apache Avro，Apache Spark和Parquet構建的基因組處理引擎和專用文件格式。Apache 2許可。
bioscala – Scala編程語言的生物信息學
BIDMach – CPU和GPU加速機器學習庫。
費加羅 – 構建概率模型的Scala庫。
H2O閃蒸水 – H2O和Spark互操作性。