收藏學習 | 2018年 Python 機器學習開源項目 Top20

06-26

引言

我們更新了頂級的AI和機器學習的python項目，由於貢獻者數量經過三位數的增長，tensorflow已經上升為第一位，Scikit-learn下降至第二位，但仍然有非常大的貢獻者基數。

研究機器學習和AI不是一個容易的事情。許多有志研究的專業人士和愛好者發現，在當下有各種各樣資源的情況下，要找到一條通往該領域的正確路徑是一件很困難的事情。這個領域在不斷發展，更重要的是我們要緊跟這個領域的發展。

為了緊跟這種日新月異的發展速度，一個保持了解和學習機器學習前沿的方法是，通過參與到開源社區，和為被很多專業人士使用的開源項目和工具做出貢獻。

我們在此更新數據並分析我們上一次發布的Top20 python機器學習開源項目(2016年11月)以來的發展趨勢。

由於貢獻者數量經過三位數的增長，tensorflow已經上升為第一位。Scikit-learn下降至第二位，但仍然有非常大的貢獻者基數。

和2016年的統計相比，2018年以下項目貢獻者數量的增長速度最快：

1.TensorFlow,貢獻者數量從493增長到1324，增長了168%

2.Deap，貢獻者數量從21增長到39，增長了86%

3.Chainer，貢獻者數量從84增長到154，增長了83%

4.Gensim，貢獻者數量從145增長到262，增長了81%

5.Neon，貢獻者數量從47增長到78，增長了66%

6.Nilearn，貢獻者數量從46增長到69，增長了50%

Github上Top20 AI和機器學習python開源項目

如圖所示，大小和貢獻者數量成正比，顏色代表貢獻者數量的變化，其中紅色代表變化越大，藍色代表變化越小，雪花形狀的項目表示可用於深度學習，也可以用於其它機器學習。

我們看到像TensorFlow，Theano和Caffe這樣的深度學習項目是最受歡迎的項目之一。
下面的排名是根據Github上貢獻者的數量，並以降序給出的結果，其貢獻者的數量的變化是與2016 KDnuggets發布前20名機器學習python開源項目相比較。

我們希望您能夠享受這一過程，即通過閱讀文檔，並以合作的方式和使用Python進行機器學習的研究。
1.TensorFlow

最初是由研究員和工程師開發出來的。一直以來，這些研究員和工程師都在致力於為谷歌機器智能研究機構下屬的谷歌大腦團隊服務。TensorFlow這個系統被設計出來的初衷，一是為了能給機器學習的相關研究提供便利，二則是為了能讓研究成果向生產應用的過渡變得簡單高效。

代碼貢獻者數量：1324（增長了168%），代碼提交次數：28476，Stars：92359。Github URL：TensorFlow

2.Scikit-learn

是一種專門應用於數據挖掘和數據分析的簡單而有效的工具。每個人都能運用這一工具，並且這個工具還能在各種文本中被重複利用。同時，它還建立在NumPy、SciPy和matplotlib、開放源代碼以及具有商業使用價值的BSD許可證等工具的基礎之上。

代碼貢獻者數量：1019（增長了39% ），代碼提交次數：22575，Github URL：Scikit-learn

3.Keras

是一個高級的神經網路API，它主要用Python開發，並且能夠在TensorFlow, CNTK或是在Theano.上運行。

代碼貢獻者數量：628（新的），代碼提交次數：28476，Github URL：Keras

4. PyTorch

其張量和動態神經網路具有強大的GPU加速能力。

代碼貢獻者數量：399（新的），代碼提交次數：6458，Github URL：PyTorch

5. Theano

能高效地定義、優化和評估涉及多維數組的數學表達式。

代碼貢獻者數量：327（增長了24% ），代碼提交次數：27931，Github URL：Theano

6. Gensim

是一個具有諸多特徵並可供免費使用的Python庫。它具有可伸縮的統計語義，同時它也能分析純文本文檔的語義結構，並檢索語義上相似的文檔。

代碼貢獻者數量：262（增長了81% ），代碼提交次數：3549，Github URL：Gensim

7. Caffe

是一個融合了表達、速度和模塊化思想的深層次學習框架。它是由伯克利視覺和學習中心（BVLC）以及社區貢獻者共同開發的。

代碼貢獻者數量：260（增長了21%），代碼提交次數：4099，Github URL：Caffe

8. Chainer

是一個基於Python的獨立開源框架，主要用於深度學習模型。Chainer能夠提供靈活、直觀和高性能的手段來實現大規模的深度學習模型，包括諸如遞歸神經網路和變分自動編碼器等最新的模型。

代碼貢獻者數量：154（增長了84% ），代碼提交次數：12613，Github URL：Chainer

9. Statsmodels

是一個Python模塊，它能讓用戶探索數據，估計統計模型，並執行統計測試。同時，一系列廣泛的描述性統計、統計測試、繪圖功能，和結果統計表均可用於不同類型的數據和各個估計元素。

代碼貢獻者數量：144（增長了33% ），代碼提交次數：9729，Github URL：Statsmodels

10. Shogun

是一種機器學習工具箱，它能夠提供大規模統一而高效的機器學習（ML）方法。這個工具箱能輕鬆地將多樣的數據樣本值、演算法類和通用類工具緊密地結合在一起。

代碼貢獻者數量：139（增長了32%），代碼提交次數：16362，Github URL：Shogun

11. Pylearn2

是一個機器學習庫。它的大部分功能都是建立在Teano之上。這意味著您可以使用數學表達式編寫Pylearn2插件（新模型、演算法等），同時Teano也會幫助您優化並穩定這些表達式，並將這些表達式編譯到您選擇的後端（CPU或GPU）。

代碼貢獻者數量：119（增長了3.5%），代碼提交次數：7119，Github URL：Pylearn2

12.NuPIC

是一個基於新皮質理論的開源項目，因此也被稱為分級時間記憶（HTM）。HTM理論的部分內容已經在實際應用中被實踐、測試和使用，並且HTM理論中的其他部分也仍在被發展中。

代碼貢獻者數量：85（增長了12% ），代碼提交次數：6588，Github URL：NuPIC

13.Neon

是Nervana開發的基於Python語言的深度學習庫。它在提供便利的同時，也在傳送最高的性能。

代碼貢獻者數量：78（增長了66%），代碼提交次數：1112，Github URL：Neon

14.Nilearn

是一個Python模塊，主要用於神經影像數據快速而簡單的統計學習。它主要將scikit-learn Python工具箱用於多元統計，並結合相關諸如預測建模，分類，解碼，或連通性分析等的應用程序。

代碼貢獻者數量：69（增長了50%），代碼提交次數：6198，Github URL：Nilearn

15.Orange3

是為新手和專家專門準備的開源機器學習和數據可視化工具。Orange3具有大工具箱的互動式數據分析功能。

代碼貢獻者數量：53（增長了33%），代碼提交次數：8915，Github URL：Orange3

16.Pymc

是一個python工具包，實現了貝葉斯統計模型和擬合演算法，包括馬可夫鏈、蒙特卡羅。它的靈活性和可拓展性可以適應很多的場景。

代碼貢獻者數量：39（增長了5.4%），代碼提交次數：2721，Github URL：Pymc

17.Deap

是一個被用於快速原型設計和思想測試的新型的演化計算框架。它試圖使演算法變得明確，數據結構變得透明，它與multiprocessing和SCOOP等並行機制完美協調。

代碼貢獻者數量：39（增長了86%），代碼提交次數：1960，Github URL：Deap

18.Annoy(Approximate Nearest Neighbors Oh Yeah)

是一個帶Python綁定的C ++庫，用於搜索接近給定查詢點的空間點.它也創建映射到內存的大型只讀文件數據結構，這樣許多進程可以共享相同的數據。

代碼貢獻者數量：35（增長了46%），代碼提交次數：527，Github URL：Annoy

19.PyBrain

是一個基於Python的模塊化機器學習庫，其目標是為機器學習任務提供靈活的、容易使用的、但仍有效的演算法，以及各種預定義環境進行測試和比較。

代碼貢獻者數量：32（增長了3%），代碼提交次數：992，Github URL：PyBrain

20.Fuel

是一個數據管道框架，它為機器學習模型提供其所需的數據。Fuel將被計劃用於Block和Pylearn2神經網路庫。

代碼貢獻者數量：32（增長了10%），代碼提交次數：1116，Github URL：Fuel

翻譯：liiyuannn shan?
審校：tao?
原文：https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-learning-open-source-projects.html

關注集智AI學園公眾號

獲取更多更有趣的AI教程吧！

搜索微信公眾號：swarmAI

集智AI學園QQ群：426390994

學園網站：http://campus.swarma.org

http://weixin.qq.com/r/FzpGXp3ElMDrrdk9928F (二維碼自動識別)