如何擴充你的數據科學工具包?這裡有24款免費的數據科學工具!
數據分析工具是數據科學領域的重要組成部分。開源社區多年來一直致力於開發數據科學工具從而為該領域做出重要貢獻。數據科學界一直在討論如何使用開源技術,而不是像IBM和微軟這樣的公司提供專有軟體。事實上,很多大企業已經開始開發開源解決方案從而他們可以留住用戶,同時開源數據科學工具也已經成為數據科學領域的主導地位。因為從數據挖掘到編程語言有各種各樣的開源工具可供使用,因此我們將數據科學家可以添加到他們的數據科學工具包中的技術匯總在一起供大家參考。
1 R語言
R語言是用來進行數據挖掘和數據可視化的一種編程語言。它誕生於1995年,是一款在數據科學家和商業分析師之間廣泛運用的工具。它的開源版本S語言被廣泛運用在統計研究中。據數據科學家稱,R是更容易學習的語言之一,因為有大量的軟體包和指南可供用戶使用。
2 Python
Python是另外一個在數據科學領域應用廣泛的語言。它由荷蘭的程序員Guido Van Rossem開發。它是一種通用編程語言,專註於可讀性和簡單性。如果你不是程序員,但想要學習編程語言,Python是一門很好的入門語言。 它比其他通用語言更容易,並且有許多教程可供非程序員學習。您可以使用Python進行各種分析,如情感分析或時間序列分析,這是一種非常通用的通用編程語言。您可以瀏覽開放的數據集並執行Twitter帳戶的情緒分析等。
3 KNIME
KNIME是一家總部位於世界各地主要技術中心的軟體公司。 該公司提供用Java編寫的開源分析平台,用於數據報告,挖掘和預測分析。該基礎平台可以通過公司提供的一系列商業擴展進行升級,包括協作,生產力和性能擴展。
4 Gawk
Gawk是awk的開源版本,它是專用於處理文件的編程語言。Awk是Unix操作系統的許多組件之一。 Gawk是awk的GNU版本,它可以很容易地對文本文件進行更改,並允許用戶提取數據並生成報告。
5 Weka
Weka是由懷卡託大學用Java編寫的機器學習軟體。 它用於數據挖掘,允許用戶使用大量數據。 Weka的一些功能包括預處理,分類,回歸,聚類,實驗,工作流和可視化。 然而,與R和Python相比,它缺少高級功能,這就是為什麼它在工作環境中不被廣泛使用。
6 Scala
Scala是一種在Java平台上運行的通用編程語言。 非常適用於大型數據集,主要與Apache Spark和Apache Kafka等大數據工具一起使用。 這種功能性編程風格帶來了高效的生產力,使得它逐漸被越來越多的公司作為其數據科學工具包的重要組成部分。
7 SQL
結構化查詢語言(SQL)是處理關係資料庫中數據的專用編程語言。 SQL用於更基礎的數據分析,並且可以組織和處理數據或從資料庫檢索數據。 由於SQL已經被組織使用了數十年,現在已經形成了一個可供數據科學家們探索的龐大的SQL生態系統。 在數據科學工具中,它被評為對資料庫進行篩選和的提取最佳工具之一。
8 RapidMiner
RapidMiner是一款具有可視化和統計建模功能的預測性分析工具。RapidMiner的基礎RapidMiner Studio是一個免費的開源平台。該公司還提供可購買的企業級附加產品以補充基礎平台的功能。
9 Scikit-learn
Scikit-learn是一個機器學習工具包,主要用Python編寫,並構建在SciPy庫上。它最初是作為Google Summer of Code的一個項目開發形成,在這個項目上Google會獎勵能夠開發有價值的開源軟體的學生。Scikit-learn提供了許多功能,包括數據分類,回歸,聚類,降維,模型選擇和預處理。
10 Apache Hadoop
Apache Hadoop軟體庫是一個用Java編寫的框架,用於處理大型和複雜的數據集。 Apache Hadoop框架的基本模塊包括Hadoop Common,Hadoop分散式文件系統(HDFS),Hadoop Yarn和Hadoop MapReduce。
11 Apache Mahout
Apache Mahout是構建可伸縮機器學習演算法的環境。 演算法是在Hadoop之上編寫的。 Mahout執行三項主要的機器學習任務:協作過濾,聚類和分類。
12 Apache Spark
Apache Spark是用於數據分析的集群計算框架。因其大數據處理能力、快速和易用性,大型組織選擇使用Apache Spark。 它最初是作為Spark在加利福尼亞大學開發的,後來,源代碼被捐贈給Apache基金會,以便它永遠免費。 由於其高速性,與其他大數據工具相比它更受歡迎。
13 SciPi
SciPi或Scientific Python是基於Python的計算生態系統。 它提供了許多核心組件,包括用於數值計算的NumPy,用於繪圖的Matplotlib以及是作為演算法庫和數學工具包的SciPy。
14 Orange
Orange是一種數據科學工具,它致力於使數據科學變得有趣和具有互動性。 與這裡討論的許多工具相比,這個工具很簡單,並且持續吸引數據科學家的興趣。 它使用戶無需編碼即可對數據進行分析和可視化。同時它為初學者提供了機器學習功能。
15 Axiis
Axiis是數據科學工具中鮮為人知的數據可視化框架。 它允許用戶使用預先構建的組件以簡明扼要的形式構建圖表並探索數據。
16 Impala
Impala是Apache Hadoop的大規模並行處理(MPP)資料庫。 數據科學家和分析師用它對存儲在Apache Hadoop集群中的數據執行SQL查詢。
17 Apache Drill
Apache Drill是Google Dremel的開源版本,用於大型資料庫的互動式查詢。 它功能強大且靈活,支持以不同格式存儲在文件或NoSQL資料庫中的數據,並且是多功能的數據科學工具之一。
18 Data Melt
Data Melt是一種數學軟體,其先進的數學計算,統計分析和數據挖掘功能讓您的生活更輕鬆。 該軟體可以用編程語言進行補充以增加可定製性,同時軟體中還包括大量的教程庫。
19 Julia
Julia是一款用於技術計算的動態編程語言。儘管它並未被廣泛使用,但是由於其敏捷性,設計感和高性能,正在數據科學領域中普及。
20 D3
D3是一個用於在瀏覽器中構建互動式數據可視化的JavaScript庫。 它允許數據科學家創建具有高度可定製性的豐富可視化樣式。 如果您希望高效地展示數據洞察力,那麼D3能夠很好地補充您的數據科學工具箱。
21 Apache Storm
Apache Storm是用於實時分析的計算平台。它經常被拿來與Apache Spark比較,並且被稱為比Spark更好的流引擎。 它是用Clojure語言編寫的,並且被稱為簡單易用的工具。
22 MongoDB
MongoDB是一個NoSQL資料庫,以其可擴展性和高性能而聞名。 它為傳統資料庫提供了一種強大的替代方案,並使數據在特定應用程序中的集成更加容易。如果您打算構建大型的webapp,它可能是數據科學工具包中不可或缺的一部分。
23 TensorFlow
TensorFlow是Google Brain Team為推進機器學習而聚合的產物。 這是一個為學生,研究人員,黑客和創新者構建的用於數值計算的軟體庫。 它允許程序員在不需要了解其背後的一些複雜原理的情況下就能夠獲得深度學習的力量,並且可以成為幫助成千上萬公司進行深入學習的數據科學工具之一。
24 Keras
Keras是一個用Python編寫的深度學習庫。 它在後端引擎TensorFlow上運行,可以進行快速實驗。Keras的開發旨在使深度學習模型更加容易,並幫助用戶以高效智能的方式處理數據。
希望這篇文章能夠為您的數據科學工具包提供一些新的工具!
推薦閱讀:
※數據可視化分析工具實現精準營銷
※Kylin 初體驗總結(kafka+superset+ldap)
※奧威OurwayBI教程《養成數據思維,分析工具get起來》開課啦 !
※ClickHouse數據壓縮[譯文]
※4個最受歡迎的大數據可視化工具