2018年一定要收藏的20款免費預測分析軟體!

【IT168 技術】本文推薦一些免費的預測分析軟體,它們主要用於分析統計使用,機器學習和數據挖掘來尋找關於客戶行為,市場趨勢和原始數據集中其他領域的線索的相關性和模式。其中一些預測建模解決方案可通過許可,免費獲得開源或社區版本;其中一些預測分析軟體是商業版本的免費版或社區版,但提供的功能較少。

  什麼是預測分析軟體?

預測分析是高級分析的一個分支,用於對未來未知事件進行預測。預測分析使用數據挖掘,統計,建模,機器學習和人工智慧等多種技術來分析當前數據,以預測未來!那麼下面將為大家簡單介紹一下以下的20多款工具!

  1.R Software Environment

R是用於統計計算和圖形的免費軟體,可運行在各種UNIX,Windows和Mac OS平台上。R提供了廣泛的統計功能,如線性,非線性建模,經典統計測試,時間序列分析,分類,聚類和圖形技術。它也是高度可擴展的,提供數據操作,計算和圖形顯示,數據處理,數組計算,數據分析工具,包括條件,循環和許多其他功能的編程語言。語言主要用於統計方法論的研究,R為它們提供了一個開源的途徑,可以在R中產生精心設計的質量圖,包括數學符號和公式。

  2.Dataiku

Dataiku Data Studio(DSS)是一個軟體平台,匯總了從原始數據到生產應用程序所需的所有步驟和大數據工具。DSS分析數據通過簡單的界面操作,即可找到數據中的相關性和重要變數,並測試最佳擬合模型。DSS還可以將模型和預測值發布到各種其他目的地,例如ElasticSearch,FTP伺服器和內部數據倉庫。

  3.Orange Data mining

Orange Data mining是一個開源的數據可視化和分析工具。數據挖掘是通過可視化編程或通過Python腳本完成的。Orange會記住這些選擇,提供最常用的組合,並智能地選擇要使用的小部件之間的通信通道。可以利用情節,條形圖,樹狀圖,網路和熱圖來進行可視化。有機器學習的組件,可用於生物信息學和文本挖掘。該解決方案包含了用於數據分析的功能,並且在Orange中有超過100個小部件。

  4.RapidMiner

RapidMiner可作為數據分析的獨立應用程序使用,也可作為集成到專有產品中的數據挖掘引擎。RapidMiner提供數據挖掘和機器學習程序,包括數據載入和轉換,數據預處理,可視化,建模,評估和部署。RapidMiner是用Java編程語言編寫的。它採用的學習計劃和歸屬來自於Weka的機器學習環境,統計建模方案來自R Project。可用於文本挖掘,多媒體挖掘,功能設計,數據流挖掘的集成方法的發展,以及分散式數據挖掘。

RapidMiner v6.0仍然是開源的。RapidMiner的最新版本現在僅作為試用版或商業許可證提供。

  5.Anaconda

Anaconda是一個由Python支持的開放式數據科學平台。 Anaconda的開源版本是Python和R的高性能版本,包括超過100種用於數據科學的最受歡迎的Python,R和Scala軟體包。還可以訪問超過720個軟體包,可以使用包含在Anaconda中的conda,包,從屬關係等。

  6.KNIME

KNIME桌面版是開源的,是用戶友好的數據訪問,數據轉換,初步調查,預測分析,可視化和報告的圖形工作台。開放的集成平台提供了1000多個模塊或節點。KNIME還提供了基於數據信息開發報告的能力,並將新見解的應用自動化回到生產系統。KNIME產品有KNIME Desktop,KNIME Professional,KNIME Team Space,KNIME Server和KNIME Cluster Execution。 KNIME Desktop可以自由下載到桌面。基於Eclipse平台的,並且有雙重許可證。非開源產品中的功能包括共享存儲庫,身份驗證,遠程執行,調度,SOA集成和Web用戶界面。

  7.DMWay

DMWay使得預測分析更易於獲取並且價格合理。DMWay解決方案允許用戶在幾個小時或幾天而不是幾個月的時間內建立更好的預測模型,這可以適應任何行業。DMWay分析引擎可以提供最高級別的建模。分析引擎設計用於模擬經驗豐富的數據科學家採取的步驟,以建立準確有效的分析模型。DMWay評分引擎是建議企業尋求協助部署由分析引擎提供的預測分析結果的工具。

這個創新的解決方案是通過使用專家系統方法而不是「機器人」方法來實現的,模仿有經驗的數據科學家關於構建大規模預測模型的方式。DMWay評分引擎是為企業尋求協助部署由分析引擎提供的預測分析結果而推薦的工具。

  8.HP Haven Predictive Analytics

HP Distributed R是R語言的開源,可擴展和高性能平台,可加速大規模機器學習,統計分析和圖形處理。Haven Predictive Analytics為HP Vertica提供數據加速和原生SQL支持。與市場領先的列式MPP資料庫的本地集成將總體數據訪問性能提高了5倍,並提供了一整套經過驗證的開箱即用的並行演算法,以成熟的標準R演算法生成準確一致的結果。是預測分析免費,完全兼容開源R語言和工具,並得到惠普企業的支持,並按每個節點定價。HP Haven Predictive Analytics由HP Vertica和Distributed R提供支持。Distributed R是基於與HP Labs開發的開放源代碼R語言的高性能分析引擎,可滿足要求最苛刻的大數據預測分析任務。分散式R提高了性能,並允許用戶分析比以前流行的R統計編程語言更大的數據集。

  9.GraphLab Create

GraphLab Create是一個為開發人員和數據科學家構建的機器學習平台,具有函數式編程技巧和對數據科學的一些基本理解。能夠輕鬆地實現從想法到生產的原型和規模。示例服務包括推薦系統,欺詐檢測或客戶流失預測器。開發人員和數據科學家能夠快速部署並輕鬆與其他應用程序集成。Discover版本提供免費的開發者許可證,並提供社區論壇支持。

  10.Lavastorm分析引擎

Lavastorm分析引擎公開版是一個易於使用,成本效益的工具,用於臨時發現和業務分析。公開版對於希望將分析處理能力放在桌面上的用戶非常理想,而且不需要大型數據處理能力,提供自動持續分析和協作功能。Lavastorm是一種可視化的數據發現解決方案,可以讓你快速整合不同的數據,輕鬆發現洞察,並持續檢測異常,異常值或模式。它為企業用戶提供自助服務能力,為IT用戶提供集成,分析和業務控制領域的快速開發能力。其功能包括從任何來源(包括大數據源)獲取,轉換,合併和豐富數據,而不需要大量建模,預先規劃或用腳本。可檢測數據問題,如完整性,格式不一致,準確性,自動化評估和清理流程。

  11.Actian Vector Express

Actian Analytics Platform(Express Hadoop SQL Edition)是Hadoop內部運行100%的免費社區版的端到端分析平台。Actian分析平台將Hadoop轉變為一個高性能的分析平台,使企業能夠通過分析來自多個來源的數據而無需採樣,從而提高預測和決策的準確性。Actian Express,Hadoop SQL Edition使用現有的Hadoop集群提供高速和性價比。Actian Vector Express是Actian分析平台的免費社區版本,旨在提供快速簡單的方法來提高分析的性能。它建立在基於矢量的分析資料庫基礎之上,Actian Express提供很好的性能和性價比,並且需要更少的硬體,幾乎不需要調整。Actian Vector Express包括以下功能:分析工作台 - 快速構建可視工作流程準備,轉換和分析數據,分析資料庫 - 在幾秒鐘內運行複雜的查詢反對數十億條記錄和管理控制台。

  12.Scikit-learn

scikit-learn是簡單高效的數據挖掘和數據分析工具。它是Python中的機器學習庫,建立在NumPy,SciPy和matplotlib之上,它也是開源的。其特點包括分類,回歸,聚類,降維,模型選擇和預處理。

  13.微軟R

R是強大的,用於統計計算,機器學習和圖形的首選編程語言,並得到用戶,開發者的繁榮的社區支持。R家族包括,伺服器,客戶端,SQL Server等服務。支持各種大數據統計,預測建模和機器學習功能,R Server支持基於開源R的全方位的分析探索,分析,可視化和建模。Microsoft R客戶端是免費的社區支持。

  14.H2O.ai

H2O是一個開源的預測分析平台。H2O用戶可以輕鬆地從微軟Excel和RStudio中探索和建模大數據,並將其與來自HDFS,S3,SQL和NoSQL數據源的數據連接起來。H2O講述了數據科學的語言,支持R,Python,Scala,Java和強大的REST API。業務應用程序由H2O的NanoFastTM評分引擎提供支持。包括:分散式演算法和回歸樹,如GBM,隨機森林(RF),廣義線性模型(GLM),k-均值和主成分分析(PCA)。

  15.Weka Data Mining

Weka是用於數據挖掘任務的機器學習演算法的集合。演算法可以直接應用於數據集,也可以從Java代碼調用。Weka包含用於數據處理,分類,回歸,聚類,關聯規則和可視化的工具。它也非常適合開發新的機器學習方案。 Weka是用Java編寫的,由紐西蘭懷卡託大學開發。

  16.Apache Spark

Apache Spark是用於大規模數據處理的快速且通用的引擎。Spark需要一個集群管理器和一個分散式存儲系統。對於集群管理,Spark支持獨立(本地Spark集群),Hadoop YARN或Apache Mesos。對於分散式存儲,Spark能與各種各樣的,包括Hadoop分散式文件系統(HDFS),MAPRA文件系統(FS-MAPRA),Cassandra,OpenStack Swift,亞馬遜S3,Kudu,或自定義解決方案實現對接。

  17.Octave

Octave是數字計算的高級解釋語言。它提供了數據可視化和操縱的線性,非線性問題和圖形的解決方案。有許多可用於公共數值線性代數解決問題的工具,尋找非線性方程的根,集成普通功能,操縱多項式,及整合的普通微分和代數微分方程。

  18.Tanagra

Tanagra是一個用於學術和研究目的的免費數據挖掘軟體,它具有探索性數據分析,統計學習,機器學習和資料庫等多種數據挖掘方法的功能。支持標準的數據挖掘任務,如:可視化,描述性統計,實例選擇,特徵選擇,功能建設,回歸,影響因子分析,聚類,分類和關聯規則的學習。

  19.PredictionIO

PredictionIO是一款開源的機器學習伺服器,可以讓軟體開發人員創建個性化,推薦和內容發現等預測功能。通過PredictionIO,預測這種特點的用戶行為,提供個性化的視頻,新聞,交易,廣告,職位,事件,文件,應用程序,餐館和匹配服務。

  20.Apache Mahout

Apache Mahout提供可擴展的機器學習演算法,主要集中在協作過濾,聚類和分類。許多實現使用Apache Hadoop平台,包括成熟的Hadoop MapReduce演算法,Scala,Spark和H2O演算法。協同過濾:基於用戶的協同過濾,基於項目的協同過濾,矩陣分解與ALS,矩陣分解與隱式反饋和加權矩陣分解,SVD + ALS。

轉自:2018年一定要收藏的20款免費預測分析軟體!

推薦閱讀:

CS259D:數據挖掘與網路安全講義筆記
Learning Explanatory Rules from Noisy Data 閱讀筆記1
Paper Reading | 讓深度學習更高效運行的兩個視角
鋼鐵直男的救世主來了!讓AI告訴你妹子到底是啥意思
BOW 演算法,被CNN 打爆之前的王者

TAG:數據分析 | 機器學習 | 數據挖掘 |