乾貨 :18個免費的探索性數據分析工具

每個人都有各自的天賦,發現它們並開始相信我們自己只是時間的問題。我們都有局限,但是我們應該止步不前嗎?答案是不。

當我開始用R編程的時候,我很糾結。有時候不止一個人曾經這麼想過。因為我在這一生中從未編碼過。我的情況就像是一個從來沒學過游泳的人在被強行踹進深海後用儘力氣讓自己不沉下去但是卻喝了好多口鹹鹹的海水。

現在,當我回過頭看,我笑了。你知道為什麼嗎?因為,我本可以選擇不需要會編程就可以使用的數據分析工具並避免那些痛苦。

數據挖掘是預測建模不可缺少的一部分。除非你知道過去發生了什麼否則你無法做出預測。掌握數據挖掘最重要的技能就是好奇心,它是免費的卻不是每個人都擁有的東西。

我寫這篇文章是為了幫助你們了解可用於探索性數據分析的各種免費工具。時下,在市場中可以找到非常多的免費且有趣的工具來幫助我們工作。這些工具不需要你較精確仔細地編寫代碼,只需要你點點滑鼠就能完成工作。

無需編程即可用來數據分析的工具/軟體

1 Excel / Spreadsheet

http://www.openoffice.org/download/

無論你正準備步入數據科學領域還是已經在這個領域小有建樹,你會知道過去這麼多年以來,excel 一直以來都是數據分析領域不可缺少的一部分(最常用的工具之一)。哪怕是在今天,有很大一部分需要數據分析的項目都依賴與excel去完成。由於來自於社區,輔導教程,免費資源的幫助越來越多,學習excel已經變得越來越簡單。

excel 基本上支持了最常用的數據分析功能:用來概述(總結)數據特徵,數據可視化,對數據轉型(去除噪音數據)從而得到新的數據集用來分析等。這些工具足夠強大到讓我們可以重新從多個方面審視數據。無論你知道有多少其它的數據分析工具,你一定要學會用excel。儘管Microsoft excel這個軟體是付費的,但你可以用其替代品,例如open office, google docs!

2 Trifacta

Wrangler Cloud

Trifacta的Wrangler工具正在挑戰傳統的數據清理和操作方法。因為excel在數據大小上有限制,但這個工具沒有這樣的局限,您可以安全地用它處理大數據集。這個工具有令人難以置信的特性,如圖表推薦、內置演算法、分析洞察力,您可以使用這些特性在任何時間內生成報告。這是一種智能工具,專註於更快地解決業務問題,從而使我們在與數據相關的練習中更有效率。

這些開源工具的提供讓我們感到更加自信和支持,世界各地也有優秀的人在為使我們的生活更好而努力工作。

3 Rapid Miner

Home

這一工具作為高級分析的領導者出現在2016Gartner Magic Quadrant。是的,它不僅僅是一個數據清理工具。它在建立機器學習模型方面的具有專業性。是的,它包含了我們經常使用的所有ML演算法。不僅僅是GUI,它還對使用Python&R;構建模型的人提供了支持。

它以其非凡的能力繼續吸引著全世界的人們。最重要的是,它能閃電般的快速水平上提供分析經驗。他們的生產線上有幾個為大數據、可視化、模型部署而構建的產品,其中一些產品(企業)包括訂閱費。簡而言之,我們可以說,它對於任何從數據載入到模型部署的需要執行AI操作的業務,都是一個完備的工具。

4 Rattle GUI

https://cran.r-project.org/bin/windows/base/

如果你試著使用R語言,但卻找不到訣竅的情況下,Rattle應該是你的第一選擇。這個GUI基於R語言構建,通過在R語言中鍵入安裝包("rattle") ,然後輸入庫(rattle),然後鍵入RTACK(),即可啟動。因此,要使用Rattle,您必須安裝R語言。它也不僅僅是數據挖掘工具。Rattle支持各種ML演算法,如樹演算法、支持向量機演算法、Booting演算法、神經網路演算法、生存演算法線性模型演算法等。

現在它已經被廣泛使用。據克拉恩,rattle每月被安裝10000次。它提供了足夠的選項來探索、轉換和建模數據,只是很少有人點擊。然而,它在統計分析方面的選擇比SPSS少。但是,SPSS是一個付費工具。

5 Qlikview

http://global.qlik.com/us/landing/go-sm/qlikview/download-qlikview

QlikView是全球商業情報行業更受歡迎的工具之一。這個工具所做的就是獲得商業洞察力並以一種極具吸引力的方式將其呈現出來。有了它較先進的可視化功能,你會驚訝於你在處理數據時所得到的控制量。它有一個內置的推薦引擎,可以不時地更新有關較佳可視化的信息。

然而,這不是一個統計軟體。QlikView在探索數據、趨勢、洞察力方面是不可思議的,但它無法從統計學上證明任何事情。在這種情況下,您可能需要查看其他軟體。

6 Weka

Weka – GUI way to learn Machine Learning

使用Weka的一個優點是它很容易學習。作為一個機器學習工具,它的界面是足夠直觀的,你可以迅速完成工作。它為數據預處理、分類、回歸、聚類、關聯規則和可視化提供了選擇。您所想到的建模過程中的大部分步驟都可以使用Weka來完成。它建立在Java之上。

它最初是為瓦卡託大學的研究目的而設計的,但後來被世界各地越來越多的人所接受。然而,這麼久了我還沒看到一個能像R和Python一樣熱情的weka交流社區。下面列出的教程將幫助您更多。

7 KNIME

https://www.knime.org/knime-analytics-platform

與RapidMiner類似,KNIME提供了一個開放源碼的分析數據的平台,以後可以使用其他支持KNIME的產品進行部署。該工具在數據融合、可視化和先進的機器學習演算法等方面具有豐富的特點。是的,你也可以使用這個工具建立模型。雖然,關於這個工具的討論還不夠多,但是考慮到它的設計技術,我認為它很快就會很快就會引起人們的注意。

此外,在他們的網站上有快速培訓課程,可以讓你現在就開始使用這個工具。

8 Orange

http://orange.biolab.si/

這個工具正如它聽起來很酷那樣,它的目的是產生互動式數據可視化和數據挖掘任務。YouTube上有足夠的教程來學習這個工具。它有一個廣泛的數據挖掘任務庫,包括所有的分類、回歸、聚類方法。同時,在數據分析過程中形成的多功能可視化使我們能夠更緊密地理解這些數據。

要構建任何模型,您將需要創建流程圖。這很有趣,因為它將幫助我們進一步了解數據挖掘任務的確切過程。

9 Tableau Public

https://public.tableau.com/s/

Tableau是一個數據可視化軟體。我們可以說,Tableau和QlikView是商業智能海洋中最強大的鯊魚。優勢的比較是永無止境的。這是一個讓我們快速探索數據的可視化軟體,每一次觀察都可使用各種可能的圖表。它是一種由自己計算出數據類型、可用的較佳方法等的智能演算法。

如果您想實時理解數據,tableau可以完成這個工作。從某種意義上說,tableau賦予了豐富多彩的數據生活,讓我們與他人分享我們的工作。

10 Data Wrapper

這是一個閃電般的快速可視化軟體。下一次,當您的團隊中有人被分配到BI工作時,他/她對該做什麼毫無頭緒的話,可以考慮選擇這個軟體。可視化桶由線條圖、條形圖、列圖、餅圖、疊加條形圖和地圖組成。因此,這是一個基本的軟體,無法與像Tableau和QlikView這樣的巨人相提並論。此工具啟用瀏覽器,不需要任何軟體安裝。

11 Data Science Studio (DSS)

http://www.dataiku.com/dss/trynow/

它是一個旨在連接技術,業務和數據的強大工具。它可分為兩部分:編碼和非編碼。它對任何旨在發展,建立,在網路上部署和擴展模型的組織來說都是一個完整的軟體包。DSS也足夠強大去創建智能數據應用程序來解決現實世界的問題。它包含了一些特性,這些特性促進了項目上的團隊集成。在所有特性中,最有趣的部分是,您可以在DSS中再現您的工作,因為系統中的每個操作都是通過集成的GIT存儲庫進行版本化的。

12 OpenRefine

http://openrefine.org/download.html

它開始於谷歌的精益求精,但似乎谷歌因為不清楚的原因而大幅縮減了這個項目。但是,這個工具仍然可用,改名為Open Refine。在眾多開放源碼的工具中,Open Refine專門研究混亂的數據;為預測建模目的而清理、轉換和塑造數據。有趣的是,在在建模過程中,分析師80%的時間都用於數據清理。不是那麼愉快,但這是事實。使用Open Refine進行改進,分析人員不僅可以節省時間,還可以將其用於生產工作。

13 Talend

http://openrefine.org/download.html

如今,決策主要是由數據驅動的。管理者和專業人士不再做基於直覺的決定。他們需要一種能迅速幫助他們的工具。Talend可以幫助他們探索數據並支持他們做出決策。確切地說,它是一種數據協作工具,能夠清理、轉換和可視化數據。

此外,它還提供了一個有趣的自動化特性,您可以在新的數據集上保存和重做以前的任務。這個特性是獨特的,在許多工具中還沒有找到。而且,它能自動發現,為用戶提供增強數據分析的智能建議。

14 Data Preparator

http://www.datapreparator.com/downloads.html

這個工具建立在Java上,能夠幫助我們進行數據的開發、清理和分析。它包括用於離散化、數字、縮放、屬性選擇、缺失值、離群值、統計、可視化、平衡、抽樣、行選擇的各種內置包,以及幾個其他任務。它的GUI能夠直觀簡單地理解。一旦你開始使用這個,我相信你不會花很多時間來弄清楚該如何使用。

這個工具的一個獨特的優點是,用於分析的數據集不會存儲在計算機內存中。這意味著您可以在大型數據集上工作,而不會出現任何速度或內存問題。

15 DataCracker

https://www.datacracker.com/Plans

這是一個專門研究調查數據的數據分析軟體。許多公司確實進行了調查,但他們很難對其進行統計分析。調查數據從不清楚。它包含了大量的缺失和不恰當的內容。這個工具減少了我們的痛苦,增強了我們處理凌亂數據的經驗。該工具的設計使得它可以從所有主要的互聯網調查程序(如surveymonkey, survey gizmo等)中載入數據。有幾個有助於更好地理解數據的交互功能。

16 Data Applied

http://www.data-applied.com/Web/TryNow/Overview.aspx

這個強大的交互工具被設計用來構建、共享、設計數據分析報告。在大型數據集上創建可視化有時會很麻煩。但是這個工具在使用樹狀地圖可視化大量數據方面是很強大的。與上面所有其他工具一樣,它具有數據轉換、統計分析、異常檢測等功能。總之,它是一個多用途的數據挖掘工具,能夠自動從原始數據中提取有價值的知識(信號)。您會驚訝地發現,這種非編程工具在數據分析方面不差於R或Python。

17 Tanagra Project

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

因為老式的UI,你可能不喜歡它,但這個免費的數據挖掘軟體是設計出來建立機器學習模型的。Tanagra項目是作為學術研究的免費軟體啟動的。作為一個開源項目,它為您提供了足夠的空間來設計自己的演算法和貢獻。

除了有監督的學習演算法外,它還具有聚類、階乘分析、參數和非參數統計、關聯規則、特徵選擇和構造等範例。它的一些局限性包括:無法獲得廣泛的數據源、直接訪問數據倉庫和資料庫、數據清理、交互利用等。

18  H2o

http://www.h2o.ai/download/h2o/choose

H2O是當今分析行業最流行的軟體之一。在短短的幾年裡,該組織成功地在世界各地分析界傳播開來。這個開源軟體帶來了照明快速分析的經驗,這是API編程語言的進一步擴展使用。不僅是數據分析,而且您可以在任何時候建立先進的機器學習模型。基於強勁的社區支持,學習這個工具是不擔心的。

額外獎勵

除了上面那些很棒的工具之外,我還發現了一些我認為您可能感興趣的工具。然而,這些工具並不是免費的,但您仍然可以試用它們:

  • Data Kleenr http://chi2innovations.com/datakleenr/

  • Data Ladder http://dataladder.com/

  • Data Cleaner https://datacleaner.org/

  • WinPure http://www.winpure.com/cleanmatch.html

最後說明

一旦您開始使用這些工具(你選擇的),你就會明白,了解預測建模的編程並不是什麼好事。您可以使用這些開源工具完成相同的任務。因此,如果你直到現在還對自己缺乏非編碼感到失望的話,現在是你將你的熱情注入到這些工具上的時候了。

我觀察到這些工具(其中一些)的限制是缺乏社區支持。除了很少的工具,他們中的幾個沒有一個社區來尋求幫助和建議。不過,值得一試!

關注公眾賬號

飛馬會

飛馬會

AI人工智慧/大數據/技術管理等人員學習交流園地

往期福利

關注飛馬會公眾號,回復對應關鍵詞打包下載學習資料;

回復「入群」,加入飛馬網AI、大數據、項目經理學習群,和優秀的人一起成長!

回復

 

數字「1」

下載從入門到研究,人工智慧領域最值得一讀的10本資料(附下載)

回復 

數字「2」

機器學習 & 數據科學必讀的經典書籍,內附資料包!

回復 

數字「3」

走進AI & ML:從基本的統計學到機器學習書單(附PDF下載)

回復 

數字「4」

了解人工智慧,30份書單不容錯過(附電子版PDF下載)

回復

 

數字「5」

大數據學習資料下載,新手攻略,數據分析工具、軟體使用教程

回復

 

數字「6」

AI人工智慧:54份行業重磅報告匯總(附下載)

回復

 

數字「7」

TensorFlow介紹、安裝教程、圖像識別應用(附安裝包/指南)

回復 

數字「8」

大數據資料全解析(352個案例+大數據交易白皮書+國內外政策匯篇)

回復 

數字「9」

乾貨 | 薦讀10本大數據書籍(初級/中級/高級)成為大數據專家!

回復 

數字「10」

麥肯錫160頁報告:2030年全球將可能8億人要被機器搶飯碗

回復 

數字「11」

50本書籍大禮包:AI人工智慧/大數據/Database/Linear Algebra/Python/機器學習/Hadoop

回復 

數字「12」

小白| Python+Matlab+機器學習+深度神經網路+理論+實踐+視頻+課件+源碼,附下載!

回復 

數字「13」

大數據技術教程+書籍+Hadoop視頻+大數據研報+科普類書籍

回復 

數字「14」

小白| 機器學習和深度學習必讀書籍+機器學習實戰視頻/PPT+大數據分析書籍推薦!

回復 

數字「15」

大數據hadoop技術電子書+技術理論+實戰+源代碼分析+專家分享PPT

回復 

數字「16」

100G Python從入門到精通!自學必備全套視頻教程+python經典書籍!

回復 

數字「17」

【乾貨】31篇關於深度學習必讀論文匯總(附論文下載地址)

回復 

數字「18」

526份行業報告+白皮書:AI人工智慧、機器人、智能出行、智能家居、物聯網、VR/AR、 區塊鏈等(附下載)

回復 

數字「19」

800G人工智慧學習資料:AI電子書+Python語言入門+教程+機器學習等限時免費領取!

回復 

數字「20」

17張思維導圖,一網打盡機器學習統計基礎(附下載)

回復 

數字「21」

收藏 |7本 Matlab入門經典教程書籍,不可錯過!

回復 

數字「22」

吳恩達新書,教你構建機器學習項目:《Machine Learning Yearning》

回復 

數字「23」

機器學習:怎樣才能做到從入門到不放棄?(內含福利)

回復 

數字「24」

限時下載 | 132G編程資料:Python、JAVA、C,C++、機器人編程、PLC,入門到精通~

回復 

數字「25」

限資源 | 177G Python/機器學習/深度學習/演算法/TensorFlow等視頻,涵蓋入門/中級/項目各階段!

回復 

數字「26」

人工智慧入門書單推薦,學習AI的請收藏好(附PDF下載)

回復 

數字「27」

資源 | 吳恩達斯坦福CS230深度學習課程全套資料放出(附下載)

回復 

數字「28」

懂這個技術的程序員被BAT瘋搶...(內含資料包)

回復 

數字「29」

乾貨 | 28本大數據/數據分析/數據挖掘電子書合集免費下載!

回復 

數字「30」

領取 | 100+人工智慧學習、深度學習、機器學習、大數據、演算法等資料,果斷收藏!

回復 

數字「31」

2G谷歌機器學習25講速成課全集(中文版),限時下載

回復 

數字「32」

Matlab安裝包+教程視頻,讓你從入門到精通!

回復 

數字「33」

程序員去阿里面試,沒想到過程如此壯烈 (內含資料包)

回復 

人工智慧

下載《FMI人工智慧與大數據峰會嘉賓演講PPT》

回復

 

AI  江湖

下載《十大AI江湖領域》

回復 

ML實踐

下載《機器學習實踐經驗指導(英文版)》

回復 

DL論文

下載《深度學習100篇以上論文資料》

回復 

演算法     

下載

《數據挖掘十大經典演算法》

回復 

6.10     

下載《6.10餓了么&飛馬網項目管理實踐PPT》

資深程序員想轉行嗎?點擊

「閱讀原文」


推薦閱讀:

乾貨|為什麼你打不好蛋白霜,蛋白霜的學問,法式意式瑞式三大蛋白霜的比較分析解決方案
乾貨 | 聽上去像唱歌,其實讀作『九聲六調』
泌尿繫結石怎麼治?老中醫排石有「利器」!(滿滿的乾貨)
乾貨:將定解作為階梯,拾階而上,知非即舍
乾貨 - 和你一起在乎你

TAG:數據分析 | 免費 | 數據 | 數據分析工具 | 工具 | 探索 | 乾貨 | 分析 |