有沒有傻瓜化的機器學習界面?

感覺對於一個比較trivial的機器學習任務,基本上就是定義幾個層的維度,接上輸入、期望輸出數據,選擇一個訓練演算法,然後就可以試著訓練了。這些操作如果能做成GUI界面,拖拖拽拽就能完成,應當可以讓不會編程的人也能進行一些機器學習的任務。

那麼,現在有這樣的界面嗎?


有的。最近一個startup做了一個很科幻界面的,基於theano的deep learning platform。所以用戶只要進行拖拽就可以完成一個基本含有ConvNet,fcNet的架構。網址:Home // AETROS

當時發現的時候覺得非常驚艷,以下是一些界面截圖:

最後,外牆的朋友可以看他官網Channel的youtube視頻:https://www.youtube.com/channel/UCBqSSwmoS21-XTzsRoIh-DQ


謝 @Xi Yang邀請
是有的,但是安裝和學習還是需要經過官方文檔的指導的,

搜了一下,有人quora上問過類似的問題,有個大神給了一個答案https://www.quora.com/Is-there-any-GUI-based-Machine-Learning-tool-that-does-not-require-any-coding-and-easy-to-use
對著這個大神的答案我找了一下對應的軟體的官方網站,
1weka.Weka 3 - Data Mining with Open Source Machine Learning Software in Java

圖片來自http://machinelearningmastery.com/how-to-run-your-first-classifier-in-weka/
2.Orange Data Mining

構建一個決策樹來進行鳥類分類,圖片來自官方
2.knime.org 的頁面

用K-means法進行聚類,圖片來自KNIME | Building a Workflow
3.ELKI Data Mining Framework
教程請看Tutorial a€「 ELKI Data Mining Framework不知道還有沒有其他的GUI機器學習的軟體,歡迎補充.
以上.


H2O的flow功能。H2O.ai - AI for Business

好處是首先此平台演算法速度遠超其他package(單機10倍於spark ML),寫不寫代碼都快過市面上任何產品幾十倍,在訓練非常慢的數據組上速度優勢明顯。然後其本身就是一個開源ML平台而不是一個軟體,免費,這個對比各類收費軟體(如SAS系)和各家雲計算平台(Azure,AWS)要強的多了,如果需要超過單機運算能力也能使用H2O的spark整合功能Sparking-water。最後比起用python和R寫代碼功能一個不少,就是一個GUI給你調參,然後圖形化顯示AUC之類的metrics,非常user-friendly,倘若不涉及各類data munging feature engineering這些大家都明白要耗上90%以上時間的dirty work,這個GUI能勝任幾乎所有純建模功能,Gridsearch也有,傻瓜調參。


http://elemental.kmsocial.cn/,這個產品就是讓完全不會編程的人也可以做機器學習的任務。

註冊好賬號之後,創建一個項目,上傳自己手中的數據源。

創建一個新的任務,就可以在左側模塊列表中的數據源菜單下找到已經上傳的數據源,還可以用各種模塊處理你的數據。比如缺失值的處理,對數據的篩選等等,做一些數據預處理操作。界面操作十分簡單,只要拖拽需要的模塊,連接好輸入輸出線,雙擊設置模塊的參數,運行後就能得到想要的數據結果了。

建模後,可以根據結果來調整模型參數,使模型達到最優。

更專業的數據專家也可以使用更多模塊來建模。

目前是開放公測階段,使用完全免費。可以給我留言或者關注公眾號「喬葉斯」就能免費申請註冊使用啦。


居然翻到這個問題,忍不住強答一下~

就在大前天,中科院計算所開源了自己研製的Easy Machine Learning 系統,號稱可以通過互動式圖形化界面讓機器學習應用開發變得簡單快捷。

先上鏈接~~

GitHub 項目地址:https://github.com/ICT-BDA/EasyML
論文地址:http://www.bigdatalab.ac.cn/~junxu/publications/CIKM2016_BDADemo.pdf
據用過的人說說比阿里的pai和微軟的azure要好用不少,等我閑下來去試試~

Easy Machine Learning 能做些什麼?

系統集成了數據處理、模型訓練、性能評估、結果復用、任務克隆、ETL 等多種功能,此外還提供了豐富的應用案例。它提供了一個通用的數據流系統,可以降低將機器學習演算法應用於實際任務的難度,主要用來解決涵蓋多步操作和不同演算法的實際應用過程。

在該系統中,一個學習任務被構造為一個有向非循環圖DAG,其中每個節點表徵一步操作(即機器學習演算法),每一條邊表徵從一個節點到後一個即節點的數據流。任務可被人工定義,或根據現有任務/模板進行克隆。在把任務提交到雲端之後,每個節點將根據 DAG 自動執行。圖形用戶界面被實現,從而可使用戶以拖拉的方式創建、配置、提交和監督一項任務。(說也說不清楚,總之大家上手用用應該就明白啦)

Easy Machine Learning除了是一個基於 GUI 的機器學習開發環境系統外,最重要的功能是其可以Hadoop和Spark解決分散式上的應用

如何使用Easy Machine Learning ?

pull 整個項目,並準備好必需的環境和開發工具。按照 https://github.com/ICT-BDA/EasyML/blob/master/QuickStart.md 這裡的步驟,一步步來。

在運行 Easy ML 之後,可以 登錄 http://localhost:18080/EMLStudio.html;

賬號:bdaict@hotmail.com、密碼 bdaict;

如下圖所示,用戶可以根據左邊菜單的選擇演算法和數據集創建一個機器學習任務(一個數據流 DAG)。用戶可以點擊選擇在 Program 和 Data 菜單項下面的演算法和數據集,同樣也可以點擊 Job 菜單項選擇現存的任務,並複製和做一些必要的修改。用戶同樣可以在右邊的菜單修改任務信息和每一個結點的參數值。任務中的結點可以對應於單機 Linux 程序或在 Spark、Hadoop Map-Reduce 上運行的分散式程序。

在點擊了 submit 按鈕後,該任務被提交給雲端運行。每個節點的狀態由不同的顏色表示,如下圖所示:

用戶可以右鍵點擊完成的執行節點上 green output port 按鈕來預覽輸出數據。也可以從每個完成的執行節點的右鍵菜單中檢查 stdout 和 stderr 日誌。用戶可以通過右鍵單擊相應的輸出埠來檢查節點的輸出。執行時列印的標準輸出和標準錯誤信息可通過右鍵單擊相應節點並選擇菜單中 Show STDOUT/Show STDERR 的方式進行檢查。

在結束後(無論成功與否),任務可以被繼續修改,再次提交並運行,如下圖所示。我們的系統指揮安排受影響的節點來運行。不受影響的節點輸出直接重用,以節省運行時間和系統資源。

用戶可以上傳自己的演算法包和數據集來建立自己的任務,並分享給他人。通過點擊 upload program 按鈕,彈出窗口允許用戶指定演算法包的必要信息,包括名稱、類別、描述和命令行特徵字元串等,如下圖所示。其中最重要的在於使用預定格式編寫特徵字元串。它定義了節點的輸入埠、輸出埠和參數設置。我們在面板中開發了一個工具來幫助用戶編寫命令行字元串模式。通過點擊 upload data 按鈕,用戶可以用與上傳演算法包相似的方式上傳數據集。


(1) SAS Enterprise Miner , 很好用功能較全但是非常貴,一般人估計用不到。而且因為在本地跑,所以對硬體要求高一點。
(2) 微軟Azure 平台里的 Machine Learning Studio。完全在雲端跑,普通用戶可以註冊個試用賬戶免費用,就是不知道國內網路環境下用卡不卡。


CNTK呀,雖然不是界面,但是超級傻瓜化,寫個配置文件就能跑,只要你硬體資源夠,什麼高大上的模型都能跑。GPU也行,CPU也行。有了這個東西,感覺自己分分鐘要失業。………………啊,那我為什麼還要廣而告之,我是不是傻…………


曾經的SPSS 工程師。
最符合「這些操作如果能做成GUI界面,拖拖拽拽就能完成,應當可以讓不會編程的人也能進行一些機器學習的任務」必須是IBM SPSS Modeler,只需要簡單的拖動需要的建模節點,即可以完成專業建模過程,並且操作界面非常非常的友好。

我覺得最簡單的總結就是,它能在兼顧專業性的同時保持非常友好的易用性。


當然掌握基本的數據挖掘演算法知識還是必須的,但是學習門檻還是大大的降低了。

Modeler的優勢特點

選擇其中幾個點來說的話:

1.專業性:

(1)提供豐富的功能,能夠覆蓋整個數據挖掘的生命周期

(2)提供大量強大且穩健的數據挖掘模型供分析人員使用

另外在新版本里,新增加好幾個建模節點,例如隨機森林,TCM等


2.易用性

(1)圖形化操作界面,使用滑鼠即可完成數據挖掘全過程

其實Modeler有很多便捷的小功能,例如啟用緩存,自動備份模型文件,自動生成選擇節點等等,非常方便。

(2)提供便捷且容易理解的參數設置

(3)提供自動建模功能,一次運行多個模型自動選擇最優

(4)豐富且詳盡的中文幫助文檔

坦白說,Modeler提供的幫助手冊確實非常詳細,另外每個節點的右上角點擊?(help),將會彈出幫助文檔並自動跳轉相關內容


最新Modeler 18.0版本試用鏈接:

IBM SPSS Trials


這是之前寫的試用教程:

SPSS最新版本完美試用教程(及技術交流社區)

PS:學習教材建議

如果樓主想學Modeler的話,我會推薦三個東西,個人認為從入門到熟練完全足夠

1.Modeler官方的幫助文檔和Sample文件:Modeler提供完備Sample數據和數據建模文件,並且配套中文說明,可以幫助入門者一步一步搭建數據建模流。Modeler提供的幫助文檔包括有演算法說明,節點說明,Crisp-dm方法論,應用文檔等

2.BM SPSS數據分析與挖掘實戰案例精粹 作者:張文彤/鍾雲飛

IBM SPSS數據分析與挖掘實戰案例精粹 (豆瓣)

非常詳盡工具手冊,豆瓣評分9.3,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解整個案例的完整分析過程,並將模型和軟體的介紹融於案例講解之中,,個人認為目前市面上Modeler最好的工具手冊;


(3)厚顏無恥地介紹我個人的公眾號,wetalkdata,定期更新數據挖掘演算法,Modeler操作指南:

初步認識數據科學——從IBM SPSS談起(文末有福利)

IBM SPSS Modeler最強工具書收藏系列(三)(文末送書福利)

SPSS Modeler 18.0新功能權威解讀(文末試用指南)


阿里雲機器學習PAI平台,圖形化可拖拽式操作:

  • 100餘種演算法組件,覆蓋回歸、分類、聚類、文本分析等演算法
  • 支持業內主流深度學習框架以及GPU分散式計算
  • 通過拖拉拽的方式拖動演算法組件拼接實現業務邏輯
  • 提供完整的數據挖掘鏈路,做到一站式體驗

詳細教程:機器學習業務實踐之路--阿里雲大學


超級多啊,除了最常見的Weka,SPSS Modeler,還有Azure,AWS,IBM Bluemix三家雲平台的ML Lab,再就是Dataiku,Domino Data Lab這樣的startup。基本都是一個套路,把每一個步驟都做成一個方塊,步驟之間連起來,Pipeline非常直觀,很方便復用和讓不擅長寫代碼的人使用。

除非你說的機器學習特指Deep Learning。。


可以試試 IBM spss modeler

個人感覺應該是市面上最好的gui ml工具了吧


從個人使用角度,在攢論文的時候早期用weka,後來用rapidminer。現在還在用rapidminer,絕對比weka好用;雖然現在rapidminer共享版本能夠處理的數據量不大,但在大多數場景下已經夠用了。

在單位,用sas em,也是傻瓜化;部分同業使用spss,一個套路。


有朋友在回答中已經提到了rapidMiner,但沒有詳細的介紹。我個人感覺rapidMiner比起排在前面的幾個答案提到的剛公測或開源的軟體更適合使用一些(畢竟是商業公司的軟體,而且也開發了一段時間了,各個功能比較完善,bug會少,而且界面挺漂亮的),所以我稍微介紹一下。網址是:

Home

免費版本好像有數據集條數的限制(ms是10000條),不過如果是學校的學生或者老師,可以申請academic的license,就去除了限制了。而且我試過申請,秒回復通過,我甚至懷疑他是只要有申請就通過的。

上面的圖就是基本的界面,用各個界面拖拖拽拽就可以完成一些基本的機器學習的任務,提供的演算法也挺豐富的,決策樹、隨機森林、SVM、包括神經網路,驗證模塊也可以實現cross-validation什麼的。還有可擴展的工具包,包括網路爬蟲、自然語言處理、情感分析工具等等。

下面是一個我自己做從csv文件裡面讀原始數據進行一個文本分類任務的demo,大家可以看看。我反正覺得挺有意思的,用來給沒有編程基礎的同學講機器學習的整體流程還是很不錯的。

整體的流程圖

文本處理的具體模塊,包括切詞、去停用詞、取詞根等等

交叉驗證模塊的設計

當然,真的要用起來還是要稍微看一下教程。軟體自帶的教程就很不錯,跟著做一遍也就基本熟悉各種功能該怎麼用了。


說過免費的且還不錯的機器學習的GUI, rattle ,一個基於R的GUI。
基本的聚類,決策樹,隨機森林,SVM,范線性回歸,神經網路都能做。當然神經網路,基本是個擺設,只能做一個隱含層。但是對於常用的數據分析功能都能提供。


本來想說rattle,樓上很多人提到了。

```
&> library(rattle)
Rattle: A free graphical interface for data mining with R.
XXXX 4.1.0 Copyright (c) 2006-2015 Togaware Pty Ltd.
鍵入"rattle()"去輕搖、晃動、翻滾你的數據。
```

再說一個阿里雲的機器學習平台

最後圖形化界面真沒你想的那麼好。自己動手,豐衣足食


漏了阿里巴巴的PAI,以及新銳Alteryx


那必須是rattle啊…


我想做個paas把所有答主的演算法都集成在一個界面上。


第四範式戴神做的先知啊,傻瓜操作.https://prophet.4paradigm.com/


Weka~我畢設導師推薦給我的--功能很強大,內置很多演算法,演算法的選擇、參數的設置通過GUI界面就能完成~

還是基於Java的開源軟體,可以從網站上下載包,當然也能自己寫~


推薦閱讀:

該不該堅持學習Machine Learning?
用 Python 進行數據分析,不懂 Python,求合適的 Python 書籍或資料推薦?
如何評價谷歌的「人工智慧先行」(AI First)戰略?
深度機器學習中的batch的大小對學習效果有何影響?
機器學習,在理論和編程方面要如何準備?

TAG:機器學習 | 模式識別 |