IBM spss modeler 是什麼?

IBM spss modeler是統計分析中一門常用的分析工具,他有什麼特點呢


接觸Modeler這麼長時間,簡單說說我自己的看法:

一、首先簡單說說SPSS歷史——Modeler的出現

其中看到其實Modeler也是SPSS公司收購回來的,前身即是Clementine,09年整個SPSS被IBM收購後,就改名為IBM SPSS Modeler了,今年Modeler已經發布18版本,更新要比以前多了不少,多了非常多的擴展功能(例如天氣數據獲取等等),以下官網鏈接提供了Modeler的介紹和試用,有興趣可以看看:

Predictive Analytics

二、SPSS整個產品家族——Modeler的定位

進一步,我們其實可以從SPSS的產品體系中大概看到Modeler這個產品的定位:

(Data Collection現在已經被IBM出售,不屬於SPSS產品家族)

可以看到,在IBM整個數據領域裡面,SPSS家族都有對應的產品,而其中Modeler就對應了數據挖掘這一個領域,我們希望藉助Model,建立數據挖掘模型(包括分類演算法,聚類演算法,關聯規則等)去解決一系列的商業問題(如預測什麼類型的客戶容易流失,明天公司的銷售額是會到達多少)

厚顏無恥粘一篇自己公眾號的文章:介紹是如何結合CRISP-DM(跨行業數據挖掘標準流程,Modeler所採用的方數據挖掘法論)方法論,進行數據挖掘工作的。

IBM SPSS Modeler最強工具書收藏系列(二)(文末送書福利)

三、Modeler的優勢特點

既然說Modeler是一款商業的數據挖掘軟體,那麼它與其他數據挖掘軟體(例如SAS或者R)有什麼分別?

我覺得最簡單的總結就是,它能在兼顧專業性的同時保持非常友好的易用性。

選擇其中幾個點來說的話:

1.專業性:

(1)提供豐富的功能,能夠覆蓋整個數據挖掘的生命周期

(2)提供大量強大且穩健的數據挖掘模型供分析人員使用

另外在新版本里,新增加好幾個建模節點,例如隨機森林,TCM等

2.易用性

(1)圖形化操作界面,使用滑鼠即可完成數據挖掘全過程

其實Modeler有很多便捷的小功能,例如啟用緩存,自動備份模型文件,自動生成選擇節點等等,非常方便。

(2)提供便捷且容易理解的參數設置

(3)提供自動建模功能,一次運行多個模型自動選擇最優

(4)豐富且詳盡的中文幫助文檔

坦白說,Modeler提供的幫助手冊確實非常詳細,另外每個節點的右上角點擊?(help),將會彈出幫助文檔並自動跳轉相關內容

四、學習建議

最後,如果樓主想學Modeler的話,我會推薦三個東西,個人認為從入門到熟練完全足夠

1.Modeler官方的幫助文檔和Sample文件:Modeler提供完備Sample數據和數據建模文件,並且配套中文說明,可以幫助入門者一步一步搭建數據建模流。Modeler提供的幫助文檔包括有演算法說明,節點說明,Crisp-dm方法論,應用文檔等

2.BM SPSS數據分析與挖掘實戰案例精粹 作者:張文彤/鍾雲飛

IBM SPSS數據分析與挖掘實戰案例精粹 (豆瓣)

非常詳盡工具手冊,豆瓣評分9.3,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解整個案例的完整分析過程,並將模型和軟體的介紹融於案例講解之中,,個人認為目前市面上Modeler最好的工具手冊;

(3)厚顏無恥地介紹我個人的公眾號,wetalkdata,定期更新數據挖掘方法論,Modeler操作指南(比幫助手冊更詳細),還有送書!


關於Modeler的許多資料,百度一下你就知道。也有知友已經回答一部分了,所以這裡從我操作軟體的角度去分享下。

從IBM整合之後的軟體命名可以看出,IBM SPSS Modeler叫做數據挖掘(建模)軟體,IBM SPSS Statistics叫做數據統計軟體,下文沿用老叫法Modeler和SPSS。

數據挖掘和數據統計的聯繫與區別,很多知友都做了分享,可以自行搜索看下。我的個人理解:從內含原理的角度看,數據挖掘原理偏向於數學演算法,對假設檢驗顯著性等不感冒,數據統計就是我們學習的抽樣、假設、檢驗,是否顯著等過程。

多嘮叨幾句:大數據時代下,互聯網的發展使我們獲取數據非常容易,這時候樣本幾乎就是總體,而當數據量非常大的情況下,一般做統計檢驗都能夠達到顯著性水平,所以相比傳統統計學、而且在商業環境下我們就更加關注的是應用的結果,比如說我要進行聚類分析對客戶分類、我要用Logistic預測下用戶違約的概率。這時候優異的數學演算法就會更加實用。Ps.這段話是我個人理解的寫的,原文可以查看《大數據時代》書的第一部分第一章——不是隨機樣本,而是所有數據。經典書籍值得一看:大數據時代 (豆瓣)

貌似題主問的是軟體額,有點扯遠了哈。我們回到Modeler軟體本身,當然要純粹介紹Modeler網上有很多資料,不過我覺得還是有點抽象,我這裡就把它和常用的幾個軟體對比理解下。

1、做什麼的


Modeler
是一款數據挖掘軟體,建模的原理主要偏向於數學演算法,比如各種聚類演算法、各種決策樹演算法、神經網路演算法、貝葉斯演算法等等。目的就是通過對數據的整理、建模,挖掘出相關結果,指導管理實際。主要應用於數據量大的分析,或者連接至資料庫進行分析。

SPSS是數據統計軟體,有很多統計功能,如描述性統計、均值比較、方差分析、相關分析、回歸分析、聚類分析、因子分析、非參數檢驗等等。一般應用於數據量較小的分析,比如在學校的時候用的多,一般直接錄入數據或導入Excel數據進行分析。

SAS是巨無霸級別、模塊型的系統軟體,可以用作資料庫、可以分析數據、可以二次開發、可以支持分散式處理。分析數據可以做統計分析(EG)、數據挖掘(EM)、投資分析、項目管理、運籌學、計量經濟學、質量控制、等等不同行業、不同模塊的分析。

SAS EG:即SAS Enterprise Guide,是SAS開發的圖形界面型的數據統計軟體,包括前面SPSS提到的分析。

SAS EM:即SAS Enterprise Miner,是SAS開發的圖形界面型的數據挖掘軟體,包括前面Modeler提到的分析。

2、怎麼用

這些軟體怎麼用,主要還是要看書滴!這裡簡單介紹下Modeler,來感受下:

Modeler是根據CRISP-DM即"跨行業數據挖掘標準流程"設計的,一整套的數據挖掘流程包括商業理解、數據理解、數據準備、建模、評估、部署。查看CRISP-DM_百度百科。

而Modeler的節點設置主要是用在
數據準備 和 建模
兩個過程中的。


如下圖,收藏夾是把常用節點添加到此,最後一個是和IBM自己的SPSS對接的相關操作。

源:是導入數據的節點。如可以導入資料庫、excel、SPSS、sas等文件。

記錄選項:是對觀測值/樣本/記錄/行的相關操作。如樣本、匯總、排序等。

欄位選項:是對變數/欄位/列的相關操作。如導出新變數、過濾、填充等。

圖形:是對數據的圖形化展示。如分布圖、直方圖等。

建模:是數據整理清洗後的數據建模進行挖掘的階段。包括各種演算法。

輸出:是對數據的各方面展示。如查看數據、基本統計、數據審核等。

導出:是把分析過程中的數據導出為其它格式文件。

SPSS,想必都用過就不多做說明了。SPSS和Modeler的處理操作都是圖形界面,比較直觀,當然也可以編程。

SAS:也不多說明了,自行百度,主要是以寫程序為主,就是proc步和data步,當然也可以進行圖形界面的操作。SAS EM和SAS EG就是SAS比較典型的圖形界面處理模塊的代表

3、特點

上面的內容也涉及到了軟體特點的對比,這裡再對比下:

SPSS和Modeler

SPSS的操作和其它大多數軟體一樣,是「一次性」的,不能留下操作的整個過程,所以當辛辛苦苦都處理快完了突然發現有一步錯了或者過一段時間需要再Run下數據,這時候就歇菜了,得重新拿出最開始的原始數據一步步重新操作一遍,如果數據量小還好,如果數據量大到成百上千萬那就只能~呵呵~了。

而Modeler,它可以把數據處理過程的任何一個步驟記下來,就是前文提到的「節點」,節點就是我們的步驟。舉個簡單例子,Modeler中我先添加「源」中的節點導入Excel數據文件,接下來我添加「記錄」中的節點進行簡單10%的抽樣,再接下來我添加「欄位」中的節點計算出一個新的變數,再接下來。。。。。。此處省略一萬字,一直到我們添加節點結束,每個節點就是我們處理的每個步驟,然後「運行流」(流就是一連串節點/步驟過程),然後就可以喝茶了,等電腦處理結束結果就自動呈現出來了。當然如果說前面某一步要修改或者過段時間又重新處理數據,比如抽樣要修改為20%,我們只需要打開文件在這個抽樣節點修改下這個百分比數字即可,不用再重新從頭再來一遍了,如果你保存了緩存那還沒等喝茶就出結果了。

所以就記錄步驟(節點)這一點就要比SPSS人性化很多,媽媽再也不用擔心我修改步驟啦。

SAS EG和SAS EM

屬於SAS的兩款模塊軟體,都可以記錄下操作步驟,EG主要用作數據統計,EM主要用作數據挖掘。

SAS EG、SAS EM 和
SPSS、Modeler

SAS EG、SAS EM,這兩個軟體都是SAS出的圖形界面的處理軟體,由於SAS以編程為主,所以它們界面沒有SPSS和Modeler那麼「美」,但同時它們可以編程,不到位的地方仍需要編程發揮它獨特而強大的作用。

SAS EM和Modeler

個人感覺這兩個產品也是類似,不過他們所主張的數據挖掘流程不同,SAS EM主張的是自己提出的SEMMA流程(查看SAS數據挖掘方法論 ─ SEMMA_SAS_Miner_新浪博客),而Modeler依據的是CRISP-DM流程(查看CRISP-DM_百度百科)。

SAS EG和 SPSS

都是做數據統計的,EG能夠記錄下步驟而SPSS不行。

怎麼越說越亂啊,還是看以下示意吧:

SPSS≈數據統計

SAS EG≈SPSS+記錄步驟

Modeler≈數據挖掘+記錄步驟

SAS EM≈Modeler

以上主要是從我的個人操作感受去說,其它知友也可補充下其它方面的特點對比。

最後,數據處理軟體無好壞之分,主要是合適否,Excel也很強大到不可想像哦。

祝好!


SPSS China 於2010年11月23日在國內正式推出 SPSS Modeler 的最新版本 IBM SPSS Modeler 14.1

SPSS Modeler(12.0以前叫Clementine)是一個業界領先的數據挖掘平台。SPSS Modeler擁有直觀的操作界面、自動化的數據準備和成熟的預測分析模型。

SPSS Modeler 14.1 相比 SPSS Modeler 13.0,在數據可視化和演算法可視化方面做了改進和完善,這樣更便於數據挖掘工作者進行數據探索和模型的優化。同時,增強了數據源連接、數據處理、建模分析等功能。

下面是新版本的特性:

1、新的外觀效果。

默認情況下,SPSS Modeler 現在採用新的屏幕設計顯示。以前的設計選項仍然可用。

2、術語更改。

與新的外觀效果相配合,某些術語已更改為在產品中通用的標準術語。

3、新的XML 源和XML 導出節點。

新添加的節點允許以XML 格式導入和導出數據。

4、新的線性建模節點。

新增線性節點,為傳統線性回歸技術加入了新的功能,例如推進和bagging(Bootstrap 匯總)技術以及針對大型數據集的優化等。回歸節點與現有流的兼容性在本版本中仍然可用。

5、決策樹節點有所增強。

CR 樹、QUEST 和CHAID 節點已經過增強以支持推進和bagging技術。此外,CR 樹和QUEST 節點現在支持針對大型數據集的優化,此功能以往僅對CHAID 模型可用。

6、神經網路節點有所增強。

現已提供了神經網路節點的新版本,支持推進和bagging 技術,並可針對大型數據集進行優化。新節點使用的演算法與PASW Statistics 提供的相同。

7、新欄位角色(以往稱為欄位方向)。

添加了兩個新角色:頻數和記錄ID。

8、導出時更新資料庫。

之前,資料庫導出只在插入時執行,插入需要刪除和重建受影響的資料庫表格。您現在也可在導出時更新資料庫表格,例如以添加新列到現有表格的方式。

9、指定開始單元格和工作表以進行Excel 導出。

導出流數據到Excel 文件時,您可以指定工作表和導出開始的單元格位置。


IBM SPSS Modeler軟體的原名為Clementine,最早是ISL(Integral Solution Ltd.)公司的一款數據挖掘產品。該公司在1994年就發布了該軟體的1.0版本,是世界上最早的一款商業數據挖掘軟體。後來ISL公司於1999年被SPSS公司收購,之後SPSS公司對該產品進行了一系列技術改造和優化,使之逐漸成為SPSS公司的又一旗艦產品(SPSS公司的另一旗艦產品是SPSS,現更名為IBM SPSS Statistics)。2009年,IBM公司收購了SPSS公司,IBM SPSS Modeler成為IBM公司軟體部商業分析(Business Analytics)產品線下一款重要的數據挖掘軟體產品。

IBM SPSS Modeler的設計思想是盡量用簡單的方式進行數據挖掘,儘可能地屏蔽數據挖掘演算法的複雜性及軟體操作的繁瑣性,使數據挖掘分析員可以將更多的精力放在使用先進的數據挖掘技術解決商業問題而不是軟體操作本身。Modeler界面除了任何軟體都有的菜單欄、工具欄、狀態欄之外,主要由①數據流構建區②數據流、結果和模型管理區③數據挖掘項目管理區④節點區四個部分構成。IBM SPSS Modeler是客戶端/伺服器端架構的產品。客戶既可以在單機版上運行IBM SPSS Modeler,也可以連接到IBM SPSS Modeler Server運行數據流,從而充分利用伺服器的高性能。IBM SPSS Modeler是一個數據挖掘軟體,其功能涵蓋了整個數據挖掘流程,它主要提供三類重要功能來支持整個數據挖掘過程:數據整理、探索性數據分析、建立模型模型檢驗模型應用。


MODELER在調參方面似乎沒有什麼做為,很納悶這個軟體怎麼解決具體的商業數據分析應用的.要達到模型調優的目標,是不是必須要引入代碼與腳本了?


隨機森林 在哪個版本中有IBM SPSS Modeler


SPSS公司,現在屬於IBM旗下做數據挖掘的軟體。


推薦閱讀:

如何從數據挖掘入門到數據挖掘高手?
數據降維和特徵選取有什麼區別?
如何通俗易懂地解釋支持向量回歸(support vector regression)?
作為數據挖掘研究生需要補充哪些數學知識?
convex optimization 可以用來做哪些有意思的事情(可以是實驗性質)?

TAG:數據挖掘 | 數據分析 | 統計 | SPSS | SPSS數據分析 |