數據挖掘軟體WEKA(1),修改數據類型

數據挖掘軟體WEKA(1),修改數據類型

來自專欄大數據,數據挖掘1 人贊了文章

布局介紹(最頂部的功能分布):

preprocess: 預備處理; 在這裡可以打開你要處理的文件,文件格式可以是csv, json, arff等;

classify: 分類器; 為你的數據集建立分類的標準;

cluster: 聚類;

assocciation rule;

attribute selection;

visualize: 視覺化數據集;全是數字多無聊呀,數據最後不僅僅是要給專家看的,所以視覺化很重要;

A: preprocess, 數據預處理:

  1. 【數據背景知識】首先數據是分類型的,這裡我們用到numeric和nominal;
  • numeric: 不能分類,數字型數據;(圖1)

----------如圖1,離散型的數據分布;

  • nominal: 指可以分類,但不能排序的變數,比如血型,性別,職業。(圖2)

----------如圖2,可以分成兩個類別的;

【圖1】

【圖2】

2. 在WEKA中修改數據類型;

  • 打開收集好的數據文件;open file;
  • 選擇csv, arff等格式的文件

  • 打開後,我們先來檢查一下數據類型,下圖(圖3)的數據類型明顯有問題,只有兩類數據,怎麼數據類型的type就是numeric呢?改

【圖3】

  • 修改數據類型:

    選擇 filters/unsupervised/attribute/NumericToNominal(如圖4),然後點擊輸入框,修改需要將numeric改成nominal的列(圖5)點擊apply;

【圖4】【圖5】

apply之後,我們可以看到展示數據的界面發生了變化(圖6);這就代表我們的數據類型修改完畢了;

  • 點擊右上角的Edit,可以看到我挑選了一部分數據進行數據類型的轉換(原本的數據類型都是numeric的);(如圖7,8)

【圖7】【圖8】

好啦,數據的導入和數據類型的處理就先到這了,see you next time~


推薦閱讀:

一個完整的機器學習項目在Python中演練(三)
數據分析入門必備之excel運用
機器學習與數據挖掘中的十大經典演算法
一篇文章讓你知道什麼是大數據挖掘技術
python中數據基本分析過程

TAG:數據挖掘 | Weka | 機器學習 |