數據挖掘軟體WEKA(1),修改數據類型
08-20
數據挖掘軟體WEKA(1),修改數據類型
推薦閱讀:
來自專欄大數據,數據挖掘1 人贊了文章
布局介紹(最頂部的功能分布):
preprocess: 預備處理; 在這裡可以打開你要處理的文件,文件格式可以是csv, json, arff等;
classify: 分類器; 為你的數據集建立分類的標準;
cluster: 聚類;
assocciation rule;
attribute selection;
visualize: 視覺化數據集;全是數字多無聊呀,數據最後不僅僅是要給專家看的,所以視覺化很重要;
A: preprocess, 數據預處理:
- 【數據背景知識】首先數據是分類型的,這裡我們用到numeric和nominal;
- numeric: 不能分類,數字型數據;(圖1)
----------如圖1,離散型的數據分布;
- nominal: 指可以分類,但不能排序的變數,比如血型,性別,職業。(圖2)
----------如圖2,可以分成兩個類別的;
【圖1】
【圖2】
2. 在WEKA中修改數據類型;
- 打開收集好的數據文件;open file;
- 選擇csv, arff等格式的文件
- 打開後,我們先來檢查一下數據類型,下圖(圖3)的數據類型明顯有問題,只有兩類數據,怎麼數據類型的type就是numeric呢?改
【圖3】
- 修改數據類型:選擇 filters/unsupervised/attribute/NumericToNominal(如圖4),然後點擊輸入框,修改需要將numeric改成nominal的列(圖5)點擊apply;
【圖4】【圖5】
apply之後,我們可以看到展示數據的界面發生了變化(圖6);這就代表我們的數據類型修改完畢了;
- 點擊右上角的Edit,可以看到我挑選了一部分數據進行數據類型的轉換(原本的數據類型都是numeric的);(如圖7,8)
【圖7】【圖8】
好啦,數據的導入和數據類型的處理就先到這了,see you next time~
推薦閱讀:
※一個完整的機器學習項目在Python中演練(三)
※數據分析入門必備之excel運用
※機器學習與數據挖掘中的十大經典演算法
※一篇文章讓你知道什麼是大數據挖掘技術
※python中數據基本分析過程