使用Weka快速實踐機器學習演算法
【譯者注】在當下人工智慧火爆發展的局面,每時每刻都有新的技術在誕生,但如果你是一個新手,Weka或許能幫助你直觀、快速的感受機器學習帶來的解決問題的新思路。
Weka使機器學習的應用變得簡單、高效並且充滿樂趣。它擁有圖形界面,並且允許你載入自己的數據集,運行演算法並且產生足夠可靠、讓人信服的結果。
我把Weka推薦給機器學習的新手,因為它幫助我們把精力集中在機器學習應用的本身,而不是陷入數學和編程的泥潭。這些技能可以在後續的學習中逐漸掌握。
本文將一步步告訴你如何載入數據集,運行高級的分類演算法並且展示分類結果,這看起來很簡單。跟隨我的操作,你會在5分鐘內得到機器學習的結果,並且你可以使用這個方法常識更多的數據集和演算法。
1. 下載並安裝Weka
訪問Weka下載頁面,根據你的系統下載合適的版本(Windows,Mac 或Linux)。
運行Weka需要Java環境,請先確認你已經安裝了Java。針對Windows平台,Weka提供了集成Java的版本,這樣你不需要另外單獨安裝Java環境。
2. 啟動Weka
雙擊weka.jar文件,程序將啟動一個Weka GUI Chooser,通過這個界面可以運行Explorer(探索模式),Experimenter(實驗),KnowledgeExplorer和Simple CLI(command line interface)。
點擊「Explorer」按鈕啟動Weka Explorer。
這個界面中,你可以載入數據集,運行分類演算法。也提供了數據過濾、聚類、關聯規則提取和可視化等特性,但我們並不會現在就使用這些特性。
3. 打開 data/iris.arff 數據集(Dataset)
Weka提供了一些小型公共機器學習數據集可以用來實踐。
單擊「Open file...」按鈕從本地目錄中選擇 「iris.arff」 文件載入Iris(鳶尾花)數據集。
鳶尾花(Iris)數據集是一個著名的統計學資料,被機器學習研究人員大量使用。它包含了150組實例,4種生物特徵和每組實例對應的鳶尾花種類(setosa,versicolor,virginica),你可以從維基百科了解到更多關於鳶尾花數據集的信息。
4.選擇並且運行演算法
現在你已經載入了數據集,是時候選擇一個機器學習演算法建立問題模型並且做出預測。
單擊「Classify」選項卡,在這裡你可以針對載入的數據集運行處理演算法。
你需要注意到「ZeroR」演算法被默認選中,單擊「Start」按鈕運行演算法。
也許你注意到了測試選項(test options)使用了10倍交叉驗證。這意味著數據集會被分為10份,前九份用來訓練演算法,第10份用來評估演算法。重複這個過程,使者10份被分割的數據集都有可能被用作測試集。你可以從這裡了解更多關於交叉驗證的知識。
ZeroR演算法雖然重要,但太讓人厭煩了。
單擊「Choose」按鈕,在Classifier區域單擊「trees」然後選擇「J48」演算法。這是一個C4.8演算法的Java實現(J 代表Java,48代表C4.8,因此使用了J48這個名字)同時也是著名的C4.5演算法的延伸。你可以從跟這裡了解更多關於C4.5的知識。
單擊「Start」運行演算法。
5. 運行結果
運行J48演算法之後,你會注意到「Classifier output」區域輸出的結果。
演算法運行了10倍交叉驗證,這意味著數據集中的每組實例都有機會用來做預測(在分成不同份之後)展現的結果,是這些預測的匯總。
首先請注意「Classification Accuracy」,可以看出演算法模型達到了96%的準確度,看起來比基準值33%好太多了。
然後看「Confusion Matrix」,你可以看到真實的分類結果的表格。其中1個錯誤,把Iris-vsetosa分類到了Iris-versicolor,2個把Iris-virginica分類到Iris-versicolor還有3個Iris-versicolor被分類到Iris-setosa(一共6個錯誤)。這個表格可以幫助解釋演算法的準確度。
總結
本文中你使用Weka載入了第一個數據集並且運行了第一個機器學習演算法(C4.8演算法的一種實現)。ZeroR演算法不能計算在內,它只是一個好用的判斷基準。
你現在知道了使用Weka載入數據和運行演算法的方法,以後可以嘗試不同的演算法看能得出什麼結果。
如果你使用Iris數據集得到了比96%更高的準確度,可以在評論區告訴我。
[1] How to run your first classify in Weka[2] ZeroR演算法介紹原文作者:劉遠程,轉載請註明出處,個人博客:http://tenstone.me
推薦閱讀:
※Momenta首期MCDC競賽來襲,海量數據豐厚大獎等你來
※谷歌前搜索與AI部門老大昨日剛卸任,今天就被蘋果挖走向庫克彙報
※在2018年國際消費電子展有哪些最值得展望
※OFweek中國高科技行業門戶11月舉辦的6場科技大會值得參加嗎?
※浪潮:隱形的人工智慧巨頭
TAG:人工智慧 |