Tableau集成Python機器學習實踐(中)
本系列分上、中、下三部分,本文為第二部分。
Tableau集成Python機器學習實踐(上)
Tableau集成Python機器學習實踐(下)
基於Iris數據集的機器學習實踐
Iris數據集簡介
iris數據集由Fisher, 1936收集整理,Iris也稱安德森鳶尾花卉數據集,英文全稱是Anderson』s Iris data set。Iris數據集是常用的分類實驗數據集,是一類多重變數分析的數據集。數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於Setosa,Versicolour,Virginica三個種類中的哪一類。
用戶可通過鏈接http://aima.cs.berkeley.edu/data/iris.txt 查看iris數據集的詳細介紹了解更多信息。
用戶可以從 http://aima.cs.berkeley.edu/data/iris.csv下載該數據集,另外,python的數據挖掘/機器學習庫scikit已經內置了iris數據集。
分類演算法
1. 我們選用jupyter notebook作為實驗平台,數據集採用從上面鏈接下載的csv文件,添加列名以便於操作。csv文件的Class列有三類值Setosa,Versicolour,Virginica,因此這是一個多分類的問題。首先我們要將Class列轉換為數值型字元。
2. 對數據進行標準化預處理,數據交叉驗證採用sklearn 包中的 StratifiedKFold 方法,StratifiedKFold 是一種將數據集中每一類樣本的數據成分,按均等方式拆分的方法,使用準確率作為評價模型好壞的標準。
3. 接下來分別使用SVM, 邏輯回歸分類器,樸素貝葉斯三種分類演算法進行驗證
得到準確率分別是:SVM 0.987, 邏輯回歸 0.860,樸素貝葉斯 0.947,就是你了SVM!
發布函數
首先運行startup.bat(Mac下為startup.sh)啟動tabpy_server 伺服器
接下來需要創建一個到tabpy server的連接對象
定義我們要發布的函數名稱,參數,以及返回對象
然後將方法發布到tabpy server上
最好再去 localhost:9004/endpoints 下確認一下方法已經發布到了tabpy server上。如果沒有問題,我們就可以進入到下一階段,去創建Tableau dashboard了,Cheers!
推薦閱讀:
※如何構建『金字塔式』用戶運營體系?
※千里之行始於足下
※另外一款編輯器 Geany
※推開數據分析的大門 (含2018年學習計劃)