Tableau集成Python機器學習實踐(中)

本系列分上、中、下三部分,本文為第二部分。

Tableau集成Python機器學習實踐(上)

Tableau集成Python機器學習實踐(下)

基於Iris數據集的機器學習實踐

Iris數據集簡介

iris數據集由Fisher, 1936收集整理,Iris也稱安德森鳶尾花卉數據集,英文全稱是Anderson』s Iris data set。Iris數據集是常用的分類實驗數據集,是一類多重變數分析的數據集。數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於Setosa,Versicolour,Virginica三個種類中的哪一類。

用戶可通過鏈接aima.cs.berkeley.edu/da 查看iris數據集的詳細介紹了解更多信息。

用戶可以從 aima.cs.berkeley.edu/da下載該數據集,另外,python的數據挖掘/機器學習庫scikit已經內置了iris數據集。

分類演算法

1. 我們選用jupyter notebook作為實驗平台,數據集採用從上面鏈接下載的csv文件,添加列名以便於操作。csv文件的Class列有三類值Setosa,Versicolour,Virginica,因此這是一個多分類的問題。首先我們要將Class列轉換為數值型字元。

2. 對數據進行標準化預處理,數據交叉驗證採用sklearn 包中的 StratifiedKFold 方法,StratifiedKFold 是一種將數據集中每一類樣本的數據成分,按均等方式拆分的方法,使用準確率作為評價模型好壞的標準。

3. 接下來分別使用SVM, 邏輯回歸分類器,樸素貝葉斯三種分類演算法進行驗證

得到準確率分別是:SVM 0.987, 邏輯回歸 0.860,樸素貝葉斯 0.947,就是你了SVM

發布函數

首先運行startup.bat(Mac下為startup.sh)啟動tabpy_server 伺服器

接下來需要創建一個到tabpy server的連接對象

定義我們要發布的函數名稱,參數,以及返回對象

然後將方法發布到tabpy server上

最好再去 localhost:9004/endpoints 下確認一下方法已經發布到了tabpy server上。如果沒有問題,我們就可以進入到下一階段,去創建Tableau dashboard了,Cheers!


推薦閱讀:

如何構建『金字塔式』用戶運營體系?
千里之行始於足下
另外一款編輯器 Geany
推開數據分析的大門 (含2018年學習計劃)

TAG:TABLEAU | 機器學習 | 數據分析 |