數據分析與認知計算產品 IBM Watson Analytics 試用體驗
在這篇文章中 《 藍色巨人IBM的變革與復興,大數據時代的人工智慧 IBM Watson 》我介紹到了 IBM Watson 在人工智慧領域的布局和變革。那麼本篇文章就帶大家走進 IBM Watson 旗下認知計算、預測分析的雲端數據分析產品 IBM Watson Analytics,也算是對上一篇文章的延續。
在本文中我將完整的介紹 IBM Watson Analytics 的試用過程,以及從產品設計的角度、從業務分析的場景中總結出來的關於 Watson Analytics 的一些亮點。這些亮點我個人認為也符合未來數據分析產品發展的整體趨勢,相關背景文章請參考:
2017年商業智能 BI 發展趨勢分析
深入分析 BI 數據可視化市場 SaaS 模式
IBM Watson Analytics
在 IBM 官方網站 上對 Watson Analytics 的介紹是這樣的:專業的數據可視化分析工具。基於雲平台的智慧的、自動化的數據發現服務和自動預測性分析功能,幫助用戶輕鬆理解數據中的奧秘,並自動創建儀錶板和信息圖。
IBM Watson Analytics 能解決什麼問題
Watson Analytics 數據可視化分析軟體官方介紹 —— 可為您提供高級分析的諸多優勢,但同時不增加複雜性。這種雲端智慧數據發現服務可以引導數據探索,自動化實現預測分析,並支持輕鬆的儀錶盤和信息圖表創建。您可以迅速獲得答案和新的洞察,在幾分鐘內迅速作出自信的決策 - 所有這一切全部由您自己完成,無需專業統計分析背景。
從這些描述中總結出來三個簡單的特點:人人可用的數據可視化分析、雲平台、自動化預測分析和數據洞察。
IBM Watson Analytics 的註冊
試用 IBM Watson Analytics 需要註冊一個 IBM ID 賬號,根據一些提示填寫一些基本的信息。
註冊成功後,會收到郵件相應的郵件驗證和 IBMid。
在主頁面中有三個版塊:
Data 數據版塊:用來上傳和準備數據。
Discover 發現版塊:數據洞察與分析,通過後續的試用,我發現期中有幾個亮點很值得注意。
Display 展現版塊:數據發現結果呈現與分享。
IBM Watson Analytics 數據準備
點擊 New Data 可以發現 IBM Watson Analytics 預置了很多第三方應用和服務、IBM Cognos 、社交相關的數據介面(國外的為主),例如共享雲存儲 Dropbox、在線活動服務平台 Eventbrite、數字營銷產品 Hubspot、很多外企都在用的筆試與問卷調查類 SurveyMonkey、Twitter 社交數據。
先簡單使用 Local File 上傳數據,實驗數據來自 IBM Sample Data一個有關人力資源培訓相關的數據,可在本文的附件中下載。上傳成功後在這個頁面可以看到文件,可以重命名。60% Quality 說明數據的質量在 60% 左右,這是因為 Watson Analytics 在上傳這個數據的時候對數據做了一些內部的轉換和分析。通過分析之後對數據給出評分,數據質量越好高評分就越高。如果分數很低,遠遠低於 60%,那麼就意味著這個數據質量可能存在很大的問題,這種數據也不適合做進一步的分析。
在微軟 BI 的 ETL 工具 SSIS 中也有一款類似的組件叫 SQL Profiling Task 也能夠用來檢查數據的質量。但目前有關數據準備的做法,這種趨勢會更加明顯 —— 數據在上傳和載入的過程中就把數據質量的評估給反饋出來。
導致數據質量低的原因有的可能是空格、有的可能是空值、出現了與整列其它數據不匹配的數據類型的值等等,這個時候可以點擊 Refine 對數據重新做出調整和優化。
Refine 頁面下可以看到不同列的數據質量情況,包括缺失值、甚至可以看到數據之間的層次關係等等。也可以在 Refine 頁面創建計算列、數據組(比如 Age 1-12 歲定義為少年等 )、增加層級關係等。
Refine 的作用就類似於一個數據質量檢查工具和一個輕量的 ETL 數據準備和清洗工具。
數據準備階段的幾點總結和思考
1. 這款產品的面向的用戶群體可以是無需專業統計分析背景的業務人員,因此在數據準備環節對源數據的要求還是存在的。數據盡量通過 IT 部門做過專業的清洗和規範,這樣會更大程度的節省業務人員在數據準備上的時間和精力。
2. 在保證大部分數據規範和質量的前提下,業務人員可以根據自己的理解對數據做一些初步加工。這一點在以後的數據分析工具發展上是一個趨勢,讓業務人員自己可以處理一些基本的數據清洗,而不用事事都需要 IT 的支持。
3. IBM Watson Analytics 數據上傳即反饋數據質量評估,數據質量評估得分低則表明該數據不適合在接下來的分析場景中使用。因此,這就盡最大可能的避免了因低質量的數據而造成了分析結果不準確的情況。
4. 在數據準備的溝通和環節上,IT 部門和業務部門可以有效的進行職責劃分。IT 部門對數據質量結果負責,業務部分對分析結果負責。IT 部門數據提供的質量低,則返回重做、重新準備,直到達到雙方共識的一個標準比如 80% 或者 90%,達到這個標準後業務部門再進行後續的數據分析和探索工作。
IBM Watson Analytics 的數據質量評估為我們提供了一個很好的關於數據質量的參考,我們可以利用好這個特點對團隊的協作過程進行有效的考核和流程把控。
在快速完成了數據上傳和載入動作後,我們開始在 IBM Watson Analytics 中進行數據探索和分析的工作。
IBM Watson Analytics 數據分析與探索
在正式的數據探索和分析之前,先來簡單的了解一下要分析的數據(只展示了部分數據)。
很顯然,在這份數據中可以分析的是有關培訓課程的消費或支出成本等問題。先簡單的理解和觀察一下這些數據,這對後面理解 IBM Watson Analytics 是如何設計這種自動化化數據分析和自然語言探索很有幫助。
點擊文件的標題 - WA_HR_Training-2013-16-1,我們對數據的分析就已經開始了,並且這是一種全新的體驗。在以前我們是要向自己提問,通過工具來幫助實現。而現在 Watson Anlytics 向你提問或是你也可以向它提問,而提問之後的分析都會自動實現。
在 Discovery 分析和探索頁面,Watson 「猜」出了你可能想要分析的問題。例如:
1. What is the trend of Course cost over Year by Department? 不同部門每年培訓課程成本的趨勢如何?
2. What drives Position Count ? 什麼因素驅動了/影響了職位數量?
3. How are the values of Course days and Expense total associated ? 課程天數和費用總額之間有什麼樣的關係 ?
而每一項「猜」出來的問題,點擊進去就會自動呈現一個分析結果,例如這個問題可能正是業務人員所需要的 What is the trend of Course cost over Year by Department?
一個分析就這麼結束了,沒有任何的拖拉拽操作,圖形化的分析結果就已經呈現了。
這種產品理念的過人之處就是 —— 它為你提供想法,但是把選擇權留給你:
1. 對於很多沒有從事過專業分析的業務人員 IBM Watson Analytics 給出了很多提示和線索,或者說分析問題的思路。有了這些提示和思路,普通業務人員可以通過這些問題很快速的得到分析結果。
2. 對於一些初級的從業務崗位轉向業務分析的人員,也面臨過這些問題:BI 開發人員在需求溝通的時候通常也會發現部分業務人員不知道要分析什麼,可能知道要分析什麼但又不知道分析的結果要如何呈現。通過 Watson Analytics,可以不需要 BI 開發人員的任何參與,業務人員可以自行挑選出所需要的分析結果。
3. 對於大部分數據分析人員,往往憑自己的經驗可以很快的想出一些分析的場景,但是人無完人總有遺漏的分析角度。對於 IBM Watson Analytics 來說,分析的角度我提供給你,非常的全面,可以隨時放在身邊提醒你,是對你想法的一個補充,它並不會幹涉你。
就如同員工跟老闆彙報工作方案的時候,老闆並沒有考慮好要怎麼來做,但員工準備了很多套方案。最終方案員工來提,老闆來拍板,既不傷害老闆的面子,又讓老闆獲得權威感,Watson 的這種細膩的設計思維很人性化。同時,上面反應出來的幾個問題對應是日常 BI 開發和數據分析、呈現階段的幾個痛點場景,IBM Watson Analytics 產品在這些方面的考慮還是比較周到的。
這是我們看到的 IBM Watson Analytics 通過我們上傳的數據就 「猜」 出來的問題,同樣,我們也可以向 Watson 提問我們自己的問題。
How to ask a question
返回到這個頁面,我們再來關注一下 How to ask a question ?
如果你不知道要問什麼問題,IBM Watson Analytics 提供了一些問題分類導向,每一個分類對應著不同角度的問題。
Variety pack - 一些基本的問題
Compare data - 數據比較相關的問題
Understand relationships and identify patterns - 理解數據之間的關係
Aggregate data - 有關數據聚合的問題
Sort and filter data - 排序和篩選
Predict data - 數據預測相關的問題
All available examples - 所有問題
比如說 Aggregate data
每一個問題都可以調整分析的維度和事實,每一個問題只要點擊一下 ASK,整個的分析也就自動完成了。
IBM Watson Analytics 分析問題的邏輯
通過上面的簡單介紹,大家基本上能夠發現我們在對這份測試數據分析的時候,大部分的我們所想要的分析已經由 IBM Watson Analytics 已經幫我們完成了,每一個問題就對應這一個分析結果,如何做到的?
回到我之前列出來的數據,很顯然 IBM Watson Analytics 在數據上載的階段就已經完成了對數據的分析。IBM Watson 通過數據列的值對分析數據的角度(即維度)和分析的目標數據(即度量值或事實)進行了解析和自動建模處理。
Year 年份
Organization 組織
Department 部門
Position 職位
Position Count 職位數量
Planned Position Count 計劃職位數量
Expense Total 總支出
Course Cost 課程成本
Course Days 課程天數
Terminations 終止標記
Internal Hires 內部招聘
External Hires 外部招聘
自動對維度和事實進行分組 - 數值型的自動變為分析的事實。
自動對維度和事實進行分組 - 字元或字元串類型的數據自動解析為維度。
很多數據分析工具能夠自動的區分維度和事實,但是 Watson Analytics 在這個層面上更進了一步。Watson Analytics 不僅自動的對維度和事實進行劃分,同時「猜想」了人們可能要用到的所有分析角度和事實組合,而這些組合可以直接的通過 Question 呈現給用戶選擇。
維度和事實建模分析三個發展階段
1. 先設計好分析模型再分析和呈現。2013年以前使用傳統的 BI 分析或報表工具(IBM Cognos、SAP BO、Oracle BIEE、Microsoft SSRS 等)大都需要預先建好數據倉庫,在數據倉庫建模的過程中我們需要自己設計維度表、事實表,還要考慮到性能和開發流程的問題,才有了 inmon kimball 之爭。
2. 在分析和呈現過程中來建模。例如 Tableau、Qlik(QlikSense)、Power BI、Ptmind DataDeck、永洪、Smartbi、帆軟、ETHINKBI 等產品不再嚴格考慮數據倉庫建模的問題,具體表現就是可以基於基礎數據直接將欄位拖放到維度和事實面板,分析結果自動呈現。
3. 數據上載完成即建模完成,分析結果可及時呈現。IBM Watson Analytics 處於這個階段。有一部分細分領域的產品也符合這一點,比如固定了數據模型的介面,按照介面上載數據,已經固化的分析報表和結果即可呈現。但區別就在於 IBM Watson Analytics 並不會預先固定好數據分析模型和分析報表,也不會預先固定了數據模型的介面,而是根據上載的數據對建模和分析進行隨時調整。
上面是對 How to ask a question 的過程進行了一些解析,接下來我們再來看看 IBM Watson Analytics 所展現出來的對自然語言的分析和認知能力。
IBM Watson Analytics 自然語言的分析和認知能力
關於自然語言的分析,業務人員可以直接通過自然語言的輸入來獲得 Watson 的回答,比如我輸入了一句:I want to know course cost of departments ,我想知道每個部門的課程成本。其實要分析就是想看看每個部門在培訓課程中的花費,哪些部門花費的比較高,大概是因為哪些原因,但這些問題可能還不是非常具體。英文的問題可能也比較隨意和含糊,也不用特別去考慮英文的語法。
接著之前的頁面在輸入這句話後回車,IBM Watson Analytics 就會返回一些與這個問題可能相關的很多提示,這就是 Watson 的自然語言處理和認知能力。每個問題對應的又是一個分析的結果,即提出問題,分析呈現就已經完成。
這種場景我們經常遇到:很多的業務人員可能只是根據工作經驗和自身的業務能力有一個想法,提出的要分析的問題也不是非常明確。數據分析師或者 BI 開發人員在跟業務人員溝通的時候,往往都希望得到一個非常明確的分析需求,這就是一種矛盾。
但現在業務人員通過 ASK A QUESTION 的時候就可以獲得 Watson 給出的更加具體的提示,也有可能這些提示當中就會把業務人員想問但是不知道怎麼問的問題給呈現出來,也可能是之前沒有想到的問題也給呈現出來了,這就是 Watson Analytics 打造的一種分析場景。
這種場景就是普通的業務人員不需要專業的分析背景知識,藉助於 IBM Watson 的認知能力,也可以一步一步完成基礎的數據分析工作。一旦業務人員逐步養成了這種數據探索習慣,隨著數據思維意識的逐步提高,業務人員和專業分析人員的溝通成本會越來越低。對於同一個問題大家達成的共識會越來越清晰,這種數據意識的提高和溝通的正向循環將帶給企業不可想像的價值。
按我的想法,IBM Watson Analytics 給出的這個提示 「What are the values of Course cost for each Department? 」 很符合我想問的問題,即每個部門的培訓成本。
點擊這個問題,Watson Analytics 將自動為我們呈現分析的結果 - Sales 部門的培訓課程成本最高。
但最後想起來想問的是 Expense Total,那麼可以點擊 Course Cost 很靈活的將它換成 Expense Total。
在實際的分析過程中,我們通常會一個接一個的拋出另外的問題,要探索究竟。比如,這裡的分析結果可以展示出哪些部門的培訓花費最高,比如 Sales、Finance 部門。但接著可能更想知道的是為什麼花費要哪么高,是哪些問題導致的呢? 有些原因我們可能可以根據一些日常的經驗來判斷,比如職位越高的培訓費用就越高,比如不同的部門、培訓時間天數、培訓漲價了等等,但到底哪些因素重點影響了這些結果 ?
遇到這些問題業務人員如何來解決? 數據分析師該如何解決? 提出假設再分析再驗證? 驗證完了再分析? 這個過程會相對漫長。對業務熟悉對數據熟悉,分析和判斷的方向可能是對的,如果不熟悉不敏感,這個方向可能就是錯誤的。
IBM Watson Analytics 很好的解決了這一點,在該分析結果的右側區域 Discoveries 自動給出了一些探索式預測分析結果,而這一切不需要任何的具體操作。
點擊 Top Drivers of Expense Total ( 驅動/改變/導致/影響 Expense Total 變化的最高的幾個因素或者原因),這時問題就變成了 What drives Expense total ?
左側的螺旋圖中,越靠近中間點的維度越說明了它們對 Expense Total 影響越大。從這個圖中可以看出 Position 職位和 Organization 組織的雙向組合對 Expense Total 總花費越大,也就是說 Expense Total 總花費受職位和組織影響最大。
我們還可以點擊 Position and Organization 旁邊的 + 號對這一點進行更進一步細緻的分析,這時問題就變成了 How do Position binned and Organization binned impact Expense Total ? 職位和組織是如何影響 Expense Total 總花費的,顏色的深淺告訴了我們哪些組織的哪些職位 Expense Total 總花費最大。
比如這裡看到的在橫軸上 Level 2 Sales Representative 和 Level 3 Sales Representative 銷售代表他們的培訓消費最高,同時也可以看到與之交匯的組織是 GO Central、GO Asia Pacific、GO Americas。
這些問題還可以繼續分析下去,整個過程不需要做任何的編程和手工拖拉拽維度和事實,所有的分析非常自然的由 Watson Analytics 給呈現出來。
回顧這個簡單的分析流程
1. 各個部門培訓課程的成本,通過自然語言提問,Watson 給出了我想要的問題,一次點擊就呈現了分析的結果。
2. 之後發現我還想了解各個部門培訓的總消費(實際消費),很自然的切換了一個欄位我找到了所要的分析結果。
3. 其次,相對這個結果做深入分析,想看看這個總消費為什麼這麼高,受哪些因素影響最大、為什麼,我通過 IBM Watson Analytics Discoveries 小面板也找到了答案。
這個邏輯是我們最簡單的一個分析問題、思考問題和尋找答案的一條再清晰不過的邏輯。我們可以試想一下,利用我們手邊的工具、紙筆、SQL 查詢、報表分析工具,我們大概需要多長的時間來從一層邏輯來打通到另外一層邏輯,並且中間還需要層層驗證邏輯推理的正確性和合理性。
但是在使用 IBM Watson Analytics 的過程中,我的邏輯猜想和邏輯實現就是三次點擊,這就是 IBM Watson 的強大之處,也是人工智慧認知計算的魅力。
最後可以將剛才幾個相關的分析結果重命名保存到一個文件夾中,比如 Personal,同時回到 IBM Watson Analytics 主頁點擊 Display。
新建一個 Display 顯示選擇一種布局方式以及找到剛才保存的分析結果。
把分析的結果放到不同的面板中保存下來。在展示版塊,我們隨時可以看到我們保存的數據分析結果,還可以做很多篩選過濾等操作。
最後可以對這些分析結果進行分享,分享的選擇也很多。
對於分析結果,發送郵件可以使用圖片的格式,也可以是 PDF 或者 PowerPoint 的形式。
收到郵件的效果
附件中的圖片
至此,整個對於 IBM Watson Analytics 的試用體驗就正式完成了,整個分析的過程不超過 10 分鐘。當然還有很多需要去研究的細節,可以幫助我們完成更多更深入和精細的分析,這還需要對 IBM Watson Analytics 做進一步的研究和深入體驗。
IBM Watson Analytics 適合使用的人群
1. 普通的業務人員,不需要專業的數據分析背景,通過對 Watson 的提問和 Watson 給出的引導就可以展開分析的工作。
2. 數據分析和數據挖掘工程師,IBM Watson 會給出關於同一問題的不同分析角度,這對大家分析和思考問題是一個很好的補充。同時,專業的數據挖掘和分析素養和對數據的意識,可以讓大家對 IBM Watson Analytics 駕馭的更好。
IBM Watson Analytics 需要改善的地方
1. 目前通過試用發現 IBM Watson Analytics 對中文的支持還是不夠,缺乏中文本地化的展現界面,提問環節所展現的結果是中英文混雜的。這一點如果能夠解決,相信還是降低了不少的使用門檻。但是,中國文化博大精深,漢語言文化豐富多彩,類似於「冬天:能穿多少穿多少; 夏天:能穿多少穿多少。」這樣的自然語言處理也很期待 IBM Watson Analytics 的表現。
2. 由於 IBM Watson 雲在國外的緣故,導致在實際的分析和操作過程中頁面載入有一定的延遲,最後通過 VPN 鏈接完成了整個產品試用的過程。
IBM Watson Analytics 試用總結
雖然有很多功能可能並沒有使用到,但是目前體驗到的功能還是給我留下了比較深刻的印象。在數據分析的整個過程中不需要任何 IT 人員的引導、也不需要特定的數據分析背景,這應該就是 IBM Watson Analytics 對自己的一個定位。
一個好的產品設計需要很多人性化的思考,IBM Watson Analytics 在這些方面做的很好。Watson Analytics 對人們考慮問題和分析問題、分解問題的邏輯梳理的比較清晰,通過一步一步的提示、引導、相關性的分析展示讓人的邏輯在 Watson Analytics 的使用過程中得到了很好的補充和延續。
當然,越讓人覺得使用簡單的產品,背後所隱藏的技術實現和為此所做出的努力就越大。
(全文完,作者:呂品,天善智能聯合創始人&運營總監,微信號:tianshanlvpin)
IBM Watson Analytics 入門教程中文版
推薦閱讀:
※Siri 的智能進化
※最怪怪的5款人工智慧啥樣?
※4年賺34億,讓李嘉誠拜師,他是天才還是魔鬼?
※構建 CTC 語音識別解碼網路
※阿里智能工作軟體機器人——碼棧應用教程,讓一切變得自動化