讀paper,帶你看工業界怎麼玩ML

之前寫了篇環境搭建,沒什麼技術含量。不過看過我寫流場求解器專欄的朋友應該知道,我寫專欄喜歡從淺入深寫。本來應該寫怎麼用好ipython,不過呢,今天我準備寫點有趣的,也讓大家知道本渣從來不水。

基礎背景

在IT大系統運維領域,有一種東西叫ticket,中文名工作票或者問題單。其主要內容就是一個故障或者告警的描述,以及相應的解決方案。IT運維領域每天的主要事情就是處理大量的問題單,現在啥都講究智能化,所以智能運維也喊起來了。不過這不是噱頭,而是真真切切極大提高了效率。

針對這個問題單,可做的文章可多了。即可做預測也可以做推測,預測比如分類、推薦,推測比如KPI學習、閾值學習等。

今天我們就來看最基本的推薦是如何使用這個問題單的。

問題來了

問:如果我有很多已經閉環的問題單——包含問題描述和解決方案組,如果來了一個開放的問題單——只有問題,那麼我能幹啥?

你肯定答:too simple,我可以做分類啊,確定好類別,不就知道用哪些解決方案了嗎。

我:恭喜你,答對了,工業界就是這麼乾的。

看看IBM怎麼做,SmartDispatch……,白紙黑字寫著偌大的 SVM:n

通篇看下來,你會發現核心演算法就在SVM以及一個比較trivial、人工痕迹明顯的DTA演算法,這個演算法做進了這個SmartDispatch軟體。

問題又來了

事實上,一個問題描述可能描述的並不是真正的問題,比如你說你上不了網,可能是網卡廢了,也可能是伺服器掛了,也有可能是你網線都沒插。對於問題單也是如此,一個問題並非一個解決方案組就能解決,往往需要經過多個運維團隊才解決,而這個解決流程可能並不高效。

問:如果我有很多已經閉環的問題單——包含問題描述和解決方案組的序列,如果來了一個開放的問題單——只有問題,那麼我能幹啥?n

你肯定答:可以推薦解決方案序列啊。

我:恭喜你,又答對了。

這篇paper還是IBM的,用Markov 模型做序列推薦,EasyTicket…….。

就這個演算法做進了EasyTicket這個工具。

那麼我還有問題

為啥我問題單只有解決方案組的信息啊,我還要加上具體解決專家的信息。

問:如果我有很多已經閉環的問題單——包含問題描述和解決方案組的序列,以及序列過程中具體的專家序列,如果來了一個開放的問題單——只有問題,那麼我能幹啥?n

你肯定答:你傻呀,這不一樣啊,你可以做專家序列推薦啊。

我:你才傻,我才不這麼做。

又是IBM的文章((IBM:我TM招誰惹誰了)),AIM-HI……,有序列不一定要搞序列推薦啊,人家直接搞分類,每個問題搞幾個方案組,算一下各個專家以前解決類似方法的成果,然後從中方案組中選出合適的專家推薦出去。

大白話寫著,用 最大似然估計或者樸素貝葉斯或者決策樹來搞個分類完事。然後,又做成了一個軟體AIM-HI。

Paper讀完了

啥感受,是不是產生一種我TM也能幹的豪氣?

哈哈,對頭,要的就是這個感覺,我寫這篇文章的目的到這裡也該揭示出來了:

  • 大數據和機器學習在工業界就是非常實在的東西,不要覺得它很神秘、很高端,要用非常牛逼的、別人看不懂的演算法來搞。錯,大錯特錯,演算法不是本質的,本質的是解決問題,不要小看任何普通的演算法,腳踏實地吃透它,然後用之解決問題。
  • 工業界和競賽非常不同,競賽題是良定問題。而工業界面對的是紛雜的數據,從數據中去挖什麼可能都是不知道的,需要去發現,這也是為什麼Pony Ma說DT時代重要的是應用場景,而非數據和技術。

事實上,換你上你還真幹不了,因為文章基本演算法的背後是針對實際問題無數的實驗、微小調整和優化,不能很好的把握透這些基本的演算法,想做優化、想解決問題,如無根之萍。

參考文獻

[1] Agarwal S, Sindhgatta R, Sengupta B. SmartDispatch:enabling efficient ticket dispatch in an IT service environment[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012:1393-1401.n

[2] Shao Q, Chen Y, Tao S, et al. EasyTicket: a ticket routing recommendation engine for enterprise problem resolution[J]. Proceedings of the Vldb Endowment, 2008, 1(2):1436-1439.

[3] Khan A, Jamjoom H, Sun J. AIM-HI: A framework for request routing in large-scale IT global service delivery[J]. Ibm Journal of Research & Development, 2009, 53(6):4:1-4:10.

最後

我還是很尊敬IBM公司的,我不會去黑它,只是調侃。

上面寫的是一些工業界的文章,如果你們想看前沿的理論paper分析,請關注 @大野人007 ,某頂尖ML實驗室科班出身,論文寫完、順便搞個大數據競賽獎金拿到手軟,以後還是金融高富帥。

他的專欄機器學習基礎(Notes閱讀) - 知乎專欄 里有他讀paper的想法,歡迎關注。

我的剛建立的微信訂閱號 ,文章會同時發送到訂閱號上,歡迎關注,搜索 鍵盤數據俠或者jp-sjx進行關注。


推薦閱讀:

人工智慧又放大招!亞馬遜的AI時裝設計師,究竟會不會搶走人類飯碗
《設計與人工智慧報告》發布
Facebook連夜關停人工智慧系統 AI真的已經突破人類認知了嗎?
如何生成主題相關的對話 | 每周一起讀 #11
深度學習小實驗3:AI作曲家(待更新)

TAG:大数据 | 机器学习 | 人工智能 |