標籤:

IBM機器學習CTO給2190知乎網友的一封信

4月11日晚上7點到8點, IBM機器學習首席技術官Jean-Francois Puget ( JFP)博士,在知乎Live(知乎 Live - 全新的實時問答)上開展了一場跟2190名知乎網友(也叫知友)的對話,分享了機器學習的相關趨勢、IBM在機器學習的戰略以及相關的研發投入,也用真實案例來說明了機器學習在商業領域的價值。

一個小時的分享和溝通實在是有些短暫,很多知友的問題沒有來得及回答,所以JFP在分享之後,針對知友們提出的問題進行了回答。我們將他的回答進行了翻譯和簡單的整理,以饗讀者。

1. 成熟的機器學習演算法是否已應用於商業上?

是的。機器學習已用於多個領域。其中之一就是經常使用矩陣分解演算法的產品推薦。目前,將機器學習投入商用的其他領域包括自然語言處理、圖像識別、銷售預測、預測性維護、客戶流失預測。

2. 機器學習能做什麼?有哪些產品?

只要有了明確的業務目標和支持此業務目標的數據,就可以做許多事。例如,如果業務目標是減少訂貨後的送貨時間,則必須擁有足夠的歷史數據,以便了解影響送達時間的因素。

3. 如何實現機器學習?

從一個明確定義的、小範圍的項目開始。然後使用開放源碼來構建模型。隨後使用像IBM Machine Learning 這樣的行業平台來管理模型的生命周期。

4. 目前投入商用的語音識別、自然語言處理、圖像識別只不過是語音客戶服務。基於搜索和深度學習推薦、識別等,是否還有任何其他應用方向?

客戶服務很關鍵,但還有其他與機器學習相關的領域。例如,預測性維護是應用機器學習的一個好想法。該想法的理念是使用 物聯網收集各種設備的信息並預測它們的健康狀況,以便可以預防故障。另一個領域是醫療健康,機器學習能幫助診斷,並幫助選擇最佳療法。

5. 對於分類,有哪些經典用例?您有何想法或建議?何時需要考慮複雜模型?

異常檢測是一種經典用例,在該用例中需要對正常和異常情況進行區分。這是一個二類或二元分類問題。這包括欺詐檢測(正常與欺詐)、預測性維護(正常操作與故障)、醫療健康(正常與疾病)等。我建議從簡單模型開始,比如邏輯回歸,如果準確性不夠高且有大量訓練數據,那麼可以尋找一些更複雜的模型,比如梯度提升決策樹或深度學習。

6. 您是否認為機器學習現在存在著泡沫/炒作?

是的。我認為深度學習被吹噓過度了,而且人們的期望有些不切實際。深度學習很好,而且它實現了計算機視覺和自然語言處理上的突破。但這需要大量的投資和數據。大多數公司都沒有足夠的數據來讓深度學習發揮作用。此外,在許多更適合使用機器學習技術的領域,深度學習不是首選的技術。我希望深度學習的優勢和局限性得到更好的一般性解釋。

7. 為什麼深度學習更偏向於學術,而不是行業?

這種情況正在快速改變。效力於 IBM、Facebook、Google 等公司的大部分高級團隊都不是學術性質的。但是,深度學習仍停留在研究階段,尚未達到工程設計階段。一個原因是深度學習未得到深入理解。設計正確的網路架構仍是少數人掌握的藝術。

8. 您對遷移學習有何看法?

這是個不錯的想法。遷移學習可以在訓練複雜模型時節省大量時間。

9. 如果深度學習的性能優於任何其他演算法,它是否可能取代其他經典的機器學習演算法?

深度學習在聲音和圖像方面具有更好的性能,但在其他領域沒有突出表現。由於深度學習仍未取得良好結果,或者由於沒有足夠的訓練數據,其他經典機器學習演算法在一段時間內仍有許多機器學習應用。

10. 無監督學習的行業應用方向有哪些?

我認為無監督學習不會被廣泛用作一項獨立技術。無監督學習通常被用作監督式學習的一個預處理步驟。例如,建立數據集群,然後使用集群id 作為新特性,這有助於提升監督式機器學習演算法的性能。

11. 如果企業打算使用機器學習,應該如何開始使用它?技術門檻高不高?哪些行業擁有這種機會?

企業需要先在小型的、明確定義的項目上訓練數據科學家。企業可以通過在線課程將他們的員工培訓成數據科學家,比如coursera 上的斯坦福機器學習課程。但是只有培訓還不夠,人們必須進行實踐。一種不錯的實踐方式是參與機器學習競賽。一些網站舉辦了這類競賽。

12. 強化學習有何難處?它是否更接近通用的 AI?

強化學習旨在獲知下一步最佳行動。在可能操作數量有限的領域,比如棋類遊戲 (Go) 或 Poker,強化學習取得了巨大成功。如何才能將這些成功擴展到可能操作數量無限的實際情況中,讓我們拭目以待。如果我們能實現此操作,那麼我們就離通用AI 更進了一步。

13. 我正在嘗試預測採用機器學習的產品的價格。在經過訓練的數據中,產品的價格和其他參數是已知的。我想知道我應採取哪種演算法,監督式演算法還是無監督演算法?IBM的當前產品能派上用場嗎?

您需要使用回歸演算法。我猜您既想了解藝術圖像,又想了解元數據,比如藝術家、創作年份、尺寸、材料等。我推薦採用深度學習來處理這些圖像,採用經典機器學習來處理其餘信息。我最喜歡的經典機器學習演算法是梯度提升決策樹,比如XGBoost 或 LighGBM。我們打算在 IBM ML 中支持這些演算法。

14. 您認為機器學習中存在隱私問題嗎?

是的,肯定存在。考慮將機器學慣用於醫療健康領域,例如根據肺部放射學信息來診斷癌症。要訓練機器學習模型,需要獲得大量的肺部放射學信息樣本。如果不小心處理,就有可能從訓練數據中識別出誰患有癌症和誰沒患癌症。這是一種嚴重的隱私泄漏,這種舉動在一些國家可能是非法的。處理這種情況的一種方法是在將數據發送到機器學習程序之前對它進行匿名化。

15. 是否可以結合使用深度學習與傳統編程?NTM 的發展是否會取代一些程序的發展?

我不確定我是否正確理解了這個問題。如果您問的是結合使用深度學習與傳統機器學習,答案當然是肯定的。例如,如果您的訓練數據是圖片和結構化數據的組合,您應該採用一種集成方法。使用圖片訓練深度學習模型,使用剩餘特徵訓練經典機器學習模型,然後使用第三個分類器將前兩個模型的預測結果作為輸入。


推薦閱讀:

BOW 演算法,被CNN 打爆之前的王者
SRCNN 論文閱讀
數據挖掘有哪些常見的應用模型?
機器學習預測地震,信得過嗎?

TAG:機器學習 |