IBM Watson首席技術官：機器學習的三個挑戰

03-03

高層速讀

1.關鍵事件：IBM Watson的首席技術官Rob High接受採訪，談到當前人工智慧發展存在的問題與挑戰；

2.關鍵信息：

1.目前機器學習中最大的技術挑戰就是如何使用較少的數據來訓練模型，Rob High相信這可能實現；

2.要實現更好的人機互動，機器要做的不止於完成語言對話；

3.當前正在使用的許多機器學習模型都因為它們使用的訓練數據而形成本質上的偏見。

在巴塞羅那舉行的2018MWC世界移動大會上，IBM Watson*的首席技術官 Rob High接受採訪時，談到了當前機器學習面臨的三個問題與挑戰。

IBM Watson：認知計算系統的傑出代表，也是一個技術平台。認知計算代表一種全新的計算模式，它包含信息分析，自然語言處理和機器學習領域的大量技術創新，能夠助力決策者從大量非結構化數據中揭示非凡的洞察。

一.用更少的數據訓練模型

對於Rob High來說，目前機器學習中最大的技術挑戰就是如何使用較少的數據來訓練模型。「這是一個挑戰，一個目標，而且我們肯定有理由相信這可能實現。」

通常，機器學習模型需要在大量數據上進行訓練，以確保它們是準確的，但是對於許多問題來說，大型數據集根本不存在。

然而，High認為大型數據集的問題是可以解決的。為什麼呢?「因為人類就是這麼做的。我們有一個數據點（data point）。「他說，「要知道，即使某件人類正在做的事情已經被證明，你也必須認識到，這不僅僅是某個部分，不僅僅是某個時間段告訴人們人類如何學習，是這整個文本提供了很多有價值的東西。對於High而言，正是這種文本，才使得用更少數據培訓模型，以及遷移學習方面的最新進展成為可能。也就是說，採用一種經過訓練的模型，然後靠其數據來啟動另一個可以有更少訓練數據的模型。

▲Rob High

二.真正理解人類互動

人工智慧(尤其是對話型人工智慧)的挑戰卻不止於此。「另一方面，我們一直在試圖弄明白機器如何才能更好地與人類互動，以一種自然的，並且能對他們的思維產生影響的方式。」High說，「人類互動不僅受語言對話影響，對語音語調、韻律、表情、手勢等的感知也有影響作用。High認為人工智慧不是一定要以擬人化形式模仿人類互動，但也許需要其他形式，比如一種視覺提示裝置。

同時，大多數人工智慧系統還需要更好地理解一個問題的意圖，以及這個意圖如何與先前某個問題相聯繫，以及他們當時的心理和性格狀態。

三.模型中的偏見

不過這也引出了另一個問題。目前正在使用的許多機器學習模型都因為它們使用的訓練數據而形成本質上的偏見。比如，如果你是白人男性，那麼一個給定的模型將會運行得很好；但是，如果你是黑人女性，這個模型可能就不適用了。「首先，我認為這個問題有兩個方面。其一是，數據集可能存在總體偏差，我們必須對此敏感；這也迫使我們考慮一些其他數據，從而在文化和人口統計學方面，拓寬其能代表的人。但是，另一方面，你實際上希望這種系統中的總體偏差能夠跨越個人偏見。

例如，High引用IBM與斯隆凱特琳癌症中心[點擊了解相關信息]合作的例子。IBM與其這家醫院的一些頂級癌症外科醫生進行合作，並以此為基礎，訓練了一個模型。「但是斯隆·凱特琳有一個關於如何製藥的特殊價值體系。因此這種價值體系嵌入在他們的偏見中。這是他們的制度偏見，是他們的品牌…並且任何即將被用於斯隆·凱特琳之外的系統都需要推進同樣的價值體系。

「要確保這些東西的偏向正確，既要確保提交給正確的人，還要確保這些人代表能更廣泛文化。」High表示現在定期地與IBM的客戶一起進行這樣的討論，在一個仍然經常忽略這些話題行業里，這是一個積極跡象。

有關人工智慧存在歧視與偏見的問題，點擊人臉辨識技術也存在膚色和性別歧視？了解更多。