人工智慧背後的數據科學

02-14

摘要

此文獻給所有對人工智慧（AI）感興趣但是仍然未對其有深入了解的傳統的數據科學家們。這篇文章對與今天大眾媒體口中的人工智慧相結合的數據科學技術進行了概述。

我們曾經寫過一些關於組成人工智慧（AI）的多種數據科學技術。我依然聽到很多人把AI當做單一的個體來請教關於它的問題。其實AI並不是一個個體，而是眾多數據科學技術的集合。而在現階段的發展中這些技術還未被很好地整合起來，更不能說被易於使用。儘管如此在每一個數據科學領域，我們已經在大眾媒體的關注下獲得了很大進步。

這篇文章並非是一個對數據科學的深入研究，而更像是一個對數據科學現在的情況作一個通俗的走馬觀花式的概述。如果你是一個的傳統意義上的數據科學家，或者你已經讀過一些文章但是暫時未能將數據科學的重點信息了解清楚，那麼這可能是一篇能幫助你將現有知識整合起來甚至能幫助你發掘自己興趣點的文章。

AI只是其數據科學組成部分的一個集合

組成AI的數據科學組成部分分為以下幾類。其中可能會有些重疊，但是這些將會是你在媒體上看到的詳細類別。

Deep Learning深度學習
Natural Language Processing 自然語言過程
Image Recognition 圖像識別
Reinforcement Learning 強化學習
Question Answering Machines 問答機
Adversarial Training 對抗訓練
Robotics 機器人學

以上便是所有不同的類別（深度學習其實包括了一些其它分類）。它們之間的聯繫並不緊密，多數是被初創公司和技術界的重要公司同時應用在一些新奇的項目上。它們在被成功地應用時能夠產生1+1>2的效果，例如在Watson和Echo/Alexa網站上的應用，或者是開始被用在無人駕駛汽車技術中。儘管如此，這些技術的整合仍會是一個很大的挑戰。

AI需要完成什麼任務？

看：現在仍為視頻圖像識別
聽：通過文字或口頭語言獲得輸入信息
說：對我們的輸入以相同的語言或外語作出有意義的回應
模仿人類做出決策：提供建議或新的知識
學習：基於其所處環境的改變對其自身行為做出改變
移動：並模仿物理對象的行為

你能夠馬上開始看到今天很多在商業上對AI的應用只要求其中的幾種能力。但是我們期望中更複雜的應用將會需要所有這些功能。

將人類的能力轉化為數據科學

在這裡我們講述的內容會開始變得凌亂和難以理解。

上面說的的每一個功能都不必要與它們對應的數據科學技術一一對應。

但是如果想要真正理解AI在今天的發展，理解數據科學技術如何與這些功能要求相匹配是很重要的。它們之間的匹配關係如下圖所示。

深度學習的情況

你可能注意到「深度學習」並沒有在圖中出現。那是因為它是上圖中遞歸神經網路和卷積神經網路兩者的集合。人工神經網路（ANNs）作為最高級的集合登記，在80年代開始被使用，並且一直是標準數據科學機器學習工具包中的一部分，被用於解決標準分類和回歸問題。

最近我們更大量地運用平行處理、雲處理和GPU（圖形處理器）來取代傳統英特爾晶元，使我們能夠對不同版本的有著幾甚至過百個隱藏層的ANN進行實驗。這些隱藏層就是我們所說的「深度」，從而形成「深度學習」。添加隱藏層意味著增加運算複雜性，這也是我們為什麼不得不等硬體發展速度趕上我們野心的膨脹速度。現在至少有27種不同類型的ANN，但最重要的是卷積神經網路（CNN）和遞歸神經網路（RNN），如果沒有它們，圖像和自然語言處理將是不可能的。

對數據科學的簡單討論

要對任何這些基礎數據科學技術進行定義需要很多篇幅。我們將在這裡提供最簡短的描述和一些包含更完整的信息的鏈接。

卷積神經網路（CNN）：CNN是圖像和視頻識別、面部識別、圖像標記（比如Facebook），在我們的無人駕駛汽車中辨別行人和停車標誌等等這些所有類型技術的核心。它們極其複雜，難以訓練，並且當你不需要指定具體的功能（貓有毛皮，尾巴，四條腿等）時，你需要給一個CNN展示數百萬的貓的例子，直到其能夠成功地分辨對象。訓練數據的巨大是訓練CNN的一個巨大的障礙。
生成式對抗神經網路（GANN）：CNN和RNN有著同樣的問題，都需要巨大和繁重的數據量來進行訓練，以識別停止標誌（圖像）或學習必要的指令來回答你的問題，例如如何設立帳戶（語音和文本）。 GANN能夠保證大幅減少訓練數據以及顯著提高精度，並通過互相作戰實現。這裡有一個偉大的關於訓練卷積神經網來識別偽造的法國印象派畫作的故事。簡單地說，先將一個CNN用真正的法國印象派畫作進行訓練，所以它應當知道如何分辨真實的畫作。再將在此CNN之外的其他對抗性CNN（稱為生成式對抗神經網路）用作創造偽造的印象派畫作。

對抗性CNN通過將圖像像素值轉換為複數數值向量來執行圖像識別的任務。如果你將它們逆向運行，即從任意數值向量開始運行，它們就會創建出圖像，用這個方法創造偽造的畫作，試圖欺騙那一個學習如何檢測偽造品的CNN。他們互相對抗，直到生成式CNN（偽造者）偽造的圖像真實到連那一個CNN都不能將它們與真實畫作進行分辨。這時偽造者 CNN和分辨者CNN打成平手。

被用作分辨將偽造畫作與真實畫作的CNN在檢測偽造品方面已經被進行了卓越的訓練。在此之後我們不必再對成千上萬的法國印象派畫作大師提出分辨偽造畫作這種不切實際的要求了。總的來說，這就是人工智慧網路從他們的環境中學習的例子。

問答機（QAM）：QAM是我們給IBM的Watson起的一個相當不起眼的名字。問答機是一些巨大的知識倉庫，經過培訓它們可以在它們的知識庫中找到獨特的關聯，並為它們以前沒有見過的複雜問題提供答案。當普通搜索返回可能找到能回答您問題的答案的源列表時，QAM則被設為必須給出單一最佳答案。這是NLP和複雜搜索技術的混搭，其中QAM構建關於問題的可能含義的多個假設，並且基於加權證據演算法返回最佳回答。

QAM需要大量關於要研究主題的數據，這些數據由人工載入，並且隨後必須用人工訓練和維護知識庫。然而，一旦建立，他們已被證明在多個領域具備專業能力，包括癌症檢測（與CNNs結合）、醫學診斷、發現材料和化學品的獨特組合、甚至指導的高中學生如何編程。簡而言之，對於任何一個巨型的需要專業編譯的知識體，QAM都可以像大腦一樣對其進行編譯（或至少形成AI的關聯記憶）。

加固學習系統（RLS）：RLS是一種對系統進行訓練以從對其環境作出直接響應的可能性結果中識別最佳結果的方法。這裡沒有單一的演算法，而是一組定製應用程序。 RNN可以作為RLS中的一種類型的「代理」。 RLS是無人駕駛汽車和類似設備中的核心技術，它不需要語言界面。本質上，這是一個機器可以學習並記住在特定情況下應採取的最佳行動的方法。當你的無人駕駛汽車決定在黃燈前停下，而不是通過時，RLS就被用來創造其通過學習獲得的行為。

機器人學：機器人領域對於AI非常重要，因為它是AI數據科學在現實世界中體現的主要方式。大多數機器人是直接又複雜的工程。機器人技術背後的AI技術主要是加強學習。
Spiking神經網路（又稱神經計算）：我們之前常說我們還處在在人工智慧技術的第二代，這主要是基於我們在硬體上所實現的進步。這些進步使我們能夠使用演算法，如神經網路，這在過去是不可行的。但所有這一切都非常迅速，現在我們正處於進入第三代人工智慧的前沿。

第三代人工智慧將基於Spiking神經網路（也稱為神經形態計算）進行發展，因為它試圖更密切地模仿大腦實際工作的方式。第三代變化的核心圍繞著腦神經元不經常彼此通信，而是在信號的尖峰這個事實。我們的挑戰是找出一個合適的方法將消息編碼進這個電脈衝串中。

目前我們還在中期研究階段，我只知道它的兩個被應用於商業應用程序的實例。很多投資和腦力正在湧入這一發展。它還將需要一種全新類型的晶元，這將意味著另一個硬體革命。

當Spiking神經網路到達時，我們期待：

它們可以從一個來源學習，並應用到另一個來源。它們可以概括他們的環境。

它們可以記住已經做過的事情。一旦學習的任務可以被調用並應用於其他數據。

它們更節能，打開了一條小型化的道路。

它們從自己的環境中學習，沒有監督，只有很少的例子或觀察對象。這使它們快速學習。

跟上AI的發展

為了跟上AI的發展，我們需要跟隨以上介紹的技術和兩個趨勢。

一是AI的商業化，因為它目前（第二代）以一種飛快的速度被運用到幾乎一切東西上。AI在未來很可能與電氣化在20世紀20年代的美國一樣普遍。

二是Spiking神經網路的進步，它們將使這一切都更令人驚嘆。