原創乾貨 | 演進中的人工智慧計算架構

導 讀

大家好,我是將門創投CTO沈強,非常榮幸今天有機會在這裡跟大家分享我對於人工智慧發展方面的看法。首先,我們來看一下目前的市場上各個公司,在人工智慧演進的過程中,都有一些什麼樣的動作,說到人工智慧的計算架構,其實無外乎通過構築一個技術體系,圍繞軟體、硬體服務等角度來進行豐富。硬體對人工智慧的發展起到了支撐性的作用,雖然未來人工智慧將無處不在,無論是雲端還是手機終端,還是家裡的智能設備,都會與人工智慧相關。

但是今天的硬體實際上是遠遠不能滿足人工智慧的發展需求的。舉個例子,能源效率方面,我們還記得阿爾法狗戰勝李世石的時候,全世界為之振奮,但這場比賽是一次不公平的對決, DeepMind系統,使用了1202強大的CPU和176顆GPU,二者加起來的功率是十幾萬瓦的功率,而我們人腦只有10幾瓦功率,這樣比較一看,人工智慧目前的能效顯得特別低,而且圍棋其實只是我們邏輯思考的一部分,我們每天做大量的非結構化信息,每天我們眼睛裡捕獲到的信息,耳朵聽到的信息,比下圍棋這件事情信息量要大太多。而智能設備要處理這些信息還有巨大的空間需要去彌補。為什麼性能會有如此大的差距,今天我們的計算架構從馮·諾依曼的體系架構開始,到現在連續了幾十年的時間,它很好的支撐了過去結構化數據的處理,以及基於邏輯推理的順序化的數據推理,但是它並沒有反映出我們人腦計算時候特徵,人腦腦細胞的處理是高速並行化的,運算速度可以達到10的14次方級別,但是我們今天不能指望計算機系統CPU會有人腦的運算速度。因為今天電腦里的CPU數據的訪問方式,跟人腦處理數據方式有巨大的區別。所以,在計算的架構上,面向人工智慧微粒的計算任務,需要有一個演進的過程。目前各個大小廠商都在圍繞這個主題開展研發工作。

從現有基礎上來看,有幾個出發點,一是強化現在的CPU處理能力。二是從中間的GPU入手。過去GPU主要用途在遊戲領域,圖形處理方面性能很高,但是,圖形處理有一個特點:處理圖形其實是高度並行的。一個遊戲的畫面,人物的建模,對光噪的演算法嚴苛,需要高度並行去計算很多小三角塊的反光,這種並行的演算法,利用在人工智慧時代,大量的數據處理,大量的舉證的加法、乘法,實際上都可以並行來做,所以作為一個中間性的方案,GPU上加了一個通用化處理,讓它能夠適應常規的編程模型,所以GPU技術也為人工智慧的應用的加速運行提供了一個基礎,這是第二條技術路線。

但這是不是最優解決方案呢?雖然GPU有很高的並行度,但畢竟是從遊戲應用發展而來,並不是為人工智慧的發展而進行設計的,所以設計上會存在一些缺陷,比如說今天人工智慧的應用都會使用深度學習演算法,數據量很大,在GPU和外部的內存之間,數據的交換量要一直保持大量的交換,但GPU之間交換效率其實很低的,所以一些公司想辦法FPGA來解決這個問題。 FPGA即現場可編程門陣列,你可以把它想成一塊結構可以變頻的CPU,在這塊晶元得不同的結點之間,物理的連接關係可以通過軟體去定義,使同一塊晶元實現多功能用途,今天可能能夠作為音頻處理器,明天可以變成網路數據的加速器,還可能變成人工智慧某一專用演算法的處理器,工程師能夠動態的劃分它的計算區,這是第三種思路。

下面會分別簡單的談到一些例子。先說最火的GPU。GPU的計算能力在過去幾年裡飛速的成長,這裡得說道一個概念叫浮點運算,浮點運算是什麼呢?比如兩個小數相乘,我們假設是一個浮點運算,今天的筆記本電腦主流的處理器應該是英特爾i7,它基本上是主流電腦裡面比較好的,我們都知道一個T是十萬億次,普通的電腦每秒鐘能夠處理0.1—0.2T的浮點運算,而今天我們的顯卡對浮點運算的數據處理能夠達到電腦計算的60倍。NVIDIA去年年底推出的DGX也是優化的最新型號的GPU來完成,它的運算數據夠達到85個T,將近85倍,如果浮點運算精度降到16位,它能夠達到170個T,所以GPU快速增長的性能,結合人工智慧將應用在越來越多的地方,NVIDIA自然成為了最大受益者,過去的18個月NVIDIA的股票大概從20多漲到今天115左右,變化很驚人的。雖然GPU性能很高,但它的一些計算的調度還是離不開CPU,所以NVIDIA的方案里做了一個完整的部署,從面向開發者端的數據中心,電腦上的計算單元,到生產環境里推理的任務的單元,這些硬體里都包含有ARM的CPU的核,來配合使用。

此外,在NVIDIA的布局裡,它專門推出了面向自動駕駛的Xavier模塊,以及面向嵌入設備的GTX模塊,這兩者最主要差別是配計算力大小不一樣,而目前NVIDIA面向數據中心的DGX-1是最高設備。除了硬體以外,NVIDIA對軟體部分也很重視,為了讓軟體開發者能夠最大限度的發揮出GPU平台的運算能力,所以它做了DK,做了各種各樣的深度學習的應用開發框架來支持,包括技術部署到雲端,和微軟、亞馬遜、IBM等公司合作等。GPU每一塊處理器上面集成的計算核就達到了3840個,通常我們普通的計算機用的是兩核到四核。因為它的計算核是處理專用任務的,從運算性能上來看,每秒鐘是10.6萬億次的浮點運算,相比較CPU來講還是具有一定的優勢。那麼GPU的缺陷是什麼呢?首先功率上來看,300瓦,相當於一個小暖爐裝在電腦裡面,雖然說計算力很強,但功耗高,這是它的不足之處。目前在GPU架構的演進上,英偉達是領先的廠商,AMD現在也有一些追趕的趨勢,但是短時間內還很難對英偉達形成實質性的威脅。

第二個演進的方向是FPGA。將FPGA規模化的應用到人工智慧的計算里的,反而不是電腦設計廠商。微軟幾年前做數據中心的時候,已經是在數據中心開始去設計自己的晶元做圖象處理,識別等等任務。而微軟傳統上來講世伺服器採購大戶,它有全世界最大的雲計算平台,所以每年都會有上百萬台的伺服器採購需求,而近些年因為自主研發了FPGA,減少了採購數量。英特爾發現微軟的採購量降低了以後,了解到原來微軟已經開始大量的採用FPGA計算,這促使它下了一個決心,必須要擁有面向未來人工智慧負載的計算架構,於是有了後來去併購Altera的事。

今天我們講到人工智慧的應用,其實這還是一個很寬泛的詞,可能其中包括相關處理任務,比如視覺處理任務、文本理解的任務,比如像大數據的處理,那麼每一種不同類型的處理任務,我們都想選擇一個最優化的硬體,這種多樣性的選擇需求,恰恰給初創公司提供了機會。比如說在FPGA的深度學習加速方面,安創空間孵化出的深鑒科技就擁有全世界範圍內都很領先的FPGA卷皮神經網路加速器,通過這種加速器的優化,FPGA能夠達到十倍於NVIDIA K40 GPU的能效,在國際上獲得了廣泛的認可。也使得公司在資本市場上受到了熱烈的追捧,目前已經是估值過億美金的企業了。

此外深圳還有一家做視聽理解的企業叫做雲天勵飛。我們都知道,過去公安局在各個地方部署了很多的攝像頭來大量採集路面上的安全情況、交通情況,以此作為案件偵查的依據,但是這其中最大的困難來自於因為攝像頭太多,每天無時不刻都在工作,想要尋找到指定信息非常麻煩,比如說某天哪個地方查到有一個疑犯可能在某個時間段出現在某個路口,然後警察把錄像調出來,一整天都在看,要是看太快,可能就會遺漏這個線索,慢著看效率又很低,影響辦案進度,所以雲天勵飛就想了一個辦法,用深度學習的演算法來識別錄像里的人物,這個思路並不算新穎,但是大多數公司的做法是在伺服器、在雲端上來解決這個問題,但這家公司意識到,如果在雲端做的話,集中的數據量極其巨大,所以即便能夠完成,投入成本也會很巨大。因此他們採用在攝像頭前端用FPGA定製了一個晶元,把深度學習的演算法應用到FPGA的晶元里,那麼前面攝像頭一邊在看人的時候,就可以提取出一些關鍵特徵,就能夠以很小的信息量將這些關鍵的特徵發送到雲端,再從雲端去找這個人的時候就特別省時省力。公司的產品去年上線,部署三個月以後,發生了一個很有意思的情況,警察抓到的嫌犯比過去三年里抓到的還多。過去公安局的壓力在於怎麼破案,不能拖案,壓力很大。現在是可疑線索太多,要辦的案子的數量急劇增加,壓力很大。公司的市值也因此增長很快,僅僅這個方案一年的營業額就達到一個億。上一輪融資以後估值差不多達到十億。所以,根據人工智慧的計算特徵,我們只要找出一個關鍵的場景,這些技術路線還是能夠解決很多問題的。

我們剛才說GPU和FPGA的快速發展對傳統的CPU廠商造成了巨大的壓力,以英特爾為例,公司過去幾年業績一直平平,基本上沒有什麼增長。現在公司被迫必須做一些轉變了,因為人工智慧應用在激增,所以傳統的CPU技術也必須要跟進。英特爾過去兩年里相關動作特別大,做了大量的併購,獲得了很多的新技術來發展他們的晶元。第一個是Altera,全世界第一大FPGA解決方案提供商。另外也有一些初創企業因為發展了更新的技術,也被英特爾收購。Nervana是2013年新成立的一家小初創企業,公司觀察到人工智慧對新硬體的渴求,所以以全新的方式設計了新的CPU的架構。他們設計架構里內存和CPU是高度偶合的,在一塊處理器上會集成32G的內存,而且這個內存擁有3D記憶,有很高帶寬的訪問速度,而且其中內存單元不是傳統的平面模式,是立體的、互聯的,每一個單元跟其他六個單元都連接在一起。所以處理速度特別快,每秒能達到8T的訪問帶寬,跨處理器之間也能達到2.4TB的處理速度,極大滿足了深度學習計算的數據洪流問題,處理器就不需要大量在內存和CPU之間進行往返得數據奔波。公司在去年被英特爾以四億多美金收購。按照英特爾的說法,今年上半年產品應該就會面世。

所以在技術演進過程中,即便CPU這麼飽和的市場,初創企業也有機會發展新技術分一杯羹。現在其實還有一家公司特別值得關注,跟Nervana比較相似,我估計不久後也會成為英特爾或者AMD的併購對象,大家可以關注一下,說不定現在去投還是一個可行的時機。公司叫We Computing,它的架構跟Nervana有一些類似的地方,但是它是同時在軟硬體兩個層面上進行了優化。比如在浮點數據的運算水平上,為了提高吞吐量,它找到了很好的平衡點,雖然降低了計算的浮點數的精度,但是最後運算出來的人工智慧運算預測能力準確度並沒有顯著的下降。此外跟Nervana有一點點類似支出還在於它也有內存跟晶元之間不同互聯的技術,但是它的密度會更高,每一塊處理器都會集成16000個核,因此一台伺服器上,16個處理器的計算單元會高達25萬個處理核,所以密度比原來的CPU又有了很大的提升。從早期的性能測試里來看,基本上單個晶元的計算性能比今天英特爾最高的伺服器E5級別里最頂級的晶元的速度會快大概七百多倍。而且還不是整台機器。因此,這些公司的發展推動著人工智慧以更快的速度前進。

當然,即使這些公司的晶元比今天的速度再快上兩百倍,五百倍,八百倍,甚至一千倍,它仍然趕不上我們人腦思維的速度。因此,如果我們仍然按照這個思路去探索,可能想最終追上人腦不太可能。現在有的公司在探索神經肽晶元的計算方法, IBM可能是最堅定的公司之一,神經肽晶元跟我們平時的數字電路不一樣,它是用一種脈衝神經網路,而不是通常的卷積神經網路來運行,並且它的信號是模擬信號。我們都知道,模擬信號是比數字信號速度更快,但它的缺點是精度不夠高,還存在演算法適配的問題,雖然我們已經大量積累了深度學習的各種各樣的框架和演算法,但能不能在模擬晶元上運算得比較好還是未知。

前不久IBM發布了一個白皮書,說目前已經有很大的提升,比如視覺識別的任務,利用模擬神經網路現在已經能夠做到87%精度了。通過模擬神經網路不僅能夠帶來極高的速度,功耗也得到極大降低。IBM的TrueNorth晶元的處理器上,每顆核上都有一百萬的神經元和2.56億個可編程的突觸,一個晶元里可以包含4096個這樣的核,大規模的計算只要70毫瓦左右的計算能耗。當然我們的目標是希望這樣強大的計算能力能應用到手機上,甚至配備到隨身的更小設備上,比如手錶、手環,比如搭載到鞋墊去做步態的分析。這麼低功耗的東西要達到能夠大範圍應用,個人覺得還有很長的路要走,這是行業探索的另一個方向。國內也有初創公司在做類似的探索。這算是一種不走尋常路來做大規模的計算的方式。

前面講的計算模式,不管是GPU還是We Computing、Nervana的模式,主要還是面向數據中心計算,能耗很難降下來,而實際上我們應用最廣泛的是在終端上,終端才是最大的機會。所以智能的能力不僅僅要放到雲上,還要應用到很多實時的場景。比如車輛的自動駕駛,不能說前面這個人,我辨認一下把它放到雲上檢測,辨認結構出來以後再來決定車是不是繼續往前開,這樣交通事故的概率肯定會大大增加。所以,終端有大量的實時智能需求,這應該是目前人工智慧發展的最大的市場。

目前來看的話,功耗問題不是一兩天能夠解決的,這是一個很大的矛盾,臨時性的解決方案是什麼?剛才提到在移動端上我們很多的應用場景,無人機3D視覺,掃地機智能識別,今天的掃地機光掃地是不夠的,它需要了解我們家裡的環境,不僅僅是幾何信息,物品的材質信息也需要理解。比如很多養寵物的家庭,寵物不小心拉了臭臭在地上,普通能夠做自動規劃的掃地機會很努力地去把它均勻地塗抹在房間各個角落,這其實是很噁心的。因此如果掃地機視覺模塊具有智能能力,能夠辨認出來並判斷它是液體還是其他東西,這樣就能更好地進行處理。

讓移動端有能力理解自己所在的環境,這個任務在當前的過渡的狀態中,是一個巨大的市場。因此專門為各個不同的應用場景所設計的視覺應用處理器品種就要很豐富,比如無人機額單幕、雙幕,從感知到決策層都需要不同的精度、功能、性能、功耗要求,這就提供了很多的細分市場。因此很多公司,比如自動駕駛領域剛被英特爾以153億美金收購的Mobileye,主攻無人駕駛視覺模塊,它能夠智能對物體進行分類判斷。國內也有很多的廠商,像易華錄就有專門的視覺處理器授權。初創公司也有很多,比如資本市場上流傳比較多的余凱的Horizon Robotics現在就有做一些業務,比如剛剛跟英特爾合作的面向無人駕駛領域的視覺晶元,主要是採用深度學習技術。另外一家公司,Avision也在做視覺處理技術,它的特色是速度處理很快,功耗做很低,沒有很複雜的深度學習架構,從理論到應用上都有一些創新。

講完了硬體,我們繼續說一下軟體。軟體過去是一個門檻很高的領域,因此懂得深度學習開發的人才都很受器重,比如谷歌早期花了四億美金把吳恩達團隊拉過去開發谷歌大腦;微軟研究員孫劍在ImageNet里首先將機器的視覺分類的精度超過人眼,然後被曠視科技以8位數的年薪及2位數的股份挖走。這透露出什麼信息呢?人工智慧,人才是一個很高的壁壘。但這個壁壘很快就會降低,雖然研究型人才仍然有很高的門檻,但從應用的角度來講,像大公司、開源社區都在不斷的開發各種各樣的深度學習框架來簡化深度學習應用開發的難度。我們在投資的時候,有一點很重要,如果一家公司核心的優勢在於演算法,而且只有演算法部分的話,這家公司其實是比較危險的,公司的發展,從技術壁壘來講,很難建立起足夠高的壁壘。

未來隨著開發框架的出現,相關應用軟體開發的模式也會發生變遷,過去我們主要是做程序,有了數據以後將程序放到計算平台上運行,而在今天,最主要的方式都是採用端到端的學習方法,未來的智能應用的生成是資源將會直接與數據連接。當數據產生,我們就可以做端到端的訓練。未來程序的一些關鍵判斷將會由數據來驅動,而且關於計算部分的程序都是數據代碼。我們把這種模式叫做基於目標的AI,你輸入一個目標,然後自動給你生成一個程序。其他公司進展怎麼樣我不太清楚,但像微軟office團隊就在花了大量力氣在做這件事情,比如我要做一個PPT,今天還是一個痛苦的過程,需要找內部外部的數據,想方設法去美化。而現在已經開始有局部的大量研發改變,通過任務級的描述自動幫你完成任務,你還可以根據自己的需要調整。這是軟體方向未來發展的一個方向。

有了硬體,有了軟體,以及這樣的架構能力,你既可以自己來構建自己的產品,也可以把它民主化,共享出來,變成一個人工智慧的服務。現在的人工智慧服務,國際名企基本都有,亞馬遜、微軟、谷歌三大雲計算平台,國內比如阿里也開始提供。但云計算的平台其實是基於GPU,深度學習的雲服務有兩個層面,一個是IAAI,大廠商提供虛擬機,虛擬機里有GPU設備,甚至現在有的還帶有IPJ,亞馬遜有IPJ的虛擬機,GPU+IPJ的虛擬機,這些公司都有提供。目前亞馬遜走在最前面,亞馬遜三台虛擬機可以提供16個NVIDIA K40級別的GPU處理器;第二個層次是在基礎設施之上,提供的是更高層級GPU處理器,把語音理解能力、圖像處理能力暴露出來,封裝好,直接提供給用戶,用戶不用再去操心怎麼寫演算法。這種模式目前三大廠商各自都有提供,國內相對滯後一點。但另外不可忽略的是這些演算法涉及到數據本地性的問題,比如做人臉識別任務,誰能拿到更多的中國本地的數據,誰在中國的應用環境里就能做得更好。所以國內廠商依然是值得期待。

總的來說,從軟體,硬體,服務這幾個角度來看,人工智慧在不斷向前演進。總結下來有幾個特徵,一是外在的應用需求在刺激著技術的發展。第二,從投資角度來看,從剛才我們舉的例子中,有些公司是從技術角度切入去創業,而且他們基本上做的是硬科技,無論是國內還是國外,這個門檻都很高。所以在準備投資這些項目的時候,我最大的感受是,技術是沒有國界的。我們必須要確保所投的企業,如果它是以技術見長,那必須在全世界達到一流水平才會比較安全。而在中國更多的機會還是屬於應用型機會,隨著那些應用框架不斷的普及,技術應用的門檻會急劇降低。最後的人才門檻會演變成我們今天開發安卓應用類似的格局,會慢慢進入一個比較穩定供給局面,這是架構演進的終極歸宿。

以上就是我今天分享,感謝大家聆聽,歡迎後續多多交流。

(本文由i投資編輯整理,未經分享人審閱。)

END

黑科技產業菁英學會是由i投資、將門創投、正心投資、安創空間、Wind資訊等單位聯合發起,旨在通過搭建新興優秀科技創業公司、上市企業、投資機構之間的交流平台。旨在促進科學技術的落地實踐與應用,從而提升領域影響力、行業凝聚力、品牌競爭力、企業成長力,為國家科技服務產業轉型升級做出應有的貢獻。

目前已擁有會員單位上百家,並與多家券商機構形成戰略合作關係,是科技服務行業交流的優質平台。歡迎志同道合的你加入!

申請學會會員參加精彩活動請掃描下方二維碼

填寫相關信息提交審核,通過即有機會參加精彩活動

i投資原創文章精選:

【原創】如何通過行業深度分析挖掘牛股(上)

【原創】如何通過行業深度分析挖掘牛股(下)

【原創】人工智慧:危機與策略

【原創】從三星Bixby看智能語音系統的未來

【原創】有利,可圖(一):知人者智

【原創】人工智慧會產生靈魂嗎?

黑科技產業菁英學會專家精選:

【原創】VR權威汪國平:VR投資別只盯著熱點和變現,技術投資才是打開未來的鑰匙

【原創】清華溫江濤教授:給自己五年,改變世界一點

【原創】人工智慧的變與不變

【原創】智能投顧的落地實踐

【原創】未來的終端


推薦閱讀:

人工餵養的孩子腸道問題多,避免不適早防預
那一天,人類回想起被人工智慧支配的恐懼
左衛民:如何通過人工智慧實現類案類判? | 中法評
你將會在哪一天被人工智慧代替?
蛋花花客服電話

TAG:人工智慧 | 架構 | 智慧 | 原創 | 計算 | 乾貨 | 人工 |