如何評價文章「谷歌太可怕?專家:中國智能晶元引領世界」?
觀察者網站文章:中科院研究員陳雲霽:中國智能晶元引領世界
非專業領域人士,請解惑。
這句話其實沒什麼大錯。
陳雲霽搞出來的東西在知乎的其它回答上也有討論,你稍微用點心思就能找到,在這也不用太過多解釋。我現在唯一想補充的是下面這段話:從 2008 年到現在, 我們已經在體系結構和人工智慧的交叉研究方向上工作了 6 年。 作為國際上為數不多的幾個長期開展此方向研究的團隊之一, 我們在不被認可中堅持了下來, 並嘗試通過自己的努力來改善這個領域的環境(當然近年來環境的改善也得益於深度學習的興起), 最終得到了學術界一定程度的肯定。
回想起來, 如果我們緊緊跟隨國際學術圈的熱點走, 我們是很難拿到 ASPLOS 最佳論文獎的。 原因有兩個方面 : 第一, 當我們看到別人的「 熱點」 論文發表後再去跟著做, 可能已經比別人晚了若干年。 尤其是體系結構領域, 論文的工作周期非常長(ASPLOS 2014 上發表的論文,我們在 2012 年就啟動相關工作了), 要跟上熱點很困難。 第二,當跟隨熱點時, 我們的工作不可避免地會被視為對某個過往論文的改進。 這種改進效果必須非常顯著, 機理必須非常清晰, 才能打動頂級會議挑剔的審稿人。 這對於論文寫作提出了很高的要求, 而中國大陸研究者往往在英文論文寫作上不佔優勢。但這裡存在一個矛盾 : 緊跟多變的國際學術圈熱點, 論文不容易在頂級會議上發表 ; 而探討的問題若不是國際學術圈熱點,論文同樣很難在頂級會議上發表。 面對這個矛盾, 我們的看法是 :研究者應該堅持自己的學術理想,重視論文但不為論文發表所左右;同時儘力宣傳自己的研究方向,推動這個方向被國際學術圈的主流認可。 經過長期的等待和努力,也許有一天, 自己的研究方向就會成為熱點。 到那時, 過去的一切坎坷都會被證明是值得的。摘自《中國計算機學會通訊》第10卷第5期,2014年5月出版,陳天石 陳雲霽,中國科學院計算技術研究所從上面那段話看來,陳是一個非常明白的人,而且也深知當前中國科研的現狀。作為後發國家,我們的科研工作者,尤其是本土生長起來的科研工作者如何突破各種局限實現對科技前沿的追趕和跨越給出了合理的路線。反對「典型的惡意斷章取義」的回答。
1 這個標題沒有扭曲專家的原話和上下文語境。2 為什麼說中國某個局部專門的技術引領世界就是惡意呢?有些人就是見不得中國好嗎?如果有質疑也可以,請擺出證據來說服大家。3 對自己的工作,這位專家明顯表現得很自信,宣傳中國取得的成績,媒體有什麼惡意?憑什麼斷言這位專家的這句話是沒說好?以下是觀察者網最新發布的一篇解讀文章:
鐵流:寒武紀處理器是中科院多年苦練內功的技術成果
近日,觀察者網採訪了中國科學院計算技術研究所陳雲霽研究員,對深度學習處理器指令集DianNaoYu和寒武紀神經網路處理器做了報道,許多讀者都為「中國智能晶元引領世界」感到高興,但也有一些讀者提出質疑——有的讀者懷疑寒武紀處理器是營銷炒作;有的讀者認為「英偉達一出手,寒武紀就完蛋」;還有的讀者認為自主指令集DianNaoYu是SO EASY,認為寒武紀並沒有跳出傳統晶元的範疇,無法做到對大腦突觸的模擬,還認為只有IBM的「真北」才是真正的神經網路處理器。
有鑒於此,筆者請教了北京中科寒武紀科技有限公司陳天石博士,並結合自己的觀點做一些澄清。
寒武紀突破經典馮·諾伊曼結構
人工神經網路是一類模仿生物神經網路而構建的計算機演算法的總稱,由若干人工神經元結點(以下簡稱「神經元」)互聯而成。神經元之間通過突觸兩兩連接,突觸記錄了神經元間聯繫的強弱(權值)。
每個神經元可抽象為一個激勵函數,該函數的輸入由與其相連的神經元的輸出以及連接神經元的突觸共同決定。為了表達特定的知識,使用者通常需要(通過某些特定的演算法)調整人工神經網路中突觸的取值、網路的拓撲結構等。該過程稱為「學習」。在學習之後,人工神經網路可通過習得的知識來解決特定的問題。
要想讓神經網路演算法能通過雲服務和手機等載體方便每個普通老百姓,計算機硬體已經成了一個關鍵瓶頸——谷歌曾用貓臉識別用的神經網路,其訓練和使用的速度之慢,耗費的計算資源之多,都是普通用戶所不能承受的;廣告推薦應用必須要在100毫秒或者更短的時間內計算出終端用戶可能關心的商品,這對於很多大規模深度神經網路的計算,當前的CPU和GPU根本不可能達到這個速度。
因此,傳統的處理器(包括x86和ARM晶元等)用於深度學習的處理效率不高,這時就必須另闢蹊徑——突破經典的馮·諾伊曼結構。
神經網路在訓練時通過自動化調整神經元之間突觸的權重來實現對已有知識的歸納總結,在使用時根據當前的突觸權重計算出當前輸入對應的輸出結果。也就是說,神經網路中存儲和處理是一體化的,都是通過突觸權重來體現。
而馮·諾伊曼結構中,存儲和處理是分離的,分別由存儲器和運算器來實現。二者之間存在巨大的差異。當用現有的基於馮·諾伊曼結構的經典計算機(如X86處理器和英偉達GPU)來跑神經網路應用時,就不可避免地受到存儲和處理分離式結構的制約,效率低下。
這就是研發專門用於人工智慧的神經網路處理器的根源。
寒武紀處理器並非炒作營銷
有讀者質疑寒武紀處理器是借著阿法狗對決李世石來炒作自己,是商業包裝和炒作營銷。但事實上,寒武紀處理器是中科院計算所多年苦練內功的技術成果。
早在2008年起,中國科學院計算技術研究所就在國際上率先開展了「寒武紀」系列深度神經網路處理器的研製。相關工作先後獲得了計算機硬體領域頂級會議ASPLOS』14和MICRO』14的最佳論文獎。這也是亞洲首次在此領域頂級會議上獲得最佳論文獎。
國際計算機學會(Association for Computing Machinery)通訊也將寒武紀1號評選為2014年的計算機領域研究焦點(每年二十個左右,大陸首次入選)。這標誌著我國在類腦計算領域已經進入了國際領先行列。
此外,深度學習處理器指令集DianNaoYu被計算機體系結構領域頂級國際會議ISCA2016(International Symposiumon Computer Architecture)所接收,其評分排名所有近300篇投稿的第一名。
截至目前,陳天石博士和陳雲霽研究員就光寒武紀系列的技術成果,已經斬獲兩篇ASPLOS,兩篇ISCA,一篇MICRO,一篇HPCA,這些是計算機體系結構方面國際四大頂級會議,只不過只有科研圈子裡關注,普通人不明白其中的意義。
因此,寒武紀處理器並非借著阿法狗對決李世石的熱點橫空出世,而是長期技術積累的結果,並在數年前就於高端國際會議中屢獲殊榮。過去一直不見於主流媒體,僅僅是國內媒體人更願意報道國外所謂「高科技」,哪怕所謂的「高科技」僅僅是某品牌的手機尺寸變大了一點,也必須連篇累牘,爭相報道,各種讚美之詞如滔滔江水連綿不絕,卻搞不清很多專業領域頂級會議的意義,進而導致對真正非常具有含金量的自主技術選擇性失明。
關於自主指令集DianNaoYu意義
指令集就是一個編碼集合。它是用一些代碼表達讀、寫等操作,命令計算機做各種運算的一套命令標準。
重新定義指令集技術上難度近乎於零,美國也一度禁止將單獨的指令集申請為專利,只有當指令集與實現方法相結合的時候才被允許申請專利。但是指令集對IC設計的影響也是不可忽視的,比如當年ARM半殘的指令集就根本不可能設計出高性能晶元,隨著近年來ARM更新指令集,以及購買了MIPS 498條指令集授權後,才使其能在高性能晶元領域一展拳腳。
單純的指令集本身價值非常有限,真正有價值的是圍繞指令集構建的軟體生態、指令集的實現方法和自由擴展指令集的權力。軟體生態大家都懂就不細說了,著重說一下指令集的發展權。
舉例來說,華為購買ARM指令集授權,但是不具備自主擴展指令集的權力,導致在利潤上受制於人,如同合資車廠向外商輸血——購買ARM指令集授權不僅價格昂貴,而且授權期限僅僅5年,還被限定使用範圍,最關鍵的是「買無止境」——指令集到期接著買,指令集更新還得買……
另外購買指令集授權除了利潤受制於人外,ARM指令集是不能改的,即便冒著侵犯知識產權去修改,也是無法得到AA體系中軟體商的支持,等於是指令集無效擴展。
與之形成鮮明對比的是龍芯。龍芯在獲得了MIPS永久授權,這就避免了「買無止境」的尷尬,在利潤上不受制於人。
更關鍵的是擁有自主擴展權——loongISA有1907條,源自MIPS的有527條,其餘指令皆為龍芯自主擴展。由於自建生態,自主擴展的指令集自然可以得到軟體支持,而且還得到了國外很多開源軟體的支持,龍芯可以通過自己擴展的向量指令針對特地應用的峰值達到原來的4倍。而購買ARM指令集授權只能是ARM賣什麼,你用什麼;龍芯通過自主擴展指令集使特定應用峰值是原來的4倍的做法,購買ARM指令集的IC設計公司是永遠做不到的。
從中可以看出,自主指令集DianNaoYu的意義,一是利潤不受制於人,二是發展不受制於人。
雖然DianNaoYu對X86、ARM不會造成任何衝擊,但是美國的哈佛、斯坦福、MIT、哥倫比亞、IBM都在做神經網路處理器,可以預見,在神經網路處理器中,遲早會爆發如同當年Alhpa、MIPS、SPARC、X86、Power的死斗,而最終的勝出者,將會獲得類似於X86在桌面晶元的地位,進而獲取超額利潤。
關於「英偉達一出手,寒武紀就完蛋」神經網路處理器和通用處理器、DSP、FPGA、GPU是不同計算器件,就如同GPU的存在不會使DSP完蛋一樣,神經網路處理器與GPU不相衝突。當然,如果英偉達做出比寒武紀還要好的神經網路處理器,寒武紀才有可能受影響。
另外,英偉達不是沒出手,而是一直在努力進入智能領域,但是它的圖形處理架構和神經網路處理相去甚遠,和寒武紀會有百倍以上的能耗劣勢——以DianNao和DaDianNao為例,DianNao為單核處理器,主頻為0.98GHz,峰值性能達每秒4520億次神經網路基本運算,65nm工藝下功耗為0.485W,面積3.02mm^2。在若干代表性神經網路上的實驗結果表明,DianNao的平均性能超過主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達三個數量級;DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級;DaDianNao是在DianNao的基礎上進一步擴大了處理器的規模,包含16個處理器核和更大的片上存儲,並支持多處理器晶元間直接高速互連,避免了高昂的內存訪問開銷。
在28nm工藝下,DaDianNao的主頻為606MHz,面積67.7mm^2,功耗約16W。單晶元性能超過了主流GPU的21倍,而能耗僅為主流GPU的1/330。64晶元組成的高效能計算系統較主流GPU的性能提升甚至可達450倍,但總能耗僅為1/150。
所以這句話就像「intel一出手 nvidia就要完蛋一樣」沒意義。
關於寒武紀替代Intel
雖然寒武紀處理器在人工智慧方面市場潛力巨大,但是並不是對傳統CPU的顛覆。就目前的技術來看,神經網路晶元不可能在所有的應用上做得比傳統CPU好,僅僅在人工智慧領域相對於傳統CPU有優勢,更像一款專用晶元。
即便將來藉助異構計算技術被用於手機和PC,寒武紀處理器的作用也只是完成諸如智能認知等功能,像運行資料庫、科學計算、Office、微信等,寒武紀不可能比現有的傳統CPU做得更好。因為即便是人類的大腦本身,很多事情也是做不過CPU的。
因此,傳統CPU還會是今後計算機的核心,但是它只是一個關鍵,很多費時費力的任務會交到其它計算器件,比如DSP、FPGA、GPU、寒武紀晶元(神經網路晶元)去做。如果有人希望寒武紀晶元能替代自己家中PC上的Intel晶元,那隻能是不切合實際的幻想。
關於寒武紀可能遭遇的困境
寒武紀處理器失敗的風險就是社會和媒體過分炒作人工智慧,如果最後人工智慧的發展速度達不到公眾(投資人)預期(這必然會發生,例如現在很多媒體,甚至谷歌自己都發話天網就要造出來),那麼整個領域都會陷入大低谷,覆巢之下無完卵,這種事情在上世紀80年代已經發生過了一次。
雖然寒武紀的路途可能未必會一帆風順,但是前途是光明的——因為寒武紀和龍芯、申威這些傳統處理器面對的情況完全不同,用北京中科寒武紀科技有限公司陳天石博士的話說,「從前我們是跟隨者,不小心就掉別人的坑,還有被別人壁壘擋住,而現在我們是引領者,不存在任何知識產權壁壘,就是海闊憑魚躍。目前,寒武紀花費大量資金做專利,反而是為了去給跟隨者設置壁壘。」
只要人工智慧產業健康發展,電子產業支持得力,市場營銷能不遜色於國外科技公司,寒武紀的前途是非常值得國人期待的,請大家拭目以待。
(感謝北京中科寒武紀科技有限公司陳天石博士對本文的指導)
(作者微信公眾號:tieliu1988)具體達到怎麼樣的水平,沒有深入研究過,不是很清楚~但是最近的引力波和阿法狗事件給我的啟示就是科學研究也是需要宣傳的,在頂會上發表論文之類的也只有學術小圈子內才會關注,根本就戳不中民眾的興奮點。國內的產研結合那麼差勁,民間資本對科學研究的反饋那麼少是不是也和宣傳意識缺失有關呢。每次看見科技新聞板塊被手機廣告佔領真的很心痛。如果有成果,就把實驗品做出來展示一下,哪怕只是像阿法狗一樣下下棋呢(其實圍棋也挺小眾的,大多數人根本不會去關注圍棋比賽,但是與人工智慧放一塊,就不一樣了),至少是民眾可見的,新奇的東西總是會引起大家的好奇心的。像這樣別人搞出了個大新聞,再在後面說我們也有技術,真的沒什麼說服力。
ps:只是外行人的一點看法,爪機不方便也沒仔細看那篇報導,大家輕噴~科學研究也不能漠視民眾的需求(就算暫時只能滿足娛樂需求),不然也不能怪民眾的漠視和不理解了。陳氏兄弟光寒武紀系列就已經灌了兩篇ASPLOS,兩篇ISCA,一篇MICRO,而且他們也拿過大陸第一篇HPCA——這些可是體系結構方面的四大頂會啊。而且這倆兄弟還很年輕。。
典型的惡意斷章取義
應付媒體真是頭疼啊,一句話沒說好就會被死死抓住拿出來裱。觀察者網:中國有哪些單位在研究人工智慧?技術水平和國外差距多大?
陳雲霽:中科院和教育部的很多高校,以及訊飛、百度等公司都在進行人工智慧研究,且進展還是比較快的。事實上,中國在智能這樣的新興領域和國外差距不大,甚至在智能晶元上是引領世界的。例如我們的寒武紀,美國的哈佛、斯坦福、MIT、哥倫比亞等高校都跟在我們後面做。手頭沒資料,也懶得查是不是真的「引領世界」
人家回答了這麼多,媒體按著這一句話做標題,做整個文章的核心,未免欺人太甚!推薦閱讀:
※如何評價九言科技推出的DL inference SDK In-Prestissimo(絕影)?
※如何評價重磅論文《Stopping GAN Violence》?
※詞向量( Distributed Representation)工作原理是什麼?
※如何評價 2017 年 Jeff Dean 的關於使用 deep learning 做索引的論文?
※澳大利亞和加拿大的機器學習工作崗位多嗎?
TAG:龍芯 | 神經網路 | 深度學習DeepLearning | CPU指令集 | 生物晶元 |