北京深鑒科技基於FPGA平台的DPU架構如何?

深鑒科技(Deephi Tech)成立於今年2月,專註於深度學習處理器與編譯器技術,希望讓每一台智能終端與雲伺服器都具有高性能、低功耗的深度學習計算能力。這家成立不久的科技初創公司目前已獲得金沙江創投與高榕資本的天使輪融資。


對於現在還在發展中的基於深度學習方法的各類視覺演算法,使用FPGA+ARM(也就是A,X的SOC解決方案)未嘗不是一個合適的嵌入式應用解決方案選擇。第一,這些場景對算力需求高,同時要求功耗儘可能低。無疑FPGA勝過TX1、TK1之類的嵌入式GPU。第二,開發難度。要想儘可能發揮各自的計算潛能,都需要花費功夫。不同之處可能在於,GPU即便不那麼花功夫,也能得到一個勉強可行的結果,而FPGA則不一樣,不花點時間,得到的可能就是一堆無用的HDL代碼,於老闆而言就是啥也不是。的確,初始階段FPGA方案出成果需要時間。第三,方案合理性。在同樣具備GPU/FPGA技術的儲備條件下,什麼樣的場景下選擇何種方案,對於一個老鳥而言,應該不是什麼難題。第四,如果找到了一個合適的場景(夢想還是要有的,哈哈),而演算法也具備了足夠的成熟度,流片是否就是順其自然的事兒了?之前有了解過深鑒的技術,CNN處理器是一種比較常規的架構;DNN處理器則是基於FC的稀疏性,實現了較高的壓縮效率。

其實,這塊最大的問題可能還是願不願走出第一步,花點時間構建並實現一個基於FPGA的計算機視覺解決方案。

對現在的客戶而言,有些(如ADAS類應用)會明確使用Zynq soc方案,需要我們提供演算法,並將對算力要求高的部分遷移至FPGA以降低功耗,也就是CNN部分。實際上在這種場景下,我們的交付件也會很清楚,FPGA端:CNN IP核;ARM端:驅動+SDK。當然,對於我們內部而言,一個完整的解決方案,還需要包括一個compiler,不過這個對客戶而言是透明的。如此架構下,演算法/模型的更新可以即時反饋到現有的解決方案中。


FPGA理論上不是很經濟啊,如果是ASIC應該性能更高,功耗更低。

FPGA的好處在於可以隨時改變演算法,這點倒是有可能是對人工智慧適合。

人工智慧的硬體生態目前還沒確定,到底如何實現無法預測。

從公司的構成看,只是用FPGA 來兜一個晶元,難以想像這是最終產品或者商業模式。

國內做IC的估計明年都會出來產品,競爭起來會很好看吧。


深度學習目前的一大痛點是算得慢,比如用了各種 gpu 黑科技 prisma 還是要等很久才算好,還是在伺服器端算的。

伺服器市場這個只能算不大不小的問題,畢竟以前也有很多演算法算得慢,也有很多策略和自由度可以繞過這個問題。

但是放到手機上就是個大問題了。想像一下,如果手機上有個深度學習晶元,biu 一下就能畫出 prisma,又能虐你下圍棋,這樣又會誕生多少好玩好用的 app,這就會是個巨大的市場。嗯,就像每個手機都會帶個攝像頭或者 gps 或者重力感測器一樣。

所以,這個市場的前景應該在手機上。


已經是第37家(我瞎編的)公司用ASIC和FPGA加速deep learning了,這陣勢已經快趕上當年團購網站和現在的直播平台了。

看起來硬體創業挺困難的,一個浪潮起來了大伙兒蜂擁而上比互聯網還兇殘,這陣勢,跟村裡打狼似的。


這幾天有一個監控項目希望在訓練完網路後可以在嵌入式上做propagation。於是以此為契機了解了一下現在市場上可以合作的公司,順便發現了這家公司。

演算法paper多麼大牛我不了解,核心團隊頭銜多好聽我也不清楚,我只是從他家官網上看到了兩個視頻,一個是拿米爾的Zturn開發板(話說這是我幾年前也玩過的)貌似實現了一下Dlib的一個demo,另一個是用了一個自己設計的fpga小模塊實現了一下opencv的一個demo

想想這兩個演算法我讀書時都自己當作興趣實現過,我實在是沒看出來有哪些是特別高大上的東西。。眼拙。。。


CTO還在美國工作,投資人也是心大的可以。。。


深度學習依靠的演算法,目前看深度學習屬於起步階段,各種演算法還在處於優化階段。FPGA的並行處理能力能夠快速的完成數據處理,在應用中測試效果會更好。未來屬於人工智慧的時代,深度學些技術完全使用在機器人,車載等各種智能服務完全方面。


我保持樂觀,不要看人家現在用fpga就一輩子只能用fpga。當我們在談深度學習加速計算的時候,如果對面是gpu,CPU,dsp,那我們應該果斷把fpga和asic放在一起。

如果對未來演進不是很有把握,fpga首當其衝;如果想要最高性能,我們可以把fpga看成asic的一個過程。當然,前提是架構一定要有靈活性,如果改一個網路模型就需要改硬體架構,那就另當別論了。

PS,大家好像都沒有真正討論到DPU架構,他們的架構說是專門針對3x3的kernal優化,現在還是這樣嗎?


推薦閱讀:

如果兩個Alphago對下,可以根據結果測試出黑棋貼多少目才最公平嗎?
向量 L1 範數最小化問題?
語音識別領域的最新進展目前是什麼樣的水準?
當前人工智慧特別是深度學習最前沿的研究方向是什麼?
有沒有可能讓機器讀遍github上的開源代碼,然後學會編程?

TAG:ARM | 嵌入式系統 | 現場可編輯邏輯門陣列FPGA | 深度學習DeepLearning |