馬斯克今終於承認特斯拉自研 AI 晶元!號稱打造「世界上最好的AI定製硬體」,但不僅僅是為了自動駕駛...
年度訂閱用戶可加入科技英語學習社區,每周科技英語直播講堂,詳情查看「閱讀原文」
一直以來,特斯拉自研 AI 晶元的傳聞就時有傳出,尤其是在去年他們挖走了AMD的傳奇架構師 Jim Keller 之後,這種傳言就顯得更加「真實」了。
而現在,特斯拉CEO馬斯克終於證實了這一猜測。在今年的神經信息處理系統大會 ( Conference and Workshop on Neural Information Processing Systems,NIPS )上,馬斯克與特斯拉新任人工智慧部門主管 Andrej Karpathy、特斯拉自動駕駛硬體工程副總裁 Jim Keller 和 Bloomberg(彭博社)風投機構 Bloomberg Beta 合伙人 Shivon Zilis 舉行了一個談話,承認 Keller 正在領導特斯拉開發自己的AI晶元。
圖丨Jim Keller
對於Jim Keller,馬斯克可謂是評價頗高,堅信他可以打造出「世界上最好的 AI 定製硬體」。而事實上,Jim Keller 的確可以稱得上是天才架構師,他在 AMD 期間,設計出了K7 和K8等知名架構,後又在蘋果設計出了A4、A5 處理器,這可是當年 iPhone 最核心的部件。而在回到 AMD 之後,Keller 依舊才華橫溢,繼續貢獻出最新的晶元架構。
2016 年跳槽到特斯拉之後,Jim Keller 從 AMD 帶走了一批架構師和高管,根據 CNBC 在 9 月份的一則報道,特斯拉已經有超過 50 人在從事 AI 晶元的開發了,從中也可以看出特斯拉的早早置下的自研 AI 晶元的野心。
不過,不得不承認,馬斯克的這一舉動可以稱得上是一次冒險之舉。特斯拉第一代的 Autopilot 使用的是基於 Mobileye 的晶元,但在 Mobileye 被英特爾收購之後,兩家情況發展的並不樂觀,去年更是因為 Autopilot 的故障而出現了一次嚴重的事故,於是特斯拉轉投英偉達,也就有了新一版的 Autopilot 2。
但以馬斯克的性格來看,他是萬萬不可能長期依賴於英偉達或者其它第三方供應商的,要儘可能地將組件製造都掌握在自己的手中,這種長期以來的企業經營理念已經從他執掌的特斯拉和 SpaceX 兩家公司的發展中展現的淋漓盡致。
但從更深層次的角度來講,獨立自研晶元無疑對加速自動駕駛汽車的研製具有重要意義。而且,隨著晶元運算速度的提升,理論上來講,車輛的安全性也將會因此而得以大幅提高。
可以說,隨著人工智慧技術的火熱,越來越多的公司都已經開始為自己的科技產品添加「AI」的元素了。例如蘋果和華為都已經開始將人工智慧處理器加入到了自家最新的手機產品中;谷歌也利用 AI 強化了自己的雲服務;甚至連無人機和相機都已經逐漸被 AI 化了。
那對於汽車來講,AI的元素也肯定是不能缺少的。在NIPS會議上,馬斯克就反覆談起了他雄心勃勃的自動駕駛夢——要在兩年內實現L5級別的完全自動駕駛。同時,馬斯克還預測人工智慧的智慧程度會指數級增長,5至10年之內將超過人類。
圖丨AI研究人員Stephen Merity對馬斯克的樂觀預測表示懷疑
特斯拉AI晶元設計團隊核心人物:
Jim Keller堪稱傳奇的CPU設計生涯
Jim Keller是處理器產業界的傳奇人物,他在 AMD 主導開發了堪稱為傳奇的K7、K8架構,業界首款突破 GHz 的CPU架構便是出自其手,不僅藉此大幅拉近AMD 與英特爾之間的市佔差距,甚至還曾小幅領先,讓當初的英特爾如坐針氈,不得不提早請出以色列團隊,祭出 Core 架構來與之對抗。
Jim Keller 最早在 DEC 工作,DEC 過去是家非常著名的 RISC 指令集處理器設計公司,其地位非常崇高,許多目前常用的指令集和匯流排設計概念可說多數出自 DEC 。Jim Keller 在 DEC 參與設計了 Alpha 21164 和 21264 處理器,更是被應用在許多大型主機中,包括中國超級計算濟南中芯的神威藍光超級計算器,就是採用此架構。
圖丨Jim Keller
但是 X86 憑藉兼容性與開發簡易的優勢崛起,傳統的 RISC 處理器逐漸式微,DEC 也在 1998 年落得出售的命運,而 Jim Keller 也在此年投奔AMD,而在AMD 的短短一年之間,便主導設計出 K7 以及 K8 架構。而 K8 架構中的多種指令集以及 HyperTransport 匯流排設計,便是直接引入了他在 DEC 的設計經驗。
Jim Keller 雖設計出架構,但 AMD 藉此獲得成功已經是好幾年之後的事情。Jim Keller 並沒有留下來見證 AMD 的成功,反而是早早離開去尋求人生當中的更大挑戰。
在 1999 年,也就是加入 AMD 之後的來年便離職前往 MIPS 晶元設計公司 SiByte,但來年 SiByte 便被博通收購。2004 年他離開博通,前往 PA Semi 從事低功耗晶元的設計工作。
後來的發展大家都知道:PA Semi 被蘋果給收購了。
Jim Keller 因此轉而為蘋果效力,並協助蘋果創造出帶來 iPhone 神奇使用體驗與市場奇蹟的 A4 以及 A5 兩款處理器晶元。
但他渴望挑戰,渴望開創新局面,而不是就既有的產品做改善。於是在 2012 年,回到窮困潦倒的 AMD。由於他離開之後,就沒有什麼值得一提的開創性產品,此時的 AMD 基本上只能靠著 Jim Keller 在 1998 年留下的「遺產」,一再小改版,只圖能在市場上苟延殘喘。Jim Keller 回到 AMD 之後,便著手進行 AMD 真正意義的下一代晶元產品。
AMD 在 2017 年上市的鹹魚翻身之作 Ryzen,就是他在這段時期發展出來的晶元架構。但一如既往,Jim Keller 留下了架構,在最終產品出貨之前一年再度告別 AMD。
這次他前往何處?
他選擇了特斯拉作為落腳之處。但當初他加入特斯拉的時候其實業界都很疑惑,畢竟在馬斯克帶領下的特斯拉是家非常奇怪的公司,他經營太空火箭運輸事業,宣稱未來人人都能上太空,甚至前往火星觀光或殖民;經營能源事業,但違反企業經營常識的開放了大部分電池專利,希望大家共襄盛舉,而不是關起門來自己做;他製造世界最好的電動車,而且因此涉入了自動駕駛甚至其他 AI 應用領域。但這些都和 Jim Keller 的專業沒有直接關係。
直到最近,馬斯克終於親口證實了,他在 Jim Keller 協助之下,建立團隊要打造自己的AI晶元!
為何特斯拉要自行開發 AI 晶元?才剛開始合作的 NVIDIA 不夠好?
特斯拉才剛拋棄 Mobileye 投向 NVIDIA 的方案沒多久,為何又想移情別戀?這要從 GPU 架構的先天限制說起了。
圖丨在今年的北京 GTC 大會的媒體訪問環節,英偉達 CEO 黃仁勛稱,即使特斯拉會「叛變」不再用自己的晶元,他同樣會繼續使用特斯拉的車
NVIDIA 憑藉著 GPU,在 AI 領域可說是呼風喚雨,地位不可一世,其市值甚至超越了高通。但 GPU 在 AI 領域逐漸普及之後,其短板也逐漸顯露出來,首先,GPU 的功耗極為龐大,而且早期 GPU 只能做訓練的工作,訓練完的推理效率極差,因此仍須藉助CPU的計算能來處理推理工作,後來也因此發展出不少專精於推理的晶元架構。
GPU 在機器學習方面的訓練效率極高,但其缺乏彈性,畢竟 GPU 本身的計算模式相對固定,無法像 CPU 或 FPGA 可根據負載實時動態調整演算法,雖然NVIDIA 針對開發工具包做了不少的強化,希望讓 GPU 可以滿足更多的AI計算情境,後來也在 GPU 架構中加入名為 TensorCore 的向量計算加速單元,藉以獲得與 Google 的 TPU 相提並論的推理計算能力。
但 NVIDIA 這麼做,也等於是承認了 GPU 架構本身有其應用彈性極限,才不得不額外增加計算電路來改善效能。
因此 FPGA 陣營跳出來宣稱他們可以根據不同的應用情境適配不同的演算法,不論是訓練、推理都能在單一架構上高效完成,而未來不論發展出何種新演算法, FPGA 保證都能夠馬上針對該演算法最優化。
而像寒武紀、Graphcore 以及 Wave Computing 等 ASIC 公司則是強調能耗極為優秀,且架構設計本身就針對各種既有 AI 計算所需要的情境進行優化,雖然無法做到像 FPGA 這樣的彈性,但能效更好,晶元面積也更小。
所以,基於 GPU 架構的自動駕駛方案也有同樣的問題,那就是功耗大,推理能力較差。以自動駕駛最常用的 CNN 卷積神經網路來說, NVIDIA 的 Drive PX2 推理性能上其實並不算特別出色,而其 20 TFLOPS 的計算能力是在高達 250W 的功耗下才有辦法達成,且這個平台還只能支持 L4 級別的自動駕駛。即將量產的的 Xavier 可做到 30 TFLOPS,性能僅微幅增加,不過功耗大大降低到 30W,算是相當程度減輕了汽車的供電負擔,此世代可以做到等級四的自動駕駛能力。
然而和 Mobileye 即將推出的 EyeQ4 及 EyeQ5 比較,前者可以在 3W 的功耗下達到 2.5 TFLOPS 的效率,後者則是在 10W 的功耗下達到 24 TFLOPS。而EyeQ 系列都是採用 CPU 混搭向量加速單元來做自動駕駛所需要的卷積神經網路計算,嚴格上來說,就是個 CPU 結合 ASIC 處理單元的異構產品。
特斯拉之所以拋棄 Mobileye 的方案,是因為當初用來作自動駕駛的 EyeQ3 方案性能太弱,只有 256GFLOPS,只能做到等級二的自動駕駛功能,而其下一代 EyeQ4 方案要到 2018 年才會量產,急於推出更高等級自動駕駛功能的特斯拉無法繼續等待,所以才轉向 NVIDIA 方案。
但是 NVIDIA 的 Drive PX2 方案卻讓特斯拉吃了苦頭,為了達到 L3,甚至 L4 以上的自動駕駛功能,需要一定的性能表現,但是 Drive PX2 最高端的完整自動駕駛版本功耗高達 250W,卻只能達到 20 TFLOPS,因此特斯拉便要求 NVIDIA 為其定製了一個特殊版本,將最高端版本的規模減半,性能只剩下 10 TFLOPS,但是功耗也能大幅降低到 100W 左右,降低對電池壽命的影響,避免行駛里程過低,但也因此,其自動駕駛能力勉強只能達到 L3 的程度,而不是其宣稱的 L5。
圖丨黃仁勛發布Xavier 自動駕駛平台
當然,NVIDIA 推出的下一代 Xavier 自動駕駛平台在增加性能同時又大幅降低了功耗,理論上只要直接升級就好,但根據 NVIDIA 自己的說法,L5 級別的自動駕駛需要兩套 Xavier 共同合作才有辦法達成。
這麼一來特斯拉就不能忍了。不是性能或功耗問題,而是成本因素。完整版Drive PX2 要價上萬美元,Xavier 只有更貴,若要達成 L5 自動駕駛而必須搭配兩套 Xavier 以及周邊感測器,那成本恐怕是天價。若假設 2017 特斯拉全年出貨量可達 10 萬輛,且都採用 Drive PX2,那麼光是要支付給 NVIDIA 的成本可能就會高達 10 億美元以上。
然後唯一具競爭力的 MobileyeEyeQ5 要到 2019 年甚至更晚才有機會面世,這也讓特斯拉打定主意開發自己的 AI 晶元,作為自動駕駛,甚至火箭飛控等其它應用領域的核心。
布局自有核心不只為汽車
雖然成本的因素可能是讓特斯拉公開其 AI 晶元規劃的主要原因之一,但早在與 Mobileye 合作之時,特斯拉就已經開始 AI 晶元的研究計劃。當初的研究動機部分是為了取代性能較弱的 EyeQ3 ,但部分也是為了探索 AI 晶元應用的更大可能性。
當然,後來與 Mobileye 決裂,特斯拉並沒有馬上把研究成果投入自動駕駛領域建構自有方案,反而是與 NVIDIA 合作,一方面是為了求切合市場時機,避免落後競爭對手,二來是 NVIDIA 在自動駕駛領域擁有非常完整的生態與軟體開發環境,可以有效縮短新款自動駕駛汽車的開發時間。
但特斯拉和蘋果有相同的理念,那就是在關鍵零組件上面不能受控於人, NVIDIA 方案強勢,而 Mobileye 緩不濟急,高通和其他公司的自動駕駛又還不知道在哪裡,市場上可說沒有第二家方案可以選擇,那麼唯一的辦法,就是自己做了。
當然,馬斯克的眼光不是只放在汽車上,在火箭計劃、能源管理以及正在規劃的地下超級高鐵,乍看之下天馬行空,但深究下去就可發現,這些都是馬斯克眼中未來運輸的重要角色。為了達成這些計劃的設定目標,自動化、智能化管理,都需要非常堅實的基礎計算架構來建立,而這恐怕才是馬斯克開發自有AI晶元的真正目的。
-End-
推薦閱讀:
※過來人跟你聊聊追風口的那點事
※特斯拉捅翻了馬蜂窩!自動駕駛晶元戰爭爆發
※賓士事件之後對智能網聯的一些探討
※從技術角度看賓士「失控」事件 | 半導體行業觀察
※Mobileye 的成功之道是什麼? Shashua 給出了這三點思考