標籤:

英特爾-美光3D XPoint全面解析

  目前的主流內存技術分別為DRAM(能夠由處理器快速訪問的內存)以及NAND(即固態存儲方案),二者自誕生至今都已經過去了幾十年。儘管最近幾年來,存儲單元設計的不斷演進已經將製程工藝縮小到了20納米甚至更低水平,但DRAM與NAND的基礎性物理運作機制並沒有發生改變,而且這兩項成果都在技術層面存在著一定局限。DRAM能夠提供納秒級延遲水平與幾乎無限的耐久能力,但其同時也存在著存儲單元較大而價格昂貴、存儲單元擁有易失性以及功耗較高等問題。由於DRAM存儲單元需要進行持續更新,各個單元當中所承載的數據無法以穩定狀態存在,這就要求我們投入大量電力供給、而DRAM也並不適合應對永久性存儲類任務。在另一方面,NAND的延遲水平更高(特別是寫入操作),寫入周期有限,但其存儲單元為非易失性而且整套結構更為高效,這使其擁有較低使用成本且適合用於永久性存儲。

  將DRAM與NAND在系統層面上進行結合的架構能夠充分發揮二者的固有優勢,因此現代計算機會選擇利用DRAM作為內存/緩存機制,而NAND則負責處理數據存儲。然而,DRAM與NAND之間仍然存在著延遲水平與存儲容量兩大鴻溝,因此目前的難題在於:如果我們能夠將DRAM與NAND的自身優勢在晶元層面進行整合,結果會是怎樣?目前整個存儲技術行業正在積極構建下一代內存技術,其目標就是開發出一套既具備低延遲與高使用壽命水平,又能夠實現小型可擴展存儲單元的新型內存方案。

  時至今日,已經有Crossbar以及Nantero等一大波初創企業開始探討並展示其下一代內存技術成果,但尚沒有哪家DRAM與NAND供應商著手推出自己的解決方案。然而英特爾與美光日前作出的聲明扭轉了這一切,雙方於本周公開了其全新3D XPoint(即交叉點)非易失性內存技術。

  首先而且最重要的是,英特爾與美光雙方明確表示,3D XPoint的定位並不屬於NAND或者DRAM技術的替代性方案。而且在此基礎上,兩家公司更多是在強調3D XPoint的具體應用範疇,其更接近於NAND而非DRAM。它應該成為一種補充性技術,旨在解決DRAM與NAND之間延遲水平與成本差異所帶來的兩難抉擇。基本上,3D XPoint是計算機架構當中的一種新型層級,因為它既能夠作為速度較慢的非易失性內存、亦可以作為速度更快的存儲機制。

  DRAM3D XPointNAND

  使用壽命(全盤寫入次數)10^1510^710^3

  讀取延遲納秒級10納秒級約100微秒級

  英特爾與美光雙方宣稱,3D XPoint能夠提供千倍於當前NAND產品的使用壽命水平。假設這裡的參考對象為現代(15納米至20納米)MLC NAND,那麼其使用壽命將達到數百萬次全盤寫入; 不過在市場營銷材料當中,我們看到相關產品的寫入次數可以達到數千萬次。如果我們假定其全盤寫入次數為300萬次(即1000倍於現代MLC快閃記憶體),那麼一塊基於3D XPoint技術的256 GB驅動器將能夠提供總計高達768 PB的數據寫入能力。這相當於五年內每天寫入420 TB數據,或者每秒寫入4.9 GB數據。對於目前依賴於NAND技術的存儲設備而言,3D XPoint將消除任何可能出現的使用壽命問題——不過相對於耐久性幾乎無限的DRAM來說,3D XPoint仍然要略遜一籌。企業最終是否會利用3D XPoint取代DRAM還是要取決於實際應用情況,特別是對於那些要求使用DRAM的企業級工作負載來說更是如此。

  3D XPoint的延遲水平在10納秒級別,但英特爾與美光雙方並沒有明確指出這一數字到底來自讀取延遲還是寫入延遲。從英特爾方面提供的圖表來看,10納秒級別應該是指讀取延遲,因此NAND寫入延遲的計量單位應該是毫秒(一般來講,全頁寫入的延遲為1到2毫秒),而圖表中列出的NAND延遲為數十微秒的說法與NAND的讀取延遲相符。寫入延遲往往遠高於此,再結合英特爾與美光雙方作出的「速度可達NAND上千倍」的說明,那麼我們猜測3D XPoint的寫入延遲應該在100納秒級別甚至是毫秒級別。不過更複雜的是,3D XPoint以bit為訪問層級,而NAND以頁為訪問層級,因此在不考慮外界因素的前提下比較二者的延遲水平相當困難。無論如何,3D XPoint的性能表現應該更接近於DRAM而且優於NAND,不過考慮到英特爾與美光都沒有就延遲給出明確參數,因此我們作出斷言恐怕還為時尚早。

  與此同時,與目前已經存在的大部分下一代內存技術不同,3D XPoint走得最遠、而且已經不再單純是紙面或者實驗室環境下的理論產物。英特爾與美光目前已經開始製造第一代樣品晶粒,負責代工的是雙方的合資公司、位於猶他州的Lehi代工廠。其晶粒的存儲容量為128 Gbit(即16 GB),相比之下各初創企業能夠拿出的實際產品只有數十MB容量。該晶粒以20納主製程工藝製成,其中包含兩層,並可能會在未來隨著光蝕刻尺寸的縮小通過增加層數進一步實現容量擴展。

  這座猶他州代工廠目前正在生產20納米NAND,因為英特爾方面尚未開始投資興建16納米生產線,而3D NAND生產線則將在美光的新加坡代工廠全面上線。不過我們尚不清楚後者每月20000塊晶圓的生產能力是否將會被全部用於生產3D XPoint。根據我個人的猜測,3D XPoint將最終佔據猶他州代工廠的整體晶圓產量,具體取決於市場對於這項新技術的反應以及英特爾與美光感受到的實際發展前景。3D XPoint在生產製造方面確實需要使用相當一部分新設備及整套新型材料供應體系,但英特爾與美光表示整個過渡與切換為新型NAND節點非常相似,而且仍有一部分現有設備能夠繼續進行使用。

  兩家公司並沒有對每GB使用成本作出任何說明,不過由於3D XPoint的功能定位介於DRAM與NAND之間,因此其價格應該也會據此進行制定。NewEgg為DRAM統計出的每GB使用成本大約在5到6美元之間,而高端企業級SSD的每GB使用成本則為2到3美元。與此同時,消費級SSD的每GB使用成本最低可達0.35美元,但這樣比較並不是特別公平,因為至少3D XPoint在剛剛面世時肯定只會針對企業級應用場景。根據我的個人猜測,第一款基於3D XPoint技術的產品每GB使用成本大約為4美元,並可能會考慮到未來一年中DRAM與NAND的價格下調而略微有所削減。

  技術解析:3D XPoint是如何工作的?

  3D XPoint的工作原理與NAND存在著根本性的不同。NAND通過絕緣浮置柵極捕獲不同數量的電子以實現bit值定義,而3D XPoint則是一項以電阻為基礎的存儲技術成果,其通過改變單元電阻水平來區分0與1。

  3D XPoint的結構非常簡單。它由選擇器與內存單元共同構成,二者則存在於字線與位線之間(因此才會以『交叉點』來定名)。在字線與位線之間提供特定電壓會激活單一選擇器,並使得存儲單元進行寫入(即內存單元材料發生大量屬性變化)或者讀取(允許檢查該存儲單元處於低電阻還是高電阻狀態)。我猜測,寫入操作要求具備較讀取更高的電壓,因為如果實際情況相反,那麼3D XPoint就會面臨著上在讀取存儲單元時觸發大量材料變化(即寫入操作)的風險。英特爾與美光雙方並沒有透露內部讀取/寫入的具體電壓數值,不過根據我們得到的消息,其電壓值應該低於NAND——後者需要利用約20伏電壓來編寫/擦除以創建出足夠通過絕緣體的電場電子隧道。而這種較低的電壓要求自然也能夠使得3D XPoint擁有比DRAM以及NAND更低的運行功耗。

  顧名思義,3D XPoint的存儲單元可以以3D方式進行堆疊,從而進一步提升存儲密度。目前第一代晶粒樣品使用的是雙層設計方案。雙層聽起來實在有些寒磣,特別是考慮到目前的3D NAND晶元已經擁有32層,且逐步開始向48層進軍。不過3D XPoint的構建方式完全不同,直接進行層數比較顯然並不科學。

  3D NAND在製造過程中首先加入沉積導電層,而後再在每一層之上添加絕緣材料。只有在全部層沉積完畢之後,整個「單元塔」才能以光刻方式進行定義,而後再在高縱橫比蝕刻孔內填充通孔材料以實現各層內存儲單元的彼此互通。相比之下,3D XPoint的每一層都需要進行光刻與蝕刻(即在各層之上重複同樣的流程),接下來再對下一層進行沉積。這種方式犧牲掉了3D NAND所帶來的一部分經濟優勢(即光刻步驟較少),但3D XPoint卻同時帶來了遠高於純光刻技術所能實現的出色存儲密度。

  英特爾與美光公司指出,未來工藝尺寸伸縮將同時出現在光刻與層3D堆疊這兩個方面。橫向與縱向的規模可調整能力將成為關鍵,保證其未來仍然具有進一步可延展性,這是因為基於氬氟的傳統多模式浸沒式光刻技術在10納米級別上已經失去了經濟性優勢,而目前尚未出現任何明確的繼任技術可供選擇。當下業界普遍將希望寄托在EUV身上,而英特爾與美光則確認稱,3D XPoint將(不出所料)兼容EUV光刻,而且存儲單元設計尺寸可以最大縮水至個位數納米級別——同時不會對使用幫助/可靠性造成顯著影響(事實上,隨著物理尺寸的下降,其在某些方面反而有所改善)。不過在未來幾年內,我們恐怕仍然無法利用EUV實現批量化生產。首批EUV生產的主要重心也將放在邏輯層面,這一方面是因為其設備成本實在太過高昂,另一方面也是因為邏輯無法像記憶體般進行垂直綻放、因此可能導致散熱問題。

  從理論層面講,3D XPoint也支持多層單元設計,但英特爾與美光雙方目前並不打算追求這條路線。雖然在實驗室當中實現多個電阻層級並不是件太難的事,但其實際難度還是要遠遠高於保證生產的數萬片晶圓當中、每個晶粒都具備必要的特性以實現雙層單元操作。相比之下,這一思路很像是二十年前每單元2 bit機制剛剛出現在NAND領域的狀況,因此目前英特爾與美光暫時會將注意力集中在光刻技術及3D伸縮方面,從而提高存儲密度及成本效益。不過相信在未來,多層單元設計也將逐步出現在3D XPoint當中。

  而與NAND在架構上的最大區別在於,3D XPoint實際上是以bit層級進行訪問。在NAND當中,整頁(在最新節點中為16KB)必須一次性進行編程才能存儲1 bit數據。而更糟糕的是,我們必須要在塊層級(至少包含200個頁)執行擦除操作。如此一來,NAND就需要使用更為複雜的垃圾回收演算法,從而更為高效地實現性能水平。然而無論演算法多麼精巧,處於穩定狀態的驅動器在性能上仍然會因此受到影響,因為必須採用固定的讀取-修改-寫入周期才能對塊中的單一頁進行擦除。而作為以bit為基礎訪問單位的3D XPoint來說,其並不需要配合任何垃圾回收機制即可高效運作,這不僅極大簡化了控制器與固件結構,更重要的是還將實現更高性能水平與更低功耗需求。

  我個人懷疑,在最終產品——特別是面向存儲需求的產品——當中,3D XPoint仍然會保留一部分邏輯頁以降低追蹤操作帶來的負擔,這是因為在bit層級上進行數據追蹤將需要大量高速緩存作為配合。然而,英特爾與美光公司已經在聲明當中就此作出了明確回應,表示日前發布的公告僅僅屬於一項技術性結論。兩家公司拒絕就基於這項新技術的未來面世產品發表任何評論。換句話來說,這兩家企業將各自打造自己的產品方案,並預計將在明年正式將其交付至廣大用戶手中。

  內存單元:3D XPoint背後的秘密

  從子陣級角度出發,3D XPoint的運作方式還算比較容易理解,但探究大量屬性變化過程中內存單元之內的實際動態則是個非常複雜的問題。從個人角度出發,我能想到的就是需要通過兩種方式實現這一目標——以物理方式利用外部刺激調整存儲單元屬性,從而實現晶體結構變更; 或者是以化學方式對單元內的材料屬性進行調整。在發布會之後的對話環節當中,我們得到的消息是3D XPoint所使用的並非相變材料,這就消除了一種潛在可能性——即3D XPoint利用相變材料通過單元晶體結構變化來實現電壓切換。英特爾與美光選擇的方式也極具現實意義,因為引導穩定晶體結構發生變化很可能意味著對不同原子結構長度進行頻繁調節,而這有可能影響到存儲單元之間連接材料,最終導致使用壽命降低。考慮到這一點,惟一可行的就只有化學調整方式了,更具體地講對存儲單元中的bit電子結構進行調整,從而使其出現電阻差異。

  經過一系列研究,我想咱們不妨在這裡就其實現原理展開一番探討。

  自旋交叉

  根據以往的經驗,我自然而然地想到了自旋電子與自旋交叉化合物的應用。簡而言之,這意味著此類材料擁有兩種不同電阻級別,具體取決於結構內電子層級中的電子狀態。而外部刺激(包括溫度、電壓以及磁場的變化)則用於實現兩種電子狀態之間的切換。

  接下來的內容可能有些艱深,我們最好是從單個過渡金屬原子出發進行考量。根據該金屬原子周邊的局部排列,金屬的鍵合軌道部分會充斥著大量電子:

  這裡是一個處於2+價環境下的鐵化合物分子,其主要成鍵軌道為t2g(低能量)與eg(高能量)。根據Pauli提出的不相容原理,6個電子配對構成三條軌道,而且每個電子對中的一個電子「自旋加快」、另一個則「自旋減慢」。這就是我們所說的基態,也被稱為低自旋狀態。其整體自旋值S等於0,因為一個電子的自旋值1/2會被另一個電子的自旋值-1/2所抵消。

  此原子的另一種模式則為高自旋態,其中2個電子轉移到了較高的鍵合軌道當中,而總體自旋值S=2:

  由於外部刺激的存在,其中將有2個電子翻轉自旋並佔據高能量eg軌道,而這也就是所謂「亞穩定」狀態。根據周邊原子的實際排列,這種狀態實際上也可以表現得非常穩定,但卻與原始基態在性質上存在很大的不同。

  不過將這種原理推廣到大量材料之上,從原則上講非常困難。簡要概括,各類研究論文指出自旋交叉化合物可以直接進行對接並實現電阻變化,但與這類操作相關的大部分論文都屬於化工學科,探討的也主要為碳納米管、石墨烯層或者有機鏈等對象。

  圖片來源:M. Urdampilleta等所著之《自然材料》第十章502節(2011年)

  在這篇論文當中,低自旋/高自旋狀態將提供或不提供兩種極性之間的導電率,具體取決於金屬原子的實際性質、電阻、特性以及/或者平台穩定性水平。英特爾公司需要開發出這樣一種材料,其能夠通過電壓變化而非外部刺激實現編程,而這顯然將複雜性提升到了新的高度。一般來講,自旋交叉化合物具備特定的溫度窗口,在不同溫度下其電子可以在高狀態與低狀態之間往來切換,這意味著溫度因素對其穩定性存在直接影響。

  從這一點出發,材料的可延展性與基礎特性成為實現大規模自旋交叉的主要障礙,特別是在同時採用碳納米管的情況之下。如果要對大量金屬材料進行延展,那麼我們需要為其提供一個單獨的金屬環境進行批量處理,帶線(與間隙)會令原本單純的軌跡概念變得更加模糊,因此我們根本無法將其納入至存儲單元之中。英特爾公司還指出,他們的技術能夠讓每個存儲單元承載多bit,而自旋交叉的排布問題能夠利用電子隧道機制加以解決,從而達成構建存儲單元的目標。

  自旋轉矩效應(簡稱STT)

  內存單元的自旋轉矩效應取決於單元兩種狀態之間的電阻水平,外加在存儲單元內部控制磁性的能力。簡而言之,如果大家對某種材料的磁性布局作出調整,也就能夠同時調查其電阻並將其作為記憶體加以使用。

  而更為具體的解釋是,自旋轉矩效應的長期存在依賴於被稱為自旋極化電流的性質。電子自旋從根本角度講分為兩種方向,即自旋加速與自旋減速。一般的電流通常由這兩類方向均勻混合,這樣整體看起來就呈現出非極化電流的形式(即不存在整體自旋方向性)。而當一股非極化電流通過一層厚厚的磁性材料時,其立刻開始呈現出極化特徵。如果這種極化電流隨後通過處於不同電子密度狀態的薄磁層,那麼電流的極性則會產生磁性,從而使更多電子自然進入反向自旋狀態。

  由於厚磁層具有恆定的磁場向性,而薄磁層(或者稱作自由層)能夠進行翻轉(具體取決於材料本身),因此這兩者相結合後所產生的電阻即可作為記憶體單元使用。

  圖片來源:《STT-RAM作為高效節能主內存替代方案的可能性評估》,作者:Kültürsay等。

  論文指出,自旋轉矩效應方案的優勢在於其能耗水平低於DRAM,但性能表現則與後者基本相當。而這項技術的實現障礙主要源自以納米光刻這樣極為微小的立足點構建永久磁體的能力,外加如何將眾多如此微小的磁體以彼此接近的方式加以排布(類似於磁碟驅動器當中的bit單位)——這有可能導致其中一部分發生意外翻轉。除此之外,也並不清楚使用這種方法能夠提供每單元單一二進位bit以上的容納能力。而且現有研究表明,其需要同時使用一個控制晶體管方能正常起效。而英特爾方面已經明確指出,3D XPoint並不使用任何控制晶體管。

  自旋轉矩效應技術的公開發展歷史最早可追溯到2011年由高通公司推出的1 Mb IC以及2012年來自Everspin公司的64 Mb模塊,不過二者始終未能投入實際生產。

  導電橋接技術(簡稱CB)

  對通路電阻進行調整的最簡單辦法之一就是通過物理變化將電子運動路徑幾乎完全阻斷。導電橋接技術(或者被稱為可編程金屬化單元)則採用類似於電解的技術在電極之間創造出一道納米橋,從而降低單元電阻。

  在一個導電橋接單元當中,一層薄電解質膜(過去一直以液態方式存在,但現在也可以呈現為固態)處於活性與惰性電極之間。當惰性電極被施加一個負偏壓時,電解質中的金屬離子會被不願為金屬原子。當析出並連接的金屬原子數量達到一定程度後,其會形成一條位於兩個電極之間的導線。而要切斷這條導線,我們需要施加反向電位差,從而將導線中的原子重新氧化成電解質的組成部分。最終的電極-電解質-電極組合仍然具備導電能力,但其電阻要高於前面提到的存在導線的情況。

  不過對於任何一位對於電解機制比較熟悉的朋友來說,以上概括性描述同時也帶來了大量問題。首先,也許存儲單元當中使用的是液態材質,但我們更傾向於假定需要處理的是處於固態材料當中的移動離子,其活動空間介於各嵌入點之間(也就是晶格/框架之間的空間)。不過在我個人看來,真正值得仔細推敲的還是要數上述表達中提到的「導線」一詞。通常來講,通過電解實現的原子析出往往缺乏指向性——我們是領先不同晶體面的活動來推出析出,這就導致離子擴散以多向性方式進行,不過根據實際晶體面的增長情況、電極指向會略有偏差。在這種情況下,分叉線就會出現——類似於閃電的表現形式。而在對不同電極進行彼此連接時,或者至少是在電子隧道的長度之內,導線本身的電阻差異(從高電阻到低電阻)也相當巨大。不過隨著導線的持續構建,電阻值也會不斷降低。考慮到這一點,建立導線這種處理方式確實能夠為每個單元提供多bit容納能力,但正如我之前所提到,其實施難度也相當之大。另一項因素在於逆轉的過程——通常是由同樣的材料作為離子提供活性電極,但這意味著電極本身基本上也具備可溶解性。通過研究我們看到,這恐怕會對產品的使用壽命造成影響。

  而在導電橋接技術的優勢角度,其在理論上能夠實現低於浮柵單元的物理尺寸、而布局也相對簡單。根據報告所言,其能夠在功耗與性能水平方面較當前NAND改善達數個量級。

  考慮到上述問題與優勢的存在,我認為導電橋接技術目前應該作為3D XPoint方案的優先使用對象。美光公司曾於2002年的官方許可當中作出過相關暗示,而且2014年美光分析師大會上展出過的幻燈片資料也提到了他們如何克服我之前提到的一些問題:

  圖片下方列出的正是當時正處於研髮狀態的存儲單元,演示材料中確實提到了橋接技術的存在。為了確保活性電極不會在逆向編程過程中被「吃掉」,技術人員設置了一套大型離子庫供其調用。另一個電極則尺寸很小,以便於導線能夠定向構建。只要整個電解質層夠小(數個單分子層),那麼讀取/寫入操作的速度將極快、實現也將非常容易。

  未來發展

  總結而言,如果我們快速跳轉至2015年2月,那麼請注意美光公司在其分析師會議當中公布的另一份演示資料:

  在這幅圖片的下半部分,我們可以明顯看到美光公司正著眼於左側基於自旋轉矩效應的記憶體方案,而亦有分析師報告指出圖片右側的RRAM單元很可能使用的就是導電橋接技術。而在本周公布的3D XPoint演示資料中,多位分析人士認為最優先的實現選項很可能是利用二極體探測實際電阻特性。

  考慮到公告強調稱目前正在進行的技術研發從根本角度講迥異於此前有過的嘗試,而3D XPoint產品進入批量生產的最大難關在於製造材料,我最終無法判斷其具體採用了哪一種實現方式。從可能性方面來看,英特爾與美光雙方也許使用的是導電橋接技術打造出了這款產品。最為精確的細節將被牢牢掌握在英特爾與美光手中,因為畢竟這項技術成果從概念到產品的整個推進流程殊為不易——考慮到前面提到的2002年發布導電橋接技術許可,整個研究周期已經延續了整整十年。

  估算3D XPoint的晶粒尺寸

  說到現在,大家一定發現我是個喜歡刨根問底的傢伙,接下來要關注的自然就是晶粒尺寸了。DRAM與NAND供應商向來不願公布此類信息,所以我只能通過自己的方法儘可能對晶粒尺寸進行估算(好吧,其實具體用到的也就是初中水平的幾何知識,所以我也不指望靠這個揚名立萬)。晶粒的大小是決定成本效益的關鍵性因素,因為它直接關係到每塊晶圓所能產出的存儲容量GB數字,因此我們也會在對不同技術及流程節點進行比較時將其作為一項重要指標。

  我從The SSD Review網站處借用了上面這幅圖片,因為老實講我自己保存的晶圓圖片(包括其它一些圖片)拍得都不怎麼樣,幾乎沒辦法直接當作參考對象進行觀察。Sean是一位專業攝影師,因此由他負責拍攝到了這幅英特爾與美光所展出的3D XPoint產品照片——很清晰,也很美觀。有了這份素材,我們就能更輕鬆地確認晶粒尺寸了。

  根據我的計算,這片晶圓上的橫向晶粒數量為18個,縱向則為22個,而晶圓本身則屬於面積為227平方毫米的標準300毫米晶圓。在進行晶粒切模時,我們應該考慮到不同晶粒之間預留的下刀空間,因此各晶粒的實際總面積應該在210到220平方毫米之間。晶圓面積利用率大約為90%,這要比平面NAND高得多,因為其大部分外圍電路都位於記憶體陣列的底部。

  IMFT 20納米128 Gb MLC NAND晶粒

  比較來看,英特爾與美光的20納米128 Gb MLC NAND晶粒在單片晶圓中的總面積為202平方毫米,其實際利用率約為75%。通過這一比例,我們可以計算出3D XPoint中的128 Gb內存陣列的總面積約為190平方毫米,而存儲容量則與面積約為150平方毫米的平面NAND陣列基本相當(由於128 Gb 3D XPoint晶粒由雙層結構構成,而128 Gb MLC NAND晶粒則在每個單元中容納2 bit,因此層數與每單元bit存儲數量恰好抵消)。從內存陣列的角度來看,採用固定制程尺寸(即光刻)的NAND晶粒擁有更高的存儲密度,但單就這一點我們仍然很難判斷這是由單元設計本身所造成、還是受到其它因素的影響。相較於2D平面製程,字線與位線同金屬間層之間的連接層可能需要戰勝一些額外的面積(至少參考3D NAND情況是如此),這可能也解釋了3D XPoint為何會在存儲密度上略遜於NAND。

  不過我們還要等待更多SEM照片來進一步觀察3DeXPoint陣列的排布情況,及其同NAND在單元尺寸及整體密集方面的對比結果。當然,除了具體單元與晶粒尺寸之外,還有很多其它因素影響著產品的總體製造成本,不過我會在進一步了解到生產設備及半導體製造流程的實際情況之後再作出深入分析。

  3D NAND的未來命運

  以上分析結果顯示,3D XPoint並非3D NAND的替代性產品,至少在可預見的未來不會威脅到後者的生存。除此之外,英特爾與美光雙方也在提及3D XPoint對3D NAND的影響時明確指出,其定位屬於介於DRAM與NAND之間功能空缺位置的新型利基內存方案。兩家公司目前仍在積極推動3D NAND產品在明年的全面上市,並為未來幾代3D NAND產品制定出堅實的發展路線圖。

  正如我之前曾經提到,3D XPoint陣列的構建方式與3D NAND完全不同。根據我的個人理解,前者的使用成本更高,因此第一代3D XPoint產品僅僅採用了雙層結構而非像3D NAND那樣以大規模光刻製造技術實現數十層結構。除非3D XPoint也能獲得與3D NAND相似的製造方式(即同時添加多層並一次性完成光刻處理),否則我認為3D XPoint短期內在成本方面仍然無法與3D NAND相抗衡——不過再次強調,3D XPoint的短期發展規劃並非作為NAND晶元的繼任者存在。

  不過未來十年內實際走向如何則是另一碼事了。3D NAND目前面臨的零通孔電流難題可能是目前最大也是最廣為人知的發展障礙。基本上,3D NAND各個「單元塔」(即層堆棧,目前的三星與英特爾-美光3D NAND晶元皆為32層結構)內的傳輸通道為單一通孔,電流需要通過各個通孔到達每個獨立存儲單元。但問題是,隨著通孔長度的不斷增加(即整體結構中層數的增長),電流將很難達到頂部單元,因為傳輸過程會引發乾擾效應,進而降低通過通孔的整體電流(也就是所謂『零通孔電流』)。如果大家有興趣查看與這一問題相關的詳盡實驗數據,我建議各位參閱3D Incites與Andrew Walker就此議題發布的博文。

  由於大多數廠商目前還沒有開始進行3D NAND方案的批量生產,因此短時間內這項技術應該還不會遇到發展瓶頸。當下東芝-SanDisk公司的15納米NAND已經開始使用由128個存儲單元構成的通孔結構,但與其它半導體技術一樣、3D NAND也將最終面臨尺寸伸縮方面的難題。這種情況也許會在未來五年、十年乃至二十年中出現,但對於3D XPoint這樣一項以成熟與可擴展能力作為主要賣點的技術成果而言,及早考慮並解決此類障礙顯然非常重要。

  具體產品

  在本次會議中,英特爾與美光雙方在聲明中提到的內容全部圍繞底層3D XPoint技術展開。基於這項新技術的產品將在下一年年內揭開面紗,而且兩家企業目前都對具體細節守口如瓶——僅僅給出了一點提示。首先,英特爾與美光之間的協作關係只停留在內存技術層面,而且兩家公司正在著手開發自己的3D XPoint產品——類似於雙方在SSD/NAND業務方面的作法。從技術層面講,這意味著兩家公司將在市場上存在競爭關係,不過可能性更高的情況是、二者會各自通過獨特的實現方案利用3D XPoint技術打造自家最終產品。

  值得注意的是,英特爾公司在現場演講與問答環節當中都著重強調了NVMe技術。英特爾公司自該項技術誕生以來就一直扮演著熱情的倡導者角色,其同時也是第一家於去年憑藉DC P3700及其衍生方案批量發售NVMe SSD產品的廠商。儘管NVMe迄今為止一直被作為主流非易失性內存而與NAND保持著緊密關聯,但其核心架構立足於下一代內存技術,因此具有更為出色的延遲水平表現(畢竟NVMe的全稱為Non-Volatile Memory Express)。考慮到軟體介面在過去近十年當中一直沒有出現顯著變化,NVMe的誕生很明顯開始將包含NAND在內的更多因素納入了設計考量。

  隨著NVMe產品的出爐,我們明顯將迎來基於PCIe SSD形式的3D XPoint解決方案。這些方案有可能以接入卡抑或是2.5英寸驅動器的形式出現,不過在我個人看來,接入卡的可能性應該更高一些(至少在早期階段是如此),而這主要是由於連接器的局限所導致。U.2(也就是原先的SFF-8639)只支持四條PCIe 3.0通道,這使得其實際傳輸帶寬僅在每秒3.2 GB左右。NAND快閃記憶體目前的讀取傳輸能力已經使得上述帶寬設置趨於飽和,因此3D XPoint在擁有更為出色的寫入與隨機IO性能的情況下,多餘的性能空間很可能會由於傳輸介面的能力所限而遭到浪費。接入卡並不會受到U.2局限的影響,而且能夠支持十六通道以及由此實現的高達每秒10 GB傳輸帶寬,但其缺點在於服務能力有限——因為接入卡無法像2.5英寸驅動器那樣實現前載。由於企業客戶已經開始使用接入卡(Fusion-io公司一直致力於生產接入卡這一類產品),我認為真正需要利用3D XPoint產品承載自身工作負載的企業客戶並不會被服務能力所束縛。而在另一方面,我猜測英特爾公司也會推出與U.2類似的八通道標準,但要想真正得到普及、這類新規範還需要整個行業的全面支持。

  由於英特爾已經成為合資公司中的另一位參與者,可以肯定3D XPoint將迎來全面支持以及在平台端所需要的大力推動。英特爾方面能夠將更多PCIe通道以及/或者回事機制納入到PCIe 4.0標準的開發當中,從而在即將推出的後續平台上實現更為可觀的傳輸帶寬水平,並藉此為3D XPoint的市場化進程鋪平道路——這樣的能力顯然是其它內存供應商所不可能具備的。

  AgigA公司的DDR4 NVDIMM:也許會成為3D XPoint的未來交付形式?

  儘管英特爾公司必然會通過NVMe在存儲領域推動3D XPoint的普及,但我猜測美光方面可能會選取更接近於內存定位的解決方案——因為美光畢竟是一家內存供應商,而不僅僅屬於存儲產品廠商。目前已經得到證明的是,3D XPoint確實可以作為內存使用並存儲應用程序,因為該項技術具備bit定址能力且可以在一定程度上實現等同於DRAM的運作方式。將3D XPoint進一步貼近CPU並通過DDR4介面實現對接,不僅能夠最大程度發揮其性能表現,同時也可消除由PCIe帶來的某些瓶頸。目前已經有眾多基於NAND的產品遵循這一思路,包括SanDisk公司的ULLtraDIMM,外加JEDEC幾個月前發布的DDR4 NVDIMM標準)這是一套用於彌合DRAM與SSD間性能空白的新型標準集。由於缺少NVMe這類標準化軟體介面選項,NVDIMM目前仍然需要以驅動器的形式投入實際使用。而我堅信3D XPoint將成為推動NVDIMM進入市場的最佳技術選項,而這也將為美光帶來可觀的經濟收益。

  實際應用

  3D XPoint的實際用例擁有非常光明的潛在發展空間,而英特爾與美光也認定這項技術將為各類新型應用程序的出現打開大門。縱觀整個計算行業,此前曾經出現過多種高速非易失性內存技術——磁芯存儲器就是最具代表性的傳統方案——因此這一領域還殘留著部分早期技術成果以及基礎性研究項目。不過由於磁芯存儲器早在大部分讀者出生之前就已經過時,現代計算業界開發出了作為當前規範的高速DRAM與低速永久性存儲技術。結果就是,儘管潛在應用選項已經非常豐富,但計算科學當中仍有大量尚未被探索的區域。

  就基於3D XPoint的產品來講,其最為立竿見影的應用方式就是在DRAM與SSD之間充當新的存儲層。在計算科學發展的歷史長河當中,存儲與處理器之間的其它層級一直在不斷出現——晶元內多級緩存、晶元外緩存、以及SSD緩存等等——而3D XPoint內存將充當這一體系當中的另一種新型存儲介質,從而彌合DRAM與現有高速非易失性存儲方案之間的空白區域。通過將3D XPoint作為另一種緩存層,這項技術將被應用於未來的高速應用程序當中,從而克服目前內存容量或者存儲延遲給這類應用造成的拖累。

  傳統存儲結構圖(圖片來源:哈佛大學Tommy MacWilliam)

  考慮到3D XPoint產品的成本定位,其初步應用預計將會出現在企業級市場當中。企業用戶需要大量使用各個層級的存儲資源,從而幫助容量相對較低的DRAM實現性能均衡調整。擁有特定用途的資料庫伺服器需要經過妥善的緩存處理,而使用3D XPoint替代DRAM承載下一代資料庫系統也可謂順理成章。由於3D XPoint的非易失特性,我們甚至可以將其作為專用緩存——也就是說,其中的內容不需要存在於更低級的存儲層當中——這將有效幫助基礎設施削減運行負擔。在這種情況下,資料庫系統將只需要在數據被3D XPoint緩存排除出去之後將對應內容寫入至SSD或者其它低級存儲層當中,而對於經過嚴格調試的資料庫來說、這樣的情況將非常罕見。

  大部分緩存層的固有優勢都能夠作用於其它偏重存儲的伺服器類型,不過我認為資料庫是其中受益最為明顯的用例場景。也許未來還將有更多更具吸引力的3D XPoint伺服器支持方式出現,並逐步被大眾所廣泛接受。英特爾與美光目前正積極強調該技術在「大型科學」項目體系中的作用,其中包括大型強子對撞機、數據產出量極為驚人的泰坦超級計算機以及其它任何將數據處理與數據供給作為主要設計考量的項目及系統。任何一種分析機制都能夠通過讓各個處理器以內存方式訪問與SSD容量級別等同的數據池的方式實現處理效率提升。

  不過問題在於,相關企業仍然需要投入大量資源及研究力量來找到最合適的用途。這種訪問速度及存儲容量層面的革新不僅能夠讓計算機的運行速度更快,同時也能夠從根本上轉變演算法的基本原理及設計思路。正如科學家們需要認真考量GPU在大型並發(及高延遲)處理任務當中的作用,3D XPoint的全面推廣也需要有能夠高效利用數據直接訪問能力的新型演算法加以配合。

  與此同時,我認為金融行業應該也會率先加入到這方面的探索中來,因為他們立足於高度競爭且利潤豐厚的業務領域,所以更傾向於嘗試新型技術以提升自己的市場優勢。從這個角度出發,3D XPoint所能帶來的速度提升效果並不明顯——畢竟此類工作負載已經被廣泛交由內存池負責打理——但其仍然能夠幫助從業人員利用模擬方案針對規模更大的數據集進行高效處理與分析。

  至於在消費級領域,同樣的原則同樣適用於新型緩存層的介入,不過我不太確定這類市場是否會像企業用戶那樣積極在早期階段加以採納。考慮到3D XPoint產品的最終成本以及容量水平,大部分消費者對於價格要比專業用戶更加敏感。在消費級領域,我們確實見到了相當一部分基於NAND技術的驅動器產品,但大多數使用者仍然堅持同時使用SSD與傳統機械磁碟,甚至繼續單純使用後者。消費級用戶也不願為高端SSD產品的溢價買單,亦不太可能擁有足夠的資金來購置高容量SSD方案。

  不過如果著眼於遊戲領域,我發現3D XPoint可能會擁有一部分施展空間,因為目前遊戲已經成為消費級工作負載當中的一類特例。總體而言,我們都希望能夠更快速地訪問遊戲資源,因為這些資源必須定期訪問而且會對遊戲的分段執行產生重要影響。不過這部分資源本身並不具備易失性——遊戲當中只有一小部分工作集屬於易失性數據,主要包括角色位置、AI決策樹以及遊戲狀態等等。除此之外,其它部分都屬於靜態數據,具體包括模型、場景幾何體以及紋理等。3D XPoint的速度表現足以取代內存承載這些數據,而數據本身的非易失性也保證了其不會過度消耗3D XPoint的全盤寫入次數。在這種情況下,與DRAM相比較的寫入性能短板也將被很好地掩藏起來。

  不過實際情況還是要看這項技術的具體使用成本;如果其成本足夠低廉,那麼容量在50到100 GB的產品將可以被納入遊戲主機或者PC設備,從而幫助玩家將遊戲的大部分內容存儲在3D XPoint內存當中,最終實現載入速度加快、數據處理時間需求降低以及遊戲狀態設置提速等等。這一點對於遊戲主機而言尤為重要,特別是考慮到目前大多數遊戲機都在使用傳統機械磁碟承載數據,這意味著遊戲啟動或者不同遊戲切換時需要調用大量內存。相比之下,目前高端PC設備上的高容量DRAM已經能夠很好地解決這個問題。

  最後但同樣重要的是,3D XPoint有可能被作為DRAM的替代性方案。相對於DRAM來講,3D XPoint的使用壽命較為有限,這也是比拼當中的致命短板,不過我認為更大的問題還是來自整體傳輸帶寬。就目前來看,3D XPoint已經逐步開始進行量產,而DRAM技術則應該會隨著速度更快的下一代DDR4技術以及HBM的廣泛普及而迎來新一輪升級。考慮到未來幾代HBM已經在朝著每秒1 TB甚至更高傳輸能力進軍,3D XPoint幾乎沒有辦法在這方面與高帶寬DRAM解決方案相抗衡。因此,任何關於DRAM即將消亡的斷言恐怕都還為時尚早。

  物聯網與嵌入式,3D XPoint能否在這裡一展拳腳?

  不過值得一提的是,雖然3D XPoint不太可能在全部應用領域徹底取代DRAM,但相信它仍然能夠尋找合適的區域將DRAM一軍——特別是在DRAM主要依靠帶寬與延遲等比較優勢所立足的市場當中。舉例來說,利用3D XPoint在嵌入式應用中取代DRAM就非常可行——很多嵌入式用例根本不需要可觀的傳輸帶寬或者低延遲水平。在這方面,傳統NAND的表現顯然更好——當然,需要強調的還有智能手機業務領域。如果3D XPoint晶元能夠在尺寸與成本方面進一步削減,那麼這項技術相信能夠在低性能設備這一廣闊的市場空間當中給DRAM帶來沉重的一擊。不過我得再說一次,那些需要速度全開且極低延遲的高性能硬體平台仍然將由DRAM一家獨大。

  總結陳詞

  關於3D XPoint,還有很多值得探討的內容。自從1989年NAND誕生以及過去幾十年DRAM與NAND不斷發展演變以來,整個內存行業似乎一直沒能拿出什麼驚人的成果——但如今,3D XPoint絕對算得上一種全新內存類型。它速度很快、耐用性好、具備可擴展能力及非易失特性,這相當於同樣佔據了DRAM與NAND雙方的主要優勢。它非常適合介於DRAM及NAND之間的利基市場,而且坐擁兩大主流傳統方案固有優勢的能力也使其成為一套前所未見的重要技術成果。

  此次公告的重要意義不僅在於推出了一種新型內存技術,同時也是因為其具體成果將在未來幾年內開始投入量產。英特爾與美光雙方已經成為將一項技術概念從實驗室中轉移到了代工流水線,而且其核心實質可謂迥異於目前的任何一種新型半導體技術。相當一部分能夠在實驗室中確切起效的技術概念都在批量生產當中遭遇障礙,但英特爾與美光利用巨額投資開發出了新型材料化合物以及周邊技術,從而讓3D XPoint順利轉化為一款實際產品。我們將高度關注其它DRAM與NAND供應商會就此作出何種反應,畢竟在內存行業當中,沒有任何一家廠商願意坐視自己的競爭對手開發出一套讓人完全摸不著頭腦的新方案。

  不過,3D XPoint顯然並不算是DRAM或者NAND的真正繼任者,而英特爾與美光也並不打算為其設定這樣的角色。DRAM將繼續在高性能應用市場保持著延遲與使用壽命角度的王者地位。我們的早期成本分析也顯示,3D XPoint還無法達到平面NAND、更遑論3D NAND的存儲密度。不過由於具備橫向與縱向伸展能力,相信3D XPoint終將有一天徹底取代3D NAND的歷史地位。

  展望更遙遠的未來,3D XPoint並不是英特爾與美光拿出的惟一一席技術盛宴。如果一切按照計劃順利推進,那麼我們應該會在未來兩年內見識到雙方打造的另一款新型內存技術方案。由於3D XPoint似乎更適合取代3D NAND,那麼第二項新技術也許正是DRAM的致命剋星。

  總而言之,提早評估3D XPoint在未來可能實現的應用場景是項重要的工作,因為這是一項前所未有的嶄新技術。不誇張地講,我甚至認為3D XPoint有可能給現代計算機體系結構及運作方式帶來根本性轉變——當然,這種轉型不會在一夜之間發生,而且很可能還要面臨其它廠商競爭技術帶來的挑戰。不過可以肯定的是,英特爾與美光雙方已經在即將在明年拉開序幕的內存與計算新時代中佔據了先發優勢。


推薦閱讀:

你真的懂KPI和OKR么?(附:為何谷歌、英特爾、知乎均放棄KPI,轉向OKR?)
英特爾將推自動駕駛多晶元平台,與英偉達終有一戰
英偉達/高通/英特爾在CES 2017上都展示了哪些自動駕駛黑科技? 2
英特爾還是一家半導體公司嗎?

TAG:英特爾 | 解析 |