要說到DDR5,必須首先明確一個(gè)問題。它與目前主流的DDR5顯存,即GDDR5并不是一回事雖有一定的血緣關(guān)系,但關(guān)系已經(jīng)相當(dāng)遠(yuǎn)了。DDR5是從目前主流的DDR4發(fā)展而來。但GDDR5卻是從DDR3進(jìn)化而來的。此外還有另一個(gè)發(fā)展路線上的低功耗產(chǎn)品LPDDR5。雖然技術(shù)有些關(guān)聯(lián),但主要面向移動(dòng)、集成市場(chǎng)(圖1)。
DDR5的規(guī)范其實(shí)在2016年就開始規(guī)劃,也就是說DDR4剛剛開始走上正軌。廠商們就在籌劃下一代內(nèi)存了。這一規(guī)范主要由三星提出、美光參與。具體性能方面。規(guī)劃中的DDR5從3.2GHz等效頻率起跳,主流頻率會(huì)達(dá)到6.4GHz,容量則為16GB起跳電壓1.1V。而從目前公布的一些DDR5顆粒來看。似乎廠商有意直接出貨6.4GHz左右的高頻產(chǎn)品(圖2),與目前已經(jīng)進(jìn)入主流價(jià)位的DDR 43×00內(nèi)存拉開檔次。
微小的進(jìn)步和出色的兼容性
總體來看,DDR5其實(shí)就是等效頻率翻倍的DDR4,而其翻倍的方式也和之前的DDR2、3、4一樣,利用了每個(gè)時(shí)鐘周期內(nèi)電平的不同來觸發(fā)(圖3),在保持基礎(chǔ)頻率的基礎(chǔ)上可以獲得數(shù)倍的等效運(yùn)行頻率。這樣漸進(jìn)式的發(fā)展兼容性更好,是DDR5成為下一代標(biāo)準(zhǔn)的主要原因之,。
當(dāng)然,DDR5已經(jīng)需要在一個(gè)時(shí)鐘周期內(nèi)觸發(fā)驚人的32次動(dòng)作,所以需要非常精確地測(cè)量時(shí)鐘脈沖和電平,并且維持非常高的運(yùn)行速度和穩(wěn)定性。為此DDR5顆粒和內(nèi)存條中也增加了一些新模塊、電路和算法,比如用來修正時(shí)鐘相位、減小時(shí)鐘誤差的相位插值/旋轉(zhuǎn)器(PhaseRotator),用來調(diào)整均分時(shí)間的延遲鎖定回路(Delay-Locked Loop),以及注入鎖相振蕩器(Injection LockedOscillator)和前向反饋均衡電路(FFE)等。很顯然,雖然DDR5沒有進(jìn)行架構(gòu)大改,但更復(fù)雜的電路及元件以及早期的良品率問題還是會(huì)明顯提升成本,所以預(yù)計(jì)其上市價(jià)格將大幅高于DDR4內(nèi)存。
DDR6緊隨其后
作為DDR5最有可能的后繼產(chǎn)品,DDR6也已經(jīng)初露端倪。這次的先行廠商是SK海力士,其開發(fā)的DDR6內(nèi)存預(yù)期速率12GHz,即DDR6-12000,正好又是主流DDR5速率的兩倍。DDR6還可能采用更高的每周期數(shù)據(jù)傳輸能力等技術(shù)進(jìn)一步提升性能,使其成為一次性能跨越較大的內(nèi)存升級(jí)。根據(jù)媒體采訪透露出的信息,SK海力士預(yù)計(jì)DDR6將在5年~6年內(nèi)發(fā)展完成,正式進(jìn)入主流市場(chǎng)。
需要注意的是,SK海力士在研的“后DDR5”產(chǎn)品仍為技術(shù)概念,目前成型的主要有兩種,其中一種是延續(xù)現(xiàn)有的數(shù)據(jù)傳輸規(guī)范,另一種則是將DRAM與CPU等片上系統(tǒng)的處理技術(shù)結(jié)合。很顯然,后一種其實(shí)和目前HBM內(nèi)存的使用方式很類似。
GDDR顯存與LPDDR內(nèi)存
在內(nèi)存規(guī)范中,很多人經(jīng)常會(huì)被GDDR和LPDDR搞糊涂。其實(shí)GDDR基本與同代DDR沒有什么關(guān)系,而是有著自己的發(fā)展路線,只是有時(shí)會(huì)有一些交叉。比如GDDR2是DDR2內(nèi)存的優(yōu)化版本,而GDDR3內(nèi)存基本上是原封不動(dòng)照搬了DDR3顆粒,后續(xù)的GDDR4、GDDR5(圖4)、GDDR5X都是進(jìn)一步優(yōu)化的GDDR3(DDR3)。GDDR6(圖5)的變化更大一些,每個(gè)芯片配置了兩條x8/x16通道,而GDDR5僅有一條通道,此外電壓下降到1.35V,耗能降低了35%左右,因此獲得了和HBM甚至HBM2顯存一較高下的能力。同時(shí)其針腳數(shù)量也比GDDR5X有所減少,生產(chǎn)、使用都更方便。
當(dāng)然與DDR內(nèi)存顆粒相比,GDDR還是有一些改變的,比如修改了外部接口,使用更高的集成度,可以用更少的顆粒提供足夠的帶寬,但在一定程度上犧牲了延遲,R寸也略大一些。GDDR還會(huì)盡量提升運(yùn)行效率,獲得更高的等效頻率,同時(shí)降低功耗。當(dāng)然這些能力除了對(duì)架構(gòu)、工藝的修改外,也是因?yàn)轱@存利潤(rùn)較高,所以廠商也更傾向于在GDDR顆粒的制造中投入更新的技術(shù)、制程。
至于LPDDR系列,則是(Low Power Double DataRate SDRAM,低功耗DDR內(nèi)存)的簡(jiǎn)稱,它們的技術(shù)、架構(gòu)與同代DDR內(nèi)存基本相同(圖6),但使用非常低的電壓,如LPDDR4使用1.1V電壓,使其功耗大幅降低。
需要注意的是,LPDDR和低電壓DDR內(nèi)存如DDR3L也不一樣,其電壓更低,功耗也更小,因此平臺(tái)定位就完全不同,前者主要用于手機(jī)、平板電腦等設(shè)備,而后者則和普通DDR內(nèi)存的應(yīng)用方式基本相同,主要用于筆記本電腦,也大量用于臺(tái)式電腦中。
除了DDR5,目前已經(jīng)很成熟的內(nèi)存技術(shù)還有HBM(高帶寬內(nèi)存),它在高端顯卡上的表現(xiàn)也很搶眼。為什么來自CPU大廠AMD,并且早就宣布過要進(jìn)軍PC內(nèi)存市場(chǎng)的HBM,卻遲遲沒有真正的動(dòng)作?它又會(huì)不會(huì)借著第二代產(chǎn)品HBM2的成熟和本次PC內(nèi)存的升級(jí)進(jìn)入內(nèi)存市場(chǎng)呢?要理解這些問題,咱們先得了解HBM內(nèi)存及其特點(diǎn)。
顧名思義,HBM內(nèi)存最大的特色就是位寬特別高,可以在較低頻率下實(shí)現(xiàn)很高的數(shù)據(jù)傳輸率。如果以道路進(jìn)行比喻,那么DDR內(nèi)存就是通過不斷提高車速來換取更快的數(shù)據(jù)運(yùn)輸速度,而HBM則是把路盡量拓寬,通過并行更多的車輛來換取更大的數(shù)據(jù)運(yùn)輸量。HBM的封裝構(gòu)造也和DDR內(nèi)存完全不同,是多層顆粒層疊放置(圖7),所以體積可以做得很小(圖8)。
日日M內(nèi)存的問題也恰恰在于它的工作方式,由于帶寬非常大但頻率相對(duì)較低,所以與核心連接的線路更復(fù)雜、對(duì)延遲的敏感度更高。要用HBM做PC內(nèi)存的話,內(nèi)存插槽與處理器接口間就必須盡量接近,而且線路非常復(fù)雜密集;而如果像GPU一樣把它直接做在CPU封裝內(nèi)(圖9),就要放棄內(nèi)存插槽,這都需要對(duì)主板結(jié)構(gòu)進(jìn)行大改。
另外的問題來自CPU,HBM能用于GPU的原因是現(xiàn)在GPU顯存位寬都很大,主流產(chǎn)品192bit起步,使用HBM內(nèi)存的Vega 64(010)和Titan V更達(dá)到了2048bit和3072bit。但目前主流CPU的內(nèi)存控制器只能使用128 bit雙通道,根本沒法充分利用HBM的高帶寬,甚至還限制了可用的內(nèi)存容量。
HBM仍需機(jī)會(huì)
DDR內(nèi)存終歸是一種改進(jìn)式產(chǎn)品,速率一直加倍、加倍就需要越來越精細(xì)地控制、識(shí)別時(shí)鐘電平,稍微有一點(diǎn)波動(dòng)就會(huì)造成頻率不穩(wěn),長(zhǎng)遠(yuǎn)看來必然難以為繼,這也是為什么在“后DDR5”時(shí)代的內(nèi)存開發(fā)中,出現(xiàn)了類似HBM的與CPU集成的方案。
筆者認(rèn)為,HBM或者更新架構(gòu)的內(nèi)存無疑是未來的發(fā)展方向,不過這需要處理器、主板甚至整個(gè)PC架構(gòu)大改,因此仍需要等待機(jī)會(huì)。
目前看來,HBM的機(jī)會(huì)主要有兩種,一是遇到了非常強(qiáng)力的推手,例如支持HBM,同時(shí)具有劃時(shí)代意義的處理器及相應(yīng)平臺(tái)。但在目前已知的下一代產(chǎn)品如第三代銳龍、Sunny Cove中,都沒有確認(rèn)會(huì)支持HBM,而且它們似乎都沒有采用超高內(nèi)存帶寬的設(shè)計(jì),應(yīng)該也無法發(fā)揮HBM的能力。
二是DDR模式的漸改方式出現(xiàn)問題,過高的頻率和過于精細(xì)的分頻讓DDR內(nèi)存變得非常不穩(wěn)定,或者需要添加更多額外的元件、電路,使得成本無限制地上漲。此時(shí)HBM或其他類型的內(nèi)存,以及新的PC架構(gòu)就會(huì)占有成本優(yōu)勢(shì),進(jìn)而成為新的主流。
目前的內(nèi)存選購策略
從目前的情況可以判斷,兩種淘汰DDR內(nèi)存的機(jī)會(huì)最近都不會(huì)出現(xiàn),所以DDR內(nèi)存的生命還是相當(dāng)長(zhǎng)的。對(duì)準(zhǔn)備裝機(jī)的用戶來說,并未商品化的DDR5也無需等待,從平臺(tái)支持和自身的成本來看,它大規(guī)模取代DDR4內(nèi)存估計(jì)要到2022年了,近期公布的處理器如銳龍300和X570芯片組即使開始支持DDR5,也必然會(huì)保留對(duì)DDR4的支持,且主流主板肯定也會(huì)有DDR4插槽的。
作為目前電腦中的主力通信協(xié)議,PCle的歷史已經(jīng)很長(zhǎng)了,即使是PCle 3.0也有著近10年的歷史。這在電腦設(shè)備標(biāo)準(zhǔn)中是比較少見的長(zhǎng)壽了。而從PCle 1.0到3.0,雖然每一代的帶寬只提升為兩倍(圖11),但實(shí)際體驗(yàn)卻有很大的區(qū)別。
以顯卡為例,一代PCle可以很好地支持早期GPU,PCle 2.0時(shí)代可以讓顯卡配合處理器進(jìn)行異構(gòu)運(yùn)算,PCle3.0足夠的帶寬讓雙顯卡并聯(lián)完全可以不用橋接器。另外比如現(xiàn)在流行的高速M(fèi).2 SSD,也只有在單通道達(dá)到1GB/s的PCle 3.0時(shí)代才能拉開與SATA接口的差距。
那么PCle 4.0呢?現(xiàn)在的RTX 2080 Ti已經(jīng)把PCle 3.0×8的帶寬吃得干干凈凈,實(shí)際帶寬需求在PCle 3.0×10左右(圖12)。所以不用等下一代顯卡,現(xiàn)在RTX 2080 Ti SLI(8+8)或者RTX未來的頂級(jí)Titan型號(hào)就已經(jīng)需要更大的帶寬了。此外使用PCle 4.0的SSD性能也非常強(qiáng),傳輸速度已經(jīng)可達(dá)到6.4GB/s級(jí)別(PCle 4.0×4),而且已經(jīng)有用于服務(wù)器中的產(chǎn)品(圖13)。
然而這些傳統(tǒng)應(yīng)用并不是PCle 4.0帶來的最大改變。其實(shí)我們計(jì)算一下就會(huì)發(fā)現(xiàn),PCle4.0×16插槽的帶寬已經(jīng)達(dá)到了32GB/s,接近雙通道DDR4 2400內(nèi)存(38.4GB/s)的帶寬,完全是內(nèi)存級(jí)別的傳輸速度。而在其上運(yùn)行的3D Xpoint產(chǎn)品則擁有極強(qiáng)的潛力,目前已經(jīng)可以提供遠(yuǎn)超NAND,更接近內(nèi)存的傳輸速度、相應(yīng)延遲等指標(biāo)(圖14)。
在目前已經(jīng)大量使用PCle 4.0的服務(wù)器領(lǐng)域,英特爾已經(jīng)推出了一種新形態(tài)的存儲(chǔ)架構(gòu),即將基于3D Xpoint技術(shù)的產(chǎn)品作為內(nèi)存與SSD存儲(chǔ)之間的緩沖(圖15),可以大幅降低相應(yīng)元件的壓力,同時(shí)大幅提升系統(tǒng)整體性能。甚至可以說英特爾最新的服務(wù)器芯片,在性能方面的提升已經(jīng)開始依賴于這種新架構(gòu)了(圖16)。
那么,與PCle 4.0搭配的3D Xpoint技術(shù)到底有何神奇之處,用于服務(wù)器的3D Xpoint產(chǎn)品與現(xiàn)在大家熟悉的用來加速硬盤的傲騰有什么不同呢?
改變格局的搭檔 3D XPoint
3D XPoint是一種由英特爾與美光(Micron)共同開發(fā)的存儲(chǔ)技術(shù),雖然其具體原理和結(jié)構(gòu)都仍在保密中,不過基本可以確定,它是一種使用電阻來標(biāo)記數(shù)據(jù)狀態(tài)的新型存儲(chǔ)技術(shù)。由于電阻這種特性無需電荷來維持,所以其存儲(chǔ)的數(shù)據(jù)是“非易失性”的,也就是除非進(jìn)行主動(dòng)擦除,否則斷電之后數(shù)據(jù)仍然存在。