張 超 孫廣宇 張學(xué)瑩 趙巍勝
1(北京大學(xué)高能效計算與應(yīng)用中心 北京 100871)2 (北京航空航天大學(xué)電子信息工程學(xué)院 北京 100191)(gsun@pku.edu.cn)
賽道存儲器移動操作的溫度模型及控制策略
張 超1孫廣宇1張學(xué)瑩2趙巍勝2
1(北京大學(xué)高能效計算與應(yīng)用中心 北京 100871)2(北京航空航天大學(xué)電子信息工程學(xué)院 北京 100191)(gsun@pku.edu.cn)
賽道存儲器(racetrack memory, RM)作為一種新型的非易失存儲器件,對于未來存儲結(jié)構(gòu)設(shè)計具備很高的競爭力.RM通過將多個位信息存儲在一個條帶狀的磁材料納米線上,從而達到很高的存儲密度.同時,又能夠提供很快的讀寫訪問速度.為了能夠訪問RM條帶上不同位置的位信息,需要引入一種特有的“移動”操作.然而,研究人員觀察到移動操作需要較高驅(qū)動電流并產(chǎn)生大量熱量,從而引起性能和穩(wěn)定性的下降,甚至由于溫度過高引起存儲單元的損壞.現(xiàn)在仍缺乏一個關(guān)于RM移動的熱力模型來估算運行中的溫度.更重要的是,RM急需一個體系結(jié)構(gòu)級的管理策略來避免溫度過高帶來的穩(wěn)定性問題.針對這些問題,首先提出了一個熱力模型來研究RM使用時溫度與設(shè)計參數(shù)的關(guān)系.同時,為了提高RM的穩(wěn)定性,一種基于“配額制度”的移動操作管理策略被討論,以保證單位時間內(nèi)的移動強度被限定在特定閾值下.實驗結(jié)果表明,該方法能夠以3.5%的性能代價將溫度升高控制在20℃之內(nèi).
賽道存儲器;熱力模型;移動操作;穩(wěn)定性;溫度管理
賽道存儲器(racetrack memory, RM)通常也被稱作磁疇壁存儲器(domain wall memory).最近,關(guān)于RM的研究已經(jīng)成為一個熱門方向,在器件級、電路級和體系結(jié)構(gòu)級都受到了存儲研究人員的廣泛關(guān)注.RM是一種新型的非易失存儲器,它具有超高的存儲密度(可以與NAND Flash密度媲美)和很快的讀寫訪存速度(可以與SRAM訪存速度媲美)[1].由于RM同時具備這兩大優(yōu)勢,存儲研究人員對它在未來存儲結(jié)構(gòu)設(shè)計中替代傳統(tǒng)存儲器件工藝寄予厚望.
RM的基礎(chǔ),即磁疇壁移動的物理機制,已經(jīng)被科研人員研究了幾十年.在物理層面,研究人員主要關(guān)注如何減少RM的驅(qū)動電流密度,以及如何提高磁疇壁的移動速度.直到2008年,Parkin教授等人[1]利用CoFeB材料在硅片上制造出了納米線,首次正式提出了RM的概念.此后,對于RM器件級和電路級的研究飛速發(fā)展.鑒于RM原型器件和電路已經(jīng)被不同研究組進行制造和驗證,自2010年以來,對于RM的體系結(jié)構(gòu)級也受到了廣泛關(guān)注.
例如,Venkatesan教授等人[2]最早提出使用RM作為高速緩存,并針對性能、功耗等進行了優(yōu)化.隨后,他又提出了一種基于移動操作的RM寫入方式;美國匹茲堡大學(xué)的李教授等人[3]在多個層次詳細討論了RM的體系結(jié)構(gòu)優(yōu)化問題.2014年,美國普渡大學(xué)Venkatesan教授[4]首次提出在GPU中使用RM,并設(shè)計數(shù)據(jù)預(yù)測方式來降低RM的訪存代價.上述研究主要探討如何減少RM“移動操作”(將在1.1節(jié)中詳細介紹)所帶來的延時和功耗的開銷.
然而,現(xiàn)有的體系結(jié)構(gòu)層次研究工作,對于RM的穩(wěn)定性問題,尤其是熱穩(wěn)定性問題仍舊缺少足夠的重視.實際上,研究人員已經(jīng)指出:移動操作所需的電流遠高于讀寫電流,因此在移動操作過程中產(chǎn)生大量的熱量,導(dǎo)致RM器件溫度迅速升高[5-7].溫度升高不僅會引起磁疇壁移動操作的性能擾動,而且會降低RM工作的穩(wěn)定性.更有甚者,器件材料在溫度過高的情況下會被破壞,導(dǎo)致RM無法工作.
需要指出的是,這種由于移動操作引起的高溫問題在現(xiàn)階段并沒有很好地得到解決.首先,缺乏一個關(guān)于RM移動的熱力模型來估算運行中的溫度;其次,急需一個體系結(jié)構(gòu)級的管理策略來避免溫度過高帶來的穩(wěn)定性問題.針對這些問題,我們首先提出了一個熱力模型來研究RM使用時溫度與設(shè)計參數(shù)的關(guān)系.同時,為了提高RM的穩(wěn)定性,我們提出了一種基于“配額制度”的移動操作管理策略,從而保證單位時間內(nèi)的移動強度被限定在特定閾值下.實驗結(jié)果表明,該方法能夠有效地避免溫度過高,并且將性能損失控制在合理的范圍內(nèi).
1.1 Racetrack Memory基本知識
RM是一種基于“自旋電子(spintronic)”工藝的新型非易失存儲器件存儲器.RM將多比特數(shù)據(jù)存儲在一個條狀的磁性材料結(jié)構(gòu)上(下文簡稱“磁條”),其存儲單元由磁條和若干訪問晶體管構(gòu)成,如圖1所示.磁條上均勻分布的磁疇壁將磁條分割出多個“磁疇”(domain),并通過磁疇的磁場方向用來存儲比特‘0’和‘1’.
Fig. 1 Cell structure of the spintronic-bused racetrackmemory圖1 基于自旋電子工藝的新型賽道存儲器件示意圖
RM讀操作的原理和單階自旋矩傳輸磁存儲器(SLC STT-RAM)類似[8],磁條中部的晶體管構(gòu)成了用于讀寫的“讀寫端口”.通過阻值的測量能夠確定與端口垂直對齊的磁疇中磁場方向,從而讀出數(shù)據(jù).磁條兩端的晶體管組成所謂的“磁疇移動端口”,磁疇移動是基于驅(qū)動電流引起的自旋動量轉(zhuǎn)移現(xiàn)象,是RM特有的操作.其目的是將需要進行(讀寫)訪問的磁疇沿磁條移動到與讀寫端口垂直對齊的位置.
寫操作利用了與移動操作相同的原理.在磁條兩側(cè)制作2個固定的磁疇,將其與某一磁疇連通.這樣就構(gòu)成了圖1中的一個寫端口.通過控制垂直磁條的電流方向,將選定的磁場方向移入對應(yīng)的磁疇,從而改變存儲在RM中的數(shù)值.值得注意的是,讀、寫端口可以分離或者組合在一起構(gòu)成讀-寫端口.
由于RM單個磁條上的磁疇數(shù)量可以高達128個[5],因此可以提供很高的存儲密度.RM與其他存儲器典型設(shè)計對比如表1所示:
Table 1 Typical Design Comparison between Racetrack Memory with Others
由對比可見,RM的存儲密度遠遠超過包括嵌入式動態(tài)隨機存儲器(eDRAM)、多階自旋矩傳輸磁存儲器(MLC STT-RAM)在內(nèi)的其他4種存儲工藝;同時,讀寫訪問的速度能夠和SRAM器件媲美;并且具備低靜態(tài)功耗和非易失的優(yōu)良特性.因此,RM在片上存儲設(shè)計方面具備非常強的競爭力.最近的研究工作已經(jīng)表明,使用RM器件能夠有效提高片上存儲的容量和性能并降低功耗[3-5].
1.2 相關(guān)研究工作介紹
2013年,Venkatesan等人[9]提出使用RM作為高速緩存,并且進行了一系列面積、性能、功耗的優(yōu)化.隨后,他又提出了一種基于移動操作的RM寫入方式.同年,李等人[3]在多個層次詳細討論了RM的協(xié)同優(yōu)化問題.2014年,Venkatesan等人[4]發(fā)表將RM作為高速緩存的論文,并設(shè)計數(shù)據(jù)預(yù)測方式來降低RM的訪存代價.與之前SRAM和STT-RAM相比,他們的設(shè)計能分別降低能耗69.7%和61.5%,同時分別提升性能12.1%和5.8%.
同年,劉等人[10]提出利用RM進行包括緩存、寄存器在內(nèi)的數(shù)據(jù)備份架構(gòu),能夠解決異常斷電的情況下數(shù)據(jù)丟失的問題.張等人[5-6]提出RM電路級的仿真模型,以及針對磁疇移動操作引起的錯誤進行分析和體系結(jié)構(gòu)優(yōu)化.2013年,余等人[11]根據(jù)RM高密度以及移動操作的特點,提出了利用RM來作為主存以及加法比較運算的ALU.2014年,Mao等人[12]提出利用RM替代現(xiàn)行的SRAM或者STT-RAM來實現(xiàn).Ghosh等人[7]根據(jù)物理模型研究了RM作為主存時的發(fā)熱問題.但是在電路級和體系結(jié)構(gòu)級仍舊缺乏相應(yīng)的建模以及溫度控制管理策略.
為研究工作狀態(tài)下RM存儲單元的溫度變化,我們根據(jù)Racetrack Memory的結(jié)構(gòu)特性和工作特點,建立了其熱擴散熱力模型.為盡量符合實際的場景,我們采用LGA封裝設(shè)計.RM封裝后芯片的剖視圖如圖2所示.
芯片襯底是單晶硅,單晶硅的上一層是晶態(tài)二氧化硅,由硅襯底自然氧化(native oxidation)生成.二氧化硅的上層為賽道存儲納米線,由若干根Co20Fe60B20賽道存儲納米線平行排列,納米線的間隙及上層由無定形態(tài)的二氧化硅(amorphous silica)填充,而在無定形態(tài)的二氧化硅上面則是散熱裝置.
工作狀態(tài)時RM的熱量主要是由納米線內(nèi)部推動磁疇壁移動的電流脈沖在焦耳熱效應(yīng)下而產(chǎn)生的,熱量在使得納米線升溫的同時,經(jīng)過上層的二氧化硅填充層及下層的襯底進行擴散,進而由芯片外層與散熱片之間的熱交換作用,最終把熱量導(dǎo)出到外界.因此,我們建立如下的模型來描述racetrack memory的熱擴散過程:
(1)
其中,P代表存儲器芯片焦耳熱的產(chǎn)生功率,C代表芯片內(nèi)所有納米線的總熱容,T代表納米線的溫度,Q2和Q3分別代表單位時間內(nèi)芯片由下表面晶體硅襯底層和上表面無定形態(tài)的二氧化硅層傳導(dǎo)出去的熱量.因為純粹由賽道納米線所在層側(cè)面散失到封裝外的熱量很小,此處忽略不計.
Fig. 2 Sectional view of the racetrack memory chip package圖2 賽道存儲器芯片封裝剖視圖
納米線的熱容我們可以由Dulong-Petit模型[13]估計出,即固體物質(zhì)的總熱容與其所包含的原子數(shù)目成正比,故熱容表示如式(2)所示.其中e是納米線的厚度,n是原子數(shù)量,w1是每根納米線寬度,l是納米線的長度,kB為玻爾茲曼常數(shù),N代表納米線(即磁條)的總數(shù)量.
C=3new1lkBN.
(2)
芯片的發(fā)熱功率P可以由式(3)計算獲得.其中α表示驅(qū)動電流脈沖的總占空比,即RM陣列中磁條在時間上的激活百分比;β表示整個RM陣列中被激活的磁條在數(shù)量上的激活百分比;j代表移動操作的驅(qū)動電流密度;ρ代表的是熱阻率;V代表的是RM磁條的體積(可通過上文納米線的尺寸計算).
P=αβNj2ρV.
(3)
單位時間內(nèi)芯片由上下表面?zhèn)鲗?dǎo)出去的熱量Q2和Q3可由式(4)(5)計算.其中,A代表RM陣列的上下表面積,λ2和λ3代表相應(yīng)的熱容量,T2和T3分別代表相應(yīng)表面外界溫度.表面積A可由式(6)簡單計算,其中w2代表磁條之間的間距.
Q2=Aλ2(T-T2),
(4)
Q3=Aλ3(T-T3),
(5)
A=N(w1+w2)l.
(6)
由于下表面襯底的厚度遠高于芯片上表面的各層厚度之和,因此可以忽略下表面散熱量Q2,只需關(guān)注上表面散熱量Q3.其中λ3與其他參數(shù)的關(guān)系可表示為
(7)
將上述公式組合,我們得到RM陣列的瞬時溫度函數(shù),在式(8)(9)中進行表示.這2個公式表明,時間足夠長以后溫度會逐漸趨于穩(wěn)定.如果采用表2中的各種參數(shù)典型值,我們計算得到:經(jīng)過7 ns左右,攝氏溫度達到穩(wěn)定值的90%以上,之后上升趨勢變緩.可見RM的溫度變化非常迅速.
, (8)
考慮到實際情況中,RM的散熱情況和移動操作的強度有關(guān),因此我們通過前文定義的參數(shù)α和β來估算實際的溫度變化情況,其計算如式(10)所示.可以簡單理解為,在一定時間內(nèi)的移動強度可以由α和β表示:
(10)
基于表2中的參數(shù),當α×β=1時(即RM工作在最高移動強度時),RM的穩(wěn)定溫度能夠達到800 K,已經(jīng)遠超過材料的接受范圍.圖3對比了不同移動強度下的穩(wěn)定溫度.由此可見,需要進行合理的移動強度管理來控制溫度.
Fig. 3 Comparison of stable temperature under variant α and β圖3 RM最終溫度隨時間α、數(shù)量β激活比的變化
移動操作的強度隨著程序的運行,在不同的時刻有很強烈的波動,因此移動操作所貢獻的能量也會有很大波動.直接減慢移動的速度或者限制單次移動的強度可能會對性能造成比較大的影響.本節(jié),我們詳細地探索基于時間的溫度控制方法,首先介紹基本控制方法,然后對其進行優(yōu)化.
3.1 存儲陣列激活磁條擺放
通過將發(fā)熱的磁條和不發(fā)熱的磁條間隔放置可以均攤熱量,減少單位面積的發(fā)熱量,從而控制溫度.現(xiàn)有的工作只考慮了將不同的請求分發(fā)到不同的bank中,以減少單獨一個bank的使用量,從而減少熱點.本工作通過分析存儲整列內(nèi)激活磁條的分布,考慮了賽道存儲陣列內(nèi)的情況.我們先討論數(shù)據(jù)塊比特到磁條的映射,再分析激活磁條的擺放問題.
賽道存儲的磁條上可以存儲多個位,但是將同一個數(shù)據(jù)塊的所有位存儲在一個磁條上并不高效,因為這將導(dǎo)致磁條多次移動和訪問.一種比較常見的高效數(shù)據(jù)映射方式是將一個數(shù)據(jù)塊分散在多個磁條(group)上,多個磁條同時移動,從而并行讀取數(shù)據(jù).然而,將這些磁條相鄰放置會導(dǎo)致局部熱點.由溫度模型中的公式可知,單位面積內(nèi)發(fā)熱的磁條越少,則納米線層溫度上升越少.因此,將映射了同一個數(shù)據(jù)塊的磁條在存儲陣列中分別放置,可以增大散熱面積,減少溫度升高.我們將單位面積內(nèi)同一個數(shù)據(jù)塊所占的磁條數(shù)和區(qū)域內(nèi)總磁條數(shù)的比作為β.根據(jù)芯片的導(dǎo)熱系數(shù),能夠視作同一個散熱區(qū)域的面積僅能容納有限個磁條.不失一般性,我們將設(shè)置β=18.
3.2 配額制度
配額制度的基本思路是在一個程序運行區(qū)間(period)內(nèi),為移動的步數(shù)設(shè)定“配額”(quota),并根據(jù)受限數(shù)據(jù)的特點選擇等待或向下發(fā)起請求.
配額定義為一段時間(運行區(qū)間)內(nèi)可以移動的總步數(shù).當配額用盡,除非進入下一個區(qū)間,不能再有更多的移動操作被執(zhí)行.由于不能移動,一些數(shù)據(jù)將無法被訪問到.這些數(shù)據(jù)由于所在位置沒有正對讀寫端口,因而沒有移動的配額時不能被訪問;而在有足夠配額時,這些數(shù)據(jù)仍然可以被訪問到.所以,這些塊被暫時稱為“凍結(jié)塊”.如果凍結(jié)塊的數(shù)據(jù)是干凈(clean)的,當我們需要讀寫它時只需要從下一級存儲中訪問即可;而如果凍結(jié)塊的數(shù)據(jù)是臟(dirty)的,我們只能將該請求掛起,等待下一個區(qū)間有足夠的配額來進行移動和訪問操作.
3.3 設(shè)計實現(xiàn)
為實現(xiàn)這一控制方法,我們選擇CPU中的末級高速緩存作為設(shè)計基礎(chǔ).該級存儲通常為組相連(set-associative),每個數(shù)據(jù)塊包含標簽和數(shù)據(jù)2部分.一個組(set)中的所有數(shù)據(jù)共享組地址,而以標簽加以區(qū)分.通常,末級緩存的訪問是先比較標簽,命中后再訪問數(shù)據(jù).當一個請求到達緩存時,請求根據(jù)它訪問的地址進行解碼,從而被送到對應(yīng)的組.組內(nèi)多個標簽進行比較判定是否發(fā)生命中.同時,被命中的數(shù)據(jù)需要檢查有效性(validity)和一致性(coherence)狀態(tài).先前的賽道存儲設(shè)計[5]保證標簽的訪問并不需要移動操作.因此,比較標簽不涉及移動操作.如果訪問命中在一個有效信息上,存儲數(shù)據(jù)的賽道存儲條將被移動到指定位置,繼而相應(yīng)數(shù)據(jù)被執(zhí)行相應(yīng)的讀寫操作.此時,如果移動和讀寫操作能夠順利完成,緩存執(zhí)行這一條請求結(jié)束,并能夠為下一條請求服務(wù).如果結(jié)果是未命中(miss)或者是數(shù)據(jù)無效(invalid),請求將被發(fā)向下一級存儲(此處為主存),緩存有可能會阻塞后續(xù)的請求,直到這條請求在下一級存儲完成.
對于基于賽道存儲的數(shù)據(jù)陣列,每個group都有一個端口位置寄存器用來指示訪問端口與組中的域序列的相對位置.通過比較端口位置寄存器的數(shù)值和請求訪問地址解碼的域坐標,可以得出需要移動的距離.因而,group在移動過相應(yīng)的距離后,則可以將所需的域?qū)试L問端口,并進行讀寫.
當我們考慮采用基于配額的控制方法后,上述緩存操作流程將發(fā)生變化.特別是當請求命中了“凍結(jié)塊”后,請求將暫時得不到數(shù)據(jù).變化后的緩存操作流程如圖4所示:
Fig. 4 Data access flow based on quota mechanism圖4 基于配額制度的緩存數(shù)據(jù)訪問邏輯
1) 訪問.一旦計算出移動距離,緩存試圖從剩余的配額中減去移動的配額開銷.如果配額足夠,移動可以執(zhí)行;如果不夠,被訪問的那個數(shù)據(jù)塊將被當作凍結(jié)塊,它標簽中的cleandirty標記位將被檢查.如果它是clean的,緩存將凍結(jié)塊的標簽中valid位設(shè)為無效,并且返回緩存控制器一個miss,使請求可以繼續(xù)向下一級存儲發(fā)起數(shù)據(jù)請求;如果是dirty的,緩存將會被阻塞,以等待下一個區(qū)間的開始.
2) 配額.配額在每個區(qū)間的開始由緩存控制器自動添加,并在區(qū)間中被移動操作消耗.區(qū)間的長度取決于芯片的熱特性,而配額和區(qū)間的比值則表示α,是決定賽道存儲溫度的重要指標.
根據(jù)溫度模型,α和β的乘積應(yīng)不大于140,以保證熱穩(wěn)定性(溫度變化小于20℃).一個區(qū)間內(nèi)可以移動的最大步數(shù)(配額)可以表示為α乘以區(qū)間長度與移動一步的時間開銷的比值.
3.4 性能優(yōu)化
3.3節(jié)提出的基本配額制度可以有效地控制溫度,但是其性能損失較大,詳見第5節(jié).因此,我們提出一種優(yōu)化方法來減小這種溫度控制方式的性能開銷.
我們將配額分成2種:clean配額和dirty配額.一個訪問clean數(shù)據(jù)的請求只能使用clean配額;而訪問dirty數(shù)據(jù)的請求優(yōu)先使用dirty配額,在dirty配額不夠時可以使用clean配額.改進方法與之前基本設(shè)計的相同點是:clean配額和dirty配額的總和與之前的移動配額相同,保證了對溫度控制的一致性.為表述簡單,我們定義dirty配額和總配額的比值為γ.γ=1時,clean配額為0,因此所有訪問clean數(shù)據(jù)的請求都不能執(zhí)行移動操作;而當γ=0時,dirty配額為0,優(yōu)化方法退化為簡單方法.因此,也可以把前面介紹的基本配額制度看作優(yōu)化方法在γ=0的一個特例.
本節(jié)中,我們評估提出的控制方法對溫度控制的有效性及其對系統(tǒng)性能的影響.與第3節(jié)相同,我們將RM作為末級緩存.詳細的實驗配置如4.1節(jié)所示.我們用賽道存儲的溫度來衡量其穩(wěn)定性,用末級緩存的訪存時間來衡量性能.
4.1 實驗設(shè)置
我們使用gem5模擬器獲取末級緩存的訪問蹤跡.設(shè)計和實現(xiàn)了基于賽道存儲的末級緩存仿真平臺.利用仿真平臺,我們計算了緩存的運行時間.測試程序我們選擇能夠提供多線程支持的PARSEC測試程序集.系統(tǒng)的配置如表3所示:
Table 3 Experiment Setup
4.2 溫度影響
基于配額的溫度控制系統(tǒng)有效地控制了程序的峰值移動強度,從而控制了移動引起的溫度升高.圖5展示了測試程序blackscholes在200個程序運行區(qū)間內(nèi)的移動數(shù)量,4條曲線分別表示α取值為0.1,0.2,0.4,0.8時的結(jié)果.我們可以明顯地看到,程序的移動強度隨著程序的運行不斷波動,有周期性變化,也有非周期變化.與α=0.8的情況相比,α取值為0.4,0.2,0.1分別將一個運行區(qū)間內(nèi)最高移動步數(shù)從1 000左右減到800,400,200.配額方式對所有測試程序展現(xiàn)出相同的溫度控制效果,因此我們省略其他程序的移動步數(shù)變化圖.使用配額方法之后明顯降低了最高的移動步數(shù).通過降低一個區(qū)間內(nèi)的移動步數(shù),可以降低該區(qū)間內(nèi)移動產(chǎn)生的熱量,從而使平衡溫度處在可接受的范圍內(nèi).
Fig. 5 Variation of shift steps along execution period圖5 移動步數(shù)隨程序運行區(qū)間的變化
4.3 性能影響
由于配額限制了移動操作,很多訪存操作被延遲,因而導(dǎo)致緩存訪問時間增加.圖6展示了測試程序的存儲訪問開銷.該圖縱軸為緩存總運行時間,數(shù)值和未使用配額方法的緩存進行相對比較.可以明顯地看到,在α=0.1時,部分程序(blackscholes,ferret等)緩存訪問時間變長了將近1倍,部分程序(dedup,streamcluster等)訪存時間變化了約50%,部分程序(x264,rtview等)訪存時間變化了約20%;但是,在α=0.2時,大部分程序的訪存時間延長都不超過10%;α=0.4和α=0.8則對性能沒有影響.平均情況下,α=0.1將訪存延遲增加了60%,α=0.2將訪存延時增加了5%.
Fig. 6 Comparison of cache access time among variant α 圖6 不同α?xí)r程序訪存延時的比較
Fig. 7 Comparison of cache access time among variant γ when α= 0.1圖7 α=0.1時不同γ對程序訪存延時的影響
為進一步減少性能損失,我們提出了對配額方法的優(yōu)化,該方法在α=0.1時的效果如圖7所示.圖7縱軸為緩存總運行時間,數(shù)值和未使用優(yōu)化方法(γ=0)的緩存進行相對比較.可以看到,對于大部分程序,隨著γ從0變化到1,緩存訪問時間經(jīng)歷了下降再上升的過程.平均情況下,γ=0.1縮短了0.1%的訪存時間,γ=0.5縮短了2.4%的訪存時間,γ=1.0增加了79.5%的訪問時間.這說明大部分程序都存在訪問dirty數(shù)據(jù)塊的情況,因此優(yōu)先保障一部分訪問dirty數(shù)據(jù)塊的請求執(zhí)行移動操作,有利于縮短總訪問時間.也有個別程序(streamcluster)的訪問時間表現(xiàn)出隨γ增大而一致增大的情況,其原因是程序主要以串行的讀請求為主,較少dirty數(shù)據(jù),因而減少了訪問clean數(shù)據(jù)的配額,勢必使得更多的請求訪存不命中,從而增大訪問延遲.同時,當γ=1.0時,緩存訪問延遲明顯上升,因此,γ不應(yīng)當過大或者過小.本工作中,γ=0.5已經(jīng)表現(xiàn)出比較好的性能優(yōu)化.
該優(yōu)化方法在α=0.2時,效果有所不同,如圖8所示.緩存訪問時間在γ較小時均無明顯變化.平均情況下,γ=0.1時,訪存延時增加1.3%;γ=0.5時,訪存延時減少1.4%,相比未使用配額機制的緩存訪問延遲只增加了3.5%.這是因為當α=0.2時,程序中被配額機制限制訪問的運行區(qū)間相比α=0.1時少很多,運行時間受到配額機制影響較小,所以對優(yōu)化技術(shù)不敏感.
Fig. 8 Comparison of cache access time among variant γ when α= 0.2圖8 α=0.2時不同γ對程序訪存延時的影響
總之,將α取做110和15都能有效地將溫度控制在合理范圍內(nèi),而配合使用等比例區(qū)分配額的優(yōu)化方式,在α=15時配額制度只帶來3.5%的性能損失.
賽道存儲器(RM)具有高存儲密度、低訪問延時、非易失性等優(yōu)點,很有潛力替代傳統(tǒng)的存儲器件實現(xiàn)未來高容量、高性能、低功耗的存儲結(jié)構(gòu)設(shè)計.然而,其特有的移動操作也對其實際應(yīng)用提出了新的挑戰(zhàn).其中,由于移動操作釋放的熱量引起溫度過高的問題,一直沒有得到重視.通過本文中提出的賽道存儲器熱力模型,可以有效地估算其運行過程中所達到的實際溫度.研究發(fā)現(xiàn),如果沒有合適的工作強度管理策略,移動操作引起的高溫將會破壞存儲材料,致使賽道存儲器損壞無法工作.因此,我們提出一種基于配額的工作強度控制策略,將賽道存儲器的工作溫度控制在合理的范圍內(nèi).并且,我們發(fā)現(xiàn)可以根據(jù)不同操作對性能的影響,進一步優(yōu)化配額的分配制度,盡量減少溫度控制引起的性能下降.
[1]Parkin S, Hayashi M, Thomas L. Magnetic domain-wall racetrack memory[J]. Science, 2008, 320(5873): 190-194
[2]Venkatesan R, Kozhikkottu V, Augustine C, et al. TapeCache: A high density, energy efficient cache based on domain wall memory[C]Proc of ISLPED’12. New York: ACM, 2012: 185-190
[3]Sun Zhenyu, Wu Wenqing, Li Hai. Cross-layer racetrack memory design for ultra-high density and low power consumption[C]Proc of DAC’13. New York: ACM, 2013: 1-6
[4]Venkatesan R, Ramasubramanian S, Venkataramani S, et al. STAG: Spintronic -Tape architecture for GPGPU cache hierarchies[C]Proc of ISCA’14. New York: ACM, 2014: 253-264
[5]Zhang Chao, Sun Guangyu, Zhang Weiqi, et al. Quantitative modeling of racetrack memory, a tradeoff among area, performance, and power[C]Proc of ASP-DAC’15. Piscataway, NJ: IEEE, 2015: 100-105
[6]Zhang Chao, Sun Guangyu, Zhang Xian, et al. Hi-fi playback: Tolerating position errors in shift operations of racetrack memory [C]Proc of ISCA’15. New York: ACM, 2015: 694-706
[7]Motaman S, Iyengar A, Ghosh S. Domain wall memory-layout, circuit and synergistic systems[J]. IEEE Trans on and Synergistic Nanotechnology, 2015, 14(2): 282-291
[8]Zhang Yue, Zhao Weisheng, Lakys Y. Compact modeling of perpendicular-anisotropy cofebmgo magnetic tunnel junctions[J]. Transactions on Electron Devices, 2012, 59(3): 819-826
[9]Venkatesan R, Sharad M, Roy K, et al. DWM-TAPESTRI: An energy efficient all-spin cache using domain wall shift based writes[C]Proc of DATE’13. Piscataway, NJ: IEEE, 2013: 1825-1830
[10]Li Hehe, Liu Yongpan, Zhao Qinghang, et al. An energy efficient backup scheme with low inrush current for nonvolatile sram in energy harvesting sensor nodes[C]Proc of DATE’15. Piscataway, NJ: IEEE, 2015: 7-12
[11]Wang Yuhao, Yu Hao. An ultralow-power memory-based big-data computing platform by nonvolatile domain-wall nanowire devices[C]Proc of ISLPED’13. New York: ACM, 2013: 329-334
[12]Mao Mengjie, Wen Wujie, Zhang Yaojun, et al. Exploration of GPGPU register file architecture using domain-wall-shift-write based racetrack memory[C]Proc of DAC’14. New York: ACM, 2014: 1-6
[13]Landau L D, Lifshitz E M. Statistical Physics[M]. 3rd ed. Oxford, UK: Pergamon Press, 1980: 193-196
[14]Leturcq P, Dorkel J, Napieralski A, et al. A new approach to thermal analysis of power devices[J]. IEEE Trans on Electron Devices, 1987, 34(5): 1147-1156
[15]Parkin S, Yang S. Memory on the racetrack[J]. Nature Nanotechnology, 2015, 10(3): 195-198
Zhang Chao, born in 1988. PhD candidate at Peking University. Student member of CCF and Institute of Electrical and Electronics Engineers. His main research interests include energy-efficient memory architecture and non-volatile memory.
Sun Guangyu, born in 1981. Assistant professor and PhD supervisor at Peking University. Member of CCF and Institute of Electrical and Electronics Engineers. His main research interests include energy-efficient memory architectures, storage system optimization for new devices, and acceleration systems for deep learning applications.
Zhang Xueying, born in 1987. PhD candidate at Beihang University. His main research interests include spintronics, racetrack memory, magneto dynamic in nanowire.
Zhao Weisheng, born in 1980. Professor and PhD supervisor at Beihang University. His main research interests include hybrid integration of emerging nanodevices with CMOS circuits towards logic and memory applications, architecture design, and radiation hardness IC design techniques.
Thermal Modeling and Management for Shift Operations of Racetrack Memory
Zhang Chao1, Sun Guangyu1, Zhang Xueying2, and Zhao Weisheng2
1(CenterforEnergy-EfficientComputingandApplications,PekingUniversity,Beijing100871)2(SchoolofElectronicandInformationEngineering,BeihangUniversity,Beijing100191)
Racetrack memory (RM) is a competitive emerging non-volatile memory technology for future memory designs. It achieves ultra-high storage density by integrating multiple bits into a tape-like nanowire (called racetrack) and provides fast access speed. In order to access required bits in RM, a unique shift operation is introduced. However, it has been observed that the shift operation requires higher current than read and write operations and causes significant amount of energy dissipation, which degrades reliability and performance or even destroys RM cells. However, there still lacks an analytical thermal model to estimate run-time temperature of RM. More important, corresponding architecture level management schemes are needed to avoid thermal emergency that violates the constraint of peak temperature. In this work, we first propose a thermal model to explore relationship between temperature and design parameters. At the same time, in order to improve thermal reliability, we propose a quota-based shift management scheme to ensure the intensity of shift operations which is constrained under a specific threshold. Experiments show that the temperature increase is limited in 20℃ with only 3.5% performance degradation.
racetrack memory (RM); thermal model; shift operation; reliability; temperature management
2015-10-12;
2016-02-26
國家“八六三”高技術(shù)研究發(fā)展計劃基金項目(2013AA013201);國家自然科學(xué)基金項目(61572045);科技部國際科技合作專項項目(2015DFE12880);中組部“青年千人”項目 This work was supported by the National High Technology Research and Development Program of China (863 Program) (2013AA013201), the National Natural Science Foundation of China (61572045), Ministry of Science and Technology of China (2015DFE12880), and the Thousand Talents Plan of Organization Department of the Communist Party of China.
TP333