文/朱縣亮 華明靜 黃林軼
隨著人工智能、物聯(lián)網(wǎng)、5G、車載以太網(wǎng)、虛擬/增強現(xiàn)實等新一代信息技術(shù)的快速發(fā)展,數(shù)據(jù)中心在短時間內(nèi)處理和存儲的數(shù)據(jù)量從TB向PB、EB和ZB發(fā)展,對存儲設(shè)備的讀寫性能提出更高要求。一直以來,機械硬盤是數(shù)據(jù)中心的主要存儲設(shè)備,而機械硬盤存儲速度主要取決于盤片的旋轉(zhuǎn)速度。目前,讀寫速度已面臨瓶頸,很難再有新的突破,而采用閃存技術(shù)的固態(tài)硬盤(SSD)(又名固態(tài)盤)具有存儲密度高、存取速度快等優(yōu)點,已經(jīng)成為數(shù)據(jù)中心新的存儲設(shè)備,市場占用率逐漸提高,2022年會超過機械硬盤成為硬盤主流。
與傳統(tǒng)機械硬盤相比,SSD具有存儲密度高、存取速度快、可靠性高、功耗小、噪聲小和使用壽命長等優(yōu)點。SSD主要由主控芯片、閃存顆粒、固件、緩存單元和接口等構(gòu)成。國內(nèi)在SSD方面起步比較晚,早期由于缺乏核心技術(shù),特別在主控芯片和閃存顆粒上依賴國外進口,產(chǎn)業(yè)發(fā)展比較艱難,在行業(yè)競爭中處于劣勢。從2016年國家投資成立長江存儲科技有限責(zé)任公司開始,國內(nèi)加大SSD核心技術(shù)的研發(fā)投入,國內(nèi)固態(tài)硬盤整體產(chǎn)業(yè)供應(yīng)鏈獲得快速發(fā)展。
由于固態(tài)硬盤主要由主控芯片和存儲顆粒組成,跟傳統(tǒng)機械硬盤相比,總體組裝難度大大降低。因此,國內(nèi)SSD整體市場,特別在消費市場端,目前存在一些山寨小品牌,其產(chǎn)品質(zhì)量比較差,影響整個SSD產(chǎn)業(yè)的發(fā)展。
評估SSD質(zhì)量,除了容量大小、讀寫速率等典型性能指標(biāo)外,平均失效間隔工作時間(MTBF)和數(shù)據(jù)保持能力等可靠性關(guān)鍵指標(biāo)也是其重要指標(biāo)。特別對于企業(yè)級用戶來說,由于存儲設(shè)備的不可靠而導(dǎo)致重要數(shù)據(jù)丟失,會造成不可估量的損失。因此,作為存儲介質(zhì)的SSD,必須對其可靠性關(guān)鍵指標(biāo)進行測試評估。而當(dāng)前國內(nèi)缺乏SSD的MTBF和耐久性等方面的相關(guān)測試標(biāo)準(zhǔn),一些企業(yè)未對組裝的SSD進行嚴(yán)格的品質(zhì)測試,對MTBF和耐久性等可靠性關(guān)鍵指標(biāo)把控不嚴(yán)格,SSD存在數(shù)據(jù)丟失、可靠性不高等質(zhì)量問題,造成用戶重大損失。
本文將重點研究SSD可靠性關(guān)鍵指標(biāo)測試方法,根據(jù)國內(nèi)外行業(yè)情況和SSD的產(chǎn)品特點,從MTBF、耐久性和數(shù)據(jù)保持方面對SSD的測試方法進行研究。
目前,關(guān)于SSD的可靠性關(guān)鍵指標(biāo)測試標(biāo)準(zhǔn)主要有:國內(nèi)行業(yè)標(biāo)準(zhǔn)《面向互聯(lián)網(wǎng)應(yīng)用的固態(tài)硬盤測試規(guī)范》(YD/T 3824-2021)和《固態(tài)盤通用規(guī)范》(SJ/T 11654-2016);國外聯(lián)合電子設(shè)備工程委員會(JEDEC)制定的《SSD要求與壽命測試方法部分》(JEDEC JESD218B.01-2016)和《SSD耐久性工作負載》(JEDEC JESD219A.01-2022)。
在YD/T 3824-2021中,SSD的可靠性主要是考核硬盤在壓力情況下的運行穩(wěn)定性,測試方法采用單個硬盤在運行讀寫軟件進行數(shù)據(jù)讀寫的壓力條件下進行48 h的測試,屬于單個硬盤工作穩(wěn)定性測試。
在SJ/T 11654-2016中,SSD的MTBF測 試采用傳統(tǒng)電子產(chǎn)品的測試方法,即同時施加電應(yīng)力和溫度應(yīng)力。試驗方案依據(jù)國家標(biāo)準(zhǔn)《設(shè)備可靠性試驗 恒定失效率假設(shè)下的失效率與平均無故障時間的驗證試驗方案》(GB/T 5080.7-1986)進行。SJ/T 11654-2016對MTBF進行測試驗證,測試的指標(biāo)為不可接受的MTBF(m1),測試總體周期比較長。因此,SJ/T 11654-2016的要求為m1值≥10 000 h,而目前SSD企業(yè)給出的m1值一般在1 000 000 h以上,屬于MTBF測定值。因此,SJ/T 11654-2016的可靠性MTBF測試方法不適用于SSD企業(yè)的MTBF測定值指標(biāo)。本文基于傳統(tǒng)電子產(chǎn)品MTBF測定值方法,針對SSD的MTBF測定試驗方法進行研究。
JEDEC JESD218B.01-2016和JEDEC JESD219A.01-2022主要用于SSD耐久性和數(shù)據(jù)保持等可靠性關(guān)鍵指標(biāo)的測試。目前,這兩項標(biāo)準(zhǔn)已經(jīng)成為SSD行業(yè)內(nèi)進行耐久性測試所依據(jù)的標(biāo)準(zhǔn)。本文結(jié)合自身的檢測經(jīng)驗,依據(jù)GB/T 5080.7-1986、JEDEC JESD218B.01-2016和JEDEC JESD219A.01-2022,對SSD的耐久性和數(shù)據(jù)保持等可靠性關(guān)鍵指標(biāo)項目的測試方法展開分析研究。
MTBF是衡量SSD產(chǎn)品的可靠性關(guān)鍵指標(biāo)。產(chǎn)品的失效率為產(chǎn)品的故障總數(shù)與壽命單位總數(shù)之比,一般用λ表示,當(dāng)產(chǎn)品的壽命服從指數(shù)分布時,其失效率的倒數(shù)為MTBF。目前,國內(nèi)的SSD企業(yè)一般標(biāo)稱其產(chǎn)品的MTBF值為1 000 000 h以上。由于MTBF值比較大,為了減少測試成本和測試時間,SSD的MTBF測試,一般需采用溫度加速方案進行。
MTBF測定試驗,一般需制定好測試方案。首先,試驗者需要確定樣本數(shù)量、測試溫度和測試時間。樣本數(shù)量、測試溫度和測試時間在置信度為60%時需滿足公式1、公式2的要求。
公式1中,T為總的測試時間;SS是SSD的樣本數(shù)量;Af為加速因子。
公式2中,e =2.71828;Ea為激活能值,單位為電子伏(eV),一般取1.1 eV 或0.7 eV;k為玻爾茲曼常數(shù),k= 8.617×10-5eV/k;Tuse為正常使用溫度,單位為開爾文(K),消費級為40 ℃,企業(yè)級為55 ℃;Ttest為測試SSD本體溫度,單位為開爾文(K),測試溫度為樣本實際的溫度,測試時不能低于正常使用溫度。
在確認好樣本數(shù)量、測試溫度和測試時間后,確定好抽樣方案,抽取所需要的樣本數(shù)量后,測試者將SSD樣本按照確定的加速方案的溫度條件,放置于恒溫箱中,然后通過負載生成軟件,運行JEDEC219碼流,對被測SSD進行不間斷讀寫測試,測試時間為高溫加速方案確定的時間。測試者在整個測試時間中收集并記錄輸入輸出(IO)錯誤、數(shù)據(jù)不一致次數(shù)和失效樣本個數(shù),如無IO錯誤、數(shù)據(jù)不一致和失效樣本,則通過本項測試。
SSD的耐久性是指SSD經(jīng)受連續(xù)多次數(shù)據(jù)重寫(編程/擦除循環(huán))的能力。數(shù)據(jù)保持是指在規(guī)定的時間內(nèi),SSD保持?jǐn)?shù)據(jù)的能力。SSD的耐久性和數(shù)據(jù)保持能力是衡量其可靠性的重要指標(biāo)。根據(jù)JEDEC JESD 218B.01-2016和JEDEC JESD 219A.01-2022對SSD的分類,SSD的不同應(yīng)用場景,它可分為消費級和企業(yè)級。不同類別的SSD對于可靠性關(guān)鍵指標(biāo)的要求不一樣,對于耐久性指標(biāo)主要采用平均失效工作讀數(shù)據(jù)位數(shù)m1作為量化指標(biāo),數(shù)據(jù)保持指標(biāo)主要采用一定溫度下的數(shù)據(jù)保持時間作為量化指標(biāo)。
根據(jù)GB/T 5080.7-1986、JEDEC JESD 218B0.1-2016和SSD行業(yè)情況,SSD的耐久性和數(shù)據(jù)保持指標(biāo)技術(shù)要求詳見表1。
表1 耐久性、數(shù)據(jù)保持指標(biāo)技術(shù)要求
對于耐久性試驗測試,其指標(biāo)采用m1進行衡量,試驗方案依據(jù)GB/T 5080.7-1986進行。GB/T 5080.7-1986有截尾序貫和定時(定數(shù))截尾試驗方案,不同試驗方案對于生產(chǎn)方風(fēng)險α、使用方風(fēng)險β和試驗的周期不一樣,總的規(guī)律是試驗周期越長,生產(chǎn)方風(fēng)險α和使用方風(fēng)險β越小。因此,本文需根據(jù)試驗的周期和成本,選用合適的試驗方案。
以采用GB/T 5080.7-1986的截尾序貫試驗“方案4:7”的試驗方案為例,本文對耐久性試驗的樣本數(shù)量和驗收標(biāo)準(zhǔn)進行計算,SSD失效數(shù)為數(shù)據(jù)錯誤數(shù),則具體樣本數(shù)量和驗證標(biāo)準(zhǔn)需滿足公式3—公式5的要求。
當(dāng)數(shù)據(jù)錯誤數(shù)為0個時:
當(dāng)數(shù)據(jù)錯誤數(shù)為1個時:
當(dāng)數(shù)據(jù)錯誤數(shù)為2個時:
式中,CP/E為最大P/E次數(shù);C為SSD容量,單位為GB。
數(shù)據(jù)錯誤數(shù)超過3個,則試驗失敗。
在確定好樣本數(shù)量后,測試人員還需確定耐久性試驗的試驗溫度,參考JEDEC JESD 218B.01-2016,將樣本分為兩組,各占50%,一組在低溫下進行低溫耐久性試驗,一組在高溫下進行高溫耐久性試驗。
進行低溫耐久性試驗時,樣本在溫度T≤25 ℃環(huán)境條件下,通過負載生成軟件運行JEDEC219碼流,對被測SSD進行不間斷測試,直到被測的SSD達到最大P/E次數(shù)。
進行高溫耐久性試驗時,樣本按照公式6規(guī)定的溫度條件和試驗時間進行,通過負載生成軟件運行JEDEC219碼流對被測SSD進行不間斷測試,直到被測的SSD達到其最大P/E次數(shù)。
其中,C為常數(shù),消費級SSD取1.318 25 ×10-14,企業(yè)級SSD取1.675 59×10-13;Ea一般取1.1 eV;k= 8.617×10-5eV/k;Ts為試驗溫度,單位為開爾文(K),消費級SSD≥45 ℃,企業(yè)級SSD≥60 ℃;ts為試驗溫度,單位為h。
在進行耐久性試驗的每個P/E循環(huán)之間允許增加間歇,間歇不能僅在耐久性試驗結(jié)束時插入,且插入的間歇時間和高溫耐久性的實際時間的相加,需要滿足規(guī)定的對應(yīng)值。間歇的方式包括SSD斷電或通電但未寫入數(shù)據(jù),如果SSD通電,應(yīng)確保不執(zhí)行實際使用過程中進行的任何后臺維護。
依據(jù)《非易失性存儲器耐久和數(shù)據(jù)保持試驗方法》(GB/T 35003-2018),數(shù)據(jù)保持試驗主要考核SSD的數(shù)據(jù)保存的可靠性,一般對于數(shù)據(jù)保持試驗,如不采用加速,需按照表1的要求進行試驗,試驗周期比較長,特別對于消費級SSD,需要1年的試驗時間,這不利于企業(yè)新產(chǎn)品的研發(fā)銷售,因此,一般業(yè)內(nèi)采用高溫加速方案進行數(shù)據(jù)保持試驗。對于試驗所需的樣本數(shù)量,本文選用進行高低溫耐久性試驗后的所有樣本。在進行數(shù)據(jù)保持試驗時,測試人員需在溫度40 ℃(企業(yè)級SSD)或30 ℃(消費級SSD)條件下,先將所有SSD的樣本進行全盤寫入數(shù)據(jù)一遍,然后斷電放置于溫度為66 ℃高溫條件下,放置時間 為≥96 h。
當(dāng)最高溫度< 66 ℃時,數(shù)據(jù)保持試驗的高溫加速溫度需降低,其相應(yīng)的試驗時間也需增加,一般建議采用其最高貯存溫度和對應(yīng)的試驗時間進行數(shù)據(jù)保持試驗。具體試驗時間可采用公式7進行計算[1]。其中,Ea一般取1.1 eV,k = 8.617×10-5eV/k 。
所有樣品進行高溫加速放置試驗后,測試人員需對所有SSD讀回所存取的數(shù)據(jù)。在試驗過程中,測試人員需收集并記錄所有樣本的IO錯誤、數(shù)據(jù)不一致次數(shù)和失效樣本個數(shù),數(shù)據(jù)保持試驗最終的驗收準(zhǔn)則為無IO錯誤、數(shù)據(jù)不一致和失效樣本。
目前,國內(nèi)企業(yè)正在大力發(fā)展SSD產(chǎn)業(yè),在技術(shù)和產(chǎn)品工藝上不斷取得進步,同時也急需提升SSD測試方法和測試技術(shù)來保證產(chǎn)品的質(zhì)量。本文重點研究了SSD的MTBF測定、耐久性和數(shù)據(jù)保持等可靠性相關(guān)測試方法,為SSD測試提供參考。