譚世偉 丁兆鵬 陳思睿
摘要:當(dāng)前隨著信息化的大力發(fā)展,數(shù)據(jù)量的鋸齒狀的增長,越來越需要大容量的存儲設(shè)備,而存儲服務(wù)器,存儲Jbod的大力發(fā)展一方面滿足了大容量數(shù)據(jù)的存儲需求,另一方面為數(shù)據(jù)量的爆炸式增長提供了便捷的存儲方式。存儲Jbod設(shè)計上需要突出的地方也越來越多,設(shè)計需求也越來越復(fù)雜,對測試驗證的要求也越來越高。本文章通過結(jié)合具體客戶的應(yīng)用場景提出存儲Jbod重點測試要點和方法論。
關(guān)鍵詞:存儲Jbod;測試規(guī)范;方法論;測試驗證
中圖分類號:TP319 文獻標(biāo)識碼:A
文章編號:1009-3044(2020)15-0260-02
鑒于數(shù)據(jù)成倍的增長,存儲服務(wù)器需求量越來越大,1U32,3U48,4U60,4U106,4U108以及4U120類型的存儲服務(wù)器,存儲Jbod Jbof大量應(yīng)用到市場端,設(shè)計越來越復(fù)雜,對存儲服務(wù)器測試驗收提高到越來越高要求的驗收標(biāo)準(zhǔn)。本文重點探討研究存儲服務(wù)器,存儲Jbod,存儲Jbof的測試驗收規(guī)范。
1存儲Jbod測試故障
分布式存儲Jbod測試中經(jīng)常會遇到各種各樣的問題,掉盤,背板壓降低等等導(dǎo)致耽誤大量的人力和時間去分析問題。實際測試工作中,更換線纜后掉帶寬問題,測試復(fù)現(xiàn)超過2周才完成問題定位;整塊Expander硬盤背板掉盤,交叉分析驗證超過2周才發(fā)現(xiàn)根因。人力的投入,時間的耽誤導(dǎo)致產(chǎn)品上市時間一直往后延期。
針對存儲Jbod測試,由于缺少測試流程和測試手法需要投入大量人力和時間去分析定位問題,導(dǎo)致項目一直延期。
2存儲Jbod測試規(guī)范
現(xiàn)針對存儲Jbod測試,提出如下實際測試總結(jié)的測試規(guī)范和大綱,方便后期測試人員便利。Jbod測試中,遇到的第一個問題就是機頭SAS卡選擇類型。實際中應(yīng)以Jbod使用的芯片決定機頭Server SAS卡的型號。比如Jbod使用的Expander芯片是LSI的,機頭的SAS卡必須也是LSI的;Jbod的Expander芯片是PMC的,機頭的SAS卡必須也是PMC的卡子。否則兩者兼容性測試會出現(xiàn)各種各樣想不到的故障。
其次,針對Jbod測試需要在測試之前收集一下信息作為測試開展工作的前提首選。
針對Jbod測試,機頭SAS卡FW選擇,SAS卡NVDATA參數(shù)設(shè)置非常重要。如果機頭Server端BMC不支持監(jiān)控功能,SAS卡就必須要設(shè)置成不支持監(jiān)控功能。Jbod硬盤數(shù)量超過40塊,SAS卡配置參數(shù)一般需要設(shè)置成不掃描后端硬盤的配置參數(shù),否則實際測試中將會遇到無法pxe啟動,機頭掃描SAS卡缺失等故障。
Jbod在測試之前,使用Expander芯片廠商提供的工具檢測一下誤碼率,防止沒有檢查誤碼率的情況下進行開展大量測試;一般Expander芯片廠商均會提供芯片的治具來能夠直接查看誤碼率和帶寬。如下是LSI芯片查看常用的指令:
#cli phyinfo
#cli
Jbod在測試之前,檢查SAS端口速率情況,非正常帶寬情況不開展測試,必須達到相應(yīng)的規(guī)格帶寬,比如12G防止測試前帶寬不滿足測試要求。硬盤速率協(xié)商正常滿足Spec要求。
針對Jbod測試,測試硬盤選擇,需要選用Jbod能夠支持的功耗最大的機械盤進行測試,比如空氣盤,比如氦氣盤,比如SAS SSD等;
針對Jbod測試,對最大功耗的硬盤進行壓測時,認真參考此款硬盤的功耗說明書,檢查一下硬盤在哪種模式下功耗最高,大多數(shù)機械硬盤,在隨機讀寫時功耗最高,測試腳本需要優(yōu)先使用此模式進行測試。如下兩種模式是壓測功耗比較大的配置參數(shù):隨機寫4K小塊(Random RW 4KB Qd=8)(randomread 4K16Q)。
壓測工程中為了達到最大功耗壓測,需要把CPU的能力完全發(fā)揮出來,CPU支持48核心,硬盤壓測將48核心全部使用上。
針對Jbod測試,在進行滿配最大支持的功耗硬盤進行最大壓測時,要進行拔掉一塊PSU測試。單PSU'情況下,PSU輸出壓降會變大,故障率會比較高。實時查看單PSU供電的情況下壓測是否存在硬盤或者硬盤背板電壓降低的告警和故障。
3存儲Jbod供電線纜
針對Jbod測試,重點關(guān)注背板OCP點,PDB供電板最大輸出功率,線纜壓降等;需要進行全鏈路壓降測試。針對通過線纜給硬盤背板供電的Jbod,重點關(guān)注供電線纜的壓降情況。
支持12W空氣盤,DC關(guān)注點
硬盤背板線纜壓降:
線纜總體壓降要求:硬盤背板的單個背板通流30A,電源和GND線的總體線纜壓降在450mV以下,線纜溫升后,壓降在500mV以下。
硬盤背板OCP保護點修改:
單個硬盤背板電流約30A,OCP保護點需要調(diào)整到50A以上,對應(yīng)的修改只需要修改OCP電阻值
支持14.5W空氣盤,DC關(guān)注點:
硬盤背板線纜壓降(需要線纜和機構(gòu)一起修改):
線纜總體壓降要求:硬盤背板的單個背板通流37A,電源和GND線的總體線纜壓降在350mV以下,線纜溫升后,壓降在380mV以下。
硬盤背板OCP保護點修改:
單個硬盤背板電流約37A,OCP保護點需要調(diào)整到55A以上,對應(yīng)的修改只需要修改OCP電阻值
PSU連接器需要升級到支持更大電流:
當(dāng)前PSU電源連接器單個無法支持到2000W以上功率,需要更換到2200W以上電源連接器,需要修改PDB板的線路和Layout。
4結(jié)論
以上測試主要要點和方法不分先后順序,但是針對Jbod和存儲服務(wù)器測試驗證,以上內(nèi)容大大減少測試時間和交叉驗證的時間對存儲服務(wù)器和Jbod SIT驗證問題和發(fā)現(xiàn)問題保證產(chǎn)品質(zhì)量提升起到很大的效果。