萬成威,王 霞,王 猛
(北京航天飛行控制中心,北京 100094)
數(shù)據(jù)存儲(chǔ)子系統(tǒng)是各類信息系統(tǒng)或設(shè)備必不可少的組成部分之一,硬盤是數(shù)據(jù)存儲(chǔ)子系統(tǒng)的核心部件。然而,硬盤也是影響信息系統(tǒng)或設(shè)備性能和工作狀態(tài)的重要因素[1]。固態(tài)硬盤(Solid State Disk,SSD)可極大提高硬盤的數(shù)據(jù)讀寫性能,然而硬盤的經(jīng)常性失效問題仍不可避免,業(yè)界普遍采用獨(dú)立冗余磁盤陣列(Redundant Array of Independent Disk,RAID)技術(shù)實(shí)現(xiàn)硬盤失效時(shí)的數(shù)據(jù)完整性保護(hù)。同時(shí),硬盤健康狀態(tài)的預(yù)測(cè)研究也日漸受到業(yè)界的重視[2-4],期望通過硬盤自身的狀態(tài)日志、設(shè)備運(yùn)行狀態(tài)、機(jī)房位置等信息,準(zhǔn)確預(yù)測(cè)硬盤的健康狀態(tài)[5],最終實(shí)現(xiàn)硬盤剩余壽命的準(zhǔn)確預(yù)測(cè),為實(shí)現(xiàn)數(shù)據(jù)管理、設(shè)備運(yùn)維等提供相應(yīng)的支撐手段。
機(jī)械硬盤(Hard Drive Disk,HDD)在大規(guī)模數(shù)據(jù)中心、大容量數(shù)據(jù)存儲(chǔ)系統(tǒng)中廣泛應(yīng)用,其故障一般分為兩種:可預(yù)測(cè)的和不可預(yù)測(cè)的。不可預(yù)測(cè)的硬盤故障偶爾發(fā)生,如芯片突然失效、機(jī)械振動(dòng)或撞擊等,但如磁盤磁頭磨損、盤片磁介質(zhì)性能下降等,均屬于可預(yù)測(cè)情況,通過磁盤監(jiān)控技術(shù),檢測(cè)磁盤某些重要的狀態(tài)參數(shù)實(shí)現(xiàn)磁盤健康狀態(tài)的預(yù)警。1995年,康柏公司聯(lián)合多家硬盤生產(chǎn)商提出該技術(shù)方案,并于1996年正式成為行業(yè)技術(shù)標(biāo)準(zhǔn)。然而,準(zhǔn)確地實(shí)現(xiàn)硬盤健康狀態(tài)預(yù)測(cè)仍然具有很強(qiáng)的挑戰(zhàn)性,主要原因來自兩個(gè)方面[6]:一是軟件系統(tǒng)優(yōu)化設(shè)計(jì)后可較好地適配硬件系統(tǒng)部分功能失效情況,導(dǎo)致系統(tǒng)操控管理人員對(duì)包含硬盤故障在內(nèi)的硬件系統(tǒng)部分功能失效情況的重視程度不夠;二是各種不同品牌和型號(hào)規(guī)則的硬盤在數(shù)據(jù)中心內(nèi)部廣泛使用,但考慮到商業(yè)利益因素,大量的研究?jī)H公開了少量的采樣獲取的自我檢測(cè)分析與報(bào)告(Self Monitoring Analysis and Reporting Technology,SMART)數(shù)據(jù),難以支撐大規(guī)模的開放性研究,而且研究重點(diǎn)也主要著眼于不同類型硬盤的某些特性,如結(jié)構(gòu)、器件或等對(duì)異常產(chǎn)生原因的分析。
近年來,隨著BackBlaze、Alibaba等云服務(wù)商逐步開放其超大數(shù)據(jù)中心硬盤的SMART數(shù)據(jù),基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方式的硬盤健康狀態(tài)預(yù)測(cè)研究[7-11]也隨之逐年增加,針對(duì)硬盤失效問題的深度分析也逐步展開。清華大學(xué)交叉信息研究院的徐葳團(tuán)隊(duì)[6]聯(lián)合百度公司對(duì)百度數(shù)據(jù)中心2012—2016年以來的290 000個(gè)硬件失效問題進(jìn)行了研究,從失效問題發(fā)生的時(shí)間、產(chǎn)品線、空間位置、部件以及用戶的響應(yīng)等5個(gè)維度進(jìn)行了分析。從部件維度看,HDD硬盤故障占硬件系統(tǒng)故障的82%,其中約30%的故障直接由SMART屬性值反應(yīng)出來,其他部分故障也可由相關(guān)的SMART屬性與之對(duì)應(yīng),同時(shí),研究結(jié)果表明,HDD失效與高負(fù)載、人員操作等均具有一定的潛在關(guān)聯(lián)性。Lu等人[5]針對(duì)HDD硬盤的SMART數(shù)據(jù)、硬盤的性能數(shù)據(jù)、硬盤的空間位置信息等3類數(shù)據(jù),采用樸素貝葉斯分類、隨機(jī)森林[12]、梯度增強(qiáng)決策樹(Gradient Boosted Decision Tree,GBDT)[13-14]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)等深度學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)HDD硬盤工作狀態(tài)的預(yù)測(cè),并詳細(xì)比較了上述3類信息不同組合條件下的預(yù)測(cè)準(zhǔn)確性,結(jié)果表明,3類信息聯(lián)合情況下可獲得最優(yōu)的預(yù)測(cè)性能,原因在于硬盤的性能數(shù)據(jù)體現(xiàn)了其工作負(fù)載,硬盤的空間位置體現(xiàn)了其運(yùn)行環(huán)境,這些因素均會(huì)影響硬盤的工作狀態(tài)。
隨著SSD硬盤在數(shù)據(jù)中心應(yīng)用的逐步深入,針對(duì)其工作狀態(tài)的預(yù)測(cè)研究也逐步展開[15-16],這些研究方法對(duì)HDD硬盤工作狀態(tài)預(yù)測(cè)具有較好的借鑒意義。
本文將HDD作為研究對(duì)象,基于BackBlaze公布的HDD硬盤SMART日志數(shù)據(jù),采用機(jī)器學(xué)習(xí)方法,完成硬盤健康狀態(tài)的分類預(yù)測(cè)。
SMART技術(shù)為硬盤行業(yè)標(biāo)準(zhǔn),依托該技術(shù),硬盤會(huì)自動(dòng)檢測(cè)其磁頭、盤片、馬達(dá)、電路等運(yùn)行狀態(tài),并通過不同的屬性值記錄下來,實(shí)現(xiàn)其工作狀態(tài)的記錄,當(dāng)屬性值超出安全值范圍時(shí),就會(huì)自動(dòng)向用戶發(fā)出告警。一般而言,硬盤會(huì)周期性產(chǎn)生SMART記錄數(shù)據(jù)??紤]到硬盤大部分時(shí)間均處于正常工作狀態(tài),已有研究表明,對(duì)硬盤工作狀態(tài)預(yù)測(cè)而言,每天一條SMART數(shù)據(jù)記錄即可滿足應(yīng)用 要求[5]。目前,Alibaba、BackBlaze等大型云服務(wù)提供商均開源了其部分?jǐn)?shù)據(jù)中心硬盤的SMART數(shù)據(jù)。典型的SMART屬性如表1所示。
表1 典型SMART屬性值 Tab.1 Typical SMART attributies
SMART屬性數(shù)據(jù)以二進(jìn)制代碼的形式記錄于硬盤的系統(tǒng)保留區(qū)內(nèi),除標(biāo)準(zhǔn)屬性外,廠商可根據(jù)自己產(chǎn)品的特性提供不同的SMART屬性數(shù)據(jù)。目前公開的SMART數(shù)據(jù)集中,除SMART屬性的原始數(shù)據(jù)外,同時(shí)包含每個(gè)屬性的歸一化值,聯(lián)合起來作為硬盤的SMART屬性。單條SMART記錄包含日期、序列號(hào)(或ID)、硬盤型號(hào)、工作狀態(tài)及屬性值等。一般情況下,硬盤的大部分屬性值為空,不同廠商、不同型號(hào)規(guī)格的硬盤,為空的屬性值也有所不同。為此,根據(jù)硬盤SMART屬性是否非空,定義SMART數(shù)據(jù)模式如下:給定的SMART數(shù)據(jù)記錄中,若某一屬性非空,則該屬性的數(shù)據(jù)模式為“1”;否則,該屬性的數(shù)據(jù)模式為“0”,由所有屬性數(shù)據(jù)模式組成的二進(jìn)制字符串即為該SMART記錄的數(shù)據(jù)模式。
從已開放的SAMRT數(shù)據(jù)看,盡管不同廠商、不同型號(hào)規(guī)格硬盤的SMART數(shù)據(jù)各不相同,但仍體現(xiàn)出明顯的特點(diǎn),具體如下:
1)SMART數(shù)據(jù)具稀疏特性。盡管最新標(biāo)準(zhǔn)中定義了多達(dá)256項(xiàng)SMART屬性,然而,一般硬盤在日志中僅記錄了其中幾十項(xiàng)屬性值,且其中大部分屬性為空,形成典型的稀疏特性。
2)SMART數(shù)據(jù)模式類型有限。SMART數(shù)據(jù)模式指硬盤所有非空SAMRT屬性的組成規(guī)律。大型數(shù)據(jù)中心中存在不同品牌、不同型號(hào)規(guī)格的硬盤,然而,這些硬盤的SMART數(shù)據(jù)模式類型較為有限,如本文后文所述,并非如直觀印象中有大量不同的數(shù)據(jù)模式類型。
3)SMART數(shù)據(jù)具有明顯的不均衡性。SMART數(shù)據(jù)的不均衡性主要表現(xiàn)在硬盤狀態(tài)正常與失效的SMART數(shù)據(jù)數(shù)量相差極大。硬盤技術(shù)和制造工藝的進(jìn)步,使得硬盤失效概率明顯降低,大部分時(shí)間內(nèi)硬盤處于正常工作狀態(tài),因此SMART數(shù)據(jù)中失效數(shù)據(jù)比例也較低。
考慮SMART數(shù)據(jù)模式類型有限的特點(diǎn),且同一數(shù)據(jù)模式下硬盤SMART屬性完全一致,更趨于表現(xiàn)出一致的運(yùn)行狀態(tài),基于此,本文提出基于SMART數(shù)據(jù)模式分類的HDD硬盤工作狀態(tài)預(yù)測(cè)方法。
現(xiàn)有研究主要以SMART屬性值及其歸一化屬性值作為特征,采用各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法,實(shí)現(xiàn)硬盤工作狀態(tài)的預(yù)測(cè)。盡管針對(duì)大型數(shù)據(jù)中心硬件系統(tǒng)故障問題的長(zhǎng)期統(tǒng)計(jì)分析表明,硬盤負(fù)載、機(jī)房環(huán)境等對(duì)其工作狀態(tài)具有一定的影響[5],從表1也可以看到,上述信息在SMART屬性數(shù)據(jù)中也有一定的體現(xiàn)。另外,現(xiàn)有基于SMART數(shù)據(jù)的硬盤工作狀態(tài)預(yù)測(cè)研究中,一般考慮算法的通用性,期望算法可廣泛適用于所有類型的硬盤,通常僅選擇十幾項(xiàng)典型的屬性值作為硬盤工作狀態(tài)預(yù)測(cè)算法的特征,然而,除常用的典型屬性外,不同型號(hào)規(guī)格的硬盤可定義不同SMART屬性,這將導(dǎo)致部分信息的丟失[16]。為此,本文在深入分析SMART數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,提出相應(yīng)的HDD硬盤工作狀態(tài)預(yù)測(cè)算法。
為了避免現(xiàn)有算法選擇少量典型SMART屬性作為特征引起的信息丟失問題,結(jié)合SMART數(shù)據(jù)的特點(diǎn),本文提出基于SMART數(shù)據(jù)模式的機(jī)器學(xué)習(xí)(SMART Data Mode Based Machine Learning,SDM-ML)算法,以實(shí)現(xiàn)HDD硬盤工作狀態(tài)的準(zhǔn)確預(yù)測(cè),其基本思想如下:
SMART技術(shù)作為硬盤行業(yè)標(biāo)準(zhǔn),反映了硬盤的各種工作狀態(tài),其屬性的設(shè)計(jì)均具有一定的針對(duì)性。直觀理解,選取的屬性越多,包含的硬盤信息也相應(yīng)增多,利于機(jī)器學(xué)習(xí)算法更充分識(shí)別硬盤的工作狀態(tài),對(duì)其做出更加準(zhǔn)確的預(yù)測(cè)。經(jīng)統(tǒng)計(jì)分析,硬盤SMART數(shù)據(jù)模式較為有限,為此,SDM-ML算法先根據(jù)數(shù)據(jù)模式類型,將SMART數(shù)據(jù)分為不同的子集,不同子集的數(shù)據(jù)分別采用有監(jiān)督機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練和驗(yàn)證測(cè)試,綜合多種機(jī)器學(xué)習(xí)算法測(cè)試結(jié)果,選擇性能最優(yōu)算法的輸出結(jié)果作為最終預(yù)測(cè)結(jié)果。
如圖1所示,算法分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)模式分類、按數(shù)據(jù)模式分類機(jī)器學(xué)習(xí)預(yù)測(cè)。實(shí)際過程中,根據(jù)數(shù)據(jù)模式類型,將預(yù)處理后的SMART數(shù)據(jù)輸入訓(xùn)練好的機(jī)器學(xué)習(xí)組件中,即可完成HDD硬盤狀態(tài)的預(yù)測(cè)。
圖1 基于數(shù)據(jù)模式分類的HDD硬盤工作狀態(tài)預(yù)測(cè)
數(shù)據(jù)預(yù)處理主要完成原始SMART數(shù)據(jù)的規(guī)范化處理,包含:以序列號(hào)為關(guān)鍵字,將單個(gè)硬盤的SMART數(shù)據(jù)按照日期先后順序歸檔整理;僅以SMART屬性的實(shí)際值作為研究對(duì)象,不考慮數(shù)據(jù)提供方給出的歸一化屬性值;將屬性值為空的SMART屬性統(tǒng)一填充0,若硬盤當(dāng)日SMART屬性均為空,即表示當(dāng)日未成功獲取SMART日志記錄,則刪除當(dāng)天SMART記錄。
數(shù)據(jù)模式分類主要根據(jù)硬盤SMART記錄中的原始屬性數(shù)據(jù),確定該硬盤的SMART數(shù)據(jù)模式類型。所有數(shù)據(jù)模式類型中均包含該SMART數(shù)據(jù)的所有屬性,不對(duì)其進(jìn)行篩選、過濾、聚合等處理。
并行訓(xùn)練主要將分類后的SMART數(shù)據(jù)分別按照數(shù)據(jù)模式輸入監(jiān)督機(jī)器學(xué)習(xí)算法進(jìn)行算法的訓(xùn)練。對(duì)于每塊硬盤,均選擇N天的SMART記錄依次拼接組合作為機(jī)器學(xué)習(xí)的輸入數(shù)據(jù)。其中,對(duì)于發(fā)生失效問題的硬盤,選擇從失效當(dāng)天起的前N天SMART數(shù)據(jù)作為故障類數(shù)據(jù)(類型為“1”);對(duì)于未發(fā)生失效問題的硬盤,隨機(jī)選擇連續(xù)N天的SMART數(shù)據(jù)作為正常數(shù)據(jù)(類型為“0”)。所有數(shù)據(jù)根據(jù)對(duì)應(yīng)屬性值,按式(1)進(jìn)行歸一化處理:
(1)
2.3.1 數(shù)據(jù)集
本文以BackBlaze開放的2020年3季度云存儲(chǔ)系統(tǒng)中硬盤SMART日志作為數(shù)據(jù)集,用于評(píng)估SDM-ML算法性能。該數(shù)據(jù)集包含2020年7月1日—9月30日期間共151 166塊HDD硬盤的SMART日志,其中發(fā)生失效問題的硬盤324塊。按照SMART數(shù)據(jù)模式,上述記錄中共包含18種不同的數(shù)據(jù)模式,各類SMART數(shù)據(jù)模式統(tǒng)計(jì)信息如表2所示。
表2 SMART數(shù)據(jù)模式統(tǒng)計(jì)
表2中主要統(tǒng)計(jì)工作時(shí)間不少于10(N=10)天的HDD硬盤,考慮到發(fā)生失效的硬盤數(shù)量遠(yuǎn)小于正常硬盤數(shù)量,為進(jìn)一步增加失效硬盤SMART樣本數(shù)量,對(duì)于SMART記錄多于10天的失效硬盤,依次從失效前第10,15,20…天開始,并取連續(xù)10天的SMART數(shù)據(jù),均作為失效硬盤SMART數(shù)據(jù)??紤]到HDD硬盤狀態(tài)預(yù)測(cè)的應(yīng)用場(chǎng)景,擴(kuò)充的失效硬盤SMART數(shù)據(jù)最長(zhǎng)不超過失效前30天。盡管如此,仍有部分SMART數(shù)據(jù)模式的失效樣本數(shù)量過少,如第4,8,9,10,11,12,13,15類數(shù)據(jù)模式,難以形成有效的訓(xùn)練、測(cè)試數(shù)據(jù)集,本文暫不將其作為HDD硬盤工作狀態(tài)預(yù)測(cè)研究的數(shù)據(jù)集。
2.3.2 測(cè)試結(jié)果
本文采用K近鄰(K-Nearest+Neighbor,KNN)[12]、線性回歸(logreg)[10]、支持向量機(jī)(Suppot Vector Machine,SVM[8]等3種機(jī)器學(xué)習(xí)算法,分別按照不同的SMART數(shù)據(jù)模式類型,從預(yù)測(cè)準(zhǔn)確率、F1指數(shù)、馬修斯相關(guān)系數(shù)(Matthews Correlation Coefficient,MCC)等3個(gè)方面對(duì)HDD硬盤工作狀態(tài)預(yù)測(cè)性能進(jìn)行了評(píng)估。M根據(jù)預(yù)處理后正常樣本與失效樣本的比例關(guān)系確定。測(cè)試結(jié)果如圖2所示。
圖2 SDM-ML算法評(píng)估結(jié)果
可以看到,SDM-ML算法普遍可實(shí)現(xiàn)80%以上的分類準(zhǔn)確率,達(dá)到與現(xiàn)有強(qiáng)分類器相同的預(yù)測(cè)精度。從F1指數(shù)和MCC系數(shù)看,SDM-ML算法表現(xiàn)出相同或類似的測(cè)試性能,即按照SMART數(shù)據(jù)模式分類后,再采用常見的機(jī)器學(xué)習(xí)算法,即可獲得強(qiáng)分類器相近的預(yù)測(cè)結(jié)果。從機(jī)器學(xué)習(xí)算法看,線性回歸和SVM算法針對(duì)不同類型的SMART數(shù)據(jù)模式均表現(xiàn)出較為一致的預(yù)測(cè)性能,且優(yōu)于KNN。從SMART數(shù)據(jù)模式看,第1和17類數(shù)據(jù)模式的MCC系數(shù)測(cè)試結(jié)果相對(duì)較差,這也反映出不同型號(hào)規(guī)格硬盤產(chǎn)品在SMART屬性上的差異及其對(duì)機(jī)器學(xué)習(xí)算法特征選擇的影響,與文獻(xiàn)[16]中針對(duì)SSD硬盤SMART屬性的研究結(jié)果一致。同時(shí),這也說明特征選擇對(duì)機(jī)器學(xué)習(xí)算法性能的影響。本文提出在SMART數(shù)據(jù)模式分類后再進(jìn)行機(jī)器學(xué)習(xí)預(yù)測(cè)HDD硬盤工作狀態(tài),主要目的也是為了盡可能簡(jiǎn)化眾多SMART屬性條件下的特征選擇過程,測(cè)試結(jié)果也表明了本文方法的有效性。同時(shí),本文方法在通用機(jī)器學(xué)習(xí)算法下即可獲得較好的預(yù)測(cè)效果,可有效降低因使用強(qiáng)機(jī)器學(xué)習(xí)算法帶來的計(jì)算、存儲(chǔ)等資源消耗,具有較好的實(shí)際應(yīng)用效果。
本文研究了基于SMART數(shù)據(jù)的HDD硬盤工作狀態(tài)預(yù)測(cè)算法,針對(duì)現(xiàn)有算法普遍以少量通用SMART屬性作為機(jī)器學(xué)習(xí)特征,存在信息丟失現(xiàn)象的問題,提出先按照數(shù)據(jù)模式對(duì)SMART數(shù)據(jù)進(jìn)行分類,然后采用機(jī)器學(xué)習(xí)算法進(jìn)行硬盤工作狀態(tài)預(yù)測(cè),在保證SMART信息完整性的同時(shí),簡(jiǎn)化了機(jī)器學(xué)習(xí)算法的特征選擇過程,有效降低了算法的資源消耗。實(shí)際測(cè)試結(jié)果表明,在這種數(shù)據(jù)處理方式下,采用常用的機(jī)器學(xué)習(xí)算法即可獲得與強(qiáng)分類器相近的預(yù)測(cè)結(jié)果,充分證明了算法的有效性。