張 瑜,談黎虹,何 勇
1. 浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,浙江 杭州 310018
2. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,浙江 杭州 310058
近紅外透射光譜結(jié)合判別分析方法在汽車制動(dòng)液品牌與新舊鑒別中的應(yīng)用研究
張 瑜1, 2,談黎虹1,何 勇2*
1. 浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,浙江 杭州 310018
2. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,浙江 杭州 310058
采用近紅外透射光譜研究了汽車制動(dòng)液品牌及新舊的鑒別。采集寶馬(BMW),豐田(Toyota),沃爾沃(Volvo)以及嘉實(shí)多(Castrol)四種品牌的汽車制動(dòng)液全新樣本以及用過的樣本的透射光譜。分別對每一種品牌下全新與用過汽車制動(dòng)液樣本的光譜數(shù)據(jù)進(jìn)行主成分分析(PCA),主成分得分圖表明不同品牌制動(dòng)液以及該品牌下全新樣本以及用過的樣本能夠被較好的區(qū)分,其光譜特性存在差異?;谥鞒煞州d荷(Loadings)進(jìn)行特征波數(shù)選擇,偏最小二乘判別分析(PLS-DA),線性判別分析(LDA),簇類獨(dú)立軟模式法(SIMCA),k最鄰近分類算法(KNN),隨機(jī)森林(RF),誤差反向傳播人工神經(jīng)網(wǎng)絡(luò)(BPNN),徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN),極限學(xué)習(xí)機(jī)(ELM),支持向量機(jī)(SVM),最小二乘支持向量機(jī)(LS-SVM)等判別分析方法用于建立基于特征波數(shù)的判別分析模型,判別模型的建模集和預(yù)測集判別正確率均略低于或達(dá)到了100%。與其他三種品牌汽車制動(dòng)液相比,嘉實(shí)多全新樣本與用過樣本的差異較小,KNN與LS-SVM模型的建模集正確率均低于100%。結(jié)果表明,近紅外透射光譜結(jié)合特征波長選擇以及判別分析模型對不同品牌制動(dòng)液以及同一品牌下全新樣本以及用過的樣本進(jìn)行識別是可行的,為開發(fā)在線或便攜式儀器提供理論支持。
近紅外透射光譜;制動(dòng)液;新舊;品牌;判別分析
汽車制動(dòng)液是汽車中不可缺少的部分,用于汽車液壓制動(dòng)系統(tǒng)中傳遞制動(dòng)能量。汽車制動(dòng)液的品質(zhì)性能直接關(guān)系到汽車的行駛安全[1]。市場上存在不同廠商生產(chǎn)的不同品牌的制動(dòng)液,質(zhì)量參差不齊,部分制動(dòng)液為與汽車廠商配套的制動(dòng)液,可能存在不適用于其他品牌或型號車輛的問題。同時(shí),由于長時(shí)間使用制動(dòng)液,會吸水并氧化,從而對制動(dòng)系統(tǒng)造成腐蝕,嚴(yán)重危害行車安全[2-3]。而不法商人則會以舊充新,以次充好,因此對汽車制動(dòng)液品牌以及新舊的快速準(zhǔn)確識別,具有重要的意義。
近紅外光譜是一種快速無損的檢測方法,樣本準(zhǔn)備簡單,檢測成本低,在很多領(lǐng)域具有廣泛的使用[4-6],近紅外光譜在汽車用油以及石油的各領(lǐng)域也具有廣泛應(yīng)用[7-8]。判別分析模型是近紅外光譜研究中的重要組成部分。隨著機(jī)器學(xué)習(xí)的發(fā)展,提出了很多的新的判別分析方法。有監(jiān)督判別分析方法是近紅外光譜分析中最常用判別分析方法,判別分析模型有線性判別分析模型和非線性判別分析模型。PLS-DA[9]以及LDA[10]就是最常用的線性判別分析模型,而BPNN[11],RBFNN[11],RF[12],SVM[13]與LS-SVM[14]也能解決線性與非線性判別分析問題,在部分文獻(xiàn)中顯示出了一定的優(yōu)越性。近紅外光譜結(jié)合判別分析方法,有助于實(shí)現(xiàn)定性的判別,但是由于方法原理與實(shí)現(xiàn)的不同,選擇合適的判別分析方法有助于獲得穩(wěn)定的判別分析模型及其在硬件中的實(shí)現(xiàn),為在線或便攜式儀器開發(fā)提供理論支持。本研究的主要目的是采用近紅外光譜結(jié)合特征波數(shù)選擇與判別分析方法對不同品牌汽車制動(dòng)液以及每一品牌下全新與用過的汽車制動(dòng)液的識別。
1.1 樣本
實(shí)驗(yàn)所用汽車制動(dòng)液分別來自市場上常用的四種汽車制動(dòng)液品牌,即寶馬(BMW),豐田(Toyota),沃爾沃(Volvo)以及嘉實(shí)多(Castrol)。分別對每個(gè)品牌的汽車制動(dòng)液獲取未使用過以及使用時(shí)間2年(行駛里程20 000 km)的樣本各33個(gè)。從每一個(gè)樣本中隨機(jī)選取一定量的樣本放入專用的樣本瓶中,以用于光譜采集。
1.2 光譜數(shù)據(jù)采集
采用布魯克多功能傅里葉變換近紅外光譜儀(Bruker optics,Germany)(光譜范圍12 000~4 000 cm-1)實(shí)現(xiàn)對汽車制動(dòng)液光譜數(shù)據(jù)的采集,將樣本瓶放入樣本槽中測量其透射光譜。光譜采集由OPUS 6.5(Bruker optics,Germany)軟件實(shí)現(xiàn),光譜分辨率設(shè)定為8 cm-1,樣本的光譜掃描次數(shù)設(shè)定為32次,以32次掃描結(jié)果的平均值為該樣本的透射光譜。
1.3 數(shù)據(jù)處理
1.3.1 特征波數(shù)選擇
光譜數(shù)據(jù)的數(shù)據(jù)量一般較大(光譜范圍為10 522.28~4 443.225 cm-1),同時(shí)光譜數(shù)據(jù)中存在共線性問題和冗余性問題。為使建立的校正模型穩(wěn)定,準(zhǔn)確,選擇通過選擇包含有主要信息的少數(shù)波長進(jìn)行建模,從而減少模型輸入變量,降低模型的復(fù)雜度,減少共線性以及冗余性數(shù)據(jù)的影響。主成分分析(principal component analysis,PCA)用來進(jìn)行特征波數(shù)選擇。主成分分析的載荷表明了對應(yīng)波長包含的有用信息的多少,一般以解釋最多變量的前幾個(gè)主成分下的載荷進(jìn)行特征波長選擇,根據(jù)載荷圖選擇峰與谷的地方為特征波長[15]。
1.3.2 判別分析方法
采用不同的判別分析方法分別建立判別分析模型。不同的判別分析方法原理不同,對數(shù)據(jù)的利用角度不同,從中選取判別效果最好的模型,為實(shí)現(xiàn)制動(dòng)液品牌以及全新與用過的制動(dòng)液的在線自動(dòng)識別打下基礎(chǔ)。
偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)是有監(jiān)督判別分析方法,基于偏最小回歸算法過程,通過回歸分析得到的預(yù)測值,設(shè)定閾值以確定樣本的類別,一般判別閾值設(shè)定為0.5[9]。
線性判別分析(linear discriminant analysis,LDA)通過尋找不同類別特征變量之間的線性關(guān)系實(shí)現(xiàn)對樣本的分類。LDA是一種有監(jiān)督的判別分析算法[10]。
簇類獨(dú)立軟模式法(soft independent modeling of class analogy,SIMCA)是一種基于PCA的有監(jiān)督分類方法。SIMCA首先通過對每一類樣本進(jìn)行主成分分析,確定每一類的主成分?jǐn)?shù),然后基于主成分光譜殘差進(jìn)行判別分析[16]。
k最鄰近分類算法(k-nearest neighbor algorithm,KNN)是一種有監(jiān)督的判別分析方法,通過計(jì)算樣本與其他樣本之間的距離,確定與該樣本最鄰近的k個(gè)樣本的類別來判別該樣本所屬的類別[16]。
隨機(jī)森林(random forest,RF)是一種利用多個(gè)決策樹對數(shù)據(jù)進(jìn)行判別分類與回歸的算法。通過生成不同的決策樹,然后對所有決策樹結(jié)果進(jìn)行分析,得到最終的判別分類與回歸預(yù)測的結(jié)果[12]。
誤差反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)是應(yīng)用非常廣泛的人工神經(jīng)網(wǎng)絡(luò)之一,其通過誤差反向傳播修正網(wǎng)絡(luò)權(quán)值,得到誤差最小的輸出[11]。徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)也是一種常用的人工神經(jīng)網(wǎng)絡(luò),以RBF函數(shù)為激勵(lì)函數(shù)。RBF神經(jīng)網(wǎng)絡(luò)以非線性變換將數(shù)據(jù)映射到隱含層空間,而隱含層與輸出層之間的映射是線性的[11]。極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)是神經(jīng)網(wǎng)絡(luò)的一種,是一種包含單隱含層的前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural network,SLFNN),ELM通過設(shè)定激勵(lì)函數(shù)與隱含層節(jié)點(diǎn)數(shù)目就能實(shí)現(xiàn)對網(wǎng)絡(luò)的訓(xùn)練,得到唯一最優(yōu)解[17]。
支持向量機(jī)(support vector machine,SVM)是一種有監(jiān)督的判別分析方法。SVM通過將樣本數(shù)據(jù)映射到高維空間,在高維空間找到最大間隔超平面,使其與兩類樣本中最近數(shù)據(jù)點(diǎn)的距離均最大,從而實(shí)現(xiàn)線性分類[13]。作為SVM的擴(kuò)展形式,最小二乘支持向量機(jī)(least-squares support vector machine,LS-SVM)通過求解線性方程代替SVM的求解二次規(guī)劃問題,提高計(jì)算效率,降低計(jì)算復(fù)雜度[14]。
1.3.3 數(shù)據(jù)處理軟件
PCA,PLS-DA,LDA均在Unscrambler軟件(CAMO AS, Oslo, Norway)上操作實(shí)現(xiàn),SIMCA,KNN,RF,BPNN,RBFNN,ELM,SVM以及LS-SVM等算法均在軟件Matlab 2014b(The Math Works, Natick, USA)上操作實(shí)現(xiàn)。
2.1 汽車制動(dòng)液透射光譜特征
光譜儀以8 cm-1的光譜分辨率采集了樣本在12 000~4 000 cm-1范圍的透射光譜,考慮到儀器以及操作存在的噪聲,首先將光譜曲線中首尾噪聲明顯的部分去除,以10 522.28~4 443.225 cm-1范圍的光譜數(shù)據(jù)進(jìn)行分析。采用7點(diǎn)移動(dòng)平均平滑(moving average smoothing,MAS)對光譜數(shù)據(jù)進(jìn)行預(yù)處理。由于BMW的一個(gè)樣本在采集光譜時(shí)出現(xiàn)錯(cuò)誤,因此BMW全新樣本只有32個(gè)。圖1所示為四種不同品牌汽車制動(dòng)液平均光譜以及每個(gè)品牌下全新與用過的制動(dòng)液的平均光譜。由圖1(a)可知,4種不同品牌的制動(dòng)液透射光譜存在一定的差異,其中BMW,Volvo與其他兩種品牌制動(dòng)液之間透射光譜差距較大,Toyota以及Castrol之間透射光譜差異較小。(b),(c),(d),(e)分別是BWM,Toyota,Volvo,Castrol品牌全新與用過樣本的平均光譜曲線,可知全新的樣本與用過的樣本的透射光譜之間存在一定的差異。不同品牌全新樣本與用過樣本之間差異的趨勢相似。
圖1 不同品牌汽車制動(dòng)液平均光譜(a)以及每一個(gè)品牌下全新樣本與用過 樣本的平均光譜:(b)BMW,(c)Toyota,(d)Volvo,(e)Castrol
2.2 主成分定性分析
對預(yù)處理后的建模集光譜數(shù)據(jù),分別進(jìn)行PCA計(jì)算,PCA采用全交互驗(yàn)證模式。一般情況下,少數(shù)前幾個(gè)主成分就能解釋絕大多數(shù)的變量。一般以前兩個(gè)主成分(PC1與PC2)作出樣本得分散點(diǎn)圖,進(jìn)行分析。圖2(a)所示為四種不同品牌制動(dòng)液的PCA得分分布圖,可知PC1與PC2累計(jì)得分貢獻(xiàn)率超過99%,PC1與PC2包含了研究對象的絕大部分有用信息。由圖2(a)可知,BMW,Toyota以及Volvo的樣本能很好的聚類在一起,而Castrol樣本則較為分散,但是所有品牌的樣本均能明顯的區(qū)分出來。圖2(b),(c),(d),(e)分別是BWM,Toyota,Castrol,Volvo品牌全新與用過樣本的主成分得分散點(diǎn)圖,發(fā)現(xiàn)PC1與PC2的累積貢獻(xiàn)率均超過99%,且BMW,Toyota以及Volvo的全新的樣本與使用過的樣本,能夠非常明顯的被區(qū)分,Castrol的全新樣本與使用過的樣本能準(zhǔn)確的區(qū)分,但是二者之間的差別沒有其他品牌大。由PCA得分分布圖可知,四種不同品牌的制動(dòng)液以及其全新樣本與用過樣本之間的差異較明顯??梢赃M(jìn)行區(qū)分。
圖2 不同品牌汽車制動(dòng)液PCA得分散點(diǎn)圖(a)以及每一個(gè)品牌下全新樣本與用過樣本的PCA得分散點(diǎn)圖:(b)BMW,(c)Toyota,(d)Volvo,(e)Castrol
Fig.2 Scores scatter plot by PCA for different brands of brake fluids (a) and the new and used samples of each brand: (b)BMW,(c)Toyota,(d)Volvo,(e)Castrol
2.3 特征波數(shù)選擇
采用PCA載荷進(jìn)行特征波數(shù)選擇,發(fā)現(xiàn)由于BMW,Toyota,以及Volvo全新樣本與用過樣本的主成分分析,PC1高于或接近99%,因此以PC1下的載荷(Loadings)進(jìn)行特征波長選擇。四種制動(dòng)液品牌的PCA分析以及Castrol全新樣本與用過樣本則以PC1與PC2下的載荷進(jìn)行特征波數(shù)選擇,發(fā)現(xiàn)選擇的特征波數(shù)有些較為相似,可能是因?yàn)楸旧碇苿?dòng)液的成分有一定的相似性。
圖3 不同品牌汽車制動(dòng)液特征波數(shù)選擇(a)以及每一個(gè)品牌下全新樣本與用過 樣本的特征波數(shù)選擇:(b)BMW,(c)Toyota,(d)Volvo,(e)Castrol
2.4 判別分析模型的建立
PCA主成分分析結(jié)果可知,四種不同品牌的汽車制動(dòng)液以及各品牌全新與用過樣本之間具有較高的區(qū)分度,可以進(jìn)一步建立判別分析模型,實(shí)現(xiàn)汽車制動(dòng)液品牌以及各品牌全新與用過樣本的快速無損識別。以PCA選出的特征波數(shù)為輸入,分別建立了汽車制動(dòng)液品牌以及各品牌全新與用過樣本的PLS-DA,LDA,SIMCA,KNN,RF,BPNN,RBFNN,ELM,SVM以及LS-SVM等判別分析模型。對汽車制動(dòng)液品牌BMW,Toyota,Castrol以及Volvo的類別分別賦值為1,2,3,4,而對于每一個(gè)品牌下全新與用過的樣本分別賦值為1,2。判別分析模型的判別結(jié)果分別如表1與表2所示。
由表1可知,所有判別分析模型的效果均接近或達(dá)到100%,其中PLS-DA模型建模集判別正確率低于100%(96.6%)?;诓煌淼呐袆e分析模型的判別效果均較好,表明盡管都是制動(dòng)液,各制動(dòng)液之間的光譜透射差異明顯,即不同品牌的制動(dòng)液的特性不同。表1結(jié)果表明,判別分析模型能有效的定性判別不同品牌的制動(dòng)液。而所有模型均是基于特征波數(shù)建立的,表明特征波數(shù)的選擇有助于減少數(shù)據(jù)輸入,實(shí)現(xiàn)對汽車制動(dòng)液品牌的識別,為在線的或便攜式快速無損檢測儀器開發(fā)提供理論支撐。在實(shí)際的應(yīng)用中,應(yīng)結(jié)合判別分析模型的效果和實(shí)現(xiàn)的難度,選擇合適的判別分析模型。本研究中,經(jīng)過特征波數(shù)選擇,輸入變量減少98%以上,所有模型的計(jì)算速度均較快,需要進(jìn)一步研究探究最優(yōu)的判別分析模型。
表1 基于特征波數(shù)的汽車制動(dòng)液品牌判別分析模型結(jié)果
由表2可以發(fā)現(xiàn),除了Castrol之外,其他三種品牌的汽車制動(dòng)液不同判別分析模型下的判別正確率均為100,圖2中PCA得分散點(diǎn)圖中Castrol的差異也是最不明顯。KNN模型和LS-SVM模型的建模集判別正確率均低于100%,且低于其他判別分析模型,表明其他模型更適用于Castrol全新與用過樣本的判別分析。表2結(jié)果表明,基于特征波數(shù)的判別分析模型能用于不同品牌全新與用過汽車制動(dòng)液的判別分析。
綜合表1與表2結(jié)果可知,近紅外光譜結(jié)合特征波數(shù)與判別分析方法能有效的實(shí)現(xiàn)對汽車制動(dòng)液品牌的識別以及不同品牌全新與用過汽車制動(dòng)液的識別,為汽車制動(dòng)液的規(guī)范使用,保護(hù)消費(fèi)者利益提供支持。同時(shí)為開發(fā)在線或便攜式的汽車制動(dòng)液品質(zhì)檢測儀器提供理論基礎(chǔ)。
表2 基于特征波數(shù)的全新與用過的汽車制動(dòng)液判別分析模型結(jié)果
采用布魯克多功能傅里葉變換近紅外光譜儀對BMW,Toyota,Volvo以及Castrol四種品牌的汽車制動(dòng)液以及該品牌全新與用過的汽車制動(dòng)液進(jìn)行識別研究。針對獲取的樣本的透射光譜,經(jīng)過PCA分析得到的得分分布散點(diǎn)圖表明不同品牌的汽車制動(dòng)液以及該品牌全新與用過的汽車制動(dòng)液能夠被較好的區(qū)分,而基于PCA載荷選擇的特征波數(shù)建立的PLS-DA,LDA,SIMCA,KNN,RF,BPNN,RBFNN,ELM,SVM以及LS-SVM等模型均獲得了較高的判別正確率,所有模型的建模集和預(yù)測集判別正確率均接近或達(dá)到100%。對汽車制動(dòng)液品牌進(jìn)行判別分析的PLS-DA模型,以及對Castrol全新與用過的制動(dòng)液進(jìn)行判別分析的KNN以及LS-SVM模型的判別效果略差,表明需要針對研究對象選擇合適的判別分析模型。結(jié)果表明,采用近紅外透射光譜結(jié)合特征波數(shù)選擇以及判別分析模型可用于不同品牌汽車制動(dòng)液以及該品牌全新與用過的汽車制動(dòng)液的識別研究。在實(shí)際的應(yīng)用中,應(yīng)進(jìn)一步研究以獲取更穩(wěn)定的特征波數(shù)以及更穩(wěn)定的判別分析模型,以滿足硬件和軟件的實(shí)際需要,為在線或便攜式儀器提供理論和實(shí)踐支持。
[1] YE Shao-lin, LENG Guan-jun(葉少林, 冷觀俊). Petroleum Products Application Research(石油商技), 2001, 19(3): 5.
[2] HOU Chang-chun(侯長春). China Science & Technology Panorama Magazine(中國科技縱橫), 2014,(22): 237.
[3] WANG Xian-wen(王憲文). Auto Maintenance Magazine(汽車維修技師), 2011,(11): 111.
[4] Fagan C C, Everard C D, McDonnell K. Bioresource Technology, 2011, 102(8): 5200.
[5] Kong W, Zhao Y, Liu F, et al. Sensors, 2012, 12(8): 10871.
[6] Murkin J M, Arango M. British Journal of Anaesthesia, 2009, 103(suppl 1): i3.
[7] Jiang L, Liu F, He Y. Sensors, 2012, 12(3): 3498.
[8] Balabin R M, Safieva R Z, Lomakina E I. Analytica Chimica Acta, 2010, 671(1): 27.
[9] Canaza-Cayo A W, Cozzolino D, Alomar D, et al. Computers and Electronics in Agriculture, 2012, 88: 141.
[10] Gori A, Maggio R M, Cerretani L, et al. International Dairy Journal, 2012, 23(2): 115.
[11] Ni Y, Song R, Kokot S. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2012, 96: 252.
[12] Pal M. International Journal of Remote Sensing, 2005, 26(1): 217.
[13] Devos O, Ruckebusch C, Durand A, et al. Chemometrics and Intelligent Laboratory Systems, 2009, 96(1): 27.
[14] Suykens J A K, Vandewalle J. Neural Processing Letters, 1999, 9(3): 293.
[15] Liu D, Ma J, Sun D W, et al. Food and Bioprocess Technology, 2014, 7(11): 3100.
[16] Balabin R M, Safieva R Z, Lomakina E I. Microchemical Journal, 2011, 98(1): 121.
[17] Huang G B, Zhu Q Y, Siew C K. Neurocomputing, 2006, 70(1): 489.
(Received Jun. 22, 2015; accepted Oct. 28, 2015)
*Corresponding author
Identification of Brake Fluid Brands, New and Used Brake Fluid with Discriminant Analysis Based on Near-Infrared Transmittance Spectroscopy
ZHANG Yu1, 2, TAN Li-hong1, HE Yong2*
1. Zhejiang Technical Institute of Economics, Hangzhou 310018, China
2. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China
Near-infrared transmittance spectroscopy was used to identify brake fluid brands, new and used brake fluid of each brand. The transmittance spectra of the new and used samples of 4 different brands of brake fluid, including BMW, Toyota, Volvo and Castrol were collected. PCA was conducted to the spectral data of the new samples of the four brake fluid and the spectral data of the new and used samples of each brand. The PCA scores scatter plot indicated that there were differences among the four brands of brake fluid, and there were also differences between new and used samples of each brand. Optimal wavelengths were selected for identifying different brands and new and used samples of each brand by loadings of PCA. Classification models were built using the optimal wavelength, including Partial least squares-discriminant analysis (PLS-DA), Linear discriminant analysis (LDA), Soft independent modeling of class analogy (SIMCA), k-nearest neighbor algorithm (KNN), Random forest (RF), Back propagation neural network (BPNN), Radial basis function neural network (RBFNN), Extreme learning machine (ELM), Support vector machine (SVM), Least-squares support vector machine (LS-SVM). All classification models obtained good performances, the classification accuracy of the calibration set and the prediction set are 100% for most models. Compared with other three brands, new and used samples of Castrol showed slighter difference, and KNN and LS-SVM models performed worse with classification accuracy under 100% in the calibration set. The overall results indicated that near-infrared transmittance combined with optimal wavenumber selection and classification methods could be used to identify brake fluid brands, new and used brake fluids, the results of this study could provide theoretical support for developing online and portable devices.
Near-infrared transmittance spectroscopy; Brake fluid; New and used; Brands; Discriminant analysis
2015-06-22,
2015-10-28
國家重大科學(xué)儀器設(shè)備開發(fā)專項(xiàng)項(xiàng)目(2014YQ470377)資助
張 瑜,女,1977年生,浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院副教授 e-mail: zy7739@126.com *通訊聯(lián)系人 e-mail: yhe@zju.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)10-3179-06