★ 陳裕鳳 聶斌 詹國平 周冠芮 李歡 何雁(.江西中醫(yī)藥大學計算機學院 南昌 0004;.深圳市南山區(qū)蛇口人民醫(yī)院 廣東 深圳 58067;.江西中醫(yī)藥大學藥學院 南昌 0004)
近紅外光譜(near infrared spectroscopy,NIRS)技術是一種簡單、高效的分析技術,具有分析速度快、無損傷性、樣品無需預處理等優(yōu)點。鑒于此,近紅外光譜分析技術被廣泛應用于食品、紡織、藥品和農業(yè)等領域。通常近紅外光譜在投入到實際應用前,需要完成以下6 個工作流程:收集樣品、數(shù)據預處理、特征選擇、建立模型、評價模型、轉移模型。由于近紅外光譜的吸收靈敏度低、譜帶重疊嚴重,并且用近紅外光譜儀測量數(shù)據過程中引入噪聲和無關信息,因此建模前往往需要先對原始光譜進行預處理和特征選擇;又因為建模是近紅外光譜分析的核心,所以建模方法的選擇也至關重要。
NIRS 光譜分析過程中所用方法的綜述性文章已有部分報道。褚小立等[1]綜述了近紅外光譜分析中光譜預處理和特征選擇方法;袁洪福等[2]綜述了一些常用的化學計量學方法;周昭露等[3]綜述了NIRS 在中藥質量控制應用中的化學計量學建模方法和技術并對未來發(fā)展做了展望。褚小立綜述中較少涉及建模方法;袁洪福介紹了一些經典校正方法和常用于定量分析的主成分分析(principal component analysis,PCA)和偏最小二乘法(partial least squares,PLS),未提到用于定性分析的常用方法;周昭露的綜述涉及到NIRS 數(shù)據的采集、預處理、分組、波段選擇、建模以及模型的驗證和評價,內容較為全面,但傾向于方法的應用。本文主要根據原始光譜圖中出現(xiàn)的常見干擾不同介紹數(shù)據預處理方法;根據方法類型不同介紹光譜特征選擇方法;根據應用不同介紹建模方法。介紹光譜預處理,特征選擇,建模方法的原理、優(yōu)缺點,為近紅外分析相關研究者在實際應用分析中提供參考。
光譜信號測量過程中容易受測量條件、儀器性能、樣品分布不均等因素影響,導致采集到的光譜圖中伴有背景噪聲、基線漂移、散射光等無關信息的干擾,這些無關信息會對校正模型的檢測精度和穩(wěn)定性產生影響。本文從降低噪聲、消除基線漂移、校正散射光三個主要的干擾方面進行探討。
由于光譜儀檢測到的光譜信號中包含有效信息和噪聲,一般采用數(shù)字濾波的方法降噪。目前,常用的濾波方法有平滑法、傅里葉變換等。
1.1.1 平滑法平滑是常用的降噪方法之一,其本質是對光譜曲線進行低通濾波,濾除高頻噪聲,保留有效的低頻信息。原理是假設光譜中的噪聲為零均值隨機白噪聲,若多次測量取平均值可能減少隨機噪聲,提高信噪比。常用的信號平滑方法有移動平均平滑法和Savitzky-Golay 卷積平滑法。
移動平均平滑法是最簡單的平滑方法。假設窗寬為(2w+1),即每個窗口內含有(2w+1)個波長點,用每個窗口內的均值替代窗口中心點x0的測量值,窗口依次向右移動,直到完成對所有波長點的平滑。移動平均平滑法中,窗寬是一個重要的參數(shù),需要在計算前被定義好,窗寬的大小對信號平滑的效果產生影響。
Savitzky-Golay 卷積平滑法的基本思想和移動平均平滑法類似,它是基于多項式,選取固定大小范圍的移動窗口,利用最小二乘法對數(shù)據進行最佳擬合,從而求得最佳估計值,其實質是一種加權平均法,更強調中心點的作用。
1.1.2 傅里葉變換傅里葉變換(fourier transform,F(xiàn)T)是數(shù)字信號處理方法,它能夠實現(xiàn)時域與頻域之間的轉換,其實質是將原始光譜分解成不同正弦波的疊加和[4-6]。FT 能將信號的時域特征和頻域特征聯(lián)系起來,可用于信號分析和信號處理。FT 的降噪過程:先通過TF 將時域譜轉換為頻域譜;再選擇合適的低頻率信號,采用FT 將原始光譜重構。
FT 雖然具有很強的頻域局部定位和頻域局部化能力,但缺乏時間定位和時間局部化能力。因此,傅里葉變換僅適用于平穩(wěn)信號,不能反映出頻域隨時間變化的非平穩(wěn)信號。為克服傅里葉變換的缺陷,研究者提出來小波變換[7]。
在獲取非均勻樣品的近紅外光譜過程中,固體顆粒的大小、形狀、密度等物理因素會影響光的散射,會對模型的穩(wěn)定性產生影響。通常使用物理方法和數(shù)學校正的方式來減少光譜散射的影響,本文主要從數(shù)學校正角度,研究多元散射校正(multiplicative scatter correction,MSC)和標準變量變換(standard normal variate,SNV)兩種方法。
1.2.1 多元散射校正多元散射校正是由蘆永軍等[8]提出的一種多變量散射技術,它可以有效地消除顆粒分布不均勻或顆粒大小的散射影響導致的基線平移和偏移現(xiàn)象,提高相關光譜的信噪比。MSC 是通過“理想光譜”來修正光譜數(shù)據的基線平移和偏移現(xiàn)象。首先,該方法認為每條光譜都應該與“理想光譜”呈線性關系。而實際中無法獲取真正的“理想”光譜,則采用校正集的平均光譜作為“理想光譜”。其次,每個樣品的基線平移量和偏移量可以通過最小二乘問題求得。一般情況下,MSC適用于散射與波長、樣品溶度變化無關的情況,而處理組分性質變化較寬的樣品效果較差。
1.2.2 標準正態(tài)變量變換標準正態(tài)變量變換主要用于減少由于顆粒大小不均勻、顆粒表面散射、光程變化對漫反射光譜的影響[9]。SNV 算法是假設每條光譜曲線中各波長點對應的吸光度滿足一定的統(tǒng)計分布,利用該分布對光譜曲線進行校正。它是將原始光譜數(shù)據減去這條光譜數(shù)據的均值,再除以這條光譜數(shù)據的標準偏差。
MSC 算法是對一組光譜進行處理,SNV 則是單獨處理一條光譜,因此一般認為SNV 的校正效果比MSC 強。
使用近紅外光譜儀器檢測樣品時,溫度的變化、儀器本身的機械電子器件如光源、檢測器的變化都容易造成光譜旋轉和基線漂移。目前,一階導數(shù)常用于消除NIRS 光譜中的基線漂移,二階導數(shù)用于消除NIRS 光譜的旋轉[10]。對光譜的求導方式有Savitzky-Golay 求導法和直接差分法。直接差分法處理低分辨率的光譜數(shù)據時會存在求導結果失真的問題,它通常用于高分辨率的光譜數(shù)據。由于Savitzky-Golay 求導法是通過最小二乘法計算導數(shù)系數(shù),該方法可以有效地避免計算結果失真的問題[11]。導數(shù)法處理光譜數(shù)據的優(yōu)點是可以分辨重疊光譜、提高分辨率和靈敏度、消除基線和其他背景的干擾,不足之處是在求導的過程中會放大噪聲,特別是對信噪比較低的光譜數(shù)據。因此,導數(shù)法通常是用來處理信噪比和分辨率較高的光譜數(shù)據,或者在求導之前先用平滑法降噪。
實驗數(shù)據通常會存在光譜特征冗余現(xiàn)象,導致所建模型的預測精度降低。因此,采用光譜特征選擇的方法,去除光譜特征中的冗余特征和無關特征,可以提高光譜分析速度和精度,優(yōu)化模型的性能。本文主要研究基于區(qū)域和基于單變量的兩類光譜特征選擇方法。
2.1.1 間隔偏最小二乘和組合間隔偏最小二乘間隔 偏 最 小 二 乘 法[12](interval partial least squares,iPLS)是一種光譜特征波段選擇的方法,其原理如下:首先,選擇一個大小合適的窗寬w,將原始光譜劃分為n 個窗寬為w 的區(qū)間;其次,在這n 個區(qū)間中分別進行iPLS 處理,再通過比較每個區(qū)間的某些評價指標(如RMSECV、RMSECP)選擇出一個最優(yōu)區(qū)間;最后,以最優(yōu)區(qū)間為中心單向或雙向擴充(或消減)特征波長點,得到最佳的波長區(qū)間。
iPLS 的優(yōu)點是通過圖形可呈現(xiàn)每個波長區(qū)間的模型,從光譜圖中找到與待測樣品相關性最大的波長區(qū)間,并且可將全譜模型與波長區(qū)間模型進行比較。但缺點是只能選擇一個最佳波長區(qū)間建模,未考慮多種波長區(qū)間組合的情況。為克服該問題,有研究者在iPLS 基礎上提出了組合間隔偏最小二乘法(SiPLS)[13]。SiPLS 是在同一次波長劃分中,將不同個數(shù)的、局部模型精度較高的波長區(qū)間的任意組合,得到誤差最小且相關系數(shù)最大的波長區(qū)間組合,共同預測樣品的含量或品質。然而,SiPLS的運算次數(shù)和運算時間會隨著組合波長區(qū)間個數(shù)的增加而增加。
2.1.2 移動窗口偏最小二乘移動窗口偏最小二乘(moving windows partial least squares,mwPLS)是選擇一個窗寬大小合適的窗口,該窗口沿著光譜軸依次向右移動,每移動一個波長點,就采用交互檢驗方式建立一個模型,選擇RMSECV 和RMSEP值最小對應的波長區(qū)間就是最佳波長區(qū)間[14]。mwPLS 的優(yōu)點是在有干擾的情況下,模型仍然穩(wěn)定。此外,窗寬是重要的參數(shù),它會影響模型的精度和預測能力。
2.2.1 連續(xù)投影法1965 年,Bregman 首先提出連續(xù)投影法(successive projection algorithm,SPA)來解決凸可行問題,但現(xiàn)在它在生物醫(yī)學成像、信號處理、光譜計量學等領域已經得到了廣泛的應用[15-16]。SPA 是一種向前循的特征選擇算法,從一個特征開始,分別計算它在未被選入的特征上的投影,將投影特征最大時對應的特征引入到新的特征組合中,算法循環(huán)n 次結束,n 為需要提取的特征數(shù)量。每一個新選入的特征,都與前一個特征的共線性最小。因此,SPA 算法只需選擇原始光譜數(shù)據中少量幾列冗余度低的數(shù)據,就能概括絕大多數(shù)樣品的光譜變量信息,提高校正模型的預測能力和穩(wěn)定性。
2.2.2 無信息變量消除法無信息變量消除法(uninformative variables elimination,UVE)是由Centner等人提出的變量篩選方法[17-18],用于去除建模過程中不提供有效信息的變量,即無信息變量。其目的是減少建模過程中變量的個數(shù),降低模型的復雜性,改善模型的質量。UVE 方法過程如下:一是將自變量矩陣與因變量矩陣進行回歸,并選取最佳主因子個數(shù);二是在PLSR 模型中添加一組與自變量矩陣維數(shù)相同的隨機噪聲矩陣,將自變量矩陣與噪聲矩陣組合得到組合矩陣;三是采用留一交叉驗證法對組合矩陣與因變量矩陣進行PLSR 回歸,求得回歸系數(shù)矩陣;四是由系數(shù)矩陣的標準差和均值,求出均值和標準差的比值,選擇出噪聲矩陣均值和標準差的比值的最大絕對值作為閾值;五是去除自變量矩陣中均值和標準差的比值小于閾值的變量,并將剩余變量組成新矩陣。
化學計量學方法通常分為定量分析和定性分析兩大類,一般用于近紅外光譜分析中的模型建立。常用的定量分析方法有PLS、多元線性回歸法(multiple linear regression,MLR)、主成分回歸(principle component regression,PCR)、支持向量機(support vector machine,SVM)等。定性分析方法有k 近鄰法(k-nearest neighbor,KNN)、BP神經網絡(BP-ANN)、簇類的獨立軟模式分類法(soft independent modeling class analogy,SIMCA)等。
3.1.1 線性方法(1)偏最小二乘:S. Wold 等人于1983 年提出偏最小二乘的概念,PLS 融合典型相關分析、主成分分析、多元線性回歸方法于一身[19]。PLS 具有許多傳統(tǒng)分析方法不具有的優(yōu)點:適用于樣本量少、變量多的情況;能夠處理自變量的多重相關性問題;可根據需要,使用全部或部分信息用于建立模型等。PLS 目前在近紅外光譜分析領域中應用廣泛,可用于食用油、玉米、煙草、藥品等復雜成分分析[20-22]。(2)多元線性回歸:在回歸分析中,兩個或兩個以上的自變量稱之為多元線性回歸。MLR 的計算結果易于理解,計算不復雜。然而,該方法不適用于非線性關系的數(shù)據,且使用MLR 方法的前提是樣本數(shù)量必須大于特征數(shù)量。因此,用多元線性回歸建模前通常需對原始光譜進行特征選擇[23]。(3)主成分回歸:主成分回歸(PCR)是一種結合主成分分析和多元線性回歸的統(tǒng)計方法[24]。它用PCA 降維得到的主成分為新變量做回歸分析,主要解決多元共線性問題。由于新變量之間互不相關,這可以克服MLR 中模型不穩(wěn)定的問題。王鐸等[25]采用PCR 方法建立定標模型用于大豆育種材料脂肪酸含量的快速測量。
3.1.2 非線性方法(1)支持向量機:支持向量機(SVM)是一種非線性的分類方法,常用于“二分類”問題中。該方法的目標是在訓練集的樣本集空間中尋找最大間隔超平面[26]。SVM 即可線性分類,也能通過核函數(shù)用于非線性分類。支持向量機在NIRS 光譜模式識別中得到了廣泛的應用[27]。SVM 的分類思想簡單,只要找到與樣本間隔最大的超平面即可,計算開銷小。但是SVM 方法存在一些缺點:如不適應于多分類問題,對缺失數(shù)據、參數(shù)調節(jié)及核函數(shù)選擇敏感。(2)人工神經網絡:人工神經網絡(ANN)非線性模型的建立是模擬人腦的活動過程,模擬人的腦細胞建立神經元,許多相關聯(lián)的神經元形成神經網絡,再反復對神經網絡上的參數(shù)調整,直到預測誤差均方根小于設定的閾值或模型訓練達到最大迭代次數(shù)。ANN 具有自適應學習能力、能處理非線性問題、集體運算能力、具有較強的容錯性等優(yōu)點,被廣泛應用在人工智能和模式識別領域。神經網絡的種類繁多,包括徑向基函數(shù)網絡、BP 神經網絡、卷積神經網絡等,其中BP 神經網絡在光譜分析中應用較為廣泛。劉歡等[28]分別采用PLS、PCA 結合BP 神經網絡、PLS 結合BP 神經網絡方法建立鯽魚新鮮度定量預測模型。
3.2.1 線性方法主成分分析:主成分分析利用“降維”的思想,將原始變量通過線性組合得到若干個主成分,且各主成分之間互不相關。使用主成分降維,通過累計貢獻率來確定主成分數(shù)。PCA 不僅用于近紅外光譜特征選擇,還可用降維得到的數(shù)據分布建立定性模型。李跑等[29]利用PCA 方法對大米進行鑒別分析,付小環(huán)等[30]采用PCA 法建立茯苓定性模型。PCA 可降維,但PCA 得到的主成分卻失去物理意義。
3.2.2 非線性方法(1)k-近鄰法:k-近鄰法(KNN)是常用的分類方法,其核心是依據距離判斷待測樣本的類別,將待測樣品將被指派到它的k 個近鄰中的多數(shù)類中[31-32]。KNN 方法簡單、易于理解,但當訓練數(shù)據量較大的時候需要占用大量的存儲空間,并且距離計算過程耗時。因此,KNN 適用于特征少,樣本量少的數(shù)據集。在光譜分析中,KNN 方法常用建立定性模型[33-34]。(2)BP 神經網絡:BP 神經網絡不但可建立定量分析模型,還可建立定性分析模型。徐子杰等[35]基于多參考相關系數(shù)法和BPANN 建立礦物藥紫石英的近紅外光譜定性模型。苗靜等[36]將二維相關近紅外譜參數(shù)化方法BP-ANN結合,建立判別模型實現(xiàn)牛奶的真假鑒別。
除了定量分析和定性分析兩類建模方法外,還有SIMCA、偏最小二乘判別分析、移動標準偏差法等其他方法,它們常用于水果、木材、農產品、中藥等鑒別分析[37-45]。
數(shù)據預處理、特征選擇、建模方法是近紅外光譜分析中重要的三個步驟。根據應用的特點,方法的原理、優(yōu)缺點,恰當?shù)剡x擇這些方法有益于解決實際應用。數(shù)據預處理方法能夠減少無關信息和噪聲信息的影響,提升模型的預測精度和穩(wěn)定性;特征選擇目的是選擇對建模有益的波長點,減少變量數(shù)量、提高模型的訓練效率;根據不同的實際問題選擇合適的建模方法有助于提高模型的質量。
本文簡要介紹光譜預處理、特征選擇和建模過程中部分方法的原理、特點、應用,為相關學者研究與應用起到拋磚引玉的作用。然而,近紅外分析過程中仍然存在一些需要解決的問題。如(1)模型的轉移:近紅外分析中,有時同一種方法在類似應用中效果也較好,如果能進行模型轉移,則可減少部分重復工作,提升效率;(2)算法的選擇和結合:光譜預處理、特征選擇及建模三個過程不是單獨的,是相輔相成的。因此,如何利用現(xiàn)有的各過程方法的原理、優(yōu)缺點,將它們有效地結合或做相應的改進提升模型質量值得進一步研究。