周昭露,李杰,黃生權(quán),田淑華,劉玉嬌,魯亮,張揚,黃延盛,王學(xué)重
(1華南理工大學(xué)化學(xué)與化工學(xué)院,廣東 廣州 510640;2無限極(中國)有限公司,廣東 廣州 510623;3晶格碼(青島)智能科技有限公司,山東 青島 266109)
?
近紅外光譜技術(shù)在中藥質(zhì)量控制應(yīng)用中的化學(xué)計量學(xué)建模:綜述和展望
周昭露1,李杰1,黃生權(quán)2,田淑華3,劉玉嬌3,魯亮2,張揚1,黃延盛2,王學(xué)重1
(1華南理工大學(xué)化學(xué)與化工學(xué)院,廣東 廣州 510640;2無限極(中國)有限公司,廣東 廣州 510623;3晶格碼(青島)智能科技有限公司,山東 青島 266109)
摘要:近紅外光譜(NIR)是制藥工業(yè)領(lǐng)域應(yīng)用最為廣泛的過程分析技術(shù)(PAT),在中藥產(chǎn)品質(zhì)量的在線實時檢測和控制中越來越受到重視。和化學(xué)藥相比,由于中藥組成的復(fù)雜性和生產(chǎn)加工過程的特殊性,對利用化學(xué)計量學(xué)建立NIR預(yù)測模型,提出了新的挑戰(zhàn)。本文對NIR在中藥質(zhì)量控制應(yīng)用中的化學(xué)計量學(xué)建模方法和技術(shù)進行了綜述并對未來發(fā)展做了展望。綜述涉及到NIR數(shù)據(jù)的采集、預(yù)處理、分組,特征波段自動選取,建模以及模型的驗證和評價。討論了平滑、導(dǎo)數(shù)、標準化算法、數(shù)據(jù)增強算法和主元分析等預(yù)處理方法對模型影響。特征波段的選取述及間隔偏最小二乘、遺傳算法、無信息變量消除、隨機蛙跳法、競爭自適應(yīng)重加權(quán)采樣和重要變量投影法等;建模方法論及線性和非線性技術(shù)包括主元回歸、偏最小二乘回歸、人工神經(jīng)網(wǎng)絡(luò)和支持向量機回歸等。未來的NIR建模平臺應(yīng)該是一個在后臺集成各種復(fù)雜的數(shù)學(xué)算法和實現(xiàn)數(shù)據(jù)的無縫共享,面向用戶的前臺則是友好、簡單、智能的半自動界面環(huán)境。論述結(jié)合具體的實例進行。
關(guān)鍵詞:近紅外光譜技術(shù);中藥;質(zhì)量控制;化學(xué)計量學(xué)
第一作者:周昭露(1991—),女,碩士研究生,從事近紅外建模技術(shù)研究。E-mail cezhou.zhaolu@mail.scut.edu.cn。聯(lián)系人:王學(xué)重,教授,博士生導(dǎo)師,研究方向為制藥工程和過程控制。E-mail xuezhongwang@scut.edu.cn。 黃生權(quán),博士,研究方向為制藥工程和過程檢測。E-mail 14321084@qq.com。
中藥,包括以中藥材為基礎(chǔ)的營養(yǎng)保健品,是中華民族的瑰寶,為世界醫(yī)藥史的發(fā)展做出了突出的貢獻。中藥在國際市場上也越來越得到認可,全世界每年中藥貿(mào)易額正以10%的速度遞增。但是根據(jù)2007年的一組統(tǒng)計數(shù)據(jù),在國際中成藥市場上日本占80%份額,韓國占10%,而我國僅占5%。同時日本、韓國、東南亞以及西歐的一些草藥企業(yè)還從我國低價購入原料藥就地粗加工,運回國內(nèi)精煉提取制劑后以高價返銷進入中國市場。我國中藥生產(chǎn)企業(yè)制藥水平整體還不高。只有中藥的質(zhì)量和品質(zhì)得到充分的保障,中藥在國內(nèi)市場的地位才能得到鞏固,在國際市場上的份額才能增長。
氣相色譜(GC)、高效液相色譜法(HPLC)[1]、X-射線衍射分析法(XRD)[2]、紫外分光光度法(UV)[3]、滴定法等在中藥成分定性和定量分析中應(yīng)用已經(jīng)非常廣泛[4]。然而,由于對樣品的化學(xué)分析通常需要經(jīng)過復(fù)雜的預(yù)處理,不僅消耗大量的人力和物力,還由于測量時間上的滯后不能對工藝生產(chǎn)過程及時調(diào)節(jié)以排除問題實現(xiàn)及時調(diào)控。近紅外光譜技術(shù)(near infrared,NIR)對中藥復(fù)雜組成的測量相對于傳統(tǒng)的化學(xué)分析方法有明顯的優(yōu)勢,具有快速、低消耗、無破壞性、幾乎無需樣品預(yù)處理等優(yōu)點。NIR的應(yīng)用可以是離線取樣測量代替?zhèn)鹘y(tǒng)的化學(xué)分析方法,但更有吸引力的是在線測量探頭,由于能夠?qū)崟r測得產(chǎn)品質(zhì)量數(shù)據(jù)可以及時進行操作工況的調(diào)控。
過程分析技術(shù)(process analytical technology,PAT)因為在分析技術(shù)前面加了‘過程’二字,主要指用于在線測量的分析技術(shù)。因為藥品和食品是特殊的產(chǎn)品,政府監(jiān)管一向比較嚴,新工藝、新設(shè)備、新的測量和控制技術(shù)的應(yīng)用一般要經(jīng)過監(jiān)管部門的批準,增加了企業(yè)的成本。因此嚴格的監(jiān)管長期以來是造成藥品生產(chǎn)制造技術(shù)進步緩慢的重要原因之一。為了推動技術(shù)進步,美國食品和藥品管理局(Food and Drug Administration,F(xiàn)DA)提出了PAT計劃[5-6]。PAT強調(diào)的是在藥品生產(chǎn)過程的各個環(huán)節(jié)上(原料、生產(chǎn)、包裝等)在線對產(chǎn)品質(zhì)量參數(shù)和過程關(guān)鍵參數(shù)及時測量并調(diào)控,從原理上加深對過程的了解,找到設(shè)計空間,減少和消除產(chǎn)品生產(chǎn)的批次差異。相應(yīng)的,如果企業(yè)能夠證明由于采用了PAT技術(shù)對過程加深了解,F(xiàn)DA可相應(yīng)的在監(jiān)督上降低企業(yè)成本。FDA的PAT計劃是根據(jù)“質(zhì)量源于設(shè)計”的理念提出的,鼓勵生產(chǎn)過程的設(shè)計、控制和質(zhì)量保證的創(chuàng)新性、高效性。旨在確保關(guān)鍵產(chǎn)品的品質(zhì),及時對過程性能特征進行測量,獲得生產(chǎn)過程的單個或者多個條件參數(shù),進而對生產(chǎn)加工過程進行設(shè)計、分析和控制,力求保障最終產(chǎn)品的質(zhì)量[7]。過程分析技術(shù)應(yīng)用在生產(chǎn)過程中可以為企業(yè)降低生產(chǎn)成本、縮短生產(chǎn)周期、提高產(chǎn)品質(zhì)量、改善生產(chǎn)環(huán)境等。NIR技術(shù)作為近年來最受歡迎的過程分析技術(shù),在石油化工[8]、農(nóng)業(yè)、食品工業(yè)[9]、制藥工業(yè)[10]以及環(huán)境行業(yè)等廣泛應(yīng)用?;赑AT的藥品生產(chǎn)技術(shù)的各個組成部分可按圖1描述。首先需要利用單個PAT儀器對各個變量進行實時在線測量。因為這些測量一般為光譜或圖像,需要利用化學(xué)計量學(xué)和信號處理技術(shù)對其處理?;赑AT對過程更深入的了解來自多變量刻畫,獲得多變量設(shè)計和操作空間,產(chǎn)品質(zhì)量與操作條件以及原料的因果關(guān)系,多變量統(tǒng)計控制和閉環(huán)控制。PAT對基于過程機理的模擬強調(diào)不夠,但是必須集成基于多尺度和介尺度的模擬優(yōu)化。
表1是幾年前某國際大制藥企業(yè)對PAT實際應(yīng)用情況的調(diào)查匯總。從中可以看出,目前實際用于生產(chǎn)的PAT技術(shù)還很有限,許多技術(shù)還有待開發(fā)。從表中還可以看出,NIR光譜技術(shù)是制藥領(lǐng)域目前應(yīng)用最為廣泛的PAT技術(shù)。NIR光譜技術(shù)近年來蓬勃發(fā)展,F(xiàn)DA、歐洲和加拿大藥物局已正式采用NIR光譜分析技術(shù)取代繁瑣費時的品管分析方法。一些知名制藥大公司(如美國輝瑞公司)將NIR技術(shù)用在化學(xué)藥生產(chǎn)過程的質(zhì)量控制,從根本杜絕了不合格產(chǎn)品出廠,保證了產(chǎn)品質(zhì)量,為企業(yè)節(jié)省了大量人力、物力。國內(nèi)在中藥分析方面也取得了較快的發(fā)展,《中華人民共和國藥典》2005版已將“近紅外分光光度法指導(dǎo)原則”列入目錄,應(yīng)用方面包括藥材質(zhì)量鑒定、藥材有效成分含量測定以及簡單制劑的成分分析,但對于中藥材-提取分離-制劑過程的在線檢測研究則報道較少。
圖1 基于過程分析技術(shù)的藥物制造
表1 PAT在制藥工業(yè)的應(yīng)用
目前,近紅外光譜技術(shù)在中藥材的定性分析,中藥成分的離線、在線定量分析領(lǐng)域中有大量的文獻報道。NIR在中藥中的應(yīng)用綜述性的文章也有一些報道。周文婷等[11]綜述了NIR光譜技術(shù)在食品、農(nóng)業(yè)、藥理、中藥(產(chǎn)地、真?zhèn)巍⑺幉暮椭谐伤幹械乃?、有效成分含量、中成藥含量)等方面質(zhì)量評價中的應(yīng)用。李洋等[12]系統(tǒng)地闡述了在線NIR光譜技術(shù)中藥生產(chǎn)過程分析與控制方面的應(yīng)用,并以NIR光譜分析平臺的搭建為例,說明NIR光譜技術(shù)的應(yīng)用可行性。上文中周文婷和李洋的綜述更加傾向于概述近紅外在中藥中的具體應(yīng)用和部分近紅外儀器,對化學(xué)計量學(xué)建模基本沒有涉獵。CHAO 等[13]的綜述也是關(guān)于NIR在中藥領(lǐng)域的應(yīng)用,內(nèi)容更詳細,而且涉及到了化學(xué)計量學(xué)方法,但是對化學(xué)計量學(xué)建模的綜述部分還不夠深入和詳盡。本文注重結(jié)合化學(xué)計量學(xué)方法和具體應(yīng)用闡述NIR運用到中藥質(zhì)量控制中的建模的重要性。并以中藥混合物中某成分的定量模型的訓(xùn)練過程,說明各種化學(xué)計量學(xué)方法的運用和選擇。
近紅外光譜技術(shù)在應(yīng)用于傳統(tǒng)中藥制造過程的定量和定性分析方面已經(jīng)取得了很大的發(fā)展[11],定性包括區(qū)分中藥的種類[14-15]、產(chǎn)地[16-18]、真?zhèn)蝃19],定量中藥中的有效成分等[20-22],以及各制藥工藝工段例如藥物提取[23-24]、洗脫[25]、濃縮、純化、淳沉[26]中終點參數(shù)評價。NIR還被用于產(chǎn)品中包括顆粒[27]、緩釋制劑[28]、片劑[29]、固體分散體[30]等的刻畫。綜上,NIR可用在整個中藥生產(chǎn)過程中,包括中藥材原料的檢驗,提取過程、洗脫、濃縮、醇沉、收膏、配液等生產(chǎn)過程中的一個或者多個關(guān)鍵質(zhì)量控制參數(shù)的監(jiān)測,以及產(chǎn)品合格檢驗。
1.1 NIR儀器供應(yīng)商
我國早期陸續(xù)進口了一些近紅外分析儀,主要來自德國Bruker公司、美國Brimrose公司、美國Thermo Fisher公司、英國ABB公司等廠家,集中分布在農(nóng)業(yè)、石化、煙草、食品、飼料等部門,用于原材料的品質(zhì)分析和產(chǎn)品的質(zhì)量控制。值得注意的一個問題是,西方發(fā)達國家已有的近紅外光譜分析技術(shù)雖然比較成熟,并已成功應(yīng)用于許多化學(xué)藥的生產(chǎn)過程,但實踐證明由于中藥生產(chǎn)過程的特殊性和復(fù)雜性,進口的近紅外儀器設(shè)備基本上為通用型配置,在我國應(yīng)用到中藥的復(fù)雜體系中普遍遇到困難,尤其表現(xiàn)在成分預(yù)測誤差大。要實現(xiàn)NIR中藥應(yīng)用的技術(shù)上的突破,首先需要在NIR信號特征信息提取、建模、模型驗證上取得技術(shù)的突破。
表2列舉了部分國內(nèi)外近紅外測量儀器的供應(yīng)商。國外近紅外儀器的發(fā)展相對較為成熟。其中德國的Bruker、美國Thermo、英國的ABB等更是近紅外儀器行業(yè)的領(lǐng)頭羊。雖然我國在近紅外光譜儀的研發(fā)起步較晚,近年來也陸續(xù)在儀器的穩(wěn)定性、精密性,儀器分析系統(tǒng)軟件,化學(xué)計量學(xué)以及儀器的售后服務(wù)等方面取得一定的成果。但是在儀器的一些關(guān)鍵技術(shù)方面(如信噪比、儀器間的通用性)還存在一定的差距。如今,近紅外光譜儀作為最受矚目的過程分析技術(shù)之一,其在線應(yīng)用有巨大的潛力,所以需要近紅外儀器硬件、軟件、技術(shù)服務(wù)等多個方面共同發(fā)展。故在線分析系統(tǒng)的軟件必須要具備光譜實時采集和化學(xué)計量學(xué)光譜分析的功能。NIR光譜的定性和定量的準確性取決于建立模型的穩(wěn)定性、可靠性。所以在接下來的文章中將對NIR的建模技術(shù)及各種方法進行綜述。以期為以后的NIR建模提供參考方法。
1.2 NIR吸收譜帶
表2 部分國內(nèi)外近紅外儀器供應(yīng)商[94]
美國材料與試驗協(xié)會(ASTM)規(guī)定NIR光譜的波長范圍為780~2526nm(12820~3959cm?1)。NIR吸收帶是由-CH、-NH、-OH等官能團伸縮振動的倍頻和合頻吸收。NIR光譜主要反映-CH、-NH、-OH、-SH等官能團信息,幾乎涵蓋了所有的有機化合物和混合物。例如某中藥口服液在近紅外1100~2300nm區(qū)間的吸收有一下特征:1423nm附近有強吸收峰,該吸收峰是溶液中水的-OH鍵伸縮振動的第一倍頻峰吸收峰,1935nm左右吸收峰是-OH鍵的合頻吸收帶;1100~1400nm是-CH的第二倍頻和合頻吸收帶;2000~2300nm是-CH,-NH,-OH伸縮振動的指紋吸收峰的組合。因為水-OH的兩個吸收帶很強,覆蓋了其他中藥中有效成分在該波長范圍內(nèi)的特征吸收,這對NIR光譜的分析增加了難度,所以在運用化學(xué)計量學(xué)建分析模型的時候,需要對NIR光譜進行預(yù)處理,選擇有用的光譜信息。
NIR光譜采集方式主要分為透射、透反射、漫反射(普通漫反射和積分球漫反射)等。根據(jù)樣品的性質(zhì)不同采用不同的光譜采集方式:對于均勻透明的液體,采用透射的方式;如果是顆粒、粉末類型的一般采用漫反射;漿狀、黏稠狀含有懸浮顆粒的液體多采用漫透射和漫透反射。在對中藥定性分析時樣品通常為粉末,常采用漫反射和積分球漫反射。中藥有效成分提取或濃縮過程在線采集光譜常用透反射。YAN等[31]在定量刺梨木中多糖含量時將樣品處理成粉末以漫反射方式采集NIR數(shù)據(jù);劉冰等[32]在測量黃芪精口服液中黃芪多糖和黃芪甲苷的含量時,NIR光譜采集用透射方式;JIN等[33]在乙酸鈉(提取自天師栗中三萜皂苷的一種鹽)洗脫過程中以透射的方式采集NIR光譜。白雁等[34]對山藥中多糖含量的分析,將新鮮山藥干燥后粉碎過篩,以積分球漫反射方式采集NIR光譜。總之,NIR光譜的采集方式根據(jù)樣品的性質(zhì)而定。
1.3 化學(xué)計量學(xué)建模在NIR光譜儀使用中的重要性
回顧歷史,化學(xué)計量學(xué)建模在NIR發(fā)展的歷程中曾經(jīng)起到了決定性的作用。在20世紀60年代以前,和中紅外(mid-IR)相比,NIR并沒有得到重視。主要原因是它的弱吸收和譜峰的重疊較嚴重,難以從譜圖中抽取組分特征信息。20世紀70年代后NIR獲得喜愛的原因除了近紅外儀器硬件改進提高了檢測靈敏度外,主要是由于基于主元素分析技術(shù)的化學(xué)計量學(xué)的發(fā)展使近紅外線儀器有效地從譜圖中提取組分的特征信息成為可能。許多學(xué)者通過對先進的化學(xué)計量學(xué)算法的研究,將NIR應(yīng)用到了以前NIR不能應(yīng)用的領(lǐng)域,例如結(jié)晶。因為NIR的譜圖不僅受溶液濃度的影響,還受到顆粒濃度和大小的影響,因此NIR盡管是最受歡迎的PAT技術(shù),然而在結(jié)晶過程溶液濃度的測量中多用mid-IR,NIR應(yīng)用很少,因為無法區(qū)分NIR譜圖的變化是由溶液濃度變化引起的還是顆粒造成的。MA等[35]結(jié)合遺傳算法和支持向量機開發(fā)的化學(xué)計量學(xué)建模方法可從同一張譜圖同時準確預(yù)測溶液濃度和顆粒粒度,使NIR應(yīng)用于結(jié)晶的缺點變成了優(yōu)點。另一個例子是校準數(shù)據(jù)的問題。一般不管NIR或mid-IR的應(yīng)用均需要多組已知濃度的溶液的譜圖作為校準數(shù)據(jù)建立關(guān)聯(lián)模型。如果溶液中存在未知組分,例如某些反應(yīng)過程中轉(zhuǎn)瞬即逝的未知中間產(chǎn)物,由于模型建模中沒有見過,因此不能預(yù)測。WANG等[36]提出的基于獨立元素分析的NIR光譜分析方法就不需要校準數(shù)據(jù),能夠自動從混合物的譜圖中分解出構(gòu)成該混合物的各個組分的譜圖并推算出各部分的濃度。再一個例子是NIR用于測量微量雜質(zhì)濃度的應(yīng)用。目前還缺少方便準確的能夠在線測量藥典規(guī)定的雜質(zhì)最大濃度以下的雜質(zhì)濃度的儀器。有的近紅外的儀器信號在這樣低的濃度下仍然對濃度的變化較靈敏,主要存在模型預(yù)測誤差較大問題。據(jù)作者所知,有西方的制藥公司正在研究新的化學(xué)計量學(xué)方法,如果取得突破,NIR就可以成為一款有效的在線測量過程中雜質(zhì)濃度的儀器。NIR在中藥生產(chǎn)質(zhì)量檢測和控制中的應(yīng)用并非都很成功。主要反映在預(yù)測誤差大,重復(fù)性穩(wěn)定性不夠好等。這可能是由于中藥生產(chǎn)過程的特殊性和復(fù)雜性,而進口的近紅外儀器設(shè)備基本上為通用型配置,在我國應(yīng)用到中藥的復(fù)雜體系中遇到困難。要實現(xiàn)NIR中藥應(yīng)用的技術(shù)上的突破,首先需要在NIR建模方法,特征信息提取、建模算法、模型驗證上取得技術(shù)的突破。
NIR光譜數(shù)據(jù)不能直接反映中藥的組分信息,需要把NIR光譜和可靠的化學(xué)測量結(jié)果結(jié)合起來通過建立定性和定量校正方程完成對待測組分信息的測量,即建立校準模型。NIR光譜分析的過程首先是用一定數(shù)量的校正數(shù)據(jù)(包括NIR數(shù)據(jù)和參考數(shù)據(jù))建立一個模型;用驗證數(shù)據(jù)對所建模型進行評估;模型滿足要求以后可以對未知樣品進行預(yù)測;在模型使用過程中必須實時對模型監(jiān)測,以便對模型進行及時維護。NIR光譜分析的流程如圖2所示。
圖2 近紅外光譜分析流程圖
2.1 用于模型建立的校正數(shù)據(jù)的獲取
在許多在線NIR應(yīng)用于生產(chǎn)產(chǎn)品質(zhì)量控制的例子中[37-38],用于建模的校正數(shù)據(jù)多來自生產(chǎn):NIR光譜數(shù)據(jù)來自生產(chǎn)現(xiàn)場,而相應(yīng)的參考數(shù)據(jù)來自實驗室的化學(xué)分析或色譜分析。因此需要注意的一個問題是,數(shù)據(jù)變化的空間范圍有多寬。因為建模主要是建立譜圖數(shù)據(jù)和參考數(shù)據(jù)的關(guān)聯(lián)關(guān)系。雖然不能說這種建立的數(shù)學(xué)關(guān)系模型不能反映一定的輸入輸出的機理關(guān)系,畢竟這種關(guān)系反映了一定的輸入輸出的機理,但基本上還是被認為是基于數(shù)據(jù)的經(jīng)驗?zāi)P?。因此其適用范圍能夠給出可信的準確預(yù)測的空間領(lǐng)域一般不能超出訓(xùn)練數(shù)據(jù)的范圍。這和化工過程中基于三傳一反和相平衡的機理模型不同,機理模型一般適用范圍更廣。應(yīng)用來自生產(chǎn)的數(shù)據(jù)作為建模的校正數(shù)據(jù)就存在一定的風險,即數(shù)據(jù)的變化范圍不夠?qū)?。模型在實際應(yīng)用中跑到可信空間之外的可能性就較大。這樣就帶來了3個需要考慮問題:需要關(guān)注校正數(shù)據(jù)的范圍和注意如何在多維空間中刻畫多維數(shù)據(jù)的范圍;實際使用時如何得知模型是在可信度范圍之內(nèi)還是之外;什么時候需要對模型重新訓(xùn)練和如何重新訓(xùn)練以使模型能夠用于新的數(shù)據(jù)。后兩個問題在后面會詳細探討,這里對第一個問題再做進一步的闡述。
在實驗室中,經(jīng)常通過實驗設(shè)計的方式取得建立模型用的校正數(shù)據(jù)。例如表3是某利用mid-IR測量結(jié)晶過程溶液濃度應(yīng)用中產(chǎn)生校正數(shù)據(jù)的實驗設(shè)計。溫度的變化范圍是10~80℃,濃度的變化范圍是3~60g/L,因為這是實際使用中變量的變化范圍(實際上實際應(yīng)用中范圍略?。?。這里溫度變化6次,濃度變化15次,意味著配置6×15=90個已知濃度的標準溶液。這聽起來很多,但在數(shù)天到一個星期內(nèi)就可做完。表中打“v”字符號的溶液樣品,不用于建模,只是用于模型的驗證。顯然,如果應(yīng)用中溫度不變或變化不大,就不需要對溫度進行修正或只做很小的修正。這種產(chǎn)生數(shù)據(jù)的方式對于三組分(兩溶質(zhì)和溶劑)無或有微小溫度變化,或雙組分即使有較大溫度變化比較容易。如果組分比較多,遺憾的是多數(shù)中藥的應(yīng)用是多組分甚至不可數(shù)的組分,如何進行類似的實驗設(shè)計就需要探討,還沒有直接的答案。例如能否考慮只改變所關(guān)心的組分的組成進行實驗設(shè)計?
表3 配置標準溶液用于產(chǎn)生校準數(shù)據(jù)的實驗設(shè)計
不僅組分的濃度,而且溫度對NIR譜圖會有影響。因此如果NIR探頭處溫度波動而沒有溫度測量就需要注意。關(guān)于這個問題也有爭議,有人認為在線取的NIR光譜已經(jīng)反映了溫度的變化。但是組成一般是在實驗室分析的,溫度一般為常數(shù)。這就有可能有這樣的問題:兩次測量濃度是一樣的,但由于兩次測量NIR處溫度不同,NIR光譜可能有差異。如果溫度也記錄了,在建模中就可以加以考慮[39]。
2.2 數(shù)據(jù)預(yù)處理
對數(shù)據(jù)包括NIR光譜和組成數(shù)據(jù)的初步分析和預(yù)處理主要是剔除異常數(shù)據(jù),消除噪聲等。由于NIR在使用過程中儀器因素、測量環(huán)境以及人為因素等可能會造成異常樣本。樣本異常有兩種情況:一種光譜數(shù)據(jù)或參考值與真實值之間的顯著異常,另一種是光譜數(shù)據(jù)或參考值與樣本平均水平的差異。一般可以分為NIR光譜的異常和參考值異常。NIR光譜的異??梢灾苯佑^察光譜,也可以通過計算樣本之間的距離。識別光譜異常的方法有光譜殘差、馬氏距離、光譜峰異常;參考值異常的判斷方法主要有參考值絕對誤差的F統(tǒng)計檢驗和cook檢驗[40]。光譜殘差法是通過計算光譜殘差的F值,F(xiàn)值超出一定范圍的可能判斷為光譜異常;光譜的馬氏距離超過一定的閾值則判為異常樣本;計算光譜中的波長點對NIR模型的貢獻大小,該貢獻值越大說明對模型影響越大,如果該貢獻值顯著大于其他波長點的值,表明該波長點對模型不利,可認為是異常點。參考值絕對誤差的F檢驗,設(shè)定一個閾值,大于該值判為異常;參考值異常的cook檢驗即是考察cook距離和Leverage值的關(guān)系圖判斷,如果樣本的cook距離值和Leverage值都超過臨界值可以判斷樣本為異常值。
NIR光譜中不僅包含了物質(zhì)吸收的信息還有儀器噪聲、背景信息以及其他雜散光信息。所以,有時還需要對NIR光譜進行預(yù)處理減少系統(tǒng)噪聲,校正基線平移和漂移現(xiàn)象,消除背景的干擾,分辨重疊峰,提高分辨率和靈敏度。NIR光譜預(yù)處理的方法有多種,包括平滑法(Norris平滑、Savitsky-Golay)、導(dǎo)數(shù)法(一階導(dǎo)數(shù)法、二階導(dǎo)數(shù)法)、散射效應(yīng)校正(多元散射矯正MSC和標準正交變換SNV)、基線校正、小波變換、正交信號分解、數(shù)據(jù)增強算法等。平滑法減小隨機誤差和降低隨機噪聲;導(dǎo)數(shù)法可以消除基線平移,背景的干擾,分辨重疊峰,提高分辨率和靈敏度;散射效應(yīng)校正用于消除樣品差異和顆粒造成的譜帶漂移現(xiàn)象;基線校正消除基線的偏移;小波變換對某一些特殊頻率噪聲、背景做濾波處理;正交信號分解用于剔除光譜數(shù)據(jù)中的壞點;數(shù)據(jù)增強算法可以改善數(shù)據(jù)的質(zhì)量,得到更好的定性和定量模型。文獻研究表明各種方法各有優(yōu)缺點,因此在建模過程中需要對其進行選擇,選擇過程中最好和建模步驟結(jié)合起來。
2.3 樣本的劃分
雖然基于數(shù)據(jù)的關(guān)聯(lián)因不需要機理模型常被認為是其優(yōu)點,但也伴隨著一個缺點,就是外延性常常不能保證。因此用于建模的數(shù)據(jù)常常被分成兩組:訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù),前者用于對用數(shù)據(jù)進行訓(xùn)練建立模型,而沒有用于建模的驗證數(shù)據(jù)將對模型進行驗證??紤]到數(shù)據(jù)是多維的,例如NIR光譜每組數(shù)據(jù)有數(shù)以千計的波數(shù),如何將數(shù)據(jù)劃分成訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)就需要認真考慮。采用聚類分析技術(shù)對數(shù)據(jù)進行初步分類是較好的方法之一。例如WANG等[41-42]在利用生產(chǎn)數(shù)據(jù)建立產(chǎn)品質(zhì)量軟儀表的研究中將146組數(shù)據(jù)聚類成7類,然后從各類中選取驗證數(shù)據(jù),其余用于訓(xùn)練數(shù)據(jù),樣本多的類選取較多的數(shù)據(jù)作驗證,小的類選取較少的數(shù)據(jù)作驗證。如果某個類的數(shù)據(jù)樣本數(shù)遠遠大于其他類,還必須從中去掉一些數(shù)據(jù)(可以移除或用于驗證),否則模型可能會去傾向于代表數(shù)據(jù)樣本超多的類,而不能有效代表樣本較少的類。樣本分類還有許多其他的方法,例如,根據(jù)輸出的值的變化也可以對數(shù)據(jù)分類等。
在中藥NIR建模的文獻中,報道的有RS (random section)法、KS(Kennard-stone)法[43]、雙向算法(duplex)、SPXY法(sample set partitioning based on joint X-Y distances,SPXY)等,但需要指出的是可選的方法遠不止這些。RS法是從樣本中隨機選取一定數(shù)量的樣本作為校正集。丁海櫻等[44]在中藥粉末混合過程在線檢測的建模過程中利用RS法對189個樣品隨機分成校正集和驗證集。LI[45]、蔡紹松[46]和章順楠[47]等在NIR建模分析的時候,也采用了RS法將樣品劃分為校正集和驗證集。RS法適用于樣本數(shù)量較大的情況,樣本數(shù)量少時樣本的劃分可能分布不均,這樣校正集不足以代表整個樣品的性質(zhì),會影響到模型的泛化能力。KANG等[48]和WANG等[49]樣本數(shù)相對較少,采用KS法選取校正集樣本,KS法是通過計算所有樣本光譜之間的歐氏距離,依次從中選擇擁有最大最小距離的樣本作為校正集,直到達到校正集樣本要求數(shù)量。KS法考慮了光譜之間的距離劃分樣本,SPXY法則綜合考慮了NIR光譜間的歐氏距離和參考值之間的歐氏距離,再依次選擇具有最大最小距離的樣本作為校正集,直到滿足要求。ZHANG等[50]對金銀花提取液分析時用SPXY法劃分樣本。
2.4 特征波數(shù)的選取
在早期建立NIR或mid-IR組成預(yù)測模型過程中,經(jīng)常使用特征峰的峰高或峰面積等作為輸入。特征峰的選取,即特征變量的選取是很有道理的,因為和輸出沒有關(guān)系的輸入變量包含在建模中會嚴重影響模型的性能,模型的泛化能力也會降低。在訓(xùn)練數(shù)據(jù)樣本數(shù)一定的情況下,太多的輸入變量使數(shù)據(jù)在多維空間中更稀疏,因此負面影響模型的建立。輸入變量多,對于神經(jīng)網(wǎng)絡(luò)模型來講就意味著更多的神經(jīng)元的連接的權(quán)重需要決定,對模型不利。除了需要考慮有些輸入波數(shù)和輸出沒有關(guān)系的問題外,還需要考慮某些輸入變量之間也可能是相關(guān)的或非獨立的,而這也會對建模有負面影響。
減少輸入的方法有數(shù)據(jù)壓縮方法和特征波段選擇的方法。主元分析(principal component analysis,PCA)就是經(jīng)常使用的數(shù)據(jù)維數(shù)壓技術(shù),也有學(xué)者研究采用獨立元素進行數(shù)據(jù)壓縮[51]。但是利用PCA對數(shù)據(jù)進行壓縮雖然可以消除數(shù)據(jù)的相關(guān)性并大幅減小輸入數(shù)據(jù)的維數(shù),原始NIR光譜中的和輸出無關(guān)的波數(shù)信息并沒有消除掉,而是仍然包含在選擇的主元中。所以更好的方法是特征變量或特征波段的選擇,在建立模型時不考慮那些和輸出沒有關(guān)系的波數(shù)。人為選擇的方法比較粗糙,更好的特征波段選擇的技術(shù)是自動選擇。這些方法包括間隔偏最小二乘法(iPLS),組合偏最小二乘法(SiPLS)、向后偏最小二乘法(BiPLS)、遺傳算法(GA)、無信息變量消除法(UVE)、退火算法、遺傳算法(GA)、隨機蛙跳法(random frog)、競爭自適應(yīng)重加權(quán)采樣(CARS)等。因為選擇特征波段的根據(jù)是考察各個波段對輸出的貢獻,這些特征波段自動選擇的算法應(yīng)該和建模算法聯(lián)合集成使用,換句話說選擇特征波段不是和建模分開的一個步驟,而是建模的一個集成部分。
這里選擇一個在NIR偏最小二乘(PLS)建立濃度預(yù)測模型時利用基因算法(GA)進行自動波數(shù)選擇的例子展示建模中的自動波段選擇的過程[52],其中GA是一個優(yōu)化算法。該GA-PLS建模方法首先隨機選擇一個波數(shù)段的組合,選擇多少的波數(shù)段由用戶自己定義。一個波數(shù)段可以是臨近的數(shù)個波數(shù)組成,例如相鄰的6個波數(shù)作為一個波數(shù)段。在隨機選擇了一個波數(shù)段組合后,可利用所選擇的波數(shù)段建立PLS濃度預(yù)測模型,并利用一個定義的適應(yīng)度函數(shù)對其性能進行評價,適應(yīng)度函數(shù)是一個和預(yù)測誤差等有關(guān)系的一個評價模型性能優(yōu)劣的函數(shù)。如法炮制,可以隨機選擇第二個波數(shù)段的組合,建立第二個PLS模型并用適應(yīng)度函數(shù)對其進行評價。以此類推可以建立n個PLS預(yù)測模型,例如n=20,可由用戶定義。這n個模型稱為第一代種群(population),每個函數(shù)稱為一個染色體(chromosome),每個波數(shù)段成為基因(gene)。根據(jù)GA優(yōu)化算法中優(yōu)勝劣汰的原則,放棄適應(yīng)度函數(shù)值較低的數(shù)個函數(shù)(例如10個),適應(yīng)度高的函數(shù)帶入第二代。帶入第二代的函數(shù)經(jīng)過一系列GA優(yōu)化算法中的操作例如雜交(cross over)和變異(mutation)等產(chǎn)生一些新的函數(shù),由此得到第二代種群。對第二代種群的函數(shù)進行適應(yīng)度函數(shù)值評價,并再次利用優(yōu)勝劣汰的原則將沒有淘汰的函數(shù)帶入第三代。這樣一直進行下去直到滿足停止條件。停止條件可以是多個,例如誤差再繼續(xù)下去不在減小,或達到了一個比較大的代數(shù)等,滿足之一即可停止。為保證結(jié)果,可以進行數(shù)次優(yōu)化,查看是否得到相近的優(yōu)化結(jié)果。作為示例[52],圖3顯示對一組谷氨酸在水溶液中的NIR數(shù)據(jù)利用GA-PLS進行波段選擇和建模,共運行了5次,當然每次產(chǎn)生很多模型選擇其中最好的,五次比較顯示,所選擇的特征波段相近,主要分布在1140~1192nm,1209~1237nm,1322~1385nm和1580~1791nm,屬于C-H的頻率范圍。事實上五次運行建立的模型的性能也差不多。
2.5 建模技術(shù)
NIR或mid-IR建模最常用的是偏最小二乘(partial least squares,PLS)。其他常用的線性建模技術(shù)還包括主元回歸(principal components regression,PCR)、多元線性回歸法(multi linear regression,MLR)等。最具代表性的非線性建模技術(shù)是BP(back propagation)人工神經(jīng)網(wǎng)絡(luò)(ANN)。其他技術(shù)還包括支持向量機(support vector machines,SVM),有線性也有非線性的SVM建模技術(shù)。需要指出的是,對于接近線性的數(shù)據(jù),應(yīng)該采用線性模型,利用非線性的建模技術(shù)反而不如線性的方法。一個有趣的例子是被引用近200次的一篇論文[53],利用BP神經(jīng)網(wǎng)絡(luò)建立流化催化裂化的故障診斷模型。作者利用20多組數(shù)據(jù)考察了不同BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括隱含層神經(jīng)元個數(shù)對模型預(yù)測誤差的影響。其實對于這組數(shù)據(jù)用一個簡單的矩陣模型(當然是線性且沒有隱含層、也沒有類似于神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù))就可以得到對每組數(shù)據(jù)誤差均為零的模擬結(jié)果。這是因為作者并沒有意識到這20多組數(shù)據(jù)是完全線性的,要想利用BP神經(jīng)網(wǎng)絡(luò)模擬這組數(shù)據(jù)對每組數(shù)據(jù)得到接近零的誤差,需要無窮多個傳遞函數(shù)的疊加。這組20多組數(shù)據(jù)是人為根據(jù)故障的邏輯關(guān)系造出的,不是工廠或模擬產(chǎn)生的數(shù)據(jù)。產(chǎn)生數(shù)據(jù)的邏輯關(guān)系本身是描述的線性關(guān)系。除了線性和非線性外,具體建模技術(shù)的選擇也很重要。例如,上節(jié)提到的利用GA-PLS建模技術(shù)預(yù)測溶液濃度的例子[52],用同樣方法建立預(yù)測晶體粒度(尺寸)模型時,就得不到理想的預(yù)測結(jié)果。MA和WANG[35]利用GA-SVM,用遺傳算法進行波段選擇用支持向量機進行建模,不僅得到了略好于GA-PLS的濃度預(yù)測模型,還得到了滿意的顆粒粒度的預(yù)測模型。這充分說明建模技術(shù)的重 要性。
圖3 利用遺傳算法(GA) - PLS進行特征波段自動選擇和建模[52]
對于一個具體的應(yīng)用,選擇哪種特征波段選擇技術(shù)和哪種建模技術(shù)相結(jié)合才能得到理想的模型并沒有明確的規(guī)則可以遵循。比較實用的方法是各種波數(shù)選擇方法和各種建模技術(shù)進行匹配,輔助以有效的模型性能驗證方法,最終選擇最理想的模型。這聽起來工作量有些大,但是只要各種工具能夠集成起來,在數(shù)據(jù)管理和流動上自如,考慮到現(xiàn)代計算機的計算速度,這個建模策略是完全可行的。
2.6 模型評價
2.6.1 一般的評價方法
NIR模型的評價一般需要綜合考慮訓(xùn)練數(shù)據(jù)的擬合和驗證數(shù)據(jù)的預(yù)測效果。常用的評價參數(shù)有相關(guān)系數(shù)(R)公式(1)和均方根誤差(root mean square error,RMSE)公式(2)。
式中,c為樣本參考值,cμ1為模型預(yù)測值,c1為樣本均值,m和n分別為預(yù)測集樣本個數(shù)和訓(xùn)練集樣本個數(shù)。
另外,為了有效評估模型的預(yù)測能力,需要在樣本數(shù)據(jù)中選出一部分數(shù)據(jù)作為測試數(shù)據(jù),利用測試數(shù)據(jù)的預(yù)測結(jié)果來評價模型對于未知樣品的預(yù)測能力。由于不同測試數(shù)據(jù)計算出的模型預(yù)測誤差有較大的差別,所以化學(xué)計量學(xué)中經(jīng)常使用多次重復(fù)選擇不同的測試數(shù)據(jù)來綜合評價模型的預(yù)測結(jié)果,即交叉驗證(cross validation,CV)法。常用的交叉驗證的方法有留一交叉驗證、K折交叉驗證和蒙特卡洛交叉驗證等。
留一交叉驗證是每次留出一個樣本用于測試,用其余的樣本建立模型,如此重復(fù),直到每個樣本均被預(yù)測一次為止。這種方法的優(yōu)點是計算結(jié)果具有良好的一致性,缺點為計算量大,尤其是在樣本個數(shù)較多的時候,另外留一交叉驗證的結(jié)果對模型未知樣本的預(yù)測可能有較為樂觀的估計。K折交叉驗證法先將樣本分為K組(5組或10組),然后每次去掉一組,用其余的K?1組樣本建模,直到每組樣本均被預(yù)測一次。這種方法有效減少了計算量,同時對模型的預(yù)測結(jié)果也有較好的估計,缺點是由于隨機分組的存在,每次計算結(jié)果的一致性較差。蒙特卡洛交叉驗證是利用蒙特卡洛隨機取樣技術(shù),大量重復(fù)隨機取樣計算,其結(jié)果對模型的預(yù)測能力有較好的估計,缺點是計算量大。
2.6.2 其他需要考慮的因素
模型的建立應(yīng)盡量避免過擬合。如果模型描述了噪聲或隨機誤差,而不是輸入變量和輸出變量的深層關(guān)系,就稱為過擬合[54]。如果建立的模型高度復(fù)雜,相對于建模數(shù)據(jù)的數(shù)量模型參數(shù)非常多就容易造成過擬合。過擬合的模型外延性差。一般情況下模型參數(shù)少,選擇的特征變量少,且對建模數(shù)據(jù)擬合滿意的模型不容易產(chǎn)生過擬合,外延性較好。
模型的預(yù)測可信度也是一個在NIR實際應(yīng)用中普遍關(guān)心的問題。有的學(xué)者開發(fā)了模型的可信度區(qū)間的計算方法[55],在實際中也很有用。一般情況下,如果數(shù)據(jù)落入訓(xùn)練數(shù)據(jù)的多維區(qū)間內(nèi),預(yù)測誤差是可以保證的。如果數(shù)據(jù)跑到訓(xùn)練數(shù)據(jù)包含的空間之外,預(yù)測結(jié)果就不能保證。這同時帶來了另外一個問題,那就是什么時候?qū)δP托枰匦掠?xùn)練,以及如何重新訓(xùn)練(比如需要拋棄原來的數(shù)據(jù),全部用新數(shù)據(jù)訓(xùn)練模型,還是把新舊數(shù)據(jù)混在一起訓(xùn)練?)。理想的方法是采用遞歸學(xué)習(xí)的方法,每當有新數(shù)據(jù)進來時,自動改進模型——對模型在考慮了新的數(shù)據(jù)后進行修正,而不需要和以前的數(shù)據(jù)一起訓(xùn)練。例如神經(jīng)網(wǎng)絡(luò)模型ART2采用的就是這種學(xué)習(xí)模式[56-57]。雖然遞歸學(xué)習(xí)方式非常誘人,但多數(shù)建模方法(PLS、神經(jīng)網(wǎng)絡(luò)、支持向量機等)并不支持這種學(xué)習(xí)的模式。
表4總結(jié)了NIR光譜技術(shù)在中藥質(zhì)量控制應(yīng)用中建模技術(shù)的研究。在其他行業(yè)例如在食品等的應(yīng)用也發(fā)展迅速。KAWANO等[71-72]運用NIR光譜技術(shù)測量了桃子和柑橘中的糖含量,而且報道了一種水果自動分類方法。何東健等[73]比較了在線式反射光測定法、不完全遮光型透過光測定法、完全遮光型透過光測定法3種NIR測量方法在線檢測蘋果和橘子中糖度、酸度、內(nèi)部褐變,結(jié)果顯示糖度和酸度的相關(guān)系數(shù)分別大于0.95和0.85,能夠滿足在線檢測水果內(nèi)部品質(zhì)的要求。何勇等[74]采集蘋果的NIR光譜利用PCA方法對其品種聚類分析,再結(jié)合人工神經(jīng)網(wǎng)絡(luò)技術(shù)鑒別蘋果品種。利用PCA分析的載荷圖選取特征波段,建立BP人工神經(jīng)網(wǎng)絡(luò)模型,分為訓(xùn)練和預(yù)測兩組,其結(jié)果顯示識別的準確率達到100%,為蘋果品種的鑒定提供了一種新方法。
NIR光譜技術(shù)在食品行業(yè)中除了定性、定量的分析外還可以用于食物結(jié)構(gòu)的確定,BRUUN等[75]運用NIR光譜技術(shù)在線監(jiān)測麩質(zhì)蛋白的結(jié)構(gòu)、麩質(zhì)粉增加水分含量和熱處理時的相互作用的變化。光譜的預(yù)處理方法采用二階導(dǎo)數(shù)法和光譜信號校正,提高分辨率。然后分別用PCA和PLS分類和建立回歸模型,結(jié)果表明NIR光譜能夠體現(xiàn)麩質(zhì)蛋白結(jié)構(gòu)的變化。NIR光譜還用在食品的生產(chǎn)過程中,比如WU等[76]就在線采集了中國米酒發(fā)酵過程的NIR光譜,檢測發(fā)酵過程質(zhì)量參數(shù)。采用了不同的變量選擇方法、支持向量機算法提高PLS模型性能,總共建立了10種不同的校正模型。該文章表明變量選擇后的波段建模優(yōu)于全波段建模,對發(fā)酵過程參數(shù)乙醇含量和總酸含量的預(yù)測非線性模型優(yōu)于線性模型,GA-SVM模型有最好的預(yù)測準確性。NIR光譜還廣泛運用在煙草行業(yè)中,除了測定煙草中水分的含量[77],張建平等[78]用主成份回歸和神經(jīng)網(wǎng)絡(luò)等方法建立NIR光譜和成分含量的數(shù)學(xué)模型對煙草中煙堿、總糖、總氮、還原糖、氯等化學(xué)成分定量分析;王東丹等[79]選取300個煙草樣品建立了測量總糖、還原糖、尼古丁、總氮的數(shù)學(xué)模型,并得到良好的預(yù)測結(jié)果,4種成分含量預(yù)測模型的NIR預(yù)測值與分析值之間的平均相對誤差都小于5%。NIR光譜技術(shù)在食品行業(yè)的成功發(fā)展必然決定其也能在中藥行業(yè)中廣泛應(yīng)用。中藥和食品在某種程度上是一致的,需要檢測測定成分的含量,只是有些中藥是多種藥材的配方,其成分更加復(fù)雜,NIR在中藥中的應(yīng)用面臨更大的挑戰(zhàn),但在科研工作者的不懈努力中已經(jīng)取得了較大的突破。
表4 近紅外光譜在中藥質(zhì)量控制中應(yīng)用的建模
3.1 數(shù)據(jù)預(yù)處理算法
3.1.1 平滑算法
平滑算法是一種低通濾波器,通過消除信號中的高頻部分來降低信號中的噪聲。常用的平滑算法主要有移動窗口平均算法和SG算法等[80]。采用移動窗口平均算法,其結(jié)果會丟失邊界點信息;另外移動窗口寬度是一個需要恰當設(shè)定的重要參數(shù)。移動窗口過小不能顯著減少噪聲,過大又會對波譜波峰平滑太多,造成部分失真。為此Savitzky-Golay在60年代提出了SG平滑算法,至今仍在波譜預(yù)處理中廣泛使用。類似于移動窗口平滑算法的思想,對應(yīng)于使用簡單的平均,Savitzky-Golay卷積平滑算法利用多項式來對移動窗口內(nèi)的數(shù)據(jù)進行多項式最小二乘擬合,其實質(zhì)是一種加權(quán)平均法,更強調(diào)中心點的作用。在使用Savitzky-Golay卷積平滑法時,應(yīng)注意移動窗口寬度及多項式次數(shù)的優(yōu)化選擇。
3.1.2 導(dǎo)數(shù)算法
導(dǎo)數(shù)算法是將光譜吸光度數(shù)據(jù)對波長(或波數(shù))變量進行求導(dǎo)運算,用來消除光譜數(shù)據(jù)中不重要的基線漂移。它是一種高通濾波器,通過消除信號中的低頻部分來消除基線或漂移的。常用的光譜求導(dǎo)方法有直接差分法和Savitzky-Golay求導(dǎo)法[80]。對于離散波譜求導(dǎo),直接差分法是最簡單的一種方法。但直接差分法也存在一些缺點,即對于高頻采樣的波譜的求導(dǎo)結(jié)果與實際相差不大,對于低頻采樣波譜的求導(dǎo)結(jié)果誤差較大。對此,可采用Savitzky-Golay卷積求導(dǎo)法計算。Savitzky-Golay卷積平滑法除了可以用于平滑外也可用于求取導(dǎo)數(shù),在最小二乘可計算得到與平滑系數(shù)相似的導(dǎo)數(shù)系數(shù)之后,可通過查表得到求導(dǎo)權(quán)重系數(shù)。導(dǎo)數(shù)算法可以有效地消除波譜數(shù)據(jù)中的基線或偏移,另外,合適的求導(dǎo)階數(shù)可以分辨多組分的重疊峰。與此同時,導(dǎo)數(shù)運算也會增大數(shù)據(jù)噪聲,降低有效信號的信噪比。在實際使用時需要優(yōu)化選擇合適的參數(shù)。SHAO 等[81]提出了連續(xù)小波變換的方法,在噪聲信號分析中得到了較好的求導(dǎo)結(jié)果。
3.1.3 標準化算法
標準化算法主要用于消除固體顆粒分布不均、表面散射以及光程變化對NIR漫反射光譜的影響[82]。最簡單的標準化方法是每個光譜的平方和為1,即每個光譜都是單位長度。常用的標準化算法主要有多元散射校正(MSC)和標準正態(tài)變量(SNV),詳細的算法在文獻中有說明。在實際運用中,MSC 和SNV很多時候都產(chǎn)生相似的結(jié)果,一般選出較優(yōu)結(jié)果的預(yù)處理方法。另外,在使用SNV算法時,如果將光譜進行l(wèi)g1/R轉(zhuǎn)換后,會有較好的效果。
3.1.4 主元分析
主元分析(PCA)算法通過變量間的線性組合來降低變量維數(shù)。主成分之間是相互正交的,能夠有效地消除多重變量之間的共線性。由于NIR光譜相鄰波長范圍內(nèi)的吸光度有很強的相關(guān)性,利用PCA算法可以有效降低變量空間維數(shù)。另外,PCA算法也常用于鑒別與分類。主元個數(shù)的選擇有各種方法,文獻[83]對各種方法進行了綜述。
3.1.5 數(shù)據(jù)增強算法
由于待測物在NIR譜帶區(qū)間內(nèi)的絕對吸收強弱不同,在建立多元校正模型時,將光譜的相對變化值與目標函數(shù)(如待測物含量)進行關(guān)聯(lián)就顯得十分必要。因此,在建立NIR定量或定性模型時,采用一些數(shù)據(jù)增強算法(data enhancement)[84]來消除多余信息,增加樣品間的差異,而提高模型的穩(wěn)健性和預(yù)測能力。常用的算法有均值中心化(mean centering)、標準化(autoscaling)和歸一化(normalization)等,其中均值中心化和標準化是最常用的兩種方法,在用這兩種方法對光譜數(shù)據(jù)進行處理的同時,往往對目標函數(shù)(性質(zhì)或組成數(shù)據(jù))也進行同樣的變換。
3.2 變量選擇算法
3.2.1 變量投影重要性
變量投影重要性(VIP)[85-86]是基于偏最小二乘回歸的一種變量篩選方法,當多個自變量間具有較強相關(guān)性時,它通過相關(guān)自變量綜合的主成分描述了自變量對因變量的解釋能力,并根據(jù)解釋能力的大小篩選自變量。VIP值代表自變量對模型擬合的重要程度,如果各自變量對y的解釋作用都相同,則所有自變量的VIP值均為1。如果某自變量回歸系數(shù)和VIP均較小,意味著該變量對模型的貢獻很小,可以考慮剔除。對于VIP相對很大的自變量,它對y的貢獻就特別重要。一般取1作為變量篩選的閥值,其他閥值也被提出[87]。
3.2.2 無信息變量消除
無信息變量消除(UVE)是CENTNER等[88]提出的一種基于PLS回歸系數(shù)b建立的變量選擇方法。其基本原理為在原始光譜之后加上人工白噪聲信號,再根據(jù)噪聲信號的重要性確定一閥值,然后將信號中低于此閥值的變量刪除,其余變量保留。UVE方法考慮了樣本變化對模型的影響,通過加入人工噪聲用于變量的選擇。近些年,通過引入蒙特卡洛技術(shù)[89],發(fā)展蒙特卡洛無信息變量消除法[90]。
3.2.3 間隔偏最小二乘法
間隔偏最小二乘(IPLS)法[91]將光譜分為均勻連續(xù)波段,然后利用不同波段組合建立偏最小二乘回歸模型,并記錄模型的預(yù)測誤差,最后取誤差最小組合的波段。IPLS的優(yōu)點為選擇連續(xù)的波段而非單個波長進行建模,化學(xué)解釋性好。此方法的缺點在于難于確定合適的間隔寬度,為此,JIANG與KASEMSUMRAN等[92-93]提出移動窗口偏最小二乘方法(MWPLS)。MWPLS方法采用移動窗口技術(shù),對每個波段進行建模從而選取較低預(yù)測誤差的波段。
3.2.4 全局最優(yōu)算法
變量選擇可以看作是組合優(yōu)化問題,因此可以采用優(yōu)化算法進行解析。目前,全局優(yōu)化算法包括遺傳算法[94-95]、模擬退火算法、粒子群算法、差分進化算法等在變量選擇領(lǐng)域得到了較為廣泛的應(yīng)用,這類方法的主要思路為通過一預(yù)先設(shè)定的目標函數(shù)(如預(yù)測誤差)對在變量空間進行搜索,試圖找到最優(yōu)的變量子集。在上文3.4節(jié)中介紹了利用GA-PLS和GA-SVM成功建模的例子,這里不再重復(fù)。
3.2.5 模型集群分析變量選擇算法
在數(shù)據(jù)較少的情況下,現(xiàn)有變量選擇算法結(jié)果容易受樣本和變量變化的影響。為了提高模型變量的穩(wěn)定性與泛化能力,模型集群方法(MPA)被用于優(yōu)化變量方法。LI等[96]提出了競爭自適應(yīng)重加權(quán)釆樣(competitive adaptive reweighted sampling,CARS)方法和XU等[97]提出隨機青蛙(random frog)算法。模型集群分析的基本思想為利用蒙特卡洛采樣技術(shù),從原始數(shù)據(jù)中對樣本或者變量進行采樣,進而得到多個子數(shù)據(jù)集(sub-dataset),繼對每一個子數(shù)據(jù)集建立子模型(sub-model),從而形成由多個模型構(gòu)成的模型群(model population),若對這些模型進行統(tǒng)計分析,便可得到感興趣的參數(shù)(如變量重要性)的經(jīng)驗分布。CARS變量選擇方法是模仿達爾文進化理論中的“適者生存”原則,在每個迭代步驟中,通過①強制刪除,與②自適應(yīng)重加權(quán)采樣兩個步驟去掉權(quán)重較小的變量,得到相應(yīng)步驟的變量子集,如此迭代,直至變量集中僅含有兩個變量為止。然后利用MPA的思想,采取樣本隨機分組的方法,計算每個變量子集的交互檢驗誤差(RMSECV)的分布,最后選擇具有最低平均RMSECV的變量子集作為CARS方法選擇的變量集。隨機青蛙算法是基于大量序貫采樣得到的子模型,計算出每個變量的選擇頻率,用于評價變量的重要性。另外,隨機青蛙算法提供的是一種變量選擇思路,可以與回歸模型結(jié)合做定量分析的變量選擇,亦可以與判別模型結(jié)合做分類分析。
3.3 建模算法
3.3.1 主元回歸
主元回歸(PCR)是在主元分析的基礎(chǔ)上提出的,是線性回歸的一種方法。對于光譜數(shù)據(jù),在對光譜數(shù)據(jù)矩陣進行主元分析(PCA)之后,選定合適的主元個數(shù),然后對主成分和因變量(組成含量)建立回歸模型。PCR在NIR光譜分析中得到了廣泛的應(yīng)用[98]。然而,由于在主元分析未考慮因變量的影響,因此,參與建模的主成分對于目標組分有可能是干擾信息,就會降低預(yù)測的準確度??紤]到這個因素,偏最小二乘方法是一種更好的方法。
3.3.2 偏最小二乘回歸
偏最小二乘回歸(PLS)不僅考慮了輸入變量(光譜數(shù)據(jù))矩陣,而且也考慮了輸出變量(組分濃度)矩陣。PLS算法同時壓縮輸入和輸出矩陣,并使其相互正交。也就是說,PLS模型引入了輸入變量和輸出變量之間的相互關(guān)系,其參與建模的主成分消除了不相關(guān)的干擾信息。PLS算法在化學(xué)計量學(xué)[80]中被詳細的描述,是目前使用最普遍的NIR和mid-IR建模技術(shù)。PLS用于中藥組成的NIR光譜分析也被廣泛報道,例如黃亞偉等[99]將PLS成功用于NIR光譜測定人參與西洋參的主要皂甙總量,YAN等[31]將PLS算法用于刺梨木多糖組成的測定,劉全等[100]利用PLS算法建立滲漉提取過程分析的中藥有效組分NIR光譜快速測定模型。
3.3.3 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)[101]是基于生物神經(jīng)元信息傳遞和處理方式建立的非線性計算模型,主要由神經(jīng)元通過節(jié)點連接,主要包括輸入層、輸出層和隱藏層三部分。ANN具有自適應(yīng)、自組織、高度非線性和實時學(xué)習(xí)等特點[91]。因此,在NIR光譜定量分析中也得到了廣泛的應(yīng)用,楊南林等[64]將ANN、PCR和PLSR等校正方法結(jié)合NIR光譜用于冬蟲夏草中甘露醇含量的測定,結(jié)果表明ANN模型取得了最好的預(yù)測結(jié)果。LAI等[62]采用ANN和NIR光譜對兩類延胡索樣品進行了分類建模,取得了較好的預(yù)測結(jié)果。但是,ANN也存在一定的局限性,例如,在訓(xùn)練中如果使用不當容易產(chǎn)生過擬合現(xiàn)象,導(dǎo)致模型的預(yù)測能力降低等。
3.3.4 支持向量回歸
支持向量回歸(SVR)是支持向量機(support vector machine,SVM)算法中的一類,其基本思想是首先通過核函數(shù)將原始數(shù)據(jù)轉(zhuǎn)化到高維特征空間,然后在高維空間進行線性回歸。通過映射,原始空間的非線性問題轉(zhuǎn)化為線性問題。SVR特別適合于樣本量少、維數(shù)高的非線性問題。目前,支持向量機回歸在NIR光譜模式識別和模型校正中得到了廣泛的應(yīng)用。LAI等[62]采用ANN和SVM分別用于NIR光譜對兩類延胡索樣品的分類建模應(yīng)用,結(jié)果表明,SVM有更好的應(yīng)用效果。瞿海斌等[63]分別利用SVM、PLS和ANN算法對中藥材三七提取液NIR光譜建模,結(jié)果表明SVM有更好的回歸效果。WANG等[35]結(jié)合遺傳算法和支持向量機開發(fā)的NIR化學(xué)計量學(xué)建模方法可用同一張譜圖同時準確預(yù)測結(jié)晶過程溶液濃度和顆粒粒度。
綜上所述,NIR建模是一個復(fù)雜的過程,要想得到質(zhì)量好的模型需要不斷的重復(fù)、驗證、分析。模型質(zhì)量的優(yōu)劣受多種因素的影響,包括建模所用數(shù)據(jù)的質(zhì)量(范圍、可靠性等)以及數(shù)量、數(shù)據(jù)的預(yù)處理、特征波段選擇和建模方法的選取,以及模型的驗證和評價等。每一步都至關(guān)重要,例如NIR模型校正的實驗室化學(xué)測量方法的準確度和精密度無疑會對模型有最直接的影響。下面結(jié)合一個中藥混合物中某成分A的含量的實際應(yīng)用示例來進一步論述建模過程。
NIR數(shù)據(jù)總共72組,A的參考值由實驗室化學(xué)分析方法得到。NIR儀器采用透反射式探頭測量數(shù)據(jù),采樣波數(shù)范圍為10000~4000cm?1,圖4是72組數(shù)據(jù)的NIR光譜圖。
由圖4可知,NIR在7500~4000cm?1范圍內(nèi)吸收比較明顯,在7500~10000cm?1范圍內(nèi)較為平緩。因為混合物中其他成分吸收峰的影響A的特征吸收峰并不明顯。后面經(jīng)不同的變量選擇方法的結(jié)果對比之后可以發(fā)現(xiàn),A的有效特征吸收峰在7500~10000cm?1之間,從放大之后的光譜圖中可以看到還是有明顯的趨勢,而不是平緩的。
圖4 某中藥混合物的NIR光譜圖
在建模之前首先要考慮收到樣品數(shù)據(jù)中是否包含有異常數(shù)據(jù)。從圖4中并沒有發(fā)現(xiàn)明顯的異常光譜。進一步的分析是對NIR原始光譜圖做PCA數(shù)據(jù)壓縮,繪制PC1-PC2圖,見圖5(a)。還對原始光譜進行一階求導(dǎo)預(yù)處理之后,再做PCA數(shù)據(jù)壓縮,也繪制了PC1-PC2圖,見圖5(b)。繪制圖5(a)和(b)的目的是對譜圖數(shù)據(jù)在多維空間里的分布情況進行一定的了解。結(jié)合原始數(shù)據(jù)的分析沒有發(fā)現(xiàn)異常數(shù)據(jù),雖然部分數(shù)據(jù)在95%線以外,如圖5(a)中的32、45、57、69、71。
圖5 近紅外光譜的主元分析
NIR光譜受多種因素的干擾,在建模以前先要進行光譜的預(yù)處理。一般預(yù)處理的步驟為去噪-基線校正數(shù)據(jù)增強。不同波數(shù)對應(yīng)的NIR光譜的絕對吸收強度不同,建模一般考慮光譜的相對吸收度,所以需要在建模前對每個波數(shù)下的光譜進行增強,最常用的增強方法為標量化(AutoScale)。基線校正雖然不同的方法有不同的功能,在實際使用時還是需要對比不同方法的建模效果。理論上,數(shù)據(jù)預(yù)處理的方法的選擇應(yīng)該和變量選擇方法、建模方法一起排列組合進行,然后選擇最優(yōu)的組合。為方便起見,只是將預(yù)處理方法結(jié)合PLS建模進行數(shù)據(jù)預(yù)處理方法的選擇。表5給出了不同基線校正方法的結(jié)果對比,結(jié)果表明利用Detrend(offset)方法的效果最好。在此基礎(chǔ)上對比不同去噪方法及移動窗口的大小對模型的影響(表6和表7),結(jié)果表明移動窗口大小為5的一階求導(dǎo)去噪效果最好。實際上,在一階求導(dǎo)也具有基線校正的功能,而且與Detrend (offset)算法的效果一致,所以最后確定的建模過程中選用的光譜預(yù)處理方法為5點一階導(dǎo)數(shù)和標量化(AutoScale)算法。
對樣品數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)時應(yīng)考慮采樣數(shù)據(jù)的均勻性。這里用SPXY方法將72組數(shù)據(jù)分為了訓(xùn)練數(shù)據(jù)(55組)和驗證數(shù)據(jù)(17組),以之前確定的預(yù)處理方法預(yù)處理光譜。對比考察的變量選擇方法有VIP、MCUVE、CARS、random frog、GA、iPLS、MWPLS,均結(jié)合偏最小二乘(PLS)建模,其結(jié)果見表8。需要指出的是,所有這些特征波段自動選擇的方法還和BP神經(jīng)網(wǎng)絡(luò)、支持向量機等建模方法進行了建??疾?,結(jié)果不如和PLS建模更好,由于篇幅所限,所以這里僅討論PLS建模的結(jié)果。
雖然結(jié)果顯示GA特征波段選擇的交叉驗證結(jié)果較好,可是它的測試數(shù)據(jù)的相關(guān)系數(shù)R2較小以及預(yù)測均方根誤差RMSEP較大,模型的預(yù)測效果一般,主要表現(xiàn)在超過5%誤差的數(shù)據(jù)較多。另外,CARS方法的結(jié)果也出現(xiàn)了同樣的問題,即交叉驗證的結(jié)果較好,但是對于驗證數(shù)據(jù)的預(yù)測結(jié)果卻不理想。通過仔細分析CARS和GA這兩種方法選擇出來的特征波段發(fā)現(xiàn),他們在1400~1600個變量之間(也就是波數(shù)4500~4000cm?1)選擇了過多的變量,而這部分光譜包含的噪聲較多。這使得CARS 和GA出現(xiàn)了過擬合現(xiàn)象。
表5 不同基線校正方法對比
表6 平滑對建模的影響
表7 一階導(dǎo)數(shù)對建模的影響
事實上,random frog較其他算法可以更顯著地降低模型對驗證數(shù)據(jù)的預(yù)測誤差,其方法選擇的變量如圖6所示。從建模結(jié)果(圖7)中可以得知該方法下的相對誤差超過5%的數(shù)據(jù)點很少,表明這種變量選擇方法較好。另外,由于random frog選擇了更少的波段,外延應(yīng)用效果應(yīng)該更好,這符合一般波段選擇和模型建立的規(guī)律,即選擇最少的特征波段(引入噪聲和無關(guān)波段的可能性減少),且誤差小的模型往往具有更優(yōu)秀的預(yù)測性能。
表8 分組后變量選擇對模型的影響
圖6 random frog變量選擇方法最終選擇的變量
圖7 random frog 結(jié)合PLS建模結(jié)果
總之,在對A的含量NIR建模的過程中,主要考慮了數(shù)據(jù)預(yù)處理、變量選擇對建模結(jié)果的影響。其中預(yù)處理方法主要包括正基線平移和漂移(Detrend、MSC、Baseline、SNV),不同移動窗口下的光滑(smoothing)和一階求導(dǎo)等。變量選擇方法主要包括全波段、VIP算法、MCUVE算法、CARS算法、random frog算法、遺傳算法(GA)、間隔PLS算法(IPLS)以及移動窗口PLS算法(MWPLS)等。結(jié)果表明,恰當?shù)墓庾V預(yù)處理方法和變量選擇方法可以有效的降低模型的預(yù)測誤差,提高模型的魯棒性。另外,NIR光譜中存在的部分波段(波數(shù)4500~4000)高頻噪聲比較多,這使得利用全局尋優(yōu)算法的遺傳算法出現(xiàn)了過擬合問題。在選擇變量前因注意刪除信息量少噪聲多的波段。
NIR光譜技術(shù)具有測量速度快、準確度高和儀器簡單方便的特點,在食品、石油化工、生物和制藥等各個領(lǐng)域得到了廣泛的應(yīng)用。NIR是目前制藥領(lǐng)域應(yīng)用最為廣泛的過程分析技術(shù)(PAT),但是在其應(yīng)用到中藥行業(yè)時,包括中藥保健品領(lǐng)域,有成功也有不成功的例子。中藥組成復(fù)雜,和化學(xué)藥相比其生產(chǎn)加工過程具有特殊性,對NIR的成功應(yīng)用,尤其是化學(xué)計量學(xué)建模,提出了挑戰(zhàn)。本文綜述了建立高質(zhì)量預(yù)測模型的方法和步驟,并結(jié)合具體事例闡述了用于建模的數(shù)據(jù)的收集、數(shù)據(jù)預(yù)處理、特征波段選擇、各種建模技術(shù)以及模型的評估等。還論述了模型的過擬合的概念、模型的外延性、預(yù)測可信度空間的刻畫、模型再訓(xùn)練等。重點強調(diào)了建立高質(zhì)量模型是一個復(fù)雜的,需要在各步驟上經(jīng)過許多反復(fù)的過程。盡管如此,由于現(xiàn)代計算機的高計算速度,只要實現(xiàn)數(shù)據(jù)流的有效管理、共享和工具的有效集成,隨著經(jīng)驗的積累和技術(shù)的進步,建模將來完全可以成為一個內(nèi)部系統(tǒng)高度智能、使用起來高度簡單的傻瓜式工具。建模也應(yīng)該變成一個高度成熟以及在許多步驟上高度自動化的過程,為中藥制造業(yè)的現(xiàn)代化作出巨大貢獻。本文綜述的主要是建立定量預(yù)測模型的方法,例如用于預(yù)測組分組成。但是,還可利用產(chǎn)品的NIR光譜分析原料的產(chǎn)地,例如WANG等[56]根據(jù)潤滑油的譜圖能夠正確的推斷原油的來源地,其他應(yīng)用比如判斷原料產(chǎn)地或產(chǎn)品的真?zhèn)蔚?。此外,也可以直接利用原始NIR譜圖或經(jīng)過處理的譜圖直接用于開發(fā)多變量質(zhì)量控制系統(tǒng)(MSPC,multivariate statistical process control)[102-103]。MSPC把歷史記錄的NIR光譜數(shù)據(jù)或NIR加其他過程測量數(shù)據(jù)轉(zhuǎn)換計算成T2和SPE兩個控制指標并設(shè)立統(tǒng)計控制上限,例如97%。如果實時測量數(shù)據(jù)超出了T2和SPE,就存在97%的可能性操作出問題了。這也是一個非常有潛力的發(fā)揮NIR在線測量方法,但文獻還很少,應(yīng)用也還沒有得到足夠重視。
參 考 文 獻
[1] 王芳. 高效液相色譜在中藥研究中的應(yīng)用進展[J]. 現(xiàn)代中藥研究與實踐,2002,16(3):44-46.
[2] 王鋼力,田金改. X-射線衍射分析法在中藥分析中的應(yīng)用[J]. 中國中藥雜志,1999,24(7):387-389.
[3] 易昌華,賀建華. 紫外分光光度法測定中草藥提取物中綠原酸的含量[J]. 獸藥與飼料添加劑,2004(1):24-25.
[4] 陸德勝,劉翠英,陸英洲. 還原滴定法測定食用菌中多糖的研究[J]. 中國衛(wèi)生檢驗雜志,1999(4):260-262.
[5] FDA. Guidance for Industry. PAT——a framework for innovative pharmaceutical development,manufacturing,and quality assurance[EB/OL].http://www.fda.gov/downloads/Drugs//Guidances /ucm070305pdf.
[6] FDA. Pharmaceutical CGMPS for the 21st century - a risk - based approach[EB/OL]. http://www.fda.gov/downloads/Drugs/Development Approval Process/Manufacturing/Questions and Answers on Current Good Manufacturing Practices cGMP for Drugs/UCM176374pdf.
[7] CHALMERS J M. Spectroscopy in process analysis[M]. US:Taylor & Francis,2000.
[8] 成忠,諸愛士,張立慶. 核分段逆回歸集成線性判別分析用于質(zhì)譜數(shù)據(jù)分類[J]. 分析化學(xué),2008(12):1657-1661.
[9] 方利民,林敏. 基于獨立分量和神經(jīng)網(wǎng)絡(luò)的近紅外多組分分析方法[J]. 分析化學(xué),2008,36(6):815-818.
[10] 褚小立,許育鵬,陸婉珍. 用于近紅外光譜分析的化學(xué)計量學(xué)方法研究與應(yīng)用進展[J]. 分析化學(xué),2008,36(5):702-709.
[11] 周文婷,林萍,王海霞,等. 近紅外光譜技術(shù)在中藥領(lǐng)域質(zhì)量評價中的應(yīng)用[J]. 湖北農(nóng)業(yè)科學(xué),2014(14):3231-3236.
[12] 李洋,吳志生,潘曉寧,等.在線近紅外光譜在我國中藥研究和生產(chǎn)中應(yīng)用現(xiàn)狀與展望[J]. 光譜學(xué)與光譜分析,2014,34(10):2632-2638.
[13] CHAO Z,SU J. Application of near infrared spectroscopy to the analysis and fast quality assessment of traditional Chinese medicinal products[J]. Acta Pharmaceutica Sinica B,2014,4(3):182-192.
[14] 辛海量,胡園,張巧艷,等. 4種牡荊屬植物來源生藥的近紅外漫反射指紋圖譜聚類分析[J]. 時珍國醫(yī)國藥,2008,19(12):3037-3038.
[15] 吳擁軍,李偉,相秉仁,等. 近紅外光譜技術(shù)用于白芷類中藥的鑒定研究[J]. 中藥材,2001,24(1):26-28.
[16] LU J,XIANG B,LIU H,et al. Application of two-dimensional near-infrared correlation spectroscopy to the discrimination of Chinese herbal medicine of different geographic regions[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2008,69(2):580–586.
[17] LI W,XING L,CAI Y,et al. Classification and quantification analysis of Radix scutellariae from different origins with near infrareddiffusereflectionspectroscopy[J].Vibrational Spectroscopy,2011,55(1):58-64.
[18] MENG Y,WANG S,CAI R,et al. Discrimination and content analysis of fritillaria using near infrared spectroscopy[J]. Journal of Analytical Methods in Chemistry,2015,2015(1):101-124.
[19] 趙龍蓮,張錄達,李軍會,等. 小波包熵和Fisher判別在近紅外光譜法鑒別中藥大黃真?zhèn)沃械膽?yīng)用[J]. 光譜學(xué)與光譜分析,2008,28(4):817-820.
[20] CHAN C O,CHU C C,CHAU F T,et al. Analysis of berberine and total alkaloid content in Cortex Phellodendri by near infrared spectroscopy (NIRS) compared with high-performance liquid chromatography coupled with ultra-visible spectrometric detection[J]. Analytica Chimica Acta,2007,592(2):121-131.
[21] ROGGO Y,CHALUS P,MAURER L,et al. A review of near infrared spectroscopy and chemometrics in pharmaceutical technologies[J]. Journal of Pharmaceutical and Biomedical Analysis,2007,44(3):683-700.
[22] VERMERRIS W,ABRIL A. Enhancing cellulose utilization for fuels and chemicals by genetic modification of plant cell wall architecture[J]. Current Opinion in Biotechnology,2015,32:104-112.
[23] WU Y,JIN Y,DING H,et al. In-line monitoring of extraction process of scutellarein from Erigeron breviscapus (vant.) Hand-Mazz based on qualitative and quantitative uses of near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(5):934-939. [24] RAY A,SAYKHEDAR S,AYOUBI-CANAAN P,et al. Phanerochaete chrysosporium produces a diverse array of extracellular enzymes when grown on sorghum[J]. Applied Microbiology and Biotechnology,2012,93(5):2075-2089.
[25] YE J,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part a:Molecular & Biomolecular Spectroscopy,2013,109(4):68-78.
[26] ZENG S,TENG C,LU W,et al. Monitoring batch-to-batch reproducibility using direct analysis in real time mass spectrometry and multivariate analysis:a case study on precipitation[J]. Journal of Pharmaceutical & Biomedical Analysis,2013,76(6):87-95.
[27] MIYANO T,KANO M,TANABE H,et al. Spectral fluctuation dividing for efficient wavenumber selection:application to estimation of water and drug content in granules using near infrared spectroscopy[J]. International Journal of Pharmaceutics,2014,475(s1/s2):504-513.
[28] Howland H,HOAG S W. Analysis of curing of a sustained release coating formulation by application of NIR spectroscopy to monitor changes physical–mechanical properties[J]. International Journal of Pharmaceutics,2013,452(s1/s2):82-91.
[29] PESTIEAU A,KRIER F,THOORENS G,et al. Towards a real time release approach for manufacturing tablets using NIRspectroscopy[J]. Journal of Pharmaceutical & Biomedical Analysis,2014,98(10):60-67.
[30] MOU H,WANG X,LV T,et al. On-line dissolution determination of Baicalin in solid dispersion based on near infrared spectroscopy and circulation dissolution system[J]. Chemometrics & Intelligent Laboratory Systems,2011,105(1):38-42.
[31] YAN H,HAN B X,WU Q Y,et al. Rapid detection of Rosa laevigata polysaccharide content by near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(1):179-184.
[32] 劉冰,劉振堯,朱乾華,等. 近紅外光譜法同時測定黃芪精口服液中黃芪多糖和黃芪甲苷的含量[J]. 分析科學(xué)學(xué)報,2011(2):195-198.
[33] JIN Y,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,109:68-78.
[34] 白雁,龔海燕,宋瑞麗,等. 近紅外漫反射光譜法快速測定山藥藥材中多糖的含量[J]. 中成藥,2010(1):110-112.
[35] MA C Y,WANG X Z. Simultaneous characterization of multiple properties of solid and liquid phases in crystallization processes using NIR[J]. Particuology,2011,9(6):589-597.
[36] CHEN J,WANG X Z. A new approach to near-infrared spectral data analysis using independent component analysis[J]. Journal of Chemical Information and Computer Sciences,2001,41(4):992-1001.
[37] 楊麗,李菁,劉翠紅,等. AOTF 近紅外光譜技術(shù)在淫羊藿濃縮過程在線檢測中的應(yīng)用[J]. 中國醫(yī)藥導(dǎo)報,2014,11(24):1111-1114.
[38] 許定舟,李菁,劉翠紅,等. AOTF 近紅外光譜技術(shù)在淫羊藿提取過程在線檢測中的應(yīng)用[J]. 中國當代醫(yī)藥,2014,21(23):4-10.
[39] CHEN Z P,MORRIS J,MARTIN E. Correction of temperature induced spectral variations by loading space standardization[J]. Analytical Chemistry,2005,77(5):1376-1384.
[40] 閔順耕,李寧,張明祥. 近紅外光譜分析中異常值的判別與定量模型優(yōu)化[J]. 光譜學(xué)與光譜分析,2004,24(10):1205-1209.
[41] CHEN F Z,WANG X Z. Software sensor design using Bayesian automatic classification and back-propagation neural networks[J]. Industrial & Engineering Chemistry Research,1998,37(10):3985-3991.
[42] WANG X Z. Data mining and knowledge discovery for process monitoring and control[M]. London,New York:Springer,1999.
[43] KENNARD R W,STONE L A. Computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.
[44] DING H Y,JIN Y,LIU X S,et al. On-line monitoring of traditional Chinese medicinal powder blending process by using near-infrared spectroscopy[J]. Chinese Pharmaceutical Journal,2013,48(14):1151-1156
[45] LI W L,WANG Y F,QU H B. Near infrared spectroscopy as a tool for the rapid analysis of the Honeysuckle extracts[J]. Vibrational Spectroscopy,2012,62(9):159-164.
[46] 蔡紹松,武衛(wèi)紅,王寧,等. 黃芪水提液濃縮過程的AOTF-近紅外光譜法在線分析[J]. 中國醫(yī)藥工業(yè)雜志,2008,39(7):527-529.
[47] 章順楠,楊海雷,劉占強,等. 近紅外光譜法在線監(jiān)測復(fù)方丹參滴丸料液中有效成分含量[J]. 藥物分析雜志,2009(2):192-196.
[48] KANG Q,RU Q,LIU Y,et al. On-line monitoring the extract process of Fu-fang Shuanghua oral solution using near infrared spectroscopy and different PLS algorithms[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2015,152:431-437.
[49] WANG M,ZHENG K,YANGG,et al. A robust near-infrared calibration model for the determination of chlorophyll concentration in tree leaves with a calibration transfer method[J]. Analytical Letters,2015,48(11):1707-1719.
[50] ZHANG C H,YUN Y H,F(xiàn)AN W,et al. Rapid analysis of polysaccharides contents in Glycyrrhiza by near infrared spectroscopy and chemometrics[J]. International Journal Of Biological Macromolecules,2015,79:983-987.
[51] LI R F,WANG X Z. Dimension reduction of process dynamic trends using independent component analysis[J]. Computers & Chemical Engineering,2002,26(3):467-473.
[52] LI R F,WANG X Z,ABEBE S B. Monitoring batch cooling crystallization using NIR:development of calibration models using genetic algorithm and PLS[J]. Particle & Particle Systems Characterization,2008,25(4):314-327.
[53] VENKAT V,CHAN K. A neural network methodology for process fault diagnosis[J]. AIChE Journal,1989,35(12):1993–2002.
[54] TETKO I V,LIVINGSTONE D J,LUIK A I. Neural network studies. 1. Comparison of overfitting and overtraining[J]. Journal of Chemical Information & Computer Sciences,1995,35(5):826-833.
[55] SHAO R,MARTIN EB,ZHANG J,et al. Confidence bounds for neural network representations[J]. Computers & Chemical Engineering,1997,21:S1173-S1178.
[56] WANG X Z,CHEN B H. Clustering of infrared spectra of lubricating base oils using adaptive resonance theory[J]. Journal of Chemical Information and Computer Sciences,1998,38(3):457-462.
[57] WANG X Z,CHEN B H,YANG S H,et al. Application of wavelets and neural networks to diagnostic system development,2,an integrated framework and its application[J]. Computers & Chemical Engineering,1999,23(7):945-954.
[58] 王遠,秦民堅,等. 近紅外漫反射光譜法測定麥冬的多糖含量[J].光譜學(xué)與光譜分析,2009,29(10):4.
[59] 王溪,查曉清,吳昊,等. 基于小波包變換的云芝蛋白和多糖的近紅外光譜分析[J]. 時珍國醫(yī)國藥,2010,10:2.
[60] CHEN Y,XIE M,LI W,et al. An effective method for deproteinization of bioactive polysaccharides extracted from Lingzhi (Ganoderma atrum)[J]. Food Science and Biotechnology,2012,21 (1):191-198.
[61] SHAO Q S,ZHANG A L,Ye W W,et al. Fast determination of two atractylenolides in Rhizoma Atractylodis Macrocephalae by Fourier transform near-infrared spectroscopy with partial least squares[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2014,120(120C):499-504.
[62] LAI Y,NI Y,KOKOT S. Discrimination of Rhizoma Corydalis from two sources by near-infrared spectroscopy supported by the wavelet transform and least-squares support vector machine methods[J]. Vibrational Spectroscopy,2011,56(2):154-160.
[63] 瞿海斌,劉曉宣,程翼宇. 中藥材三七提取液近紅外光譜的支持向量機回歸校正方法[J]. 高等學(xué)?;瘜W(xué)學(xué)報,2004,25(1):39-43.
[64] 楊南林,程翼宇,瞿海斌. 用人工神經(jīng)網(wǎng)絡(luò)——近紅外光譜法測定冬蟲夏草中的甘露醇[J]. 分析化學(xué),2003,31(6):664-668.
[65] NI Y,SONG R,KOKOT S. Discrimination of Radix Isatidis and Rhizoma et Radix Baphicacanthis Cusia samples by near infrared spectroscopy with the aid of chemometrics[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2012,96:252-258.
[66] CHEN X,WU D,HE Y,et al. Nondestructive differentiation of panax species using visible and shortwave near-infrared spectroscopy[J]. Food and Bioprocess Technology,2011,4(5):753-761.
[67] CHEN Q,JIANG P,ZHAO J. Measurement of total flavone content in snow lotus (Saussurea involucrate) using near infrared spectroscopy combined with interval PLS and genetic algorithm[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2010,76(1):50-55.
[68] CHEN Y,XIE M,ZHANG H,et al. Quantification of total polysaccharides and triterpenoids in Ganoderma lucidum and Ganoderma atrum by near infrared spectroscopy and chemometrics[J]. Food Chemistry,2012,135(1):268-275.
[69] 劉爽悅,李文龍,瞿海斌,等. 基于近紅外光譜的丹紅注射液提取過程質(zhì)量在線檢測方法研究[J]. 中國中藥雜志,2013,38(11):1657-1662.
[70] 陳雪英,李頁瑞,陳勇,等. 近紅外光譜分析技術(shù)在赤芍提取過程質(zhì)量監(jiān)控中的應(yīng)用研究[J]. 中國中藥雜志,2009,34(11):1355-1358.
[71] KAWANO S,F(xiàn)UJIWARA T,IWAMOTOM. Nondestructive determination of sugar content in satsuma mandarin using near infrared (NIR) transmittance[J]. Engei Gakkai Zasshi,1993,62(2):465-470.
[72] KAWANO S,WATAABE H,IWAMOTO M. Determination of sugar content in intact peaches by near infrared spectroscopy with fiber optics in interactance mode[J]. Engei Gakkai Zasshi,1992,61(2):445-451.
[73] 何東健,前川孝昭,森島博. 水果內(nèi)部品質(zhì)在線近紅外分光檢測裝置及試驗[J]. 農(nóng)業(yè)工程學(xué)報,2001,17(1):146-148.
[74] 何勇,李曉麗,邵詠妮. 基于主成分分析和神經(jīng)網(wǎng)絡(luò)的近紅外光譜蘋果品種鑒別方法研究[J]. 光譜學(xué)與光譜分析,2006,26(5):850-853.
[75] BRUUN S W,S?NDERGAARD I,JACOBSE S. Analysis of protein structures and interactions in complex food by near-infrared spectroscopy. 1. Gluten powder[J]. Journal of Agricultural & Food Chemistry,2007,55(18):7234-7243.
[76] WU Z,XU E,WANG F,et al. Rapid determination of process variables of chinese rice wine using FT-NIR spectroscopy and efficient wavelengths selection methods[J]. Food Analytical Methods,2015,8(6):1456-1467.
[77] 吳玉萍,楊宇虹,晉艷,等. 近紅外光譜法快速測定烤煙漂浮育苗基質(zhì)中的有機質(zhì)和水分[J]. 中國煙草科學(xué),2008,29(4):15-17.
[78] 張建平,謝雯燕. 煙草化學(xué)成分的近紅外快速定量分析研究[J].煙草科技,1999(3):37-38.
[79] 王東丹,張承聰. 近紅外光譜分析技術(shù)在煙草化學(xué)分析上的應(yīng)用研究[J]. 云南大學(xué)學(xué)報(自然科學(xué)版),2001,23(2):135-137.
[80] 梁逸曾,吳海龍. 化學(xué)計量學(xué)[J]. 現(xiàn)代科學(xué)儀器,1998,(5):3-6.
[81] SHAO X,PANG C,SU Q. A novel method to calculate the approximate derivative photoacoustic spectrum using continuous wavelet transform[J]. Fresenius' Journal of Analytical Chemistry,2000,367(6):525-529.
[82] 戈培林. 化學(xué)計量學(xué)實用指南[M]. 北京:科學(xué)出版社,2012.
[83] VALLE S,LI W H,QIN S J. Selection of the number of principal components:the variance of the reconstruction error criterion with a comparison to other methods[J]. Industrial & Engineering Chemistry Research,1999,38(11):4389-4401.
[84] JEROME J,WORKMAN JR,PAUL R,et al. Review of chemometrics applied to spectroscopy:1985-95,Part I[J]. Applied Spectroscopy Reviews,1996,31(31):73-124.
[85] OUSSAMA A,ELABADI F,PLATIKANOV S,et al. Detection of olive oil adulteration using FT-IR spectroscopy and PLS with variable importance of projection (VIP) scores[J]. Journal of the American Oil Chemists' Society,2012,89(10):1807-1812.
[86] LU B,CASTILLO I,CHIANG L,et al. Industrial PLS model variable selection using moving window variable importance in projection[J]. Chemometrics and Intelligent Laboratory Systems,2014,135:90-109.
[87] TIMMERMAN H,MANNHOLD R,KROGSGAARD-LARSEN P,et al. Chemometric methods in molecular design[M]. New York:John Wiley & Sons,2008.
[88] CENTNER V,MASSART D L,DE NOORD OE,et al. Elimination of uninformative variables for multivariate calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.
[89] XU Q S,LIANG Y Z. Monte Carlo cross validation[J]. Chemometrics and Intelligent Laboratory Systems,2001,56(1):1-11.
[90] CAI W,LI Y,SHAO X. A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra[J]. Chemometrics and Intelligent Laboratory Systems,2008,90(2):188-194.
[91] NORGAARD L,SAUDLAND A,WAGNER J,et al. Interval partial least-squares regression (iPLS):a comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy,2000,54(3):413-419.
[92] JIANG J H ,BERRY R J,SIESLER H W,et al. Wavelength interval selection in multicomponent spectral analysis by moving window partial least-squares regression with applications to mid-infrared and near-infrared spectroscopic data[J]. Analytical Chemistry,2002,74 (14):3555-3565.
[93] KASEMSUMRAN S,DU Y,MURAYAMA K,et al. Near-infrared spectroscopic determination of human serum albumin,γ-globulin,and glucose in a control serum solution with searching combination moving window partial least squares[J]. Analytica Chimica Acta,2004,512(2):223-230.
[94] JONES G,WILLETT P,GLEN R C,et al. Development and validation of a genetic algorithm for flexible docking[J]. Journal of Molecular Biology,1997,267(3):727-748.
[95] HAUPT R L,HAUPT S E. Practical genetic algorithms[M]. New York:John Wiley & Sons,2004.
[96] LI H,LIANG Y,XU Q,et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta,2009,648(1):77-84.
[97] LI H D,XU Q S,LIANG Y Z. Random frog:an efficient reversible jump Markov chain Monte Carlo-like approach for variable selection with applications to gene selection and disease classification[J].Analytica Chimica Acta,2012,740:20-26.
[98] OTSUKA M. Comparative particle size determination of phenacetin bulk powder by using Kubelka–Munk theory and principal component regression analysis based on near-infrared spectroscopy[J]. Powder Technology,2004,141(3):244-250.
[99] 黃亞偉,王加華,韓東海,等. 近紅外光譜測定人參與西洋參的主要皂甙總量[J]. 分析化學(xué),2011,39(3):377-381.
[100] 劉全,瞿海斌,程翼宇. 用于滲漉提取過程分析的中藥有效組分近紅外光譜快速測定法[J]. 化工學(xué)報,2003,54(11):1586-1591.
[101] 朱大奇,史慧. 人工神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用[M]. 北京:科學(xué)出版社,2006.
[102] KONA R,QU H,MATTES R,et al. Application of in-line near infrared spectroscopy and multivariate batch modeling for process monitoring in fluid bed granulation[J]. International Journal of Pharmaceutics,2013,452(1/2):63-72.
[103] HUANG H,QU H. In-line monitoring of alcohol precipitation by near-infrared spectroscopy in conjunction with multivariate batch modeling[J]. Analytica Chimica Acta,2011,707(1-2):47–56.
[104] 陸婉珍. 現(xiàn)代近紅外光譜分析技術(shù)[M]. 北京:中國石化出版社,2007.
Development of chemometric modelling in the application of NIR to the quality control of Chinese herbal medicine:literature review and future perspectives
ZHOU Zhaolu1,LI Jie1,HUANG Shengquan2,TIAN Shuhua3,LIU Yujiao3,LU Liang2,ZHANG Yang1,HUANG Yansheng2,WANG Xuezhong1
(1School of Chemistry and Chemical Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China;2Infinitus(China),Guangzhou 510623,Guangdong,China;3Pharmavision(Qingdao)Intelligent Technology Ltd.,Qingdao 266109,Shandong,China)
Abstract:Near infrared spectroscopy (NIR) is currently the most widely used Process Analytical Technology (PAT) in the pharmaceutical industrial. It's application in the quality control of Chinese herbal medicines has also attracted much attention in recent years. Chinese herbal medicines are often very complex in composition,and the production processes are distinctive from that for pharmaceutical chemicals. As a result,the use of NIR in the Chinese herbal medicine domain faces major challenges,in particular in chemometric model development. This paper provides a review of chemometricmethods for NIR model development with the focus on NIR application in on-line quality control in the production of Chinese herbal medicines. The topics include calibration data collection,pre-processing,selection of data for model development and validation,and wave number selection,as well as model building and performance assessment. It is emphasized that construction of models with good performance should be an iterative process integrating spectral pre-processing (e.g. smoothing,derivative method,standardized algorithm,data enhancement algorithm,and principal component analysis),wave number selection (e.g. genetic algorithm,random frog) and linear and nonlinear model construction algorithms (e.g. partial least squares,neural networks and support vector machines). A future platform is envisaged as one that shares data and integrates sophisticated algorithms in the background and presents users with friendly,easy to use,intelligent and semi-automated interfaces. Review and discussions has been made based on practical case studies.
Key words:near infrared spectroscopy;Chinese medicines;quality control;chemometric
中圖分類號:TQ 460.6+3
文獻標志碼:A
文章編號:1000–6613(2016)06–1627–19
DOI:10.16085/j.issn.1000-6613.2016.06.004
收稿日期:2016-03-01;修改稿日期:2016-03-18。