国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

太赫茲光譜技術(shù)在生物活性肽檢測中應(yīng)用研究

2020-09-05 03:44:40何明霞曲秋紅陳永德
光譜學(xué)與光譜分析 2020年9期
關(guān)鍵詞:學(xué)習(xí)機赫茲多肽

王 璞, 何明霞*, 李 萌, 曲秋紅, 劉 銳, 陳永德

1. 天津大學(xué)測試計量技術(shù)及儀器國家重點實驗室, 天津 300072 2. 萊儀特太赫茲(天津)科技有限公司, 天津 300019 3. 天津科技大學(xué)食品工程與生物技術(shù)學(xué)院, 天津 300222 4. 百德福生物科技有限公司, 河北 唐山 063000

引 言

生物活性肽是一類分子介于蛋白質(zhì)和氨基酸之間, 由多種氨基酸以一定方式結(jié)合而成的二肽到多肽, 具有一定生理作用的低分子聚合物[1]。 生物活性肽相比于單個氨基酸, 更容易且更有效被人體吸收, 適合于年老體弱, 過敏體質(zhì)的人群。 相比于蛋白質(zhì)生物大分子, 能夠發(fā)揮其整體結(jié)構(gòu)所不具有的特殊功能。 具有降低血壓, 抗衰老, 促進(jìn)消化吸收及提高自身免疫調(diào)節(jié)能力等作用。 在功能食品, 藥品, 疫苗制備等食品學(xué)和醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用。 因此對它們的檢測一直是國內(nèi)外學(xué)者研究的重點。 目前國內(nèi)外主要應(yīng)用的分析方法為色譜法, 質(zhì)譜法, 核磁共振光譜[2]。

太赫茲(Terahertz, THz)輻射是指波長在0.03~3 mm之間, 頻率在0~10 THz, 介于紅外和微波之內(nèi)的光譜[3]。 THz波具有很好的透過性和特征光譜性質(zhì), 運用其特性可以進(jìn)行物質(zhì)非接觸式鑒別。 多肽有其特定的氨基酸組成, 且相互之間有電偶極矩, 使其易受到太赫茲波段作用。 Kutteruf[4]等通過改變溫度, 得到固相短肽鏈的THz吸收光譜吸收峰變化, 又通過改變肽鏈氨基酸的數(shù)量, 發(fā)現(xiàn)其吸收系數(shù)曲線變得復(fù)雜。 文獻(xiàn)[5]報道了四種簡單二肽的太赫茲吸收曲線和各自在0~2.7 THz的吸收峰, 并且通過對雙甘氨肽、 丙谷二肽、 肌膚和谷胱甘肽這四種肽分子結(jié)構(gòu)的分析和密度泛函理論模擬, 認(rèn)為肽鍵的差異會導(dǎo)致肽類分子對太赫茲的吸收產(chǎn)生差別。

對于無明顯太赫茲吸收峰的物質(zhì), 一般難以通過吸收系數(shù)譜進(jìn)行分類識別, 需要結(jié)合機器學(xué)習(xí)算法和化學(xué)計量法進(jìn)一步進(jìn)行處理。 通過建立有效的分析模型與太赫茲光譜技術(shù)相結(jié)合將是這個方面的重點內(nèi)容。 選擇的預(yù)測模型為有監(jiān)督的學(xué)習(xí)算法, 包括支持向量機[6](support vector machine, SVM), 隨機森林[7](random forest, RF), 極限學(xué)習(xí)機[8](extreme learning machine, ELM)。 支持向量機的主要思想是結(jié)構(gòu)風(fēng)險最小化的近似實現(xiàn)。 但是由于支持向量機會由于數(shù)據(jù)維數(shù)過大而分類擬合效果不好等問題, 本文結(jié)合主成分分析進(jìn)行降維比較。 隨機森林是一種根據(jù)統(tǒng)計的思想, 根據(jù)決策樹的判斷類別得出結(jié)果的分類器, 擁有高預(yù)測精度和運算量小等特點。 極限學(xué)習(xí)機是一種針對傳統(tǒng)單隱前饋神經(jīng)網(wǎng)絡(luò)而提出的分類模型, 有學(xué)習(xí)速度快, 泛化性能好等優(yōu)點。 為了提高預(yù)測速度, 降低噪聲干擾, 選擇主成分分析法[9]進(jìn)行對比, 主成分分析法(principal component analysis, PCA)是一種常用的可以用于降維的方法, 能夠在丟失較少特征信息的前提下, 將較高維度的數(shù)據(jù)轉(zhuǎn)化為較低維度的數(shù)據(jù)。 為了能尋找到支持向量機中參數(shù)的最優(yōu)值, 選擇網(wǎng)格搜索(grid search, GS), 粒子群優(yōu)化(particle swarm optimization, PSO)和遺傳(genetic algorithm, GA)[10]算法作為優(yōu)化算法。 其中網(wǎng)格搜索通過窮舉搜索選取最優(yōu)參數(shù); 遺傳算法通過一系列內(nèi)在機制, 仿照種群的進(jìn)化過程, 得到適應(yīng)度近似最優(yōu)的狀態(tài); 粒子群算法不斷調(diào)整速度和位置參數(shù), 來尋求最優(yōu)解。

本文主要利用海參肽、 牛骨肽、 魚肽三種代表性生物活性肽的太赫茲光譜數(shù)據(jù), 結(jié)合不同的機器學(xué)習(xí)算法, 創(chuàng)建分類模型。 主要以測試集預(yù)測準(zhǔn)確率為考察標(biāo)準(zhǔn), 以運行速度為輔助標(biāo)準(zhǔn)。 通過太赫茲光譜技術(shù)結(jié)合機器學(xué)習(xí)分類方法在生物活性肽檢測領(lǐng)域進(jìn)行探索。

1 實驗部分

1.1 設(shè)備

實驗使用的是日本advantest公司的TAS 7500SU。 光譜范圍為0.5~7.0 THz, 動態(tài)范圍為57 dB, 頻率分辨率為7.6 GHz。 本實驗中用的是其透射模塊, 其結(jié)構(gòu)如圖1所示。

圖1 太赫茲時域光譜系統(tǒng)

1.2 樣品制備

實驗中所用的牛骨肽粉末, 海參肽粉末, 魚肽粉末均由百德福生物科技有限公司提供, 純度為99%, 白色粉末。 實驗中為了保證測量的穩(wěn)定性, 將樣品在壓片之前置于干燥柜中干燥6 h, 干燥柜濕度20%, 溫度30 ℃。 將樣品與聚乙烯按照2∶1的質(zhì)量比例混合, 充分研磨。 在10 MPa壓力下, 壓5 min, 壓成厚度為(1.1±0.1) mm, 直徑為13 mm的樣品片, 每種多肽分別壓制符合要求, 表面均勻的樣品各30片。

1.3 方法

在實驗中, 以干燥空氣作為參考信號, 每片樣品分別在不同的位置測量3次。 為了保證結(jié)果的可重復(fù)性和精確性, 樣品測完第一次之后放入干燥柜中保存24 h, 進(jìn)行復(fù)測, 同樣也是每片樣品移動不同位置分別測量3次。 得到每片樣品的吸收系數(shù)譜。

1.4 數(shù)據(jù)處理方法

為了降低系統(tǒng)噪聲和實驗因素導(dǎo)致的噪聲, 提高光譜的平滑性, 使用Savitzky-Golay(S-G)平滑預(yù)處理, 考慮原光譜的特性, 將平滑濾波器的擬合階數(shù)設(shè)置為3階, 并且考慮其平滑特性, 設(shè)置每15個點平滑一次。 由于光譜圖兩端噪聲比較大, 選取0.5~2 THz范圍內(nèi)的198個光譜數(shù)據(jù)進(jìn)行分析。 將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理, 歸一化到[0, 1]范圍內(nèi)。 如圖2所示, 使用主成分分析法, 光譜數(shù)據(jù)降維到8維之后的貢獻(xiàn)率之和為95%, 可以代替原光譜圖。

圖2 PCA各成分得分

分類模型如圖3所示, 其中對于支持向量機參數(shù)優(yōu)化環(huán)節(jié), 選擇網(wǎng)格搜索、 遺傳算法和粒子群算法對其參數(shù)優(yōu)化。 訓(xùn)練模型選擇的是支持向量機、 隨機森林和極限學(xué)習(xí)機。 結(jié)果主要考察分類準(zhǔn)確度和運行時間, 在確保準(zhǔn)確率高, 大于90%的前提下, 考慮運行時間。

圖3 模型流程圖

2 結(jié)果與討論

2.1 吸收系數(shù)譜

將兩次測量得到的數(shù)據(jù)進(jìn)行平均, 為了表示三種多肽的不確定度大小, 三種多肽在0.5~2 THz范圍內(nèi)的誤差棒如圖4所示, 從圖中可以看出在低頻段, 三種多肽樣品幾乎重疊, 難以直接區(qū)分; 在高頻段, 區(qū)分度較好, 魚肽吸收系數(shù)明顯大于海參肽和牛骨肽。 從這些多肽的太赫茲吸收系數(shù)上不能很容易對其進(jìn)行區(qū)分, 需要采用一些機器學(xué)習(xí)的算法。

圖4 海參肽、 魚肽和牛骨肽的吸收系數(shù)誤差棒

2.2 建模及定性分析

將經(jīng)過數(shù)據(jù)預(yù)處理后的全部樣品加上標(biāo)簽, 隨機選取四分之三數(shù)據(jù)量進(jìn)行算法訓(xùn)練, 其余數(shù)據(jù)用來進(jìn)行測試。

為了找到分類三種多肽最好的算法, 采用不同的機器學(xué)習(xí)方法進(jìn)行對比驗證, 圖5(a)為網(wǎng)格搜索加5折交叉驗證法的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為8, 核函數(shù)參數(shù)g的最優(yōu)值是0.125, 訓(xùn)練集準(zhǔn)確率81.1%, 測試集準(zhǔn)確率95%, 用時11.7 s。

圖5(b)為遺傳算法尋優(yōu)加5折交叉驗證法的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為0.79, 核函數(shù)參數(shù)g的最優(yōu)值是356.3, 訓(xùn)練集準(zhǔn)確率63.9%, 測試集準(zhǔn)確率85%, 用時152.8 s。

圖5(c)為粒子群尋優(yōu)加5折交叉驗證法的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為83.44, 核函數(shù)參數(shù)g的最優(yōu)值是0.01, 訓(xùn)練集準(zhǔn)確率82.2%, 測試集準(zhǔn)確率98.3%, 用時180.8 s。

圖5(d)為主成分分析結(jié)合網(wǎng)格搜索下的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為1.414, 核函數(shù)參數(shù)g的最優(yōu)值是2, 訓(xùn)練集準(zhǔn)確率73.3%, 測試集準(zhǔn)確率78.3%, 用時6.27 s。

圖5(e)為主成分分析結(jié)合遺傳算法下的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為1.543, 核函數(shù)參數(shù)g的最優(yōu)值是2.2, 訓(xùn)練集準(zhǔn)確率81.7%, 測試集準(zhǔn)確率78.3%, 用時41.9 s。

圖5(f)為主成分分析結(jié)合粒子群算法下的支持向量機模型結(jié)果, 結(jié)果表明, 向量機懲罰因子C的最優(yōu)值為1.5, 核函數(shù)參數(shù)g的最優(yōu)值是1.7, 訓(xùn)練集準(zhǔn)確率82.2%, 測試集準(zhǔn)確率75%, 用時65.3 s。

圖5 不同優(yōu)化方法下支持向量機分類結(jié)果

建立隨機森林模型, 經(jīng)過多次試驗, 綜合考慮準(zhǔn)確率和運行時間, 參數(shù)選擇如圖6(a)所示, 最優(yōu)的決策樹個數(shù)為400, 準(zhǔn)確率達(dá)到最優(yōu)準(zhǔn)確率, 時間最短。 隨機森林模型本身自帶降維的能力, 無需進(jìn)行降維處理, 結(jié)果如圖6(b)所示,準(zhǔn)確率為86.6%。

圖6 隨機森林分類結(jié)果

圖7 ELM分類分類結(jié)果

建立極限學(xué)習(xí)機模型, 經(jīng)過多次試驗, 綜合考慮準(zhǔn)確率和運行時間, 參數(shù)選擇如圖7(a)所示, 最優(yōu)的隱含層神經(jīng)元個數(shù)為400, 準(zhǔn)確率達(dá)到最高。 極限學(xué)習(xí)機結(jié)果如圖7(b)所示, 準(zhǔn)確率為73.3%。

表1給出了多種分類方法的預(yù)測精度和運行時間。 從表1看出, 數(shù)據(jù)進(jìn)行PCA預(yù)處理之后, 測試集的準(zhǔn)確率較未進(jìn)行預(yù)處理有所下降, 但是運行時間也加快。 通過比較三種監(jiān)督機器學(xué)習(xí)算法, 準(zhǔn)確率最高的是支持向量機, 但是運行時間最快的是極限學(xué)習(xí)機。 準(zhǔn)確率最高的是基于粒子群算法的支持向量機分類, 為98.8%(59/60)的準(zhǔn)確率。 運行時間最短的是極限學(xué)習(xí)機, 只需要0.2 s。 但是, 在綜合考慮測試集準(zhǔn)確率和運行時間的情況下, 最適合分類這三種多肽的算法是基于網(wǎng)格搜索的支持向量機, 準(zhǔn)確率為95%(57/60), 運行時間是11.7 s。

表1 建模方法對預(yù)測結(jié)果的影響

4 結(jié) 論

以牛骨肽, 海參肽, 魚肽三種生物活性肽為研究對象, 驗證了太赫茲時域光譜技術(shù)對其定性分析中的應(yīng)有潛力。 為了更好的對其進(jìn)行區(qū)分, 利用這些多肽的吸收光譜信息結(jié)合機器學(xué)習(xí)算法, 并且比較數(shù)據(jù)在PCA降維之后和未降維的分類對比情況, 得出最適合分類這些多肽的分類算法。 結(jié)果證明, 使用網(wǎng)格搜索的支持向量機結(jié)合太赫茲時域光譜技術(shù), 可以實現(xiàn)對多肽的高效鑒別, 有望促進(jìn)太赫茲時域光譜技術(shù)在生物醫(yī)學(xué)檢測領(lǐng)域的應(yīng)用。

致謝:感謝百德福生物科技有限公司對樣品的支持, 以及萊儀特太赫茲(天津)科技有限公司提供太赫茲系統(tǒng)。

猜你喜歡
學(xué)習(xí)機赫茲多肽
極限學(xué)習(xí)機綜述
基于極限學(xué)習(xí)機參數(shù)遷移的域適應(yīng)算法
基于雙頻聯(lián)合處理的太赫茲InISAR成像方法
太赫茲低頻段隨機粗糙金屬板散射特性研究
太赫茲信息超材料與超表面
高多肽含量苦瓜新品種“多肽3號”的選育
分層極限學(xué)習(xí)機在滾動軸承故障診斷中的應(yīng)用
抗HPV18 E6多肽單克隆抗體的制備及鑒定
胎盤多肽超劑量應(yīng)用致嚴(yán)重不良事件1例
徐寒梅:創(chuàng)新多肽藥物研究與開發(fā)
清丰县| 清流县| 广水市| 望城县| 新巴尔虎左旗| 大埔县| 东辽县| 重庆市| 镇赉县| 江油市| 山东| 和林格尔县| 岳阳市| 馆陶县| 襄汾县| 邢台市| 抚顺县| 铁岭县| 墨江| 贵州省| 上饶市| 军事| 永仁县| 三穗县| 樟树市| 滦平县| 高阳县| 江孜县| 罗山县| 晋城| 贞丰县| 五河县| 通海县| 朝阳县| 大新县| 肥乡县| 新昌县| 岳西县| 出国| 肃北| 堆龙德庆县|