馬元婧,郭銳鋒,祖 彪
1(中國科學(xué)院 沈陽計算技術(shù)研究所,沈陽 110168)
2(中國科學(xué)院大學(xué),北京 100049)
3(遼寧省生態(tài)環(huán)境監(jiān)測中心,沈陽 110161)
E-mail:mayjing@sict.ac.cn
大氣氣溶膠顆粒的成分十分復(fù)雜、來源多種多樣,在大氣遷移過程中,氣溶膠顆粒會經(jīng)歷各種物理化學(xué)過程,這些物理化學(xué)過程將導(dǎo)致氣溶膠顆粒大小,結(jié)構(gòu)以及化學(xué)組成不斷變化[1].由于大氣氣溶膠顆粒的成分特殊復(fù)雜以及不斷變化的物理性質(zhì)和化學(xué)性質(zhì),使得對大氣氣溶膠在氣候、環(huán)境和健康效應(yīng)等方面的量化工作非常困難,不易處理[2].因此,要對大氣氣溶膠顆粒的化學(xué)成分、粒徑尺寸、存在形態(tài)、離子濃度、光學(xué)厚度、與氣象因子的關(guān)系、溯源反演等方面進(jìn)行大量的監(jiān)測和研究工作.明確大氣氣溶膠顆粒的成分是減少氣溶膠污染時間和解決環(huán)境污染問題的關(guān)鍵[3].
基于單顆粒氣溶膠飛行時間質(zhì)譜儀原理[2],對監(jiān)測所得的大氣氣溶膠顆粒以單個顆粒為單位進(jìn)行采集信息的存儲與整理分析,其中包括顆粒的監(jiān)測時間,顆粒的粒徑尺寸以及離子峰高度、離子峰面積等.將監(jiān)測數(shù)據(jù)按照離子質(zhì)荷比與其對應(yīng)的峰面積或者峰高強(qiáng)度進(jìn)行相應(yīng)表征向量的轉(zhuǎn)換,得到向量形式的顆粒信息,從而形成刻畫顆粒信息的質(zhì)譜圖.即每一個顆粒的質(zhì)譜信息被轉(zhuǎn)化成含有2n維的數(shù)據(jù)向量,其中列數(shù)n代表質(zhì)荷比m/z,對應(yīng)的數(shù)值代表離子的峰面積或峰強(qiáng)度.數(shù)據(jù)向量的前n維是正離子信息,后n維是負(fù)離子信息,一般情況下,n=240.所以每個顆粒的信息是通過一個480維的數(shù)據(jù)向量來表示的,形成的氣溶膠顆粒質(zhì)譜圖如圖1所示,這也是識別氣溶膠顆粒類別的依據(jù).一次常規(guī)的大氣氣溶膠監(jiān)測活動,單顆粒氣溶膠飛行時間質(zhì)譜儀至少要持續(xù)運(yùn)行十幾個小時,每秒大約會產(chǎn)生20個顆粒的正負(fù)離子質(zhì)譜信息[4].所以,每次監(jiān)測活動產(chǎn)生的氣溶膠顆粒的物理化信息過于龐大,這也為監(jiān)測之后的分析工作帶來了極大的難度.
圖1 單個顆粒質(zhì)譜信息圖Fig.1 Information map of single particle mass spectrometry
現(xiàn)有的氣溶膠顆粒分類方法為特征離子法和顆粒物聚類方法.特征離子法是根據(jù)特征離子的質(zhì)荷比及相對峰面積將某類具有一種或多種特征組分離子的顆粒物提取出來,作為限定標(biāo)準(zhǔn)提取成分顆粒,并定義為某種類別.但是特征離子法所面臨的難題是顆粒物成分的提取方法缺乏統(tǒng)一的標(biāo)準(zhǔn),并且應(yīng)用較少.另外,由于特征離子類間的差異較小,使得研究對比難度高,存在混合類別的現(xiàn)象[5].顆粒物聚類方法則是利用各類算法根據(jù)顆粒物質(zhì)譜圖中離子峰的種類及強(qiáng)度實現(xiàn)顆粒物的自動聚類,再根據(jù)化學(xué)成分特征人為將類別相同的顆粒合并[6].所以聚類算法面對的問題是需要選擇合適的警戒因子和學(xué)習(xí)效率等參數(shù),既保證同一類別間各顆粒的差別較小,也使類別總數(shù)控制在一定范圍以內(nèi),否則聚類的準(zhǔn)確率和效果會大幅度下降.聚類算法最大的問題在于聚類之后的工作量非常巨大[3,7],聚類分析會產(chǎn)生幾百個甚至是上千個顆粒分組,如表1所示,分別展示了4次氣溶膠顆粒監(jiān)測活動的統(tǒng)計數(shù)據(jù),隨著監(jiān)測時間的增加,聚類分析得到組數(shù)也增多.對每組中所有的顆粒求平均質(zhì)譜圖,依靠人工經(jīng)驗根據(jù)每張平均質(zhì)譜圖的圖像特征再進(jìn)行手動命名的工作.即使是有經(jīng)驗的分析人員,對一張平均質(zhì)譜圖手動命名的操作至少也需要5s的時間.
表1 Art-2a聚類分析結(jié)果Table 1 Results of Art-2a cluster analysis
針對目前大氣氣溶膠顆粒成分分析的現(xiàn)狀,根據(jù)已有顆粒分類結(jié)果,對大氣顆粒質(zhì)譜圖進(jìn)行類別的標(biāo)記,形成用于訓(xùn)練分類模型的數(shù)據(jù)集.選擇經(jīng)典的深度學(xué)習(xí)分類模型AlexNet訓(xùn)練氣溶膠顆粒分類模型,初步完成對氣溶膠顆粒成分的自動分類,應(yīng)用深度學(xué)習(xí)的思想為氣溶膠顆粒分類提供一種新方法[8].在此基礎(chǔ)之上,本文將之前的工作繼續(xù)延伸下去,詳細(xì)的分析了沈陽地區(qū)氣溶膠顆粒的具體組成,并對每種類別顆粒質(zhì)譜圖的特征進(jìn)行研究,結(jié)合AlexNet模型每個卷積層可視化輸出結(jié)果,對卷積層特征輸出進(jìn)行評估,對AlexNet模型進(jìn)行改進(jìn)優(yōu)化,提出適用于沈陽本地污染特征的一種改進(jìn)AlexNet模型的氣溶膠顆粒自動分類方法,將氣溶膠顆粒分類的準(zhǔn)確率從78%提高到了95%,每張顆粒質(zhì)譜圖確定類別所需要的時間由5s下降到了1s,使得氣溶膠顆粒的采集檢測過程完全的實現(xiàn)自動化,擺脫了氣溶膠顆粒分類對人工提取和特征選擇的依賴,提高了大氣環(huán)境監(jiān)測的效率,極大的節(jié)約了人員成本.
根據(jù)環(huán)境保護(hù)部組織編制的《大氣顆粒物來源解析技術(shù)指南》,將歷史監(jiān)測工作中所得的氣溶膠顆粒按照沈陽地區(qū)的污染物特征劃分為7種類型[9]:有機(jī)碳顆粒(OC)、元素碳顆粒(EC)、元素-有機(jī)碳混合顆粒(ECOC)、高分子有機(jī)碳顆粒(HOC)、重金屬顆粒(HM)、礦物質(zhì)顆粒(DUST)和富鉀顆粒(K).每種類別的平均質(zhì)譜圖特征信息如圖2所示.
圖2 7種類別顆粒質(zhì)譜信息特征Fig.2 Mass spectrum information characteristics of seven kinds of particles
元素-有機(jī)碳混合顆粒(ECOC):元素-有機(jī)碳混合顆粒正負(fù)譜圖中同時含有元素碳與有機(jī)碳的特征峰離子,而且質(zhì)荷比范圍主要集中在12~70之間.在圖中質(zhì)荷比為12的整數(shù)倍處,既可以看到明顯的元素碳峰,也可以在其周圍看到有機(jī)碳峰.
AlexNet是卷積神經(jīng)網(wǎng)絡(luò)在ImageNet圖像分類上的經(jīng)典模型,該網(wǎng)絡(luò)是一個8層的卷積神經(jīng)網(wǎng)絡(luò),由5個卷積層和3個全連接層、一個softmax損失層組成.因為該網(wǎng)絡(luò)的結(jié)構(gòu)深、參數(shù)多,所以和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,可以得到更多的特征表達(dá)能力[10].
以圖1為例,對基于AlexNet模型的氣溶膠顆粒分類模型的各個卷積層進(jìn)行可視化特征圖輸出,結(jié)果如圖3所示.由于AlexNet網(wǎng)絡(luò)在第1層卷積層中卷積核尺寸為11×11,卷積步長為4,過大的卷積核尺寸和步長使得AlexNet網(wǎng)絡(luò)第1層與第2層的特征輸出產(chǎn)生了很多混疊的情況.第3層與第4層的特征輸出顯示了較多相似的信息,主要原因可能與模型訓(xùn)練的數(shù)據(jù)集包含的信息量有關(guān).相對于ImageNet數(shù)據(jù)集來說,氣溶膠顆粒質(zhì)譜圖所包含的信息量較少,圖像特征不是很復(fù)雜,所以應(yīng)用較深層次的卷積神經(jīng)網(wǎng)絡(luò)來提取的圖像信息,卷積運(yùn)算過程中出現(xiàn)了冗余的現(xiàn)象.因此針對氣溶膠質(zhì)譜圖的特征對AlexNet模型進(jìn)行相應(yīng)的改進(jìn)優(yōu)化.
圖3 AlexNet模型特征圖Fig.3 Feature map of AlexNet
經(jīng)過大量的實驗對比總結(jié),對AlexNet網(wǎng)絡(luò)進(jìn)行如下更改和優(yōu)化,以達(dá)到更好的分類效果.
本次報告顯示,手術(shù)切除和注射碘酊治療口腔粘液腺囊腫治愈率均達(dá)到95%以上,臨床療效確切,兩種治療方法沒有顯著性差異。10例復(fù)發(fā)病例(手術(shù)切除治療4例,注射碘酊治療6例),其原因可能是囊壁處理不徹底,部分囊壁殘留導(dǎo)致囊腫復(fù)發(fā)。
1)重置圖片分辨率.AlexNet網(wǎng)絡(luò)對監(jiān)測圖像統(tǒng)一下采樣至256×256的矩形圖像,因為ImageNet數(shù)據(jù)集中圖像的分辨率不固定.在256×256的矩形圖像中,隨機(jī)的截取227×227的矩形圖像,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)[10].在測試過程中,測試網(wǎng)絡(luò)以圖像的4個角點和一個中心點為基準(zhǔn)提取了227×227的矩形圖像,再將圖像進(jìn)行水平翻轉(zhuǎn)操作,共計10個矩形圖像參與測試環(huán)節(jié),對10個矩形圖像通過softmax層進(jìn)行預(yù)測結(jié)果取平均值.
通過觀察分析顆粒質(zhì)譜圖(分辨率為256×256)的圖像分布特征,發(fā)現(xiàn)在測試過程中,取圖像右上和右下角兩點截取邊長為227的矩形圖像時,會造成圖像信息的丟失現(xiàn)象,從而影響了分類運(yùn)算的結(jié)果,如圖4所示.在元素碳C+(m/z=12)處的質(zhì)譜峰信息,其位置處于227×227的矩形圖像之外.所以,為了避免在測試過程中,造成圖像質(zhì)譜信息的丟失,采用統(tǒng)一調(diào)整圖像的下采樣分辨率.
圖4 右上角與右下角矩形圖像信息損失情況Fig.4 Information loss of rectangular image in upper right corner and lower right corner
3)精簡網(wǎng)絡(luò)結(jié)構(gòu).對AlexNet分類模型的改進(jìn)過程中,采用小尺寸卷積核和短的卷積步長,這使得分類模型的卷積運(yùn)算大量增加.考慮對AlexNet分類模型的網(wǎng)絡(luò)層數(shù)進(jìn)行精簡,將卷積層數(shù)個數(shù)以及全連接層個數(shù)減小[12],以防止過擬合的情況出現(xiàn).同時,設(shè)置最后輸出節(jié)點的個數(shù)為沈陽本地氣溶膠顆粒污染物種類的個數(shù),使得分類的結(jié)果更加精確的應(yīng)用于大氣氣溶膠顆粒自動分類模型[13].
改進(jìn)的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,具體的訓(xùn)練參數(shù)設(shè)置如下:
圖5 改進(jìn)AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of improved AlexNet network model
設(shè)置236×236為圖像下采樣統(tǒng)一分辨率尺寸,改進(jìn)AlexNet網(wǎng)絡(luò)圖像輸入大小為227×227,第1層卷積層含有96個卷積核,卷積核尺寸為5×5,卷積步長為2,卷積運(yùn)算后的數(shù)據(jù)大小為114×114×96,經(jīng)過ReLU(Rectified Linear Unit)激活函數(shù)后,進(jìn)入LRN局部響應(yīng)歸一化層(Local Response Normalization).最后經(jīng)過最大池化層(Maxpool Layer),卷積核尺寸2×2,卷積步長2,得到輸入下一層的數(shù)據(jù)大小為57×57×96.
第2層與第3層卷積層只做了卷積運(yùn)算和激活函數(shù)運(yùn)算.第2層卷積層含有256個卷積核,卷積核尺寸5×5,卷積步長2,經(jīng)過ReLU激活函數(shù)后,數(shù)據(jù)大小為29×29×256.第3層卷積層含有384個卷積核,卷積核尺寸3×3,卷積步長2,經(jīng)過ReLU激活函數(shù)后,數(shù)據(jù)大小為15×15×384.
第4層卷積層和第1層經(jīng)歷了相同的運(yùn)算過程,第4層卷積層含有256個卷積核,卷積核尺寸3×3,卷積步長1,卷積運(yùn)算后的數(shù)據(jù)大小為15×15×256,經(jīng)過ReLU激活函數(shù)后,進(jìn)入LRN層. 最后經(jīng)過最大池化層,卷積核大小為3×3,步長為2,得到下一層的數(shù)據(jù)大小為7×7×256.
第5層和第6層均為全連接層.第5層包含卷積核個數(shù)為4096,第6層數(shù)據(jù)輸出節(jié)點為7,為大氣顆粒物所劃分的7個種類.
以單個顆粒質(zhì)譜圖為例(見圖1),對改進(jìn)AlexNet模型的卷積特征圖輸出分析,如圖6所示.通過與AlexNet模型的特征輸出圖3做對比,可以看出改進(jìn)AlexNet模型的每層卷積特征輸出信息沒有出現(xiàn)過多信息堆疊的情況.第1層卷積操作學(xué)習(xí)到了目標(biāo)的角點、邊緣等基礎(chǔ)信息,第2層卷積操作學(xué)習(xí)到了目標(biāo)的紋理特征,第3層卷積操作學(xué)習(xí)到了特定類別間顯著的差異性,第4層卷積操作學(xué)習(xí)目標(biāo)更顯著的特征并且獲取到了位置變化的信息.
圖6 改進(jìn)AlexNet模型特征圖Fig.6 Feature map of improved AlexNet
實驗采用Ubuntu16.04操作系統(tǒng)下的Caffe開源框架及CUDA-GPU加速方案,顯卡采用NVIDIA GeForce 1050Ti(4G顯存)進(jìn)行GPU加速,其他主要硬件為Inter(R) Core(TM) i5-7300HQ CPU@2.50GHz 四核處理器、8G內(nèi)存、512G固態(tài)硬盤等.
根據(jù)沈陽地區(qū)氣溶膠顆粒組成的7種成分對數(shù)據(jù)集進(jìn)行劃分,對于每種分類選取1500張質(zhì)譜圖,共計1萬余張.將整個數(shù)據(jù)集按照每個類別7∶2∶1的比例分別劃分為訓(xùn)練集、測試集和驗證集3個部分.經(jīng)過若干次訓(xùn)練測試,將模型訓(xùn)練參數(shù)調(diào)整如下:設(shè)置訓(xùn)練模型的基礎(chǔ)學(xué)習(xí)率為0.002,停止訓(xùn)練的最大迭代次數(shù)為5000次,權(quán)重衰減系數(shù)為0.0005,采用Step步進(jìn)為學(xué)習(xí)策略和隨機(jī)梯度下降SGD為神經(jīng)網(wǎng)絡(luò)參數(shù)化算法;神經(jīng)網(wǎng)絡(luò)進(jìn)行測試時,每訓(xùn)練30次執(zhí)行1次測試,按照每批次50張圖像,分批次對圖像進(jìn)行處理.
分別應(yīng)用4種深度學(xué)習(xí)的分類算法AlexNet、AlexNet(增強(qiáng))[12]、ZFNet[14]與本文提出的改進(jìn)AlexNet模型對相同的數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,圖7分別為4種深度學(xué)習(xí)分類算法在準(zhǔn)確度(Accuracy)與損失函數(shù)(Loss)方面的表現(xiàn)情況,其中x軸表示測試的迭代次數(shù).AlexNet(增強(qiáng))為文獻(xiàn)[12]中提出的增強(qiáng)AlexNet模型,ZFNet是對AlexNet模型優(yōu)化改進(jìn)的一種變形,也是繼AlexNet之后出現(xiàn)的又一個經(jīng)典的深度學(xué)習(xí)分類模型.
圖7 4種分類模型預(yù)測準(zhǔn)確度與損失函數(shù)Fig.7 Prediction accuracy and loss function of four classification models
從圖7給出的測試結(jié)果可以看出,預(yù)測準(zhǔn)確度僅存在于模型建立的測試階段,而損失函數(shù)在模型訓(xùn)練和測試階段都存在.在預(yù)測準(zhǔn)確度方面,4個模型的表現(xiàn)都是可以接受的,測試開始階段測試精度都迅速的達(dá)到了90%以上,在迭代次數(shù)達(dá)到1000次以后,除了ZFNet模型,其他的模型預(yù)測準(zhǔn)確率都維持在95%上下,處于一個比較穩(wěn)定的趨勢.在損失函數(shù)方面,4個網(wǎng)絡(luò)模型的損失函數(shù)在訓(xùn)練階段相對平穩(wěn),總體趨勢隨著訓(xùn)練周期而減小,雖然AlexNet與AlexNet(增強(qiáng))模型在訓(xùn)練達(dá)到3000次前后有較為明顯的波動,但是不影響最終收斂的結(jié)果;在測試階段,AlexNet和AlexNet(增強(qiáng))模型表現(xiàn)不夠理想,損失測試曲線隨著訓(xùn)練周期的增加,震蕩幅度反而較大,而ZFNet和本文提出的改進(jìn)AlexNet模型則始終體現(xiàn)出了相對較穩(wěn)定的趨勢.通過分析預(yù)測準(zhǔn)確度與損失函數(shù)曲線,可以看出改進(jìn)AlexNet模型分類效果在總體評價上優(yōu)于其他3個深度學(xué)習(xí)分類模型.
基于深度分類算法的氣溶膠顆粒物成分分類模型訓(xùn)練完成后,應(yīng)用驗證集中的7類氣溶膠顆粒物質(zhì)譜圖,分別對4個網(wǎng)絡(luò)模型進(jìn)行正確性驗證,驗證結(jié)果如表2所示.AlexNet模型和ZFNet模型對類別EC、HOC、OC和K這4個類別的分類準(zhǔn)確率較高,但是在HM、ECOC和DUST這3個類別的分類情況很不理想.AlexNet(增強(qiáng))在HM、EC、HOC、OC和ECOC這5種類別的分類準(zhǔn)確率均在80%以上,屬于可接受的范圍,但是在DUST和K這兩個類別的分類準(zhǔn)確率上也不夠理想.而改進(jìn)AlexNet 模型在沈陽地區(qū)7種氣溶膠顆粒分類的準(zhǔn)確率均在91%以上,分類結(jié)果明顯優(yōu)于其他模型.
表2 深度學(xué)習(xí)分類模型準(zhǔn)確率對比
通過對改進(jìn)AlexNet模型分類錯誤的樣本進(jìn)行再分析,錯誤原因主要集中在以下3點:1)OC類別與ECOC類別特征峰形狀類似,不易區(qū)分;2)DUST類別與EC類別在譜圖上特征明顯的部分有相似的趨勢;3)部分質(zhì)譜圖中同時含有兩種顆粒類別的特征信息,但是特征又都不明顯,針對這樣的質(zhì)譜圖應(yīng)在訓(xùn)練數(shù)據(jù)集的建立過程中慎重考慮,否則會對分類結(jié)果造成不同的影響.
本文通過分析大氣氣溶膠顆粒各個類別質(zhì)譜圖的特征,對AlexNet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,進(jìn)一步提升氣溶膠顆粒成分的自動識別能力.實驗結(jié)果表明,基于改進(jìn)AlexNet模型的大氣氣溶膠顆粒物成分分析方法分類的準(zhǔn)確率達(dá)到了95%,對于一些人為不易分辨的類別,深度學(xué)習(xí)的方法可以通過應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)運(yùn)算提取更豐富的圖像特征來完成.從實驗結(jié)果可以看出,應(yīng)用深度學(xué)習(xí)的顆粒物成分分類方法彌補(bǔ)了現(xiàn)有分類方法的不足.然而當(dāng)監(jiān)測區(qū)域發(fā)生變化時,可能會出現(xiàn)新的顆粒類別,面對顆粒類別發(fā)生變化的情況時,如何識別出新的類別,并更新分類模型是今后研究的重點.