国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對(duì)抗和遷移學(xué)習(xí)的災(zāi)害天氣衛(wèi)星云圖分類

2021-04-13 01:59張敏靖白琮張敬林鄭建煒
關(guān)鍵詞:云圖類別災(zāi)害

張敏靖,白琮,2,*,張敬林,鄭建煒,2

(1.浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州310023; 2.浙江省可視媒體智能處理技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,杭州310023;3.南京信息工程大學(xué) 大氣科學(xué)學(xué)院,南京210044)

全球75%經(jīng)濟(jì)損失源于災(zāi)害天氣,每年約1萬多人因惡劣天氣而死亡[1-2]。災(zāi)害天氣,包括臺(tái)風(fēng)、強(qiáng)對(duì)流和沙暴,嚴(yán)重威脅人民生命財(cái)產(chǎn)安全,監(jiān)測災(zāi)害天氣的形成發(fā)展過程是氣象災(zāi)害預(yù)測預(yù)報(bào)的基礎(chǔ)。通過觀測衛(wèi)星云圖進(jìn)行監(jiān)測是重要的手段之一,因?yàn)榈厍虻拇蟛糠值貐^(qū)被云覆蓋,各種天氣現(xiàn)象總是和云有著密不可分的聯(lián)系。衛(wèi)星云圖是由氣象衛(wèi)星自頂而下觀測云層覆蓋和地球表面的圖像,可以用來識(shí)別不同的天氣狀態(tài),評(píng)估其強(qiáng)度和未來發(fā)展趨勢(shì)等,為天氣預(yù)報(bào)和災(zāi)害天氣預(yù)測提供全天候的依據(jù)。本文聚焦于衛(wèi)星云圖中的災(zāi)害天氣分類問題,即在衛(wèi)星云圖數(shù)據(jù)中分類出帶有熱帶氣旋、溫帶氣旋等可能帶有災(zāi)害天氣的云圖。但是在實(shí)際的衛(wèi)星云圖中,往往是非災(zāi)害天氣類別的圖片占據(jù)了原始數(shù)據(jù)的大多數(shù),而各個(gè)災(zāi)害天氣的數(shù)量相對(duì)較少,數(shù)據(jù)呈現(xiàn)了不平衡的分布形態(tài)。這樣的數(shù)據(jù)分布使得分類器在進(jìn)行訓(xùn)練的時(shí)候,會(huì)比較關(guān)注占據(jù)數(shù)據(jù)大多數(shù)的非災(zāi)害天氣樣本,故而雖然總體的分類精度高,但是如熱帶氣旋、溫帶氣旋等這些對(duì)于實(shí)際研究非常具有指導(dǎo)意義的類別,并沒有從分類器中得到很好的區(qū)分。因此需解決衛(wèi)星云圖災(zāi)害天氣分類中類間不均衡的問題,才能較好的將各個(gè)災(zāi)害天氣從非災(zāi)害天氣中區(qū)分出來。

圖片數(shù)據(jù)的類間不平衡問題,近年來一直是一個(gè)研究的熱點(diǎn)[3]。圖片數(shù)據(jù)的類間不平衡是指在分類問題中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況。這一情況與實(shí)際生產(chǎn)生活中的數(shù)據(jù)分布情況相似,非常具有研究的意義和必要性。2012年Krizhevsky等[4]在ILSVRC-2012[5]比賽中獲得了冠軍,成功的將深度學(xué)習(xí)應(yīng)用于圖片分類的問題上[3,6-7],至此之后各類深度學(xué)習(xí)的框架模型開始涌現(xiàn)。但是研究者主要關(guān)注平衡數(shù)據(jù)分布的數(shù)據(jù)集,關(guān)于長尾分布數(shù)據(jù)的研究并未深入。尤其是在衛(wèi)星云圖的災(zāi)害天氣分類問題的研究上,由于原始數(shù)據(jù)獲取和處理的成本較大,相關(guān)的分類研究還較少。災(zāi)害天氣分類問題中類間不平衡問題較為突出,故而本文對(duì)不平衡的衛(wèi)星云圖災(zāi)害天氣分類問題展開研究。

本文針對(duì)不平衡衛(wèi)星云圖災(zāi)害天氣分類,聚焦數(shù)據(jù)和算法混合的思路,提出了一種結(jié)合生成對(duì)抗學(xué)習(xí)(GAN)和遷移學(xué)習(xí)(TL)的分類訓(xùn)練模型框架,對(duì)云圖數(shù)據(jù)分別進(jìn)行過采樣和欠采樣處理,并采用遷移學(xué)習(xí)進(jìn)行災(zāi)害天氣云圖的分類。通過在自建的LSCIDWS-S大尺度衛(wèi)星云圖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了所提框架的有效性。本文的主要貢獻(xiàn)如下:

1)提出了一個(gè)GAN+TL的訓(xùn)練模型框架。該框架是針對(duì)不平衡衛(wèi)星云圖災(zāi)害天氣所設(shè)計(jì)的分類框架,主要由數(shù)據(jù)平衡化處理模塊和圖片分類2個(gè)模塊組成。

2)在該框架中,GAN用于高質(zhì)量的圖片生成,代替?zhèn)鹘y(tǒng)的簡單復(fù)制的過采樣方法,同時(shí)結(jié)合了欠采樣,對(duì)原始不平衡的數(shù)據(jù)分布進(jìn)行了均衡化的處理。在卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類訓(xùn)練過程中引入了遷移學(xué)習(xí)的方法,使得整體的分類性能在原有的基礎(chǔ)上得到了進(jìn)一步的提升。

3)實(shí)驗(yàn)結(jié)果表明,分類器整體的分類性能得到了一定的均衡。這對(duì)于實(shí)際研究有一定的借鑒意義,即更受到實(shí)際應(yīng)用所關(guān)注但容易被分類器忽略的災(zāi)害天氣樣本的正判率得到了一定的提升。

1 相關(guān)工作

1.1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)是在2014年,由Goodfellow等[8]提出。GANs的基本思想是源于博弈論中的零和游戲。它的網(wǎng)絡(luò)結(jié)構(gòu)由一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator)組成,生成器的作用是為了盡可能地去學(xué)習(xí)數(shù)據(jù)的真實(shí)分布情況從而生成數(shù)據(jù),而判別器的作用是判斷輸入的數(shù)據(jù)是來源于真實(shí)的數(shù)據(jù)還是由生成器生成的,二者之間不斷的進(jìn)行優(yōu)化從而達(dá)到相對(duì)平衡。根據(jù)生成對(duì)抗網(wǎng)絡(luò)有生成樣本的這一特點(diǎn),DCGAN(Deep Convolutional GAN)[9]為首個(gè)將CNN與GAN相結(jié)合以生成相應(yīng)的圖片樣本,但是生成的圖片質(zhì)量不高并且不穩(wěn)定。2020年,NVIDIA研究人員發(fā)布了StyleGAN2[10],該網(wǎng)絡(luò)設(shè)計(jì)了具有非常規(guī)的生成器架構(gòu),從而可以生成高質(zhì)量的圖片,并且訓(xùn)練過程較為穩(wěn)定。本文所提方法中的GAN的設(shè)計(jì)就引用了該網(wǎng)絡(luò)結(jié)構(gòu),從而可以生成相對(duì)質(zhì)量較高的過采樣樣本。

1.2 圖片分類中的類間不平衡問題

關(guān)于圖片數(shù)據(jù)類間不平衡的研究主要可以分為3層次:數(shù)據(jù)、算法和數(shù)據(jù)算法的兩相結(jié)合[3,11]。關(guān)于數(shù)據(jù)層面的研究主要是對(duì)原始不平衡的數(shù)據(jù)進(jìn)行均衡化的處理,把不平衡的數(shù)據(jù)轉(zhuǎn)化為相對(duì)平衡的數(shù)據(jù)再加入模型中展開之后的訓(xùn)練。Hensman和Masko[11]提出了提升樣本的解決思路,主要是對(duì)樣本中數(shù)量較少的類別,對(duì)其進(jìn)行簡單的復(fù)制從而達(dá)到擴(kuò)充樣本數(shù)量的效果,該方法雖然簡單但是性能提升有限?;谒惴▽用娴母倪M(jìn),主要是對(duì)損失函數(shù)的重新設(shè)計(jì)以及學(xué)習(xí)方式的改進(jìn)。Wang[12]等提出了MSFE(Mean Squared False Error Loss)函數(shù),該損失函數(shù)可以很好的平衡大樣本和小樣本之間的關(guān)系,從而也可以達(dá)到較好的分類性能。數(shù)據(jù)與算法的結(jié)合則是一種數(shù)據(jù)和算法混合的方法,如He[13]等提出的LMLE(Large Margin Local Embedding),該方法采用了5倍抽樣法和THL(Tripleheader Hinge Loss)這一損失函數(shù)。本文所提框架是結(jié)合了數(shù)據(jù)和算法混合的方法,在數(shù)據(jù)層面上進(jìn)行了包括對(duì)原始數(shù)據(jù)欠采樣和引入了StyleGAN過采樣的數(shù)據(jù)均衡化處理,而在算法層面則引入了遷移學(xué)習(xí)的思想。

1.3 遷移學(xué)習(xí)

遷移學(xué)習(xí)是把源域的知識(shí)遷移到目標(biāo)域的學(xué)習(xí)方法,可使得目標(biāo)域能夠取得更好的學(xué)習(xí)效果。在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)從一個(gè)任務(wù)中學(xué)習(xí)到的知識(shí)可以應(yīng)用到另一個(gè)相關(guān)的獨(dú)立任務(wù)當(dāng)中。在類間不平衡問題的處理上,遷移學(xué)習(xí)可以對(duì)相對(duì)平衡的數(shù)據(jù)集中訓(xùn)練出的模型進(jìn)行遷移學(xué)習(xí),該模型較好的學(xué)習(xí)到少數(shù)樣本的類別特征,因而取得了不錯(cuò)的效果,如Lee等[14]提出了二階段的訓(xùn)練方法;Kang等[15]提出了CRT(Classifier Retraining)方法,該方法是使用類平衡采樣的數(shù)據(jù)對(duì)分類器進(jìn)行重新訓(xùn)練,故而本文中的分類模塊也會(huì)引入遷移學(xué)習(xí)這一思想。結(jié)合衛(wèi)星云圖災(zāi)害數(shù)據(jù)的實(shí)際情況,本文中所采用的遷移學(xué)習(xí)的思路是將原始數(shù)據(jù)集訓(xùn)練處的結(jié)果遷移到均衡化處理后的數(shù)據(jù),該過程主要是為了在提升各個(gè)少樣本的天氣類別分類精度的基礎(chǔ)上,盡可能的保留原始數(shù)據(jù)中非災(zāi)害天氣這一類別的精度。

2 本文所提方法

本文提出了一個(gè)基于GAN+TL的衛(wèi)星云圖災(zāi)害天氣分類的框架,如圖1所示。該框架主要分為2部分,一個(gè)是數(shù)據(jù)均衡化處理模塊,另外一個(gè)是圖片分類模塊。在數(shù)據(jù)平衡化處理模塊中首先是對(duì)原始不均衡的數(shù)據(jù)分布進(jìn)行處理,處理之后得到一個(gè)相對(duì)較為均衡的數(shù)據(jù)分布情況。數(shù)據(jù)處理的過程采用不同的手段,對(duì)多數(shù)據(jù)樣本的類別進(jìn)行欠采樣,對(duì)少樣本的數(shù)據(jù)進(jìn)行過采樣。具體來講,過采樣的方法是采用生成對(duì)抗網(wǎng)絡(luò),對(duì)數(shù)據(jù)樣本進(jìn)行擴(kuò)充。而欠采樣是將樣本根據(jù)設(shè)定的閾值進(jìn)行縮減。在圖片分類模塊,首先在原始數(shù)據(jù)分布的數(shù)據(jù)集進(jìn)行訓(xùn)練,之后將訓(xùn)練出來的模型遷移學(xué)習(xí)到類別較為均衡分布的數(shù)據(jù)集上要進(jìn)行訓(xùn)練的模型上。

圖1 處理氣象衛(wèi)星中類間不平衡的模型框架圖Fig.1 Model framework for handling imbalance between classes in meteorological satellites

2.1 數(shù)據(jù)均衡化處理模塊

數(shù)據(jù)均衡化處理過程的具體細(xì)節(jié)如圖2所示,圖2(b)為理想數(shù)據(jù)分布,是現(xiàn)如今深度學(xué)習(xí)分類中所研究的大多數(shù)數(shù)據(jù)分布的情況,各個(gè)類別的數(shù)據(jù)量基本相近,而且也取得相對(duì)較好的分類性能。本文數(shù)據(jù)處理模塊的主要目的是將原始數(shù)據(jù)集的分布趨向理想數(shù)據(jù)分布的方向進(jìn)行改進(jìn),這樣可以把數(shù)據(jù)不均衡的問題轉(zhuǎn)化為數(shù)據(jù)均衡化處理的問題。數(shù)據(jù)均衡化的過程分為基于閾值N的欠采樣和基于GAN的過采樣,具體細(xì)節(jié)如下:

步驟1 基于閾值欠采樣。在均衡化處理的過程中,首先根據(jù)各個(gè)類別之間的數(shù)量關(guān)系,設(shè)置一個(gè)較為合理的閾值N,然后根據(jù)這個(gè)閾值,對(duì)樣本數(shù)據(jù)量大于這個(gè)閾值的類別進(jìn)行數(shù)據(jù)隨機(jī)丟棄的處理。本文采用的是去掉樣本數(shù)量最多類別的數(shù)量和樣本數(shù)量最少類別的數(shù)量,然后取剩下類別的樣本數(shù)量計(jì)算平均數(shù)的方法確定閾值。具體實(shí)現(xiàn)如式(1)所示,Xtotal為數(shù)據(jù)集中包含的總數(shù)量;Xmax和Xmin分別為類別數(shù)量最大和類別數(shù)量最小的數(shù)量,n為數(shù)據(jù)集中的類別數(shù)量。確定好閾值之后,對(duì)于樣本數(shù)量大于該閾值的類別,進(jìn)行隨機(jī)欠采樣,使得類別的數(shù)量達(dá)到閾值為止,此時(shí)的數(shù)據(jù)分布如圖2(c)所示。

步驟2 基于GAN的過采樣。在完成數(shù)據(jù)欠采樣的操作之后,對(duì)相應(yīng)的樣本數(shù)量少的類別進(jìn)行過采樣。本文提出以StyleGAN2為基礎(chǔ)網(wǎng)絡(luò)基于GAN的過采樣方法。即首先把StyleGAN2在進(jìn)行過采樣的類別數(shù)據(jù)上進(jìn)行訓(xùn)練,之后用訓(xùn)練好的生成器生成相應(yīng)類別的數(shù)據(jù)并加入到已經(jīng)完成欠采樣操作的數(shù)據(jù)集中,此時(shí)的數(shù)據(jù)分布如圖2(d)所示。圖3為GAN設(shè)計(jì)的核心思想流程,G(z)fake為隨機(jī)化的初始噪音,G為生成器,用來生成圖片;D為判別器,用于判別生成圖片的真假;Datareal為本框架結(jié)構(gòu)中要進(jìn)行數(shù)據(jù)增強(qiáng)的部分;real和fake表示經(jīng)過判別器判斷生成的數(shù)據(jù)為真還是假。

圖2 不同方法對(duì)應(yīng)數(shù)據(jù)分布情況的百分占比示意圖Fig.2 Schematic diagram of data percentage proportion of data distribution corresponding to different methods

圖3 GAN的核心思想Fig.3 Core idea of GAN

StyleGAN2也是在該思想流程上的改進(jìn),可以生成更加高質(zhì)量的圖片。因?yàn)楸疚闹兴玫腖SCIDWS-S數(shù)據(jù)集,原本就是高質(zhì)量的衛(wèi)星云圖,故而本文選擇了StyleGAN2作為GAN數(shù)據(jù)平衡化處理模塊中的基礎(chǔ)網(wǎng)絡(luò)。StyleGAN2主要在消除圖片偽像上進(jìn)行了進(jìn)一步的改進(jìn),圖片的偽像就是生成圖片中圖像上呈現(xiàn)出的類似于水滴的特征,該算法將改進(jìn)的方向定位到了AdaiN的運(yùn)算中,該算法的特點(diǎn)可分別歸一化到每個(gè)特征圖的均值和方差。具體的修改細(xì)節(jié)如下:首先對(duì)每個(gè)輸入特征圖的尺度根據(jù)調(diào)制卷積操作進(jìn)行相應(yīng)的調(diào)整,如式(2)所示,w和w′分別為原始權(quán)重和調(diào)制權(quán)重;si為與第i個(gè)輸入特征圖對(duì)應(yīng)的比例;j和k分別為特征圖和卷積的空間下標(biāo)。式(3)為完成相應(yīng)調(diào)制卷積操作之后的輸出權(quán)重(調(diào)制權(quán)重)的標(biāo)準(zhǔn)差。式(4)表示式(2)中σj固化到卷積權(quán)重中去,ε為很小的數(shù)值,是為了確保被除數(shù)不為0。

3.2 圖片分類模塊

在完成數(shù)據(jù)均衡化處理之后,進(jìn)入分類訓(xùn)練的模塊,流程如圖4所示。先根據(jù)原始不均衡的數(shù)據(jù)集訓(xùn)練出一個(gè)模型,再將不均衡分布數(shù)據(jù)訓(xùn)練出來的模型進(jìn)行遷移學(xué)習(xí),即把上述訓(xùn)練得到的模型權(quán)重初始化到較為均衡分布的數(shù)據(jù)集的分類模型上。采取這樣二階段訓(xùn)練的目的,主要是為了解決,均衡化后的數(shù)據(jù)分布所訓(xùn)練出的模型會(huì)丟失較多關(guān)于原樣本數(shù)量較多類別特征信息的問題。故而能在犧牲樣本數(shù)量較多類別的分類精度的前提下,提升其他各個(gè)類別的分類性能。同時(shí)二階段訓(xùn)練的處理方法,也使得原始不均衡的數(shù)據(jù)分布和后處理的較為均衡的數(shù)據(jù)分布之間建立相應(yīng)的關(guān)聯(lián)。2個(gè)模塊之間的相互關(guān)聯(lián),使得整個(gè)數(shù)據(jù)處理和之后的圖片分類過程形成一個(gè)閉環(huán),也使得分類器的性能達(dá)到相應(yīng)的穩(wěn)定和平衡。對(duì)應(yīng)算法步驟如下所示:

算法1 圖片分類框架算法。

輸入:原始訓(xùn)練集Xtrain,均衡化處理后的訓(xùn)練集X′train,模型訓(xùn)練的次數(shù)m。

輸出:對(duì)測試集Xtest的分類結(jié)果。

1.隨機(jī)初始化用于遷移學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)Mt

2.Repeat

for i=1 to m do

根據(jù)網(wǎng)絡(luò)預(yù)測結(jié)果與真實(shí)的標(biāo)簽進(jìn)行損失計(jì)算

反向傳播更新網(wǎng)絡(luò)的參數(shù)Wt

3.獲得遷移學(xué)習(xí)的模型Mt

4.用模型Mt初始化分類模型Mc的參數(shù)

5.Repeat

for i=1 to m do

根據(jù)網(wǎng)絡(luò)預(yù)測結(jié)果與真實(shí)的標(biāo)簽進(jìn)行損失計(jì)算

反向傳播更新網(wǎng)絡(luò)的參數(shù)Wc

6.完成最終分類模型Mc的訓(xùn)練

7.將待預(yù)測的樣本輸入Mc獲得最終分類結(jié)果

本文在圖片分類模塊中采用ResNet101作為訓(xùn)練過程中的基礎(chǔ)模型。這主要是因?yàn)楸疚牡臄?shù)據(jù)集原始數(shù)量大,希望可以用深層次的網(wǎng)絡(luò)取得較好的性能,但大量研究表明,隨著網(wǎng)絡(luò)深度的增加,會(huì)出現(xiàn)梯度爆炸,導(dǎo)致無法收斂這一問題。而殘差思想的提出[13]可以使得網(wǎng)絡(luò)的性能不隨網(wǎng)絡(luò)深度的增加而退化,因此本文選擇ResNet101作為分類模塊中的基礎(chǔ)模型。

圖4 分類模塊訓(xùn)練的流程圖Fig.4 Flowchart of classification module training

以上2個(gè)模塊的結(jié)合,構(gòu)成了災(zāi)害天氣衛(wèi)星云圖的分類框架,并充分考慮了數(shù)據(jù)中的不平衡問題。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

因目前沒有公開可用的云圖數(shù)據(jù)庫,本論文實(shí)驗(yàn)數(shù)據(jù)集采用自建的數(shù)據(jù)集,稱之為LSCIDMR-S(Large-scale Satellite Cloud Image Database for Meteorological Research System)。LSCIDMR-S是以葵花-8號(hào)氣象衛(wèi)星為數(shù)據(jù)來源建立的一個(gè)大尺度靜止氣象云圖的單標(biāo)簽數(shù)據(jù)集。該數(shù)據(jù)集的數(shù)據(jù)采集時(shí)間跨度為1年,包含了溫帶氣旋、熱帶氣旋、鋒面、西風(fēng)急流、降雪、高冰云、低水云、海洋、沙漠、植被和其他總共11個(gè)類別總計(jì)104 390張圖片,圖片的原始大小為1 000×1 000像素。在本文中,因主要聚焦于災(zāi)害天氣的分類識(shí)別,故將高冰云、低水云、海洋、沙漠、植被和其他合并為非災(zāi)害天氣類別,圖5為數(shù)據(jù)集中的部分云圖示例,表1為數(shù)據(jù)集中各個(gè)類別的分布情況。重新劃分后的數(shù)據(jù)不平衡比率(Imbalanced Ratio,IR)為137.25。IR為衡量數(shù)據(jù)集不均衡程度的一個(gè)指標(biāo),其具體計(jì)算如式(5)所示,是數(shù)據(jù)量最多的類別的數(shù)量和數(shù)據(jù)量最少的類別的數(shù)量比例,一般大于10認(rèn)定為類間不平衡的數(shù)據(jù)集[3,7]。Ci為第i個(gè)類別對(duì)應(yīng)的類別數(shù)量。

圖5 LSCIDMR-S數(shù)據(jù)集的部分示意圖Fig.5 Partial schematic of LSCIDMR-S dataset

表1 LSCIDMR-S處理之后的數(shù)據(jù)分布情況表Table 1 Data distribution of LSCIDMR-S after processing

3.2 評(píng)估方法

本文中的實(shí)驗(yàn)評(píng)估方法采用分類中通常使用的總體精度(Overall Accuracy)和各個(gè)類別的分類精度(Category Accuracy)進(jìn)行評(píng)估??傮w精度是指預(yù)測正確的標(biāo)簽數(shù)量和待預(yù)測的總標(biāo)簽數(shù)量的比例,這一指標(biāo)只能籠統(tǒng)的評(píng)價(jià)模型的整體性能。對(duì)于長尾數(shù)據(jù)集的分布,單一的總體精度還不足以充分的體現(xiàn)這一模型與實(shí)際問題的貼合程度。單一的總體精度的虛高并不能很好地表示模型的性能很好,很有可能是因?yàn)閿?shù)據(jù)集中占據(jù)絕大多數(shù)類別的單個(gè)類別的性能好。比如本文中的非災(zāi)害天氣類別這一類別,占總數(shù)據(jù)集的82.69%,如果總體精度達(dá)到了80%,也很有可能只是單一的非災(zāi)害天氣類別這個(gè)類別的精度高而已。而在實(shí)際的長尾分布數(shù)據(jù)集當(dāng)中,占數(shù)據(jù)量少的類別往往更是應(yīng)該關(guān)注的對(duì)象。故而占樣本數(shù)量較少的溫帶氣旋、熱帶氣旋、西風(fēng)急流、鋒面和降雪,它們單個(gè)類別的分類精度對(duì)于實(shí)際問題的研究更加有意義,故而本文還采用各個(gè)類別的分類精度。

總體精度和單個(gè)類別的精度能從數(shù)值上說明一個(gè)模型的整體性能。于此同時(shí)本文還采用了ROC曲線作為評(píng)估指標(biāo)[9],該曲線可視化了正確分類的陽性樣本與陰性樣本之間的關(guān)系,故而ROC曲線是衡量模型在不均衡數(shù)據(jù)集中性能的一個(gè)重要指標(biāo)。ROC曲線通常用于二分類的研究,橫坐標(biāo)為假陽性(特異度),縱坐標(biāo)為真陽性(靈敏度)。本文為將其擴(kuò)展到多分類問題上,首先對(duì)輸出進(jìn)行二值化,然后分別進(jìn)行如下操作:①對(duì)每個(gè)類別繪制了一個(gè)對(duì)應(yīng)的ROC曲線;②Micro-average通過把多分類問題轉(zhuǎn)化為二元預(yù)測來繪制ROC曲線;③Macro-average用于多分類的評(píng)估方法是對(duì)每個(gè)標(biāo)簽給予相同的權(quán)重,實(shí)現(xiàn)宏觀的平均,最后將同一個(gè)類別的數(shù)據(jù)匯總到1張ROC曲線上。ROC曲線下方與坐標(biāo)軸圍成的面積被定義為AUC(Area Under Curve),表示預(yù)測的正例樣本排在負(fù)例樣本前面的概率,這個(gè)面積的數(shù)值通常介于0.5~1之間,數(shù)值越大,表明分類方法的性能越好。

3.3 參數(shù)設(shè)定

本文實(shí)驗(yàn)均在一個(gè)配備了32 GB內(nèi)存和3.6-GHz Inter(R)Core i9-9900K CPU處理器及GeForce RTX 2080Ti顯卡的工作站上進(jìn)行。

對(duì)于數(shù)據(jù)集的訓(xùn)練集和測試集按照9∶1的比例進(jìn)行劃分。對(duì)于數(shù)據(jù)集欠采樣的部分,按照數(shù)據(jù)均衡的方向調(diào)整,設(shè)置了閾值N=3 826,該閾值根據(jù)訓(xùn)練集中去掉了類別中數(shù)量的最大值和最小值取均值。然后對(duì)數(shù)據(jù)量超過這個(gè)數(shù)值的類別的數(shù)據(jù)進(jìn)行隨機(jī)丟棄直到數(shù)據(jù)數(shù)量達(dá)到3 826。對(duì)于數(shù)據(jù)過采樣部分,是基于數(shù)據(jù)欠采樣的基礎(chǔ)上對(duì)數(shù)據(jù)再進(jìn)行進(jìn)一步的處理,對(duì)于類別數(shù)量較少的鋒面和西風(fēng)急流擴(kuò)充k倍,默認(rèn)為1,相應(yīng)的數(shù)據(jù)數(shù)量分別為571和766。對(duì)于參數(shù),按照0.5的步長設(shè)置進(jìn)行了相應(yīng)的參數(shù)實(shí)驗(yàn)。

使用StyleGAN2生成的圖片大小為256×256像素。分類模型中的各個(gè)超參數(shù)分別設(shè)置為learning rate=0.001,momentum=0.9,batch_size=64,圖片統(tǒng)一為256像素×256像素。每個(gè)模型都訓(xùn)練20次,保留總精度最高的模型,進(jìn)行指標(biāo)計(jì)算。

3.4 實(shí)驗(yàn)結(jié)果及分析

針對(duì)本文所提GAN+TL框架,設(shè)計(jì)對(duì)比實(shí)驗(yàn)證明所提模型方法有效。分別為:采用未經(jīng)過任何處理的原始數(shù)據(jù)進(jìn)行訓(xùn)練與分類的Base方法;對(duì)原始數(shù)據(jù)按照對(duì)超過閾值的類別進(jìn)行隨機(jī)欠采樣處理后的Base_under方法;在Base_under的基礎(chǔ)上對(duì)Base進(jìn)行遷移學(xué)習(xí)的Base_under_t方法;Base_under_over是對(duì)原始數(shù)據(jù)集進(jìn)行按閾值隨機(jī)欠采樣之后的基礎(chǔ)上,再對(duì)原始數(shù)據(jù)集中樣本數(shù)量較少的類別進(jìn)行機(jī)械復(fù)制的過采樣方法;Base_under_over_t是在Base_under_over方法的基礎(chǔ)上對(duì)Base進(jìn)行遷移學(xué)習(xí)的結(jié)果;之后的Base_under_gan相比于Base_under_over是用生成對(duì)抗網(wǎng)絡(luò)來代替?zhèn)鹘y(tǒng)的復(fù)制對(duì)數(shù)據(jù)進(jìn)行過采樣,從而使得數(shù)據(jù)分布達(dá)到一個(gè)較為均衡的狀態(tài);最后的Base_under_gan_t也是本文所提的GAN+TL框架,即在Base_under_gan的數(shù)據(jù)處理基礎(chǔ)上對(duì)Base訓(xùn)練出的模型進(jìn)行遷移學(xué)習(xí)。接下來的實(shí)驗(yàn)分析中,也將主要從數(shù)據(jù)平衡化模塊和圖片分類模塊分別展開分析。

首先是數(shù)據(jù)均衡化,表2為不同方法所對(duì)應(yīng)的數(shù)據(jù)分布情況和相應(yīng)的數(shù)據(jù)不平衡系數(shù)??芍?,原始數(shù)據(jù)集的數(shù)據(jù)不均衡系數(shù)達(dá)到137.25。而經(jīng)過本文所提數(shù)據(jù)均衡化處理之后,數(shù)據(jù)不平衡系數(shù)降到了3.35。圖2為不同方法對(duì)應(yīng)的數(shù)據(jù)分布情況的百分比占比示意圖,圖2(a)為數(shù)據(jù)的原始分布示意圖,圖2(b)為大多數(shù)研究中數(shù)據(jù)理想的均衡分布圖,圖2(c)和圖2(d)分別對(duì)應(yīng)了不同數(shù)據(jù)均衡化處理的過程。圖6為基于GAN的數(shù)據(jù)過采樣的部分結(jié)果示意圖,以西風(fēng)急流為例,圖6(a)為原始數(shù)據(jù)集中西風(fēng)急流的部分示意圖,圖6(b)為基于GAN生成的數(shù)據(jù)樣例,從圖片中可以觀測到StyleGAN2,可以較好地學(xué)習(xí)到圖像的輪廓、紋理、顏色等特征。雖然伴隨著一定的噪音,但是從表3的實(shí)驗(yàn)結(jié)果中可以觀察到,StyleGAN2生成的圖片信息能夠較好地學(xué)習(xí)原圖像的特征。

表2 各方法對(duì)應(yīng)的數(shù)據(jù)分布及數(shù)據(jù)不平衡系數(shù)Table 2 Data distribution and data imbalance degree corresponding to each method

圖6 基于GAN的數(shù)據(jù)過采樣生成的圖片F(xiàn)ig.6 Schematic diagram of oversampling data image generated by GAN

表3為分類實(shí)驗(yàn)的總體精度和各個(gè)類別的分類精度。可知,本文所提的數(shù)據(jù)處理:欠采樣、基于StyleGAN2的過采樣方法和基于不平衡樣本的遷移學(xué)習(xí)(Base_Under_Over_Gant)的方法對(duì)解決類間不平衡問題有效。由表3可知,雖然Base方法的整體精度和非災(zāi)害天氣這一類別的分類性能達(dá)到了最優(yōu),但是對(duì)于西風(fēng)急流、熱帶氣旋、鋒面和溫帶氣旋這4個(gè)類別的數(shù)據(jù),他們的分類精度還非常低。這4個(gè)類別的原始數(shù)據(jù)量較少,但是能準(zhǔn)確地識(shí)別它們對(duì)于實(shí)際應(yīng)用場景非常有意義。上述實(shí)驗(yàn)結(jié)果進(jìn)一步說明了長尾數(shù)據(jù)的分布對(duì)于CNN的特征提取有一定的影響,在分類的時(shí)候會(huì)更加關(guān)注數(shù)量多的類別,因而數(shù)量多的類別(非災(zāi)害天氣)能取得較好的提取特征,進(jìn)而忽略了其他數(shù)量較少類別的特征的學(xué)習(xí),由此對(duì)數(shù)據(jù)量較大的類別(非災(zāi)害天氣)進(jìn)行處理就非常有必要。對(duì)于閾值大于N=3 826的類別進(jìn)行了隨機(jī)丟棄的欠采樣處理,從表3中可以看出,Base_under與最開始的Base相比,雖然損失了非災(zāi)害天氣這一類別的精度,但是其他各個(gè)類別的精度都得到了一定的提升,與此同時(shí),Base方法中對(duì)數(shù)量較多的非災(zāi)害天氣這一類別的特征有較好的學(xué)習(xí),故而把Base方法訓(xùn)練的結(jié)果遷移學(xué)習(xí)到進(jìn)行調(diào)整的Base_under模型,得到了新的模型Base_under_t,發(fā)現(xiàn)部分類別的精度會(huì)得到一定的提升。故而提升少數(shù)類別的數(shù)量,可以幫助CNN均衡的提取各個(gè)類別的特征。將欠采樣和過采樣相結(jié)合的同時(shí),再加上遷移學(xué)習(xí),這給訓(xùn)練一個(gè)更好的分類器提供了思路。用GAN對(duì)于少數(shù)樣本的數(shù)據(jù)進(jìn)行過采樣,從表3中可以看出,Base_under_gan和Base_under_over 2個(gè)模型相比,Base_under_gan的總精度和絕大部分類別的分類精度基本高于Base_under_over。這說明用GAN生成圖像的過采樣方法比簡單的復(fù)制粘貼過采樣的方法能取得更好的分類效果。最后,本文所提出的Base_over_gan_t模型基本在所有類別都取得了相對(duì)較高的精度。在降雪類別的數(shù)據(jù)上雖然沒有取得最高的分類精度,但是也取得了相對(duì)不錯(cuò)的精度。究其原因是在對(duì)數(shù)據(jù)進(jìn)行了欠采樣和過采樣處理之后的數(shù)據(jù)各個(gè)類別的分布比例雖然達(dá)到了一定的均衡,但是降雪(如圖2(d)所示)這一類別相較于其他類別的數(shù)量占比較大,故而分類器在該類別的特征提取上能夠取得較優(yōu)的性能。表3中數(shù)據(jù)部分加粗的是各個(gè)類別取得的最高精度。

圖7(a)~圖7(h)分別對(duì)應(yīng)非災(zāi)害天氣、西風(fēng)急流、熱帶氣旋、降雪、鋒面、溫帶氣旋、Microaverage和Macro-average在各個(gè)不同模型下的ROC曲線圖,圖中的Model 1~7分別對(duì)應(yīng)表2中的各個(gè)方法。表3中本文所提Base_under_gan_t方法,相比于其他的方法,整體的性能達(dá)到了最佳,對(duì)應(yīng)的ROC曲線的頂角靠近左上角,對(duì)應(yīng)的AUC與其他方法相比達(dá)到了最高:非災(zāi)害天氣(0.83)、西風(fēng)急流(0.85)、熱帶氣旋(0.85)、降雪(0.94)、鋒面(0.73)和溫帶氣旋(0.83)。

之后對(duì)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)擴(kuò)充的倍數(shù)k對(duì)各個(gè)類別分類精度的影響進(jìn)行了進(jìn)一步的探究,實(shí)驗(yàn)結(jié)果如圖8所示。圖8(a)為基于GAN的數(shù)據(jù)過采樣之外不采用遷移學(xué)習(xí)進(jìn)行模型訓(xùn)練的分類性能情況;圖8(b)為同時(shí)采用基于GAN的數(shù)據(jù)過采樣和遷移學(xué)習(xí)進(jìn)行模型訓(xùn)練之后的分類性能情況。k=0.5、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5,訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的IR分別為4.5、3.35、2.70、2.25、1.93、1.69、1.50、1.35、1.23、1.13、1.04,相應(yīng)的各類別的數(shù)據(jù)分布情況如圖9所示。從圖8中可以看出,無論是否采用遷移學(xué)習(xí),隨著值的增大,總精度基本穩(wěn)定在0.75。而其他各個(gè)數(shù)據(jù)類別的分類精度會(huì)呈現(xiàn)先升高,然后穩(wěn)定在一定數(shù)值之后再下降的趨勢(shì),當(dāng)值介于1~2之間的時(shí)候整體的分類器的性能都取得較為均衡的結(jié)果,稱之為最佳取值范圍。總體上當(dāng)處于最佳取值范圍時(shí),采用遷移學(xué)習(xí)之后的總精度和各個(gè)類別的分類精度都有一定的提升。而隨著k的增加,IR趨近于1的時(shí)候,對(duì)不均衡分布數(shù)據(jù)訓(xùn)練出來的模型進(jìn)行遷移學(xué)習(xí)的分類器的性能提升并沒有明顯效果。這主要是因?yàn)闃颖驹黾拥臄?shù)量遠(yuǎn)大于該類別原始數(shù)據(jù)的數(shù)量,通過GAN進(jìn)行數(shù)據(jù)的過采樣會(huì)導(dǎo)致分類器在特征學(xué)習(xí)過程中受到生成數(shù)據(jù)中噪聲的影響,進(jìn)而影響特征學(xué)習(xí)效果。

表3 各個(gè)模型的總精度和分類精度的統(tǒng)計(jì)Tabel 3 Statistics of total accuracy of each model and accur acy of each category(Accuracy)

圖7 各個(gè)模型中各個(gè)類別對(duì)應(yīng)的ROC曲線Fig.7 ROC curve corresponding to each category in each model

圖8 參數(shù)k對(duì)分類性能的影響Fig.8 Influence of parameter k on classification performance

圖9 不同k對(duì)應(yīng)的數(shù)據(jù)分布Fig.9 Data points corresponding to different k

4 結(jié) 論

1)本文提出了一個(gè)結(jié)合生成對(duì)抗網(wǎng)絡(luò)和遷移學(xué)習(xí)處理災(zāi)害天氣氣象衛(wèi)星云圖中的長尾數(shù)據(jù)分類的框架。該框架分為數(shù)據(jù)均衡化處理模塊和數(shù)據(jù)分類2個(gè)模塊。數(shù)據(jù)均衡化處理模塊采用GAN對(duì)少樣本的數(shù)據(jù)類別進(jìn)行過采樣,然后將過采樣和欠采樣相結(jié)合實(shí)現(xiàn)原始數(shù)據(jù)均衡化處理。

2)通過上述過程,GAN可根據(jù)數(shù)據(jù)的分布情況生成新的過采樣數(shù)據(jù),進(jìn)而能夠給CNN中的特征提取提供更加優(yōu)質(zhì)的圖片信息;在圖片分類模塊中,采用對(duì)原始不均衡數(shù)據(jù)集訓(xùn)練得到的模型進(jìn)行遷移學(xué)習(xí),用所得的模型對(duì)圖片進(jìn)行分類的方法。

3)在自建的大規(guī)模衛(wèi)星云圖數(shù)據(jù)上的多方面實(shí)驗(yàn)證明,所提框架中的基于GAN的數(shù)據(jù)過采樣和基于遷移學(xué)習(xí)的模型訓(xùn)練方法可以較好地解決衛(wèi)星云圖中的數(shù)據(jù)不平衡問題。所提框架在傳遞數(shù)量較多的數(shù)據(jù)類別特征信息的同時(shí)又可對(duì)數(shù)量較少的數(shù)據(jù)類別提取較好的特征,故而在提升少量樣本類別分類精度的同時(shí),也盡可能地保證大量樣本的分類精度。為之后解決類間不平橫的長尾數(shù)據(jù)分布提供了一個(gè)可以借鑒的解決思路。與此同時(shí),雖然其他各個(gè)類別分類的精度都得到了可觀的提升,但是數(shù)據(jù)分類的總體精度和非災(zāi)害天氣的分類精度有了一定的下降,其中非災(zāi)害天氣精度下降可能是因?yàn)殡S機(jī)欠采樣不能充分保留原始數(shù)據(jù)的多樣性(原始災(zāi)害天氣中并沒有進(jìn)行更加細(xì)致的類別劃分,從而不能有計(jì)劃的從各個(gè)非災(zāi)害天氣類別中進(jìn)行隨機(jī)欠采樣)。這也是之后研究中所需要進(jìn)一步改進(jìn)和研究的方向:即在保證各個(gè)少量樣本類別分類精度得到提升的同時(shí),分類的總體精度也要保證一定的提升。

猜你喜歡
云圖類別災(zāi)害
河南鄭州“7·20”特大暴雨災(zāi)害的警示及應(yīng)對(duì)
利用精密衛(wèi)星星歷繪制GNSS衛(wèi)星云圖
一起去圖書館吧
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
災(zāi)害肆虐
2015年我國海洋災(zāi)害造成直接經(jīng)濟(jì)損失72.74億元
CAD派客云圖發(fā)布V2.2.0版本
云圖青石板
選相紙 打照片
怎樣識(shí)讀衛(wèi)星云圖
江华| 醴陵市| 三亚市| 德令哈市| 比如县| 涟水县| 鹤庆县| 德安县| 五家渠市| 永春县| 阳朔县| 南木林县| 巴林左旗| 庆元县| 塔河县| 邢台市| 抚宁县| 乐都县| 平果县| 太湖县| 衡水市| 锦屏县| 济宁市| 永新县| 清水县| 莒南县| 佛教| 安溪县| 长顺县| 正蓝旗| 云浮市| 贵德县| 九台市| 耒阳市| 阜康市| 泰和县| 泗水县| 建阳市| 凌海市| 敦煌市| 波密县|