余曉露,葉 愷,杜崇嬌,宮晗凝,馬中良
(1.中國石化 油氣成藏重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214126; 2.中國石化 石油勘探開發(fā)研究院 無錫石油地質(zhì)研究所,江蘇 無錫 214126)
確定碳酸鹽巖沉積環(huán)境最有效的方法之一,是對(duì)碳酸鹽巖薄片中的生物化石進(jìn)行研究[1]。不同的生物門類指示不同的古生態(tài)環(huán)境,部分生物化石或生物組合還可以成為判斷水體鹽度、深度和濁度的特殊標(biāo)志[2]。WILSON[3]就曾以巖石中的生物類型、完整程度等特征為基礎(chǔ),對(duì)碳酸鹽巖沉積環(huán)境、相帶標(biāo)志等進(jìn)行了詳細(xì)劃分。
傳統(tǒng)的生物化石碳酸鹽巖微相研究方法是通過偏光顯微鏡對(duì)碳酸鹽巖薄片中的生物化石進(jìn)行觀察,根據(jù)其形態(tài)、顯微結(jié)構(gòu),并參考礦物成分、大小及表面紋理特征等對(duì)生物進(jìn)行鑒定。不同生物在薄片中具有不同的鑒定特征,例如三葉蟲切面常為彎鉤狀,具玻纖結(jié)構(gòu);有孔蟲常為多房室的殼體,且殼體具粒狀結(jié)構(gòu);海綿骨針呈單軸、三軸或四軸的放射狀,具晶粒結(jié)構(gòu),常見硅化特征[4]。但是,傳統(tǒng)的人工鑒定方法,不但耗時(shí)、效率較低,而且受主觀影響較大,為識(shí)別工作帶來許多不必要的錯(cuò)誤。
近年來,人工智能技術(shù)已經(jīng)應(yīng)用于醫(yī)學(xué)、天文學(xué)、地球科學(xué)、遙感、軍事、農(nóng)業(yè)等眾多領(lǐng)域。20世紀(jì)初深度學(xué)習(xí)算法概念的問世,使得機(jī)器學(xué)習(xí)技術(shù)在人類信息(如語言、視覺)處理方面出現(xiàn)突飛猛進(jìn)的進(jìn)步。在圖像識(shí)別領(lǐng)域,諸多學(xué)者圍繞圖像識(shí)別與分類研究進(jìn)行了大量工作,并產(chǎn)生了很多新的應(yīng)用。
圖像識(shí)別作為人工智能的一個(gè)重要領(lǐng)域,隨著人工智能的快速興起而得到發(fā)展?,F(xiàn)階段在地質(zhì)學(xué)的巖石圖像分析中也廣泛采用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等技術(shù)方法。有學(xué)者運(yùn)用圖像對(duì)巖石中的礦物進(jìn)行分類和計(jì)算,THOMPSON等[5]嘗試通過神經(jīng)網(wǎng)絡(luò)在圖像中提取礦物的紋理特征,識(shí)別出石英、長石、黑云母等10類礦物;ROSS等[6]嘗試?yán)眠z傳規(guī)劃算法識(shí)別薄片圖像中的礦物,并結(jié)合決策樹分析,利用閾值分析來識(shí)別巖石礦物類型;葉潤青等[7]采用多尺度分割技術(shù)處理碎屑巖圖像,并提取礦物顆粒形態(tài)、含量等特征;ALIGHOLI等[8]采用色彩跟蹤方法,通過計(jì)算和比較單偏光和正交偏光模式下礦物的顏色變化進(jìn)行礦物分類和識(shí)別;MAITRE等[9]提出了基于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)對(duì)礦物特征向量進(jìn)行分類的方法,同時(shí)采用超像素分割替代傳統(tǒng)方法,有效分割出光學(xué)顯微圖像中的顆粒。有人利用圖像對(duì)巖石進(jìn)行分類,李培軍[10]在巖石光譜數(shù)據(jù)的基礎(chǔ)上,利用變差函數(shù)提取巖石圖像紋理,提高了巖石分類的準(zhǔn)確性;郭超等[11]利用模式識(shí)別方法,通過計(jì)算并提取巖石圖像的特征空間值,對(duì)圖像進(jìn)行分類;楊艷梅等[12]以Spark平臺(tái)的巖石圖像聚類分析為基礎(chǔ),對(duì)巖石圖像進(jìn)行處理并使其更易于區(qū)分。也有人著力于對(duì)巖石結(jié)構(gòu)、孔隙等進(jìn)行識(shí)別,MARMO等[13]利用圖像處理和多層感知器神經(jīng)網(wǎng)絡(luò)方法,基于鄧哈姆碳酸鹽巖結(jié)構(gòu)分類,識(shí)別出未受成巖改造的海相碳酸鹽巖圖像;程國建等[14]提出了一種模糊聚類和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,實(shí)現(xiàn)了鑄體薄片圖像孔隙的分割和識(shí)別。上述工作多數(shù)集中在礦物類別和巖石圖像類別的識(shí)別上,所使用的方法以復(fù)雜的特征參數(shù)提取算法為基礎(chǔ),但難以在種類繁雜的巖石薄片圖像中得到泛化。
相對(duì)而言,學(xué)者們對(duì)顯微生物化石的圖像識(shí)別研究比較少,劉曦陽[15]嘗試?yán)肧IFT算法對(duì)生物化石圖像中的特征點(diǎn)進(jìn)行匹配識(shí)別;岳翔等[16]嘗試?yán)肰GG16模型和GoogleNet模型對(duì)電子顯微鏡下的典型有孔蟲化石進(jìn)行識(shí)別,但上述研究均未達(dá)到滿意的效果。本文利用人工智能深度學(xué)習(xí)技術(shù),對(duì)碳酸鹽巖薄片圖像進(jìn)行處理,并對(duì)其中的生物種類、數(shù)量等特征進(jìn)行識(shí)別和分析。
在碳酸鹽巖薄片樣本拍攝的過程中,由于使用不同品牌或不同型號(hào)的偏光顯微鏡,并設(shè)置不同的拍攝參數(shù),導(dǎo)致圖像分辨率、圖像格式和色調(diào)等性質(zhì)出現(xiàn)差異,造成難以使用統(tǒng)一的算法對(duì)圖像進(jìn)行分析。
為保證碳酸鹽巖薄片圖像的有效性,需要對(duì)其進(jìn)行預(yù)處理,例如圖像歸一化、圖像去噪和增強(qiáng)等。具體來說,就是將所有圖像歸一化到相同比例尺,然后使用雙邊濾波算法去除圖像中的椒鹽噪聲,使用直方圖均衡化算法增強(qiáng)顆粒區(qū)域和背景區(qū)域的灰度差異,在保持所有原圖像特征統(tǒng)一的情況下,使圖像特征更加清晰、圖像噪聲影響更低。
經(jīng)過圖像去噪和圖像增強(qiáng)預(yù)處理過程之后的效果如圖1所示。圖1a是一張?zhí)妓猁}巖薄片顯微圖像原圖,圖1b是經(jīng)過圖像去噪和圖像增強(qiáng)后的新圖像,可以看出紋理和色彩的清晰度得到明顯提升。
圖1 圖像預(yù)處理對(duì)比Fig.1 Comparison of image preprocessing
深度學(xué)習(xí)技術(shù)需要從大量的數(shù)據(jù)中學(xué)習(xí)有效的特征,因此收集和制作生物顯微圖像數(shù)據(jù)集具有重要的意義。碳酸鹽巖生物化石顯微圖像數(shù)據(jù)集需要分步制作,先制作生物圖像目標(biāo)檢測數(shù)據(jù)集,由此得到生物圖像分類數(shù)據(jù)集;再通過增強(qiáng)獲得最終數(shù)據(jù)集。
2.2.1 制作數(shù)據(jù)集
由專業(yè)巖礦鑒定人員審查篩選了327張具有典型特征的碳酸鹽巖薄片生物化石圖像,邀請專家使用專業(yè)軟件工具將圖像中典型的生物化石區(qū)域框選出來,并按照所設(shè)計(jì)的類別命名規(guī)則來標(biāo)記名稱,經(jīng)過標(biāo)注和整理即得到生物圖像目標(biāo)檢測數(shù)據(jù)集。該數(shù)據(jù)集中,每張圖像中都標(biāo)注了生物的位置,并且每種生物都有其對(duì)應(yīng)的類別標(biāo)簽。
接著,再將目標(biāo)檢測數(shù)據(jù)集中的生物標(biāo)注提取出來,根據(jù)生物標(biāo)注的位置將該區(qū)域提取成一個(gè)個(gè)的子圖像,并用該區(qū)域的類別名作為子圖像的類別標(biāo)簽,即得到生物圖像分類數(shù)據(jù)集。
2.2.2 數(shù)據(jù)集增強(qiáng)
由于專家標(biāo)注的圖像為具有典型特征的碳酸鹽巖薄片生物化石圖像,為提升數(shù)據(jù)的泛化性,要將現(xiàn)有的圖像進(jìn)行多種變換操作,來增強(qiáng)數(shù)據(jù)的多樣性。
本研究使用了圖像裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、縮放和調(diào)換顏色通道等方法對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),過程如圖2所示。將原始的碳酸鹽巖生物化石圖像分類數(shù)據(jù)集中的327張圖像擴(kuò)展到1 635張圖像,即得到碳酸鹽巖生物化石顯微圖像數(shù)據(jù)集,為后續(xù)訓(xùn)練深度學(xué)習(xí)模型提供數(shù)據(jù)支撐。
圖2 碳酸鹽巖生物化石圖像數(shù)據(jù)集增強(qiáng)過程示例Fig.2 Example of enhancement process for micro fossils image data set of carbonate rocks
本研究采用深度學(xué)習(xí)算法來識(shí)別碳酸鹽巖薄片圖像中的生物化石,并設(shè)計(jì)了2個(gè)階段的生物化石識(shí)別方法。第一階段是將原圖像分割成多個(gè)子圖像;第二階段是對(duì)每個(gè)子圖像進(jìn)行分類識(shí)別。生物化石圖像的分類流程主要包括設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)模型、訓(xùn)練模型,再將分割得到的子圖像送入訓(xùn)練好的模型,得到生物化石識(shí)別結(jié)果。
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)是現(xiàn)階段深度學(xué)習(xí)的主要算法之一,具有一定深度結(jié)構(gòu)并包含卷積計(jì)算,屬于前饋神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)通過局部區(qū)域連接、權(quán)重共享和降采樣等策略,大大降低了網(wǎng)絡(luò)模型的復(fù)雜度,同時(shí)對(duì)于圖像平移、旋轉(zhuǎn)、縮放等形式的變形具有高度不變性,因此廣泛應(yīng)用于圖像識(shí)別領(lǐng)域。
卷積神經(jīng)網(wǎng)絡(luò)特殊的仿生結(jié)構(gòu),使得其能以較小的計(jì)算量對(duì)目標(biāo)對(duì)象進(jìn)行大量的特征提取。從結(jié)構(gòu)上看,卷積層為卷積神經(jīng)網(wǎng)絡(luò)的核心,其功能是提取輸入數(shù)據(jù)的特征參數(shù);卷積層內(nèi)部包括多個(gè)卷積核,其功能類似于神經(jīng)元;在卷積層中,神經(jīng)元之間呈網(wǎng)絡(luò)狀連接,功能類似于生物視覺皮層細(xì)胞中的感受野。卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算時(shí),先通過卷積核掃過輸入特征,再在感受野內(nèi)對(duì)輸入特征進(jìn)行計(jì)算,計(jì)算方式為矩陣元素乘法求和,再疊加偏差量,公式如下所示:
Zl+1(i,j)=[Zl×wl](i,j)+b(i,j)∈{0,1,…,Ll+1}
式中:Zl和Zl+1分別代表第l+1層的卷積輸入和輸出;wl代表第l層的卷積核;Ll+1代表Zl+1的尺寸;Z(i,j)代表對(duì)應(yīng)特征圖的像素;b代表偏差量。
卷積層的關(guān)鍵參數(shù)通常有3個(gè):卷積核大小、步長和填充,3個(gè)參數(shù)的共同作用決定卷積層輸出圖像的空間尺寸。
2.3.2 設(shè)計(jì)模型
設(shè)計(jì)不同的網(wǎng)絡(luò)連接方式和卷積方式,便可生成適用于不同任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)模型。目前經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型有AlexNet、VGG、ResNet、InceptionNet等模型,其模型性能在近幾年的研究和實(shí)踐中都得到了驗(yàn)證。
本研究采用的是ResNet模型(Deep Residual Network),并根據(jù)需要對(duì)模型進(jìn)行了一定改進(jìn)。ResNet模型是一個(gè)非常有創(chuàng)造性并且非常深的卷積神經(jīng)網(wǎng)絡(luò),基本解決了較深網(wǎng)絡(luò)中出現(xiàn)的性能退化問題,可以用于圖像分類、目標(biāo)檢測和語義分割等多種圖像識(shí)別任務(wù)。
ResNet模型由多個(gè)卷積塊組成,圖3示意了每個(gè)卷積塊的結(jié)構(gòu),其重要特征是卷積塊內(nèi)包含的跨層連接,輸入圖像x可以通過跨層傳遞實(shí)現(xiàn)同等映射,經(jīng)過卷積處理之后,輸出一個(gè)F(x)的非線性函數(shù)。ResNet模型的深度由卷積塊的數(shù)量決定,經(jīng)過卷積處理之后,所有輸出相加,可以讓底層網(wǎng)絡(luò)得到充分訓(xùn)練,同時(shí)也可以大大提高正確率。本研究所使用的ResNet卷積神經(jīng)網(wǎng)絡(luò)模型具有50層,其網(wǎng)絡(luò)結(jié)構(gòu)的詳細(xì)信息參考圖4,模型中每個(gè)卷積塊之后使用ReLU激活函數(shù),在最后一層卷積層之后使用全局平均池化層(global average pooling),再連接兩層全連接層,最終模型輸出的全連接層的神經(jīng)元個(gè)數(shù)和當(dāng)前生物圖像分類數(shù)據(jù)集中生物的種類數(shù)相等。
圖3 ResNet模型中殘差塊結(jié)構(gòu)示意[17]Fig.3 Residual block structure in ResNet model[17]
2.3.3 訓(xùn)練模型
本研究使用TensorFlow框架構(gòu)建模型,并在高性能計(jì)算機(jī)上進(jìn)行訓(xùn)練。
首先將碳酸鹽巖生物化石顯微圖像數(shù)據(jù)集劃分為兩類:訓(xùn)練集和測試集,訓(xùn)練集占80%,測試集占20%。這兩類數(shù)據(jù)集起著不同的作用,訓(xùn)練集的功能是為訓(xùn)練模型提供數(shù)據(jù)樣本,通過訓(xùn)練集中的數(shù)據(jù)使模型學(xué)習(xí)相應(yīng)的特征;測試集的功能是測試并調(diào)整模型參數(shù),以及初步評(píng)估模型的性能,并對(duì)最終模型的泛化能力進(jìn)行評(píng)估。
將訓(xùn)練集中的圖像逐個(gè)送入模型進(jìn)行計(jì)算,并反向傳播偏差來修正模型權(quán)重。模型將訓(xùn)練集中所有數(shù)據(jù)迭代計(jì)算200輪,并采用早停策略,即當(dāng)測試集在模型上的準(zhǔn)確率經(jīng)過N輪迭代后沒有提升便停止訓(xùn)練。
2.3.4 實(shí)驗(yàn)結(jié)果分析
ResNet模型最終的輸出為一個(gè)向量,如圖4所示,將一張含有棘皮動(dòng)物化石的子圖像輸入模型,經(jīng)過計(jì)算之后,模型輸出一個(gè)一維向量。由于在數(shù)據(jù)集中將生物化石分為10個(gè)類別,因此輸出向量也包含10個(gè)值,其中的每個(gè)值代表該類別生物化石的概率,且10個(gè)值相加之和為1。對(duì)于圖像分類任務(wù),一般將所有值中輸出概率最大的值所對(duì)應(yīng)的物體類別作為輸入圖像的類別。以圖4為例,該子圖像經(jīng)過計(jì)算后輸出的向量中,棘皮動(dòng)物化石對(duì)應(yīng)位置的概率值在所有值中最大,因此將該
表1 ResNet模型中網(wǎng)格結(jié)構(gòu)示意[17]
圖4 ResNet卷積神經(jīng)網(wǎng)絡(luò)生物化石分類過程Fig.4 Fossil classification process by ResNet Convolutional Neural Network
子圖像判斷為棘皮動(dòng)物化石。
在計(jì)算機(jī)視覺領(lǐng)域的圖像分類任務(wù)中,最常用的模型性能評(píng)價(jià)指標(biāo)為Top-N準(zhǔn)確率。由于本研究當(dāng)前數(shù)據(jù)量較少,涉及到的類別也較少,因此使用Top-1準(zhǔn)確率來衡量分類精度。
(1)
本研究使用ResNet模型在包含327個(gè)樣本的測試集上進(jìn)行測試,對(duì)10種類別生物識(shí)別的綜合準(zhǔn)確率約為86%。
2.3.5 碳酸鹽巖生物化石顯微圖像識(shí)別過程
基于ResNet卷積神經(jīng)網(wǎng)絡(luò)模型的碳酸鹽巖生物化石顯微圖像識(shí)別在具體實(shí)現(xiàn)時(shí),需要先將原圖像分割成多個(gè)子圖像,再對(duì)每個(gè)圖像進(jìn)行分類。
具體識(shí)別流程如圖5所示,先將碳酸鹽巖薄片圖像中的典型生物化石所在區(qū)域通過專業(yè)軟件工具框選出來,然后運(yùn)用計(jì)算機(jī)程序處理并提取子圖像,經(jīng)過圖像預(yù)處理,再輸入到已經(jīng)訓(xùn)練好的ResNet模型中,最后經(jīng)過前向計(jì)算獲取輸出結(jié)果,并根據(jù)最大值在索引文件中查找,即得到對(duì)應(yīng)的生物類別識(shí)別結(jié)果。
圖5 ResNet卷積神經(jīng)網(wǎng)絡(luò)碳酸鹽巖生物化石的識(shí)別過程Fig.5 Fossil dentification of carbonate rocks by ResNet Convolutional Neural Network
在圖像識(shí)別領(lǐng)域,以ResNet為代表的卷積神經(jīng)網(wǎng)絡(luò)模型屬于兩步走算法,即先提取候選區(qū)域(子圖像),再通過模型進(jìn)行計(jì)算與分類。而以YOLO(You Only Look Once)模型為代表的目標(biāo)檢測模型則屬于一步走算法,可對(duì)輸入圖像進(jìn)行計(jì)算之后,直接輸出目標(biāo)對(duì)象的類別和位置。目標(biāo)檢測技術(shù)是指從一張圖像中識(shí)別待檢測目標(biāo)的類別,并同時(shí)確定目標(biāo)在圖像中的位置,可以簡單理解為輸入一張圖像到模型中,經(jīng)過卷積計(jì)算之后,將從圖像中提取到的特征同時(shí)送入2個(gè)分類器:一個(gè)分類器通過分類計(jì)算輸出目標(biāo)對(duì)象的類別;另一個(gè)分類器通過坐標(biāo)預(yù)測計(jì)算輸出目標(biāo)對(duì)象在圖像中的位置。
因此,本研究同時(shí)嘗試了YOLO模型作為進(jìn)階目標(biāo)檢測模型,并使用標(biāo)注的生物化石圖像目標(biāo)檢測數(shù)據(jù)集來訓(xùn)練模型。
YOLO模型一共包含24個(gè)卷積層和2個(gè)全連接層,通過卷積層提取特征,再通過全連接層輸出預(yù)測值。卷積層和全連接層之后使用LeakyReLU激活函數(shù),并在模型的最后一層使用線性激活函數(shù)。
對(duì)于YOLO生物化石目標(biāo)檢測模型的訓(xùn)練,模型的初始權(quán)重不使用隨機(jī)初始化,而是使用遷移學(xué)習(xí)的策略,將ResNet模型訓(xùn)練獲取模型的權(quán)重作為YOLO的初始權(quán)重,其余訓(xùn)練策略則是與ResNet模型使用的訓(xùn)練策略一樣。
使用訓(xùn)練好的YOLO模型對(duì)碳酸鹽巖薄片圖像中的生物化石進(jìn)行檢測和識(shí)別,相對(duì)于先分割圖像后識(shí)別的方法更加智能化,不再需要對(duì)待檢測圖像進(jìn)行人工框選。如圖6所示,對(duì)圖像進(jìn)行預(yù)處理之后,輸入到Y(jié)OLO模型中,經(jīng)過前向計(jì)算和回歸之后,得到一系列輸出。因?yàn)檩敵鍪嵌嗑S的,每一維都預(yù)測了一個(gè)矩形框和該矩形框?qū)?yīng)的類別,因此將所有的矩形框在原圖像中繪制出來,并從生物類別索引文件中匹配該矩形框?qū)?yīng)的類別,即可檢測到一張?zhí)妓猁}巖薄片圖像中所有典型的生物化石所在區(qū)域,并識(shí)別其類別。
圖6 YOLO目標(biāo)檢測模型碳酸鹽巖生物化石的檢測與識(shí)別過程Fig.6 Fossil detection and identification of carbonate rocks by YOLO object detection model
將生物化石圖像目標(biāo)檢測數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,剩下20%的數(shù)據(jù)作為測試集,YOLO模型識(shí)別碳酸鹽巖薄片圖像生物的平均準(zhǔn)確率為85%。
(1)本文提出改進(jìn)的ResNet卷積神經(jīng)網(wǎng)絡(luò)模型,可以對(duì)碳酸鹽巖顯微圖像中的生物化石進(jìn)行識(shí)別,識(shí)別準(zhǔn)確率約為86%。
(2)本文同時(shí)提出進(jìn)階YOLO目標(biāo)檢測模型,可以對(duì)碳酸鹽巖顯微圖像中的所有典型生物化石所在區(qū)域進(jìn)行檢測,并識(shí)別其類別,識(shí)別準(zhǔn)確率約為85%。
(3)該方法表明,使用數(shù)字圖像處理技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)對(duì)生物化石進(jìn)行智能識(shí)別具有一定的可行性,可作為傳統(tǒng)人工鑒定方法的有益補(bǔ)充,具有一定的實(shí)際應(yīng)用價(jià)值。如果增加使用場景,圖像識(shí)別技術(shù)在本行業(yè)將具有廣闊的應(yīng)用前景。
(4)現(xiàn)有數(shù)據(jù)集樣本量有限,僅包括少量常見生物化石類型,對(duì)于復(fù)雜的生物化石類別,后續(xù)研究可通過擴(kuò)充樣本庫等方式來進(jìn)一步提高識(shí)別準(zhǔn)確率,提升應(yīng)用價(jià)值。