国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

頁巖氣儲層預(yù)測的多標(biāo)簽主動學(xué)習(xí)算法

2022-03-01 12:35:02馮婷婷唐洪明閆建平廖紀(jì)佳
計算機應(yīng)用 2022年2期
關(guān)鍵詞:信息性豐富性測井

汪 敏,馮婷婷,閔 帆,唐洪明,閆建平,廖紀(jì)佳

(1.西南石油大學(xué)電氣信息學(xué)院,成都 610500;2.西南石油大學(xué)計算機科學(xué)學(xué)院,成都 610500;3.西南石油大學(xué)地球科學(xué)與技術(shù)學(xué)院,成都 610500)

0 引言

隨著人類對能源的需求越來越大,非常規(guī)油氣資源的開采越來越受到人們的關(guān)注。頁巖氣[1-2]作為非常規(guī)油氣資源,具有含氣面積廣泛、資源量大、生產(chǎn)壽命長、產(chǎn)量穩(wěn)定等特點,吸引了越來越多的研究者投入研究。中國已經(jīng)成為世界上第三個實現(xiàn)頁巖氣工業(yè)化生產(chǎn)的國家。由于中國頁巖氣地質(zhì)條件復(fù)雜、頁巖氣勘探開發(fā)關(guān)鍵技術(shù)與裝備有限,導(dǎo)致頁巖氣開發(fā)成本較高。中國目前的頁巖氣勘探事業(yè)尚處于發(fā)展初期,如何快速低成本地判斷出頁巖氣資源“甜點區(qū)”,實現(xiàn)經(jīng)濟開采具有重大的意義。

頁巖氣儲層品質(zhì)[3]受到地質(zhì)因素、工程因素等多種因素的影響,比如,脆性礦物組成、泊松比、楊氏模量、吸附氣含量等參數(shù)。眾多因素產(chǎn)生的生產(chǎn)數(shù)據(jù)極其龐大,需要大量的專業(yè)知識作為支撐,才可以實現(xiàn)對生產(chǎn)數(shù)據(jù)的有效處理,因此耗費的人力和物力成本都是巨大的。頁巖氣儲層品質(zhì)的判斷結(jié)果會直接影響到試油層位的優(yōu)選和壓裂施工的效果,進而影響頁巖氣產(chǎn)能的高低。隨著人工智能的快速發(fā)展,將機器學(xué)習(xí)運用在頁巖氣開發(fā)領(lǐng)域,已經(jīng)成為行業(yè)關(guān)注的熱點。

在單標(biāo)簽學(xué)習(xí)任務(wù)中,標(biāo)簽稀少、標(biāo)簽獲取難度大、專家標(biāo)注成本高、獲取標(biāo)簽錯誤率高等問題層出不窮。實際應(yīng)用中的樣本,往往會同時擁有多個標(biāo)簽[4],例如,在文本分類中,每個文檔可能同時屬于多個主題,如政治和健康。與單標(biāo)簽學(xué)習(xí)相比,多標(biāo)簽學(xué)習(xí)中標(biāo)簽的指數(shù)級增長更加劇了標(biāo)簽稀缺和標(biāo)注成本高昂的問題。主動學(xué)習(xí)[5]通過交互式查詢可以有效降低標(biāo)注成本。將多標(biāo)簽學(xué)習(xí)與主動學(xué)習(xí)[6]結(jié)合,制定樣本選擇策略篩選最有價值的樣本進行學(xué)習(xí),可以有效緩解多標(biāo)簽學(xué)習(xí)場景中成本高昂的問題。

本文提出一種多標(biāo)準(zhǔn)主動查詢的多標(biāo)簽學(xué)習(xí)(Multistandard Active query Multi-label Learning,MAML)算法,將多標(biāo)簽學(xué)習(xí)與主動學(xué)習(xí)相結(jié)合,充分考慮了樣本屬性信息和標(biāo)簽空間內(nèi)部的信息,有效改善了多標(biāo)簽學(xué)習(xí)常見的信息挖掘不充分的問題。通過綜合考慮樣本的信息性、代表性,制定豐富性約束,有效篩選出最有價值的樣本,不僅降低了多標(biāo)簽學(xué)習(xí)的標(biāo)注成本,而且顯著提高了多標(biāo)簽學(xué)習(xí)算法的性能。

本文提出的MAML 算法思想主要包括以下四個方面:

1)利用基于密度峰值的快速聚類CFDP(Clustering by Fast search and find of Density Peaks)算法[7]選擇初始訓(xùn)練樣本。將多標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化為多個單標(biāo)簽二分類數(shù)據(jù)集,通過Softmax 得到多標(biāo)簽樣本在每個單標(biāo)簽下的信息熵。利用最大熵思想,將多個標(biāo)簽下的信息熵進行加權(quán)平均得到每個樣本的信息性。

2)利用無參數(shù)概率密度估計的方法,選擇高斯核函數(shù)和窗口寬度,利用概率密度函數(shù)得到樣本的統(tǒng)計概率,從而得到每個樣本的代表性。

3)從樣本屬性和樣本標(biāo)簽兩個角度考慮,加入豐富性約束。為了保證選擇的訓(xùn)練樣本盡可能地豐富,定義樣本之間的屬性差異性閾值,從而避免選擇相似的樣本;為了保證選擇的樣本所具有的標(biāo)簽足夠豐富,利用第1)步中Softmax 預(yù)測的標(biāo)簽值,獲得每次查詢過程的樣本豐富性,并定義標(biāo)簽豐富性閾值。當(dāng)同時滿足屬性差異性和標(biāo)簽豐富性約束時,該樣本才會被查詢并加入訓(xùn)練集。

4)利用基于實例差異的多標(biāo)簽學(xué)習(xí)InsDif(multi-label learning by Instance Differentiation)算法[8]對剩余樣本的標(biāo)簽集進行預(yù)測,從而得到所有樣本的標(biāo)簽。

根據(jù)文獻[9]確定了頁巖氣水平儲層產(chǎn)能的主要影響因素,分別為有機碳含量、孔隙度、脆性指數(shù)、總含氣量。本文將這四個因素處理為頁巖氣儲層的多個標(biāo)簽,利用綜合品質(zhì)預(yù)測精度來判斷算法的性能。

本文首先在實際的11 個Yahoo 文本數(shù)據(jù)集[10]上進行實驗,將MAML 算法與流行的多標(biāo)簽學(xué)習(xí)算法和主動學(xué)習(xí)算法進行比較,利用常用的四個多標(biāo)簽學(xué)習(xí)評價指標(biāo)驗證了所提算法的優(yōu)越性;接著利用Friedman 檢驗和Nemenyi 假設(shè)檢驗[11]進一步驗證了MAML 算法的優(yōu)越性;然后將實驗擴展到真實的四個測井?dāng)?shù)據(jù)集,加入新的評價指標(biāo),實驗結(jié)果表明MAML 算法在實際頁巖氣測井領(lǐng)域的實用性和優(yōu)越性。

1 相關(guān)工作

頁巖氣儲層[12]具有低孔隙度、低滲透率以及自生自儲等特點,其非常規(guī)的成藏機制與演化分布加大了頁巖氣開發(fā)的難度。測井?dāng)?shù)據(jù)獲取艱難,而對于數(shù)據(jù)的處理需要專業(yè)的知識作為支撐,大大增加了頁巖氣儲層品質(zhì)評價的成本。利用有效的測井評價方法,可以為后續(xù)的開發(fā)工作提供可靠的信息。流行的測井評價方法是通過大量的測井資料對頁巖氣儲層進行定量評價。頁巖氣儲層工程品質(zhì)參數(shù)定量評價包括泊松比、楊氏模量、剪切模量、脆性指數(shù)、抗壓強度等巖石力學(xué)參數(shù)。從巖石物理性質(zhì)角度,頁巖氣儲層品質(zhì)評價包括巖石礦物組成、總有機碳含量、孔隙度、含水飽和度等指標(biāo)。

傳統(tǒng)的頁巖氣儲層評價方法往往根據(jù)考慮角度的不同,割裂地對數(shù)據(jù)進行處理,忽略了生產(chǎn)數(shù)據(jù)內(nèi)部之間的關(guān)系。比如從可壓裂性[13]角度,對脆性指數(shù)、泊松比、抗壓強度等參數(shù)進行定量分析,僅得到頁巖氣儲層在可壓裂性方面的評價;從含氣量[14]角度,對游離氣、吸附氣等參數(shù)進行定量分析,僅得到頁巖氣儲層在含氣量方面的評價。在實際生產(chǎn)生活中,可壓裂性評價級別與含氣量評價級別是相互關(guān)聯(lián)的。利用機器學(xué)習(xí)充分挖掘數(shù)據(jù)內(nèi)在規(guī)律,可以有效提高測井評價效率和精度。本文將有機碳含量、孔隙度、脆性指數(shù)、總含氣量處理為儲層的多個標(biāo)簽,避免了儲層評價復(fù)雜難懂的難題。由于標(biāo)注成本有限,且對專家知識要求較高,導(dǎo)致實際頁巖氣儲層的“甜點”標(biāo)簽稀少。為了解決這個問題,本文首次提出將主動學(xué)習(xí)與多標(biāo)簽學(xué)習(xí)結(jié)合應(yīng)用在頁巖氣儲層品質(zhì)的綜合評價預(yù)測領(lǐng)域。

多標(biāo)簽學(xué)習(xí)[15]廣泛應(yīng)用在文本分類、生物信息、網(wǎng)絡(luò)信息挖掘等多個領(lǐng)域。多標(biāo)簽數(shù)據(jù)集的每個樣本都有一個標(biāo)簽集,輸出空間會隨著標(biāo)簽數(shù)量的增加而呈指數(shù)級增長。例如,對于具有20 個類標(biāo)簽的標(biāo)簽空間(q=20),可能的標(biāo)簽集數(shù)量將超過100 萬(即220)。利用標(biāo)簽之間的相關(guān)性處理多標(biāo)簽學(xué)習(xí)問題可以有效應(yīng)對這一挑戰(zhàn)。將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為多個獨立的二分類問題屬于一階策略,簡單高效但是忽略了標(biāo)簽之間的相關(guān)性??紤]標(biāo)簽對相關(guān)性排名等屬于二階策略,但是實際情況往往不能滿足二階假設(shè)。考慮標(biāo)簽集的隨機標(biāo)簽子集對樣本的影響等屬于高階策略,但是實現(xiàn)難度大。在實際場景中,如何在標(biāo)簽稀缺、樣本查詢成本有限的情況下盡可能地獲得令人滿意的分類精度就成為大家關(guān)注的問題。

主動學(xué)習(xí)選擇最有價值的樣本,利用專家標(biāo)注組成訓(xùn)練集,可以大幅減少標(biāo)注成本[16-17]。常用的主動學(xué)習(xí)方法包括委員會查詢、不確定性抽樣、優(yōu)化實驗設(shè)計等[18]。傳統(tǒng)的主動學(xué)習(xí)[19-21]多從樣本的信息性、代表性或二者結(jié)合進行考慮,而忽略了樣本之間的關(guān)系。為了更好地解決多標(biāo)簽學(xué)習(xí)問題,減少專家標(biāo)注成本,結(jié)合主動學(xué)習(xí)勢在必行。多標(biāo)簽主動學(xué)習(xí)算法[22]利用關(guān)鍵樣本選擇策略選擇最有價值的樣本,加入多標(biāo)簽學(xué)習(xí)分類器模型進行訓(xùn)練,從而實現(xiàn)對多標(biāo)簽數(shù)據(jù)標(biāo)簽的高效預(yù)測。流行的多標(biāo)簽主動學(xué)習(xí)常常采用基于信息量的標(biāo)準(zhǔn)來選擇關(guān)鍵樣本,卻無法充分利用樣本數(shù)據(jù)和標(biāo)簽空間的信息,從而導(dǎo)致算法性能不佳,因此綜合考慮多個標(biāo)準(zhǔn)設(shè)計查詢策略就成為需要關(guān)注的問題。

2 問題描述

對于實際生活中的學(xué)習(xí)任務(wù),數(shù)據(jù)樣本往往由多個標(biāo)簽來表示,這些標(biāo)簽互相關(guān)聯(lián),共同表征該樣本的情況。由于數(shù)據(jù)樣本標(biāo)注成本耗費過大,加劇了數(shù)據(jù)挖掘的困難。多標(biāo)簽主動學(xué)習(xí)通過制定一套標(biāo)準(zhǔn),篩選出最有價值的樣本,由專家系統(tǒng)進行標(biāo)注,然后利用人工智能得到剩余數(shù)據(jù)的標(biāo)簽信息,不僅降低了成本,而且可以充分利用數(shù)據(jù)信息。在實際的多標(biāo)簽學(xué)習(xí)任務(wù)中,令N為專家系統(tǒng)所提供的具有完整多標(biāo)簽信息的樣本個數(shù),q為標(biāo)簽個數(shù),標(biāo)簽總預(yù)算為100 萬元,每個標(biāo)簽的標(biāo)注費用為100 元,N=。那么如何選擇最有價值的N個實例,獲得最大的標(biāo)注效益和預(yù)測精度就成為需要考慮的關(guān)鍵問題。

D={(x1,Y1),(x2,Y2),…,(xl,Yl),xl+1,xl+2,…,xn}表示含有n個樣本的數(shù)據(jù)集,其中:xi=(xi1,xi2,…,xid)是d維行向量;Yi=(Yi1,Yi2,…,Yiq)是q維行向量,表示第i個樣本的標(biāo)簽。若樣本xi含有第j個標(biāo)簽,則Yij=1;否則Yij=0。數(shù)據(jù)集包括訓(xùn)練集Dl和測試集Du,其中:Dl={(x1,Y1),(x2,Y2),…,(xl,Yl)},Du={xl+1,xl+2,…,xn}。在每一輪迭代中,從測試集Du中選出一個樣本xs,查詢它的標(biāo)簽集,將其加入訓(xùn)練集Dl,直到獲取N個訓(xùn)練樣本,整個過程結(jié)束。

3 本文算法

3.1 信息性

信息性用來衡量模型的不確定性。本文利用softmax 獲得樣本在每個單標(biāo)簽下的信息熵,其中信息熵[23]表示樣本包含信息的不確定性。對于多標(biāo)簽學(xué)習(xí)場景而言,每個單標(biāo)簽下的信息熵就代表了樣本屬性與該標(biāo)簽二分類向量之間的關(guān)聯(lián)度。然后利用最大熵思想,將每個標(biāo)簽下的信息熵進行加權(quán)平均,得到樣本在每個標(biāo)簽下的信息性。

樣本xi的信息熵公式如下:

其中:zk表示樣本在每個單標(biāo)簽下的第k類,k∈{0,1};θ表示softmax 類別預(yù)測過程中的參數(shù);表示樣本xi在單個標(biāo)簽Yij下的信息熵。

樣本xi的信息性f(xi)表示了樣本屬性與多個標(biāo)簽之間的關(guān)聯(lián)度。利用最大熵的思想,令每個標(biāo)簽出現(xiàn)的概率相同,對所有單標(biāo)簽下的信息熵進行加權(quán)平均,得到樣本信息性:

其中:j∈{1,2,…,q}。

3.2 代表性

將樣本的所有屬性值輸入到概率密度函數(shù)進行計算,結(jié)果表示該樣本所代表的信息,樣本的概率密度越大,越具有代表性[24]。本文采用無參數(shù)的方式,樣本xi屬性向量在區(qū)域R的統(tǒng)計概率如下:

令窗函數(shù)的寬度為dc,則樣本的概率密度函數(shù)如下:

3.3 豐富性

為了提高算法預(yù)測標(biāo)簽的精度,本文從樣本屬性和樣本標(biāo)簽兩個角度出發(fā),制定屬性豐富性約束和標(biāo)簽豐富性約束,保證選擇的訓(xùn)練樣本所具有的信息盡可能地豐富。

3.3.1 屬性豐富性

由K最近鄰(K-Nearest Neighbor,KNN)算法的思想可知,距離越近的兩個樣本相似的可能性就越高。在屬性豐富性[25]約束部分利用距離閾值約束,使得備選樣本的屬性豐富性滿足差異性要求。兩個樣本之間的曼哈頓距離可定義為:

當(dāng)樣本之間的曼哈頓距離足夠大時,可保證樣本之間的差異性,故將差異性閾值定義為:

其中:u∈{1,2,…,d}。通過大量實驗獲知,當(dāng)系數(shù)?取0.5時,算法性能最優(yōu)。本文以上一輪主動學(xué)習(xí)選出的訓(xùn)練樣本s作為基準(zhǔn),根據(jù)樣本的信息性和代表性處理后的結(jié)果降序排序,遍歷剩余樣本,當(dāng)距離dist(x,s) >β時,該樣本x選為備選樣本。

3.3.2 標(biāo)簽豐富性

標(biāo)簽豐富性約束可以衡量樣本的標(biāo)簽是否足夠豐富。本文利用信息性部分對樣本單標(biāo)簽下的類別預(yù)測結(jié)果來獲取該樣本當(dāng)前的標(biāo)簽。由于本研究針對的是多標(biāo)簽二分類問題,每個樣本的標(biāo)簽豐富性就可以定義為:

其中:Yij表示第j個標(biāo)簽;q表示標(biāo)簽的數(shù)量;I(·)表示滿足括號里條件的次數(shù)。樣本的標(biāo)簽信息越豐富,查詢的價值就越高。

由于標(biāo)簽信息分布不均,通過大量實驗得知,當(dāng)標(biāo)簽豐富性大于當(dāng)前剩余樣本豐富性的均值時,選出的備選樣本價值最高,故標(biāo)簽豐富性閾值定義為:

其中:i∈{1,2,…,m},m表示剩余測試樣本的數(shù)量。當(dāng)備選樣本的豐富性h(xi)≥α?xí)r,該備選樣本加入訓(xùn)練集。

3.4 算法設(shè)計

基于多標(biāo)簽學(xué)習(xí)的主動學(xué)習(xí)算法框架如算法1 所示,第2)~4)行用來選擇初始訓(xùn)練集,復(fù)雜度為O(dn2);第5)~17)行對剩余樣本進行處理,利用約束條件選取關(guān)鍵樣本,更新訓(xùn)練集和測試集,復(fù)雜度為O(Ndqn2);第18)~19)行對剩余樣本的標(biāo)簽集進行預(yù)測,復(fù)雜度為O(dqn)。算法1 的時間復(fù)雜度為O(Ndqn2)。

O(dn2)+O(Ndqn2)+O(dqn)=O(Ndqn2)

其中:d、q和n分別表示樣本的屬性數(shù)量、樣本標(biāo)簽數(shù)量和樣本數(shù)量。

3.5 算法評價指標(biāo)

本文采用 AveragePrecision、Coverage、OneError、RankingLoss 這四種在多標(biāo)簽學(xué)習(xí)中常見的評價指標(biāo)[26]來衡量算法的性能。其中,AveragePrecision 的值越大,表示算法性能越好,其余指標(biāo)則相反。

4 實驗與結(jié)果分析

實驗分為兩個部分:第一部分在實際的Yahoo 數(shù)據(jù)集上進行實驗,實驗結(jié)果驗證了MAML 算法的優(yōu)越性;第二部分在實際的頁巖氣測井?dāng)?shù)據(jù)集上進行實驗,經(jīng)過專業(yè)處理之后,對比最終的頁巖氣儲層綜合品質(zhì)類別,驗證了MAML 算法在頁巖氣儲層預(yù)測領(lǐng)域的優(yōu)越性和可行性。對比算法包括多標(biāo)簽學(xué)習(xí)算法,即基于K最近鄰多標(biāo)簽(Multi-LabelKNearest Neighbor,ML-KNN)學(xué)習(xí)算法[26]、多標(biāo)簽學(xué)習(xí)的反向傳播(BackPropagation for Multi-Label Learning,BP-MLL)算法[27]、具有全局和局部標(biāo)簽相關(guān)性的多標(biāo)簽學(xué)習(xí)GLOCAL(multi-label learning with GLObal and loCAL label correlation)算法[28],以及通過查詢信息性和代表性樣本的主動學(xué)習(xí)QUIRE(active learning by QUerying Informative and Representative Examples)算法[29]。每次實驗運行10 次來獲得各算法四種評價指標(biāo)的均值和方差,然后利用Friedman 檢驗和Nemenyi 假設(shè)檢驗獲取多標(biāo)簽學(xué)習(xí)算法的性能平均排名。

4.1 Yahoo數(shù)據(jù)集實驗

表1 列出了Yahoo 數(shù)據(jù)集的詳細信息。Yahoo 數(shù)據(jù)集是從yahoo.com 網(wǎng)址上獲取的網(wǎng)頁信息,通過處理劃分為11 個領(lǐng)域的文本數(shù)據(jù),包括藝術(shù)、經(jīng)濟、計算機、教育、表演、健康、娛樂、參考書、科學(xué)、社交、社會。每個數(shù)據(jù)集包含5 000 個樣本,數(shù)據(jù)集屬性數(shù)量最高可達到1 047,標(biāo)簽數(shù)量最高可達到40 個標(biāo)簽,滿足實驗要求。本文選擇每個數(shù)據(jù)集數(shù)量的5%,即250 個樣本組成訓(xùn)練集。

表1 Yahoo數(shù)據(jù)集Tab.1 Yahoo datasets

針對11 個Yahoo 數(shù)據(jù)集進行實驗,選擇樣本數(shù)量的5%作為訓(xùn)練集。和多標(biāo)簽學(xué)習(xí)算法做對比,在四個多標(biāo)簽學(xué)習(xí)評價指標(biāo)上的平均排名如表2 所示。從表格中可以看到,MAML 算法在AveragePrecision 上的排名均值為1.090 9,在OneError 上的排名均值為1.636 4,均位于所有算法的第一位。表3 是MAML 算法分別與多標(biāo)簽學(xué)習(xí)算法ML-KNN、BP-MLL、GLOCAL 以及主動學(xué)習(xí)算法QUIRE 進行對比的具體實驗結(jié)果。MAML 算法與多標(biāo)簽學(xué)習(xí)算法相比,有10 個數(shù)據(jù)集在指標(biāo)AveragePrecision 上的性能優(yōu)于其他算法,5 個數(shù)據(jù)集在指標(biāo)OneError 上性能優(yōu)于其他算法。MAML 算法與主動學(xué)習(xí)算法相比,MAML 在四個評價指標(biāo)上的性能表現(xiàn)明顯優(yōu)于QUIRE,只有在Arts、Business、Recreation 這三個數(shù)據(jù)集上,QUIRE 表現(xiàn)更好一些。通過11 個Yahoo 數(shù)據(jù)集的實驗,充分證明了MAML 算法的優(yōu)越性。

表2 Yahoo數(shù)據(jù)集上不同多標(biāo)簽學(xué)習(xí)算法性能的平均排名Tab.2 Average performance ranking of different multi-label learning algorithms on Yahoo datasets

表3 MAML與對比算法在Yahoo數(shù)據(jù)集上4個評價指標(biāo)比較Tab.3 Comparison of four evaluation indicators between MAML and comparison algorithms on Yahoo datasets

續(xù)表

AveragePrecision 和OneError 評價指標(biāo)的關(guān)注點在于樣本真實標(biāo)簽與實際標(biāo)簽是否一致。MAML 算法綜合考慮樣本的信息性和代表性,利用樣本屬性差異性和標(biāo)簽豐富性約束選出的訓(xùn)練樣本所包含的信息更豐富,基于此訓(xùn)練集訓(xùn)練的多標(biāo)簽學(xué)習(xí)分類模型性能更優(yōu)越。AveragePrecision、OneError 指標(biāo)的算法平均排名和具體實驗數(shù)據(jù)都驗證了MAML 算法在提高預(yù)測標(biāo)簽準(zhǔn)確性方面具有明顯優(yōu)勢。

Coverage 用來衡量預(yù)測標(biāo)簽的相關(guān)性,RankingLoss 用來衡量預(yù)測標(biāo)簽的不相關(guān)性。ML-KNN 算法假定標(biāo)簽之間相互獨立,并在Yahoo 等多個數(shù)據(jù)集上得到了驗證,從而在Coverage 和RankingLoss 指標(biāo)上的實驗效果可以排在第一位。

4.2 某頁巖氣測井?dāng)?shù)據(jù)集實驗

實驗采用的四個真實頁巖氣測井儲層數(shù)據(jù)集來自某油氣田公司滇黔川地區(qū)天然氣井?dāng)?shù)據(jù),具體信息如表4 所示。

表4 測井?dāng)?shù)據(jù)集Tab.4 Well logging datasets

本研究將有機碳含量、孔隙度、脆性指數(shù)、總含氣量處理為頁巖氣儲層的4 個標(biāo)簽,故每個數(shù)據(jù)集的標(biāo)簽個數(shù)均為4,屬性個數(shù)為均為21。然后將預(yù)測的多個標(biāo)簽進一步處理得到每個樣本的綜合品質(zhì)類別。為了更好地評價算法在測井場景下的性能,本文引入評價指標(biāo)Accuracy,即預(yù)測精度。

預(yù)測精度表示分類準(zhǔn)確的樣本數(shù)占該樣本總數(shù)的比例,可以評估頁巖氣儲層綜合品質(zhì)預(yù)測類別是否正確。

其中:a表示分類錯誤的樣本;b表示樣本總數(shù)。

對于實際的測井?dāng)?shù)據(jù),由于每種算法的運行結(jié)果中,評價指標(biāo)OneError 的值都為零,故不再贅述。對四個測井?dāng)?shù)據(jù)集進行實驗,選擇樣本數(shù)量的50%作為訓(xùn)練集,將MAML 算法與多標(biāo)簽學(xué)習(xí)算法ML-KNN、BP-MLL 和GLOCAL 進行對比,然后將MAML 算法與主動學(xué)習(xí)算法QUIRE 進行對比。運行10 次來獲得算法在四種評價指標(biāo)的均值和方差,然后利用Friedman 檢驗和Nemenyi 假設(shè)檢驗獲取多標(biāo)簽學(xué)習(xí)算法的性能平均排名。

4.2.1 實驗結(jié)果與分析

MAML 算法與多標(biāo)簽學(xué)習(xí)算法做對比,算法在四個評價指標(biāo)上的平均排名如表5 所示。MAML 算法在評價指標(biāo)AveragePrecision 和Accuracy 的排名均值分別為1.500 0 和1.000 0,均位于所有算法的第一位。表6 是MAML 算法分別與多標(biāo)簽學(xué)習(xí)算法ML-KNN、BP-MLL、GLOCAL 以及與主動學(xué)習(xí)算法QUIRE 進行對比的具體實驗結(jié)果。MAML 算法與多標(biāo)簽學(xué)習(xí)算法相比,MAML 算法在指標(biāo)AveragePrecision 和Accuracy 上比其他三種多標(biāo)簽學(xué)習(xí)算法的性能都要好。尤其是評價指標(biāo)Accuracy,在四個測井?dāng)?shù)據(jù)集上的測試結(jié)果均值分別為0.666 7、0.679 4、0.741 9、0.723 2,效果明顯優(yōu)于其他算法。MAML 算法與主動學(xué)習(xí)算法相比,MAML 算法的評價指標(biāo)表現(xiàn)效果不如QUIRE,但對于指標(biāo)Accuracy,四個測井?dāng)?shù)據(jù)集的測試結(jié)果均明顯優(yōu)于對比算法。

表5 測井?dāng)?shù)據(jù)集上不同多標(biāo)簽學(xué)習(xí)算法性能的平均排名Tab.5 Average performance ranking of different multi-label learning algorithms on well logging datasets

表6 MAML與對比算法在測井?dāng)?shù)據(jù)集上4個評價指標(biāo)比較Tab.6 Comparison of four evaluation indicators between MAML and comparison algorithms on well logging datasets

對于真實的4 個測井?dāng)?shù)據(jù)集,由于數(shù)據(jù)集本身并不是傳統(tǒng)的多標(biāo)簽數(shù)據(jù)集,無法充分體現(xiàn)MAML 算法在多標(biāo)簽學(xué)習(xí)方面的優(yōu)勢。Coverage 和RankingLoss 的關(guān)注點都在于評價預(yù)測標(biāo)簽的相關(guān)性。對于真實的測井?dāng)?shù)據(jù)集,在數(shù)據(jù)處理時,將有機碳含量、孔隙度、脆性指數(shù)、總含氣量處理為4 個相互獨立的標(biāo)簽,導(dǎo)致MAML 算法在Coverage 和RankingLoss上的效果較差;而ML-KNN 算法處理標(biāo)簽不相關(guān)的數(shù)據(jù)集時極具優(yōu)勢,故可以在Coverage 和RankingLoss 上的性能排名第一。

MAML 算法綜合考慮樣本的信息性、代表性、屬性差異性和標(biāo)簽豐富性選出訓(xùn)練集,基于此學(xué)習(xí)得到的分類模型在預(yù)測標(biāo)簽準(zhǔn)確率(指標(biāo)AveragePrecision)上優(yōu)勢明顯。對于實際的頁巖氣測井儲層預(yù)測場景來說,儲層綜合品質(zhì)的預(yù)測評級準(zhǔn)確度Accuracy 與預(yù)測標(biāo)簽準(zhǔn)確率息息相關(guān)。MAML算法在Accuracy 上的實驗結(jié)果遠遠優(yōu)于對比算法,充分證明了該算法在實際頁巖氣測井場景中,尤其是本文關(guān)心的測井綜合品質(zhì)預(yù)測方面,具有優(yōu)越性和實用性,有助于研究者利用人工智能識別頁巖氣儲層甜點區(qū)。

4.2.2 測井實驗數(shù)據(jù)具體分析

根據(jù)MAML 算法的樣本選擇策略,測井?dāng)?shù)據(jù)集每經(jīng)過一輪數(shù)據(jù)篩選,就選出一個備選樣本加入訓(xùn)練集。表7 列舉了10 個備選樣本在被選擇時的信息性、代表性、豐富性量化結(jié)果。根據(jù)MAML 算法的樣本選擇策略選出信息性、代表性充足,標(biāo)簽豐富的樣本加入訓(xùn)練集,保證訓(xùn)練集包含的信息足夠豐富,有利于分類器模型的訓(xùn)練優(yōu)化。

表7 MAML算法對10個測井備選樣本的信息性、代表性、豐富性量化結(jié)果Tab.7 Informativity,representativeness,and richness quantitative results of MAML algorithm to 10 candidate well logging samples

表8 以數(shù)據(jù)集Well_1 為例,列舉了從信息性、代表性、豐富性三個角度處理過后的排序前10 的樣本量化結(jié)果。其中,對于測井?dāng)?shù)據(jù)集而言,由于本文將頁巖氣數(shù)據(jù)集處理為多標(biāo)簽數(shù)據(jù)集,將儲層品質(zhì)影響的主要參數(shù),總有機碳含量、孔隙度、游離和吸附氣量、脆性指數(shù)處理為4 個標(biāo)簽,故根據(jù)式(6)排名靠前的樣本豐富性量化結(jié)果都為0.250 0。

表8 Well_1數(shù)據(jù)集最后一輪篩選后top-10樣本Tab.8 Top-10 samples after last round of screening of Well_1 dataset

5 結(jié)語

將機器學(xué)習(xí)與實際場景結(jié)合并加以應(yīng)用已經(jīng)成為行業(yè)的流行趨勢。本文將多標(biāo)簽學(xué)習(xí)與主動學(xué)習(xí)相結(jié)合,對數(shù)據(jù)進行充分的挖掘,綜合考慮樣本的信息性、代表性、屬性差異性以及標(biāo)簽豐富性,從而選出最具價值的樣本進行訓(xùn)練,大幅降低了專家標(biāo)注成本。實際Yahoo 數(shù)據(jù)集上的實驗充分證明了該算法在多標(biāo)簽數(shù)據(jù)領(lǐng)域的可行性,在真實測井?dāng)?shù)據(jù)的實驗充分證明了MAML 算法在測井?dāng)?shù)據(jù)處理領(lǐng)域,尤其是頁巖氣儲層甜點區(qū)的判斷方面的可行性和優(yōu)越性。未來研究工作主要包括以下三個方面:1)嘗試更多選擇初始訓(xùn)練樣本的算法以盡可能提高訓(xùn)練集的價值;2)優(yōu)化主動學(xué)習(xí)多標(biāo)準(zhǔn)約束算法以簡化篩選過程;3)優(yōu)化場景結(jié)合形式,從而獲得更高的預(yù)測準(zhǔn)確度。

猜你喜歡
信息性豐富性測井
一、信息性文本
本期廣告索引
八扇區(qū)水泥膠結(jié)測井儀刻度及測井?dāng)?shù)據(jù)處理
中國煤層氣(2021年5期)2021-03-02 05:53:12
電視新聞報道如何擺脫平淡
記者搖籃(2016年11期)2017-01-12 14:00:35
新聞采訪語言信息豐富性缺失的表現(xiàn)分析
科技傳播(2016年17期)2016-10-09 21:28:06
基于測井響應(yīng)評價煤巖結(jié)構(gòu)特征
中國煤層氣(2015年4期)2015-08-22 03:28:01
中石油首個全國測井行業(yè)標(biāo)準(zhǔn)發(fā)布
報紙新聞與廣播新聞信息密度的對比分析
開放式課堂的豐富性及趣味性探析
中級漢語綜合課課文《花中之王——牡丹》的篇章語言學(xué)分析
高台县| 繁昌县| 渝中区| 秦安县| 五峰| 南华县| 苍南县| 华宁县| 兰溪市| 江永县| 榆社县| 安陆市| 镇雄县| 内丘县| 青冈县| 祁东县| 白玉县| 凤庆县| 敦煌市| 定西市| 兰坪| 岳普湖县| 呼和浩特市| 利辛县| 高清| 丘北县| 沈丘县| 永新县| 兴海县| 兰州市| 建宁县| 同仁县| 颍上县| 永平县| 依安县| 忻城县| 临泽县| 张家口市| 广昌县| 桂东县| 福州市|