国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多種聚類算法和多元線性回歸的多分類主動(dòng)學(xué)習(xí)算法

2020-12-31 02:23武禹伯
計(jì)算機(jī)應(yīng)用 2020年12期
關(guān)鍵詞:巖性測(cè)井聚類

汪 敏,武禹伯,閔 帆

(1.西南石油大學(xué)電氣信息學(xué)院,成都 610500;2.西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,成都 610500)

(?通信作者電子郵箱minfanphd@163.com)

0 引言

在油氣測(cè)井中,儲(chǔ)層巖性復(fù)雜多樣,基于測(cè)井資料開展巖性識(shí)別在儲(chǔ)層評(píng)價(jià)過程中具有重要意義[1]。在測(cè)井資料中攜帶著大量地層巖性、物性的地質(zhì)信息,準(zhǔn)確的地質(zhì)信息對(duì)于無論是巖性識(shí)別還是儲(chǔ)層評(píng)價(jià)都有著至關(guān)重要的影響。隨著石油行業(yè)的快速發(fā)展,海量的測(cè)井?dāng)?shù)據(jù)處理對(duì)于測(cè)井人員來說費(fèi)時(shí)費(fèi)力,而且極大地影響了如巖性識(shí)別等石油相關(guān)領(lǐng)域的工作效率。近些年來,隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,許多學(xué)者和石油領(lǐng)域工作者把目光放到了這兩者的結(jié)合上?,F(xiàn)階段,有許多機(jī)器學(xué)習(xí)方法都被應(yīng)用到了巖性識(shí)別領(lǐng)域,包括多元統(tǒng)計(jì)方法[2]、主成分分析方法[3]、模糊數(shù)學(xué)[4]、支持向量機(jī)[5]和人工神經(jīng)網(wǎng)絡(luò)[6]等。

主成分分析方法是一種統(tǒng)計(jì)方法,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,并將這組變量稱為主成分。陳伏兵等[7]提出了分塊二維主成分分析法,在與傳統(tǒng)二維主成分分析法的對(duì)比中,通過使用低維的鑒別特征矩陣,使得識(shí)別精度得到了進(jìn)一步提高。周非等[8]提出了一種基于主成分分析和卡方距離的信號(hào)強(qiáng)度差指紋定位算法,通過使用主成分分析算法進(jìn)行信號(hào)強(qiáng)度差數(shù)據(jù)降維和相關(guān)性冗余消除,使得定位誤差得到了明顯的減小。目前主成分分析方法已被廣泛應(yīng)用于石油相關(guān)等許多領(lǐng)域。

支持向量機(jī)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面。張進(jìn)等[9]提出了一種改進(jìn)的支持向量機(jī)算法,通過使用粒子群優(yōu)化和特征選擇與參數(shù)聯(lián)合優(yōu)化,使得算法在分類精度上得到了明顯提高。章少平等[10]針對(duì)不平衡數(shù)據(jù)集提出了一種優(yōu)化的支持向量機(jī)集成分類模型,通過預(yù)處理不平衡數(shù)據(jù)并優(yōu)化參數(shù)使得其算法相較于傳統(tǒng)支持向量機(jī)算法具有更高的分類精度。目前支持向量機(jī)已被廣泛應(yīng)用于圖像分類等許多領(lǐng)域。

人工神經(jīng)網(wǎng)絡(luò)是從信息處理角度對(duì)人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡(jiǎn)單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。史興宇等[11]提出了一種對(duì)汽車車牌進(jìn)行智能數(shù)字識(shí)別的人工神經(jīng)網(wǎng)絡(luò)方法,通過引入離散型神經(jīng)網(wǎng)絡(luò)的聯(lián)想記憶功能,使得該模型相較于傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)具有更快的收斂速度和更高的識(shí)別精度。程宇等[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的弱光照?qǐng)D像增強(qiáng)算法,通過將處理弱光照?qǐng)D像得到的派生圖輸入到卷積神經(jīng)網(wǎng)絡(luò)中,使得輸出的圖像擁有更好的視覺效果和圖像質(zhì)量。目前人工神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于人工智能等許多領(lǐng)域。

主動(dòng)學(xué)習(xí)方法[13-14]通過選擇具有代表性的樣本交由專家進(jìn)行標(biāo)記,將專家經(jīng)驗(yàn)與機(jī)器學(xué)習(xí)進(jìn)行結(jié)合。目前比較常見的主動(dòng)學(xué)習(xí)方法有不確定性抽樣法、基于聚類方法和基于委員會(huì)投票采樣法。其中基于聚類主動(dòng)學(xué)習(xí)致力于將聚類算法應(yīng)用到樣本選擇策略中,利用數(shù)據(jù)的結(jié)構(gòu)來選擇代表性樣本。Wang等[15]提出了基于密度峰值聚類算法的主動(dòng)學(xué)習(xí)算法,通過將密度峰值聚類算法應(yīng)用到樣本選擇策略中,在相同訓(xùn)練樣本基礎(chǔ)上使得算法的分類精度得到提升。賈俊芳[16]提出了基于層次聚類的主動(dòng)學(xué)習(xí)算法,通過采用分層細(xì)化、逐步求精的方法提高了學(xué)習(xí)器的學(xué)習(xí)效率,獲得滿意的泛化能力。目前主動(dòng)學(xué)習(xí)方法已被廣泛應(yīng)用于數(shù)據(jù)分類等許多領(lǐng)域。

應(yīng)用到巖性識(shí)別領(lǐng)域中的機(jī)器學(xué)習(xí)算法雖將測(cè)井資料和機(jī)器學(xué)習(xí)算法進(jìn)行了結(jié)合,但是想要獲得良好的識(shí)別效果需要大量的標(biāo)記樣本。實(shí)際工程中,具有標(biāo)記的樣本是稀有且昂貴的。如何通過引入專家經(jīng)驗(yàn)獲取少量的標(biāo)記樣本,達(dá)到良好的識(shí)別效果,是本文首先考慮的問題。機(jī)器學(xué)習(xí)領(lǐng)域中的主動(dòng)學(xué)習(xí)方法能夠很好地解決這一問題,所以本文引入基于聚類算法的主動(dòng)學(xué)習(xí)思想,但是基于單一聚類主動(dòng)學(xué)習(xí)方法對(duì)于不同分布數(shù)據(jù)集的識(shí)別效果是不同的,因此,本文提出了基于多種聚類算法和多元線性回歸的多分類主動(dòng)學(xué)習(xí)算法(multi-category Active Learning algorithm based on multiple Clustering algorithms and multivariate Linear regression algorithm,ALCL),來解決上述提到的問題。首先,應(yīng)用四種異構(gòu)聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類,通過比較每種算法的聚類結(jié)果對(duì)數(shù)據(jù)進(jìn)行初始標(biāo)記與分類。然后,選取關(guān)鍵實(shí)例并求解目標(biāo)函數(shù)得到每種聚類算法的權(quán)重系數(shù)。最后,引入權(quán)重系數(shù)進(jìn)行決策分類的綜合計(jì)算,將計(jì)算結(jié)果高于分類閾值的樣本進(jìn)行分類。分類閾值一般設(shè)置較高,如在所有迭代終止后仍存在無法分類的樣本,則將截至目前所有的已分類樣本作為訓(xùn)練集,采用K 最近鄰(K Nearest Neighbor,KNN)分類方法[17]進(jìn)行投票分類。

在大慶油田油井的6 個(gè)已公開測(cè)井巖性數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。在不同的查詢比例下,實(shí)驗(yàn)對(duì)比了3 種經(jīng)典監(jiān)督學(xué)習(xí)算法和3種較新主動(dòng)學(xué)習(xí)算法,通過Friedman和Nemenyi事后檢驗(yàn)[18]驗(yàn)證了所提ALCL 與其他算法之間的顯著性差異,在查詢比例相同的情況下,ALCL有效提高了巖性識(shí)別精度。

1 相關(guān)工作

本文的數(shù)據(jù)實(shí)例模型是決策信息系統(tǒng),決策信息系統(tǒng)定義成一個(gè)三元組:

式中:X代表一個(gè)數(shù)據(jù)集向量;X=Xtrain∪Xtest,Xtrain是訓(xùn)練集,Xtest是測(cè)試集;A代表一個(gè)條件屬性向量;Y代表一個(gè)真實(shí)標(biāo)簽向量。

本文根據(jù)主成分分析方法、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)三種方法在巖性識(shí)別領(lǐng)域中的應(yīng)用做了如下調(diào)研。

針對(duì)東營(yíng)凹陷董集洼陷濁積巖巖性復(fù)雜的問題,周游等[19]提出基于粒子群算法以及核函數(shù)理論的主成分分析方法,通過建立新的主成分計(jì)算方法構(gòu)建五個(gè)主成分變量代替原有多維測(cè)井信息來對(duì)該區(qū)巖性進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明該方法有效提升了該地區(qū)巖性識(shí)別的精度。楊兆栓等[20]針對(duì)塔中地區(qū)奧陶系碳酸鹽巖巖性復(fù)雜的問題,根據(jù)該地區(qū)測(cè)井信息利用主成分分析方法構(gòu)建了五個(gè)綜合變量應(yīng)用到識(shí)別模型中,有效提升了該地區(qū)巖性識(shí)別精度。傳統(tǒng)主成分分析方法在巖性識(shí)別問題中并未考慮所用測(cè)井信息的可靠性,這導(dǎo)致新主成分變量在巖性識(shí)別中效果減弱,從而使巖性識(shí)別精度降低。若能引入專家地質(zhì)經(jīng)驗(yàn)則能更好地對(duì)測(cè)井信息進(jìn)行優(yōu)選,進(jìn)而幫助到新主成分變量的構(gòu)建中,進(jìn)一步提高巖性識(shí)別精度。

張昭杰等[21]結(jié)合烏夏地區(qū)巖芯資料和測(cè)井?dāng)?shù)據(jù),采用支持向量機(jī)法對(duì)該地區(qū)的巖性進(jìn)行識(shí)別。應(yīng)用遺傳算法挑選出最佳的支持向量機(jī)核函數(shù)參數(shù)和懲罰因子,建立支持向量機(jī)巖性識(shí)別模型。實(shí)驗(yàn)結(jié)果表明該模型實(shí)際數(shù)據(jù)預(yù)測(cè)符合率達(dá)到81.6%。蘇賦等[22]針對(duì)測(cè)井曲線間存在大量信息冗余的問題,通過合成少數(shù)過采樣技術(shù)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,并提出模糊隸屬度函數(shù)改進(jìn)模糊孿生支持向量機(jī)算法。在北美Hugoton 油氣田實(shí)際測(cè)井?dāng)?shù)據(jù)基礎(chǔ)上應(yīng)用該算法對(duì)其進(jìn)行巖性識(shí)別,并取得了良好的識(shí)別效果。上述方法在實(shí)際建模過程中需要用到大量帶有標(biāo)簽的訓(xùn)練樣本。實(shí)際過程中很難獲取大量的訓(xùn)練樣本,所以基于支持向量機(jī)的巖性識(shí)別方法在實(shí)際應(yīng)用中存在難以獲取大量訓(xùn)練樣本的問題。

單敬福等[23]針對(duì)蘇里格氣田巖性復(fù)雜的問題,提出利用優(yōu)選輸入向量的人工神經(jīng)網(wǎng)絡(luò)法對(duì)其進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明該方法相較傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)法具有更快的收斂速度和更高的識(shí)別精度。陳鋼花等[24]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)法將巖性識(shí)別從高度非線性問題轉(zhuǎn)換成多層非線性計(jì)算問題,通過構(gòu)建雙層卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)儲(chǔ)層巖性進(jìn)行判別。實(shí)驗(yàn)結(jié)果表明該方法較其他巖性識(shí)別方法具有更高的識(shí)別精度和更快的速度。人工神經(jīng)網(wǎng)絡(luò)法自設(shè)計(jì)以來一直存在著無法解釋輸入與輸出之間關(guān)系的問題。較其他傳統(tǒng)機(jī)器學(xué)習(xí)算法來說,傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)法需要更多的帶標(biāo)記樣本作支撐才能達(dá)到良好的識(shí)別效果。在巖性識(shí)別應(yīng)用中,若僅用有限的帶標(biāo)記樣本進(jìn)行識(shí)別,則會(huì)導(dǎo)致識(shí)別精度不高。

傳統(tǒng)基于聚類算法的主動(dòng)學(xué)習(xí)都僅在一種聚類算法上進(jìn)行應(yīng)用和優(yōu)化改進(jìn),而每種不同的聚類算法都有其適合的數(shù)據(jù)分布形式,如K均值(K-Means)聚類算法[25]對(duì)于球形數(shù)據(jù)分布的數(shù)據(jù)集具有良好的聚類效果,而像密度峰值聚類算法(Density Peak Clustering Algorithm,DPCA)[26]則對(duì)非球形數(shù)據(jù)分布的數(shù)據(jù)集具有良好的聚類效果。對(duì)于基于單一聚類算法的主動(dòng)學(xué)習(xí)來說,分類效果的優(yōu)劣取決于單一聚類算法的質(zhì)量和是否適用于這一聚類算法的數(shù)據(jù)集。這導(dǎo)致在實(shí)際應(yīng)用中面對(duì)各種各樣不同分布的數(shù)據(jù)集時(shí),算法的泛化能力較差。

2 本文算法

通過主動(dòng)融合專家經(jīng)驗(yàn),選取少量關(guān)鍵樣本作為訓(xùn)練樣本,結(jié)合過程清晰的聚類算法,并針對(duì)基于單一聚類主動(dòng)學(xué)習(xí)算法適用數(shù)據(jù)集有限、泛化能力差的問題,提出了本文的ALCL,其執(zhí)行步驟如下:

1)對(duì)巖性識(shí)別數(shù)據(jù)集進(jìn)行預(yù)分類;

2)根據(jù)預(yù)分類結(jié)果對(duì)未分類樣本進(jìn)行關(guān)鍵實(shí)例選取;

3)以所選關(guān)鍵實(shí)例為基礎(chǔ)建立多元線性回歸模型,并求解目標(biāo)函數(shù)獲得聚類算法的權(quán)重系數(shù);

4)根據(jù)決策分類方法將符合分類標(biāo)準(zhǔn)的樣本進(jìn)行分類。

圖1給出了ALCL的整體流程。

2.1 聚類算法的預(yù)分類方法

巖性識(shí)別問題中,不同地層所對(duì)應(yīng)的巖性是不同的,且?guī)r性種類較多,聚類算法對(duì)巖性識(shí)別數(shù)據(jù)集進(jìn)行聚類的同時(shí)無法對(duì)聚成的每簇進(jìn)行類別的劃分。本節(jié)采用結(jié)合K-Means、DPCA、模糊C 均值聚類算法(Fuzzy C Means clustering algorithm,F(xiàn)CM)[27]和層次聚類算法(Hierarchical Clustering Algorithm,HCA)[28]這四種聚類算法聚類,并查詢公共點(diǎn)的方法解決上述問題。預(yù)分類方法也為后面關(guān)鍵實(shí)例的選取以及目標(biāo)函數(shù)的建立與求解打好基礎(chǔ)。預(yù)分類方法的具體流程如下:

1)應(yīng)用四種異構(gòu)的聚類算法,對(duì)同一數(shù)據(jù)集進(jìn)行無類別劃分的聚類操作。每種聚類算法根據(jù)自身的聚類原則,將數(shù)據(jù)集劃分成預(yù)先設(shè)定好的簇?cái)?shù)。

2)以其中一種聚類算法為基礎(chǔ),將這個(gè)聚類算法聚成的簇?cái)?shù)同其余幾種聚類算法的簇?cái)?shù)進(jìn)行一一的查詢比較。根據(jù)交集個(gè)數(shù)最多被分為一類的原則,依次對(duì)每種聚類算法的簇?cái)?shù)進(jìn)行劃分,從而得到所需要的類數(shù)。

3)查找每類中的交集部分,將其前幾個(gè)樣本點(diǎn)與專家進(jìn)行交互獲得其真實(shí)類別。將這幾個(gè)樣本點(diǎn)中,類別相同個(gè)數(shù)最多的類別定義為這一類中所有點(diǎn)的偽標(biāo)簽。同時(shí),為保證所有類別都能被標(biāo)記成偽標(biāo)簽,在之后的類別交互過程中,已被標(biāo)記了偽標(biāo)簽的類別不再計(jì)算其類別個(gè)數(shù)。

圖1 ALCL流程Fig.1 ALCL flowchart

圖2 通過四個(gè)部分展示了在簇?cái)?shù)取2 時(shí),對(duì)假設(shè)的10 個(gè)初始樣本進(jìn)行預(yù)分類的具體過程。圖中用黑色方框和灰色方框來區(qū)分每種聚類算法聚類獲得的簇分布。在第三和第四部分中,灰色樣本表示當(dāng)前類中的交集部分,通過將這些灰色樣本與專家進(jìn)行交互以獲得其真實(shí)類別。圖中以正類和負(fù)類作為真實(shí)類別來區(qū)分10個(gè)初始樣本的類別。

2.2 關(guān)鍵實(shí)例選取方法

傳統(tǒng)的巖性識(shí)別方法難以和地質(zhì)經(jīng)驗(yàn)進(jìn)行有效的結(jié)合,本文根據(jù)樣本的代表性和信息量設(shè)計(jì)了關(guān)鍵實(shí)例的兩種選取策略。通過將選取到的關(guān)鍵實(shí)例交予專家進(jìn)行標(biāo)記,實(shí)現(xiàn)專家經(jīng)驗(yàn)與數(shù)據(jù)間的交互。經(jīng)過人機(jī)交互后,專家的地質(zhì)知識(shí)也為后面建立訓(xùn)練模型提供了可靠的幫助,進(jìn)而優(yōu)化識(shí)別模型,提高巖性識(shí)別精度。

2.2.1 優(yōu)先級(jí)最大搜尋策略

在主動(dòng)學(xué)習(xí)中,主動(dòng)地找到對(duì)算法影響效果最好的查詢樣本是整個(gè)學(xué)習(xí)過程中非常重要的一環(huán)。找到優(yōu)先級(jí)最大的樣本就是為了找到對(duì)算法影響效果最好的樣本。對(duì)優(yōu)先級(jí)定義的步驟如下:

1)定義局部密度。

樣本x的局部密度ρ定義為:

式中:dc表示截止距離;dist表示兩個(gè)樣本之間的歐氏距離;χ()為一個(gè)判斷函數(shù)。若括號(hào)內(nèi)的值小于0,則χ=1;若括號(hào)內(nèi)的值大于等于0,則χ=0。

2)定義與高密度點(diǎn)之間的最小距離。

樣本x與局部密度更高的樣本點(diǎn)的最小距離定義為:

3)定義優(yōu)先級(jí)。

樣本x的優(yōu)先級(jí)定義為:

根據(jù)式(4)計(jì)算測(cè)試集Xtest中每一個(gè)樣本的優(yōu)先級(jí),找到優(yōu)先級(jí)最大點(diǎn)xmax,根據(jù)式(5)循環(huán)計(jì)算k次,得到離xmax最近的k個(gè)樣本xnearest。將xnearest和xmax作為關(guān)鍵實(shí)例,并加入到訓(xùn)練集Xtrain中。

式中:xused為當(dāng)前已被得到的離xmax最近的樣本點(diǎn)。

圖2 預(yù)分類流程Fig.2 Pre-classification flowchart

2.2.2 最混亂查詢策略

預(yù)分類過后,測(cè)試集Xtest中每一個(gè)樣本點(diǎn)都被4種聚類算法標(biāo)上了各自的偽標(biāo)簽。首先,定義最混亂:ALCL 共用到4種聚類算法,在進(jìn)行了預(yù)分類處理之后每種聚類算法都對(duì)每一個(gè)x∈Xtest標(biāo)記了各自的偽標(biāo)簽。若每種聚類算法對(duì)應(yīng)同一個(gè)樣本點(diǎn)的偽標(biāo)簽基本都不相同,那么則稱這個(gè)樣本點(diǎn)當(dāng)前處于最混亂情況,應(yīng)被交互查詢真實(shí)標(biāo)簽并作為關(guān)鍵實(shí)例加入到訓(xùn)練集Xtrain中。然后,圖3 具體地展示了樣本點(diǎn)x的最混亂查詢策略的過程。最后,如圖3 所示,ALCL 所用聚類算法個(gè)數(shù)為4,因此在偽標(biāo)簽個(gè)數(shù)一欄中所能出現(xiàn)的最大值為4,當(dāng)且僅當(dāng)偽標(biāo)簽個(gè)數(shù)最大值小于等于2 時(shí),當(dāng)前樣本點(diǎn)被認(rèn)為處于最混亂狀態(tài),可以被選取為關(guān)鍵實(shí)例。

2.3 聚類集成方法

本節(jié)設(shè)計(jì)了一種基于多元線性回歸[29]的聚類算法集成模型。在進(jìn)行了預(yù)分類和關(guān)鍵實(shí)例的選取后,將選取得到的關(guān)鍵實(shí)例同多元線性回歸模型相結(jié)合,構(gòu)建預(yù)測(cè)標(biāo)簽值的計(jì)算函數(shù),進(jìn)而構(gòu)建用于求解每種聚類算法權(quán)重系數(shù)的目標(biāo)求解函數(shù)。通過最小化目標(biāo)求解函數(shù)得到每種聚類算法的權(quán)重系數(shù)。每種聚類算法的權(quán)重系數(shù)代表著在當(dāng)前迭代中該聚類算法在樣本預(yù)測(cè)中所占的比重。權(quán)重系數(shù)越高,那么該聚類算法在樣本預(yù)測(cè)中的決定程度就越高;相反,則決定程度就越低。

圖3 最混亂查詢策略Fig.3 Most confusing query strategy

首先,根據(jù)選取的關(guān)鍵實(shí)例結(jié)合多元線性回歸模型建立樣本標(biāo)簽值的計(jì)算函數(shù),即

然后,根據(jù)樣本標(biāo)簽值計(jì)算函數(shù)構(gòu)建用于求解權(quán)重系數(shù)向量θ的目標(biāo)函數(shù),即

式中:Hi是每個(gè)關(guān)鍵實(shí)例的預(yù)測(cè)標(biāo)簽值;yi是真實(shí)標(biāo)簽值。

對(duì)式(7)進(jìn)行最小二乘變形得到:

對(duì)式(8)進(jìn)行展開得到:

對(duì)式(9)進(jìn)行求導(dǎo)并令導(dǎo)數(shù)為0,得到:

最后,通過對(duì)式(10)求解,得到最終的求解函數(shù)為:

通過對(duì)式(11)進(jìn)行求解后,得到權(quán)重系數(shù)向量θ=(θ1,θ2,θ3,θ4)。該向量中各系數(shù)存在著較大的范圍差異,且系數(shù)可能出現(xiàn)為負(fù)的情況。這使得在決策分類過程中每種聚類算法的優(yōu)先級(jí)不能夠很好地展現(xiàn)。為解決上述問題,需對(duì)權(quán)重系數(shù)向量θ進(jìn)行歸一化處理。

式中:w是歸一化權(quán)重系數(shù)值。通過式(12)對(duì)權(quán)重系數(shù)向量θ進(jìn)行歸一化處理后,得到歸一化權(quán)重系數(shù)向量,記為W=(w1,w2,w3,w4)。

2.4 決策分類方法

在獲得歸一化權(quán)重系數(shù)向量W后,需要根據(jù)每種聚類算法的權(quán)重系數(shù)進(jìn)行決策分類的綜合計(jì)算,將計(jì)算結(jié)果超過閾值的樣本點(diǎn)進(jìn)行分類,計(jì)算式如下:

式中:εr()是一個(gè)判斷函數(shù),若括號(hào)內(nèi)的值等于r則εr=1,否則εr=0;C是每個(gè)樣本對(duì)應(yīng)每種聚類算法的偽標(biāo)簽值;r是數(shù)據(jù)集的真實(shí)類別數(shù);α是決策閾值。

進(jìn)行決策分類后,可能會(huì)出現(xiàn)仍未被分類的樣本點(diǎn)。剩余樣本的分類策略為:通過KNN 分類方法對(duì)剩余樣本點(diǎn)進(jìn)行分類。ALCL 中KNN 分類方法使用的訓(xùn)練集包含通過決策分類方法得到的分類樣本。這些樣本點(diǎn)的類別標(biāo)簽并不一定是這些樣本點(diǎn)的真實(shí)標(biāo)簽。但是通過對(duì)α大小的設(shè)置,可以增加這些分類樣本的可信度。通過這種處理方式,可以盡可能增加KNN分類過程中訓(xùn)練集的大小,進(jìn)而提高KNN分類方法的準(zhǔn)確率,同時(shí)可以減少與專家進(jìn)行交互時(shí)所花費(fèi)的代價(jià)。

2.5 偽代碼及復(fù)雜度分析

基于多種聚類算法和多元線性回歸的多分類主動(dòng)學(xué)習(xí)算法(ALCL)的框架如算法1 所示。第1)行為數(shù)據(jù)預(yù)處理過程,第4)~6)行為預(yù)分類過程,第7)~10)行為選取關(guān)鍵實(shí)例過程,第13)行為獲取權(quán)重系數(shù)過程,第14)~21)行為決策分類過程。

表1 列出了ALCL 的時(shí)間復(fù)雜度,得出算法1 的時(shí)間復(fù)雜度為:

式中:m為條件屬性的個(gè)數(shù);n為樣本的總個(gè)數(shù);n′為當(dāng)前未被分類的樣本個(gè)數(shù),且n′總是小于n。

表1 ALCL的時(shí)間復(fù)雜度Tab.1 Time complexity of ALCL

3 實(shí)驗(yàn)與結(jié)果分析

本章將展示所用測(cè)井巖性數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并進(jìn)行分析。實(shí)驗(yàn)使用Java軟件并結(jié)合Weka,在具有16 GB RAM 和Intel Core i5-9400F CPU @ 2.90 GHz 處理器的Windows 10 64位操作系統(tǒng)上執(zhí)行了運(yùn)算,并應(yīng)用大慶油田油井的6 個(gè)公開測(cè)井巖性數(shù)據(jù)集,將ALCL 在巖性識(shí)別上的效果與KNN、決策樹分類算法(Decision Tree Classification Algorithm,DTCA)[30]和樸素貝葉斯(Na?ve Bayes,NB)[31]三種傳統(tǒng)監(jiān)督學(xué)習(xí)算法,基于委員會(huì)投票的主動(dòng)學(xué)習(xí)算法(active learning algorithm with Query By Committee,QBC)[32]、基于兩階段聚類的主動(dòng)學(xué)習(xí)(Active Learning through Two-stage Clustering,ALTC)算法[33]和基于密度峰值聚類的主動(dòng)學(xué)習(xí)(Active Learning through Density Clustering,ALDC)算法三種較新主動(dòng)學(xué)習(xí)算法進(jìn)行比較。實(shí)驗(yàn)代碼將公布在GitHub 上,提供下載和證明。

實(shí)驗(yàn)以自然伽馬(Natural Gamma,NG)、聲波時(shí)差(Sonic Jet,SJ)、補(bǔ)償密度(Compensation Density,CD)、微梯度電阻率(Micro Gradient Resistivity,MGR)、淺橫向電阻率(Shallow Lateral Resistivity,SLR)、深側(cè)向電阻率(Deep Lateral Resistivity,DLR)等對(duì)巖性變化反映比較敏感的測(cè)井參數(shù)作為輸入?yún)?shù)。每個(gè)樣本代表不同儲(chǔ)層深度的位置,樣本個(gè)數(shù)為611~733。每個(gè)數(shù)據(jù)集的類別個(gè)數(shù)均為4,分別是頁巖(SHale,SH)、粉砂巖(SIltstone,SI)、砂巖(SAndstone,SA)和鈣質(zhì)砂巖(Calcareous Sandstone,CS)。實(shí)驗(yàn)所用數(shù)據(jù)集如表2所示。

表2 數(shù)據(jù)集描述Tab.2 Dataset description

實(shí)驗(yàn)采用分類精度accuracy作為評(píng)估指標(biāo)。

式中:|Xtrain|為訓(xùn)練樣本數(shù);|Xtest|為測(cè)試樣本數(shù);error為誤分類數(shù);|X|為總的樣本數(shù)。

首先進(jìn)行了ALCL 同三種主動(dòng)學(xué)習(xí)算法的參數(shù)調(diào)節(jié)實(shí)驗(yàn),得到實(shí)驗(yàn)效果最好的查詢比例。接著,取實(shí)驗(yàn)效果最好的查詢比例,將本文的ALCL 具體地同三種監(jiān)督學(xué)習(xí)和三種主動(dòng)學(xué)習(xí)算法作比較。

3.1 參數(shù)調(diào)節(jié)實(shí)驗(yàn)

實(shí)驗(yàn)通過不斷增加查詢比例,以期望找到每種算法的最佳查詢比例。每個(gè)數(shù)據(jù)集上共進(jìn)行5組實(shí)驗(yàn),每組實(shí)驗(yàn)重復(fù)5次,得出分類精度后取平均值,以減小實(shí)驗(yàn)誤差。對(duì)于每個(gè)數(shù)據(jù)集,第一組實(shí)驗(yàn)取數(shù)據(jù)集的1%作為查詢比例,以后每組實(shí)驗(yàn)查詢規(guī)模遞增數(shù)據(jù)集的2%。

通過圖4 得到每種算法在對(duì)應(yīng)同一個(gè)數(shù)據(jù)集上的分類精度變化情況。圖4 分別表示在6 個(gè)測(cè)井巖性數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,縱軸表示對(duì)應(yīng)不同查詢比例時(shí)每種算法的分類精度結(jié)果。

根據(jù)圖4 可以看出,四種算法的分類精度在隨著查詢比例增加時(shí)基本呈整體上升趨勢(shì),但ALEC 的增長(zhǎng)趨勢(shì)并不明顯,基本處于穩(wěn)定狀態(tài)。在圖4(a)、(b)、(d)、(e)中,本文ALCL 在對(duì)應(yīng)不同查詢比例時(shí)的分類精度基本都比其他算法高;但在圖4(c)、(f)中,ALCL 的分類精度基本均低于ALTC。在圖4(a)、(c)、(d)中,均有三種算法在查詢比例為5%時(shí)取得分類精度最大值。圖4(b)中,更是四種算法全部在查詢比例為5%時(shí)取得分類精度最大值。圖4(f)中,也同樣有兩種算法在查詢比例為5%時(shí)取得分類精度最大值。因此,可以認(rèn)為在查詢比例取5%時(shí)對(duì)應(yīng)每種算法的分類效果最好。

圖4 遞增查詢比例時(shí)每種算法的分類精度結(jié)果Fig.4 Classification accuracy results of algorithms with query ratio increasing

3.2 與監(jiān)督學(xué)習(xí)算法對(duì)比

3.1 節(jié)中,通過將ALCL 同三種主動(dòng)學(xué)習(xí)算法對(duì)比得到最佳查詢比例為5%。本節(jié)在查詢比例取5%時(shí)將ALCL 同KNN、DTCA、NB 三種經(jīng)典監(jiān)督學(xué)習(xí)算法進(jìn)行對(duì)比,以期望得到更好的巖性識(shí)別效果。表3 展示了ALCL 與三種監(jiān)督學(xué)習(xí)算法在查詢比例為5%時(shí)的分類精度結(jié)果。

表3 ALCL與3種監(jiān)督學(xué)習(xí)算法的分類精度比較結(jié)果(均值±標(biāo)準(zhǔn)差)Tab.3 Comparison results of classification accuracy among ALCL algorithm and 3 supervised learning algorithms(mean±standard deviation)

表3 中,本文提出的ALCL 在Tai23、Tai108 和Wei2-8-17三個(gè)數(shù)據(jù)集上的分類精度達(dá)到最高,在其余三個(gè)數(shù)據(jù)集上也是達(dá)到了第二高的分類精度。使用Friedman 和Nemenyi 事后檢驗(yàn)分析算法的性能。由Friedman 檢驗(yàn)得出的排名中,ALCL的排名均值為1.500 0,位于所有算法的第一位。

表4給出了通過Nemenyi檢驗(yàn)獲得的t值。在顯著性水平因子β取0.1 時(shí),ALCL 對(duì)比KNN 算法和DTCA 的t值均小于0.1。因此,ALCL明顯優(yōu)于KNN和DTCA。ALCL對(duì)比NB算法的t值雖大于0.1,但在排名均值上ALCL 小于NB 算法,且t值為0.117 525,僅超出0.017 525。因此,ALCL略優(yōu)于NB算法。

表4 假設(shè)檢驗(yàn)(Ⅰ)Tab.4 Hypothetical test(Ⅰ)

3.3 與主動(dòng)學(xué)習(xí)算法對(duì)比

在查詢比例為5%時(shí),每種算法對(duì)應(yīng)每個(gè)數(shù)據(jù)集的分類精度結(jié)果如表5 所示。表5 中,本文提出的ALCL 在Tai23、Tai108、Wei2-8-17 和Wei2-24-25 四個(gè)數(shù)據(jù)集上的分類精度達(dá)到最高,在Tai121 和Wei2-27-27 兩個(gè)數(shù)據(jù)集上也是達(dá)到了第二高的分類精度。使用Friedman 和Nemenyi 事后檢驗(yàn)分析算法的性能。由Friedman檢驗(yàn)得出的排名中,ALCL的排名均值為1.333 3,位于所有算法的第一位。

表5 ALCL與3種主動(dòng)學(xué)習(xí)算法的分類精度比較結(jié)果(均值±標(biāo)準(zhǔn)差)Tab.5 Comparison results of classification accuracy among ALCL and 3 active learning algorithms(mean±standard deviation)

同時(shí),使用Nemenyi 事后檢驗(yàn)來分析是否存在顯著差異。表6給出了通過Nemenyi檢驗(yàn)獲得的t值。在顯著性水平因子β取0.1 時(shí),ALCL 相較QBC 算法和ALDC 算法的t值均小于0.1。因此,ALCL 明顯優(yōu)于QBC 和ALDC 算法。ALCL 相較于ALTC 算法的t值雖大于0.1,但在排名均值上ALCL 小于ALTC算法。因此,ALCL算法略優(yōu)于ALTC算法。

表6 假設(shè)檢驗(yàn)(Ⅱ)Tab.6 Hypothetical test(Ⅱ)

4 結(jié)語

針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法需要大量標(biāo)記樣本,且基于聚類主動(dòng)學(xué)習(xí)算法適用于數(shù)據(jù)集有限、分類精度差的問題,本文提出了一種基于多種聚類算法和多元線性回歸的多分類主動(dòng)學(xué)習(xí)算法(ALCL)?;诙嘣€性回歸模型的聚類算法集成策略能夠很好地將結(jié)構(gòu)完全不同的幾種聚類算法進(jìn)行結(jié)合,通過將求解得到的權(quán)重系數(shù)與主動(dòng)學(xué)習(xí)建立聯(lián)系,實(shí)現(xiàn)對(duì)巖性的識(shí)別分類。該算法能夠很好地應(yīng)用于巖性識(shí)別問題。在6個(gè)真實(shí)巖性識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法可以有效提高巖性識(shí)別的精度。未來的研究工作主要包括以下三個(gè)方面:1)增加或更換新的聚類算法以提高ALCL 的分類效果;2)改進(jìn)幾種聚類算法的初始聚類中心選擇策略,從而優(yōu)化聚類結(jié)果;3)研究更優(yōu)的聚類集成策略。

猜你喜歡
巖性測(cè)井聚類
本期廣告索引
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應(yīng)用于網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的文本聚類方法
資源勘查工程專業(yè)《地球物理測(cè)井與解釋》課程的教學(xué)改革
我國(guó)測(cè)井評(píng)價(jià)技術(shù)應(yīng)用中常見地質(zhì)問題分析
黔中地區(qū)土壤酶活性對(duì)巖性的響應(yīng)
測(cè)斜儀在鉆孔施工中的應(yīng)用技術(shù)
渠道運(yùn)行多年后渠體中各土體物理力學(xué)性質(zhì)對(duì)比情況分析
渠道運(yùn)行多年后渠體中各土體物理力學(xué)性質(zhì)對(duì)比情況分析