汪 敏,周 磊,閔 帆,張 響,沈佳園,韓 菲
(1.西南石油大學(xué)電氣信息學(xué)院,成都 610500;2.西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,成都 610500;3.浙江浙能天然氣運(yùn)行有限公司,杭州 310052;4.新疆油田公司風(fēng)城油田,克拉瑪依 834000)
抽油機(jī)井一直都是石油開(kāi)采中的重要組成部分,為了更好地了解抽油機(jī)井的工作狀況,就必須對(duì)其工作時(shí)產(chǎn)生的一系列數(shù)據(jù)進(jìn)行分析,從而判斷抽油機(jī)井是否正常工作。通過(guò)測(cè)量抽油機(jī)往復(fù)一周所產(chǎn)生的載荷、位移系列數(shù)據(jù)來(lái)繪制地面示功圖[1],由不同因素導(dǎo)致的抽油機(jī)故障會(huì)形成不同形狀的示功圖。及時(shí)準(zhǔn)確地對(duì)示功圖進(jìn)行診斷,得出抽油機(jī)的故障原因,可以減少財(cái)產(chǎn)損失和延長(zhǎng)零部件的使用壽命。目前以示功圖為研究對(duì)象對(duì)抽油機(jī)進(jìn)行故障診斷是最常見(jiàn)的方法。常見(jiàn)的有BP神經(jīng)網(wǎng)絡(luò)[2]、主成分分析方法[3]以及支持向量機(jī)(Support vector machine,SVM)[4]等。田增國(guó)等[5]提出了一種基于主成分分析的示功圖故障診斷系統(tǒng)。該方法是利用降維技術(shù)保留大量信息的情況下將原始數(shù)據(jù)進(jìn)行壓縮,將大量的線性相關(guān)屬性變量轉(zhuǎn)化成幾個(gè)相互獨(dú)立或者不相關(guān)的變量。通過(guò)計(jì)算示功圖經(jīng)過(guò)主成分分析后的數(shù)據(jù)之間的相關(guān)系數(shù)來(lái)判定不同故障。施海青等[6]提出了一種基于支持向量機(jī)的抽油機(jī)故障診斷方法。該方法采用矢量曲線對(duì)數(shù)據(jù)進(jìn)行壓縮,從而提取井下示功圖特征點(diǎn)。采用“一對(duì)一”的方式構(gòu)建多分類支持向量機(jī)分類器,能夠?qū)Χ鄠€(gè)故障做出識(shí)別。杜娟等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的抽油機(jī)工況識(shí)別方法。該方法在原有神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增添了兩個(gè)注意力機(jī)制模塊,能夠很好地調(diào)節(jié)原有模型的過(guò)擬合情況,使模型更能關(guān)注小類別工況。在工況復(fù)雜的抽油機(jī)故障診斷實(shí)驗(yàn)中,該模型具有良好的泛化能力。文獻(xiàn)[8]提出了一種基于稀疏多圖正則化極限學(xué)習(xí)機(jī)的抽油機(jī)故障診斷方法。該方法通過(guò)快速離散曲波變換提取示功圖特征,利用圖表示學(xué)習(xí)方法構(gòu)建類內(nèi)圖和類間圖來(lái)表示同類數(shù)據(jù)間的關(guān)系以及不同類別數(shù)據(jù)間的關(guān)系。通過(guò)稀疏表示,可以使同一類數(shù)據(jù)的結(jié)果輸出盡可能相同,不同類別的數(shù)據(jù)的結(jié)果輸出盡可能分開(kāi)。示功圖故障診斷測(cè)試表明,該模型在抽油機(jī)工況識(shí)別上有很好的表現(xiàn)。文獻(xiàn)[9]采用了適應(yīng)噪聲因子的濾波器以及使用基函數(shù)來(lái)與之結(jié)合的方法。使用近似多邊形的傅里葉描述符方法來(lái)提取示功圖特征,采用徑向基函數(shù)(Radial basis function,RBF)神經(jīng)網(wǎng)絡(luò),利用指標(biāo)圖數(shù)據(jù)和生產(chǎn)數(shù)據(jù)建立故障診斷模型,使用自適應(yīng)噪聲因子來(lái)解決模型中的自適應(yīng)濾波問(wèn)題。實(shí)驗(yàn)表明,模型在示功圖故障診斷方面取得不錯(cuò)的表現(xiàn)。
現(xiàn)階段常用深度學(xué)習(xí)方法進(jìn)行故障診斷測(cè)試,Peng 等[10]開(kāi)發(fā)了一種新型雙向門(mén)控循環(huán)單元(Bidirectional gated recurrent unit,BGRU),在訓(xùn)練階段對(duì)每個(gè)訓(xùn)練樣本進(jìn)行加權(quán),以減少類不平衡的影響,然后利用成本敏感的主動(dòng)學(xué)習(xí)來(lái)選擇候選樣本。在實(shí)際等離子體蝕刻工藝數(shù)據(jù)集上評(píng)估了所提出方法的有效性。Jin 等[11]提出一種用于復(fù)合故障診斷的新型解耦注意力殘差網(wǎng)絡(luò),應(yīng)用在軸承數(shù)據(jù)集,獲得了優(yōu)越的精度,大大減少了領(lǐng)域?qū)<业臉?biāo)記工作量。Zhang 等[12]引入概率主動(dòng)支持向量機(jī)(Probabilistic active support vector machine,Pro-ASVM)的學(xué)習(xí)方法,根據(jù)樣本點(diǎn)的概率選擇點(diǎn)作為支持向量。應(yīng)用于軸承振動(dòng)信號(hào)的分類,獲得了優(yōu)異的分類效果。Jian 等[13]針對(duì)實(shí)際工業(yè)故障診斷訓(xùn)練集規(guī)模較小的問(wèn)題,提出了一種基于主動(dòng)和半監(jiān)督學(xué)習(xí)的故障診斷新方法。應(yīng)用于實(shí)際的智能維護(hù)系統(tǒng)數(shù)據(jù),為小訓(xùn)練集下的故障診斷提供了一種有前途且有用的方法。Chen 等[14]針對(duì)自組織蜂窩網(wǎng)絡(luò)(Self-organizing cellular networks,SONs)中的故障診斷的多分類問(wèn)題,提出了一種新的基于主動(dòng)學(xué)習(xí)的故障診斷方案。該方案只需很少的標(biāo)記訓(xùn)練實(shí)例即可實(shí)現(xiàn)高診斷性能,從而顯著降低成本。Pun?ochá? 等[15]提出了主動(dòng)故障診斷(Active fault diagnosis,AFD)領(lǐng)域的基本分類方法。由于實(shí)際油田生產(chǎn)過(guò)程中存在抽油機(jī)井下的故障種類數(shù)量多且不同故障類別的數(shù)據(jù)量不平衡、人為標(biāo)注的樣本少且費(fèi)時(shí)費(fèi)力等問(wèn)題,常用的深度學(xué)習(xí)工況識(shí)別模型難以在實(shí)際工作中落地。同時(shí),主成分分析方法、支持向量機(jī)等傳統(tǒng)的方法無(wú)法很好的處理不平衡數(shù)據(jù)分類問(wèn)題。針對(duì)以上方法存在的不足,本文提出一種基于分布驅(qū)動(dòng)的多類別長(zhǎng)尾數(shù)據(jù)代價(jià)敏感主動(dòng)學(xué)習(xí)算法(Cost-sensitive active learning algorithm based on distribution-driven multi-class long-tailed data,CALA)來(lái)解決這一困難且非常有意義的問(wèn)題。
本節(jié)主要介紹本文示功圖的特征提取方法,結(jié)合灰度矩陣的知識(shí),提取示功圖灰度矩陣的6 個(gè)特征作為統(tǒng)計(jì)特征。
本文采用網(wǎng)格法[16]對(duì)示功圖進(jìn)行灰度矩陣提取,網(wǎng)格法構(gòu)建示功圖的灰度矩陣主要包含如下步驟:
(1)標(biāo)準(zhǔn)化示功圖
為了更好地比較不同工況下的抽油機(jī)示功圖,消除示功圖量綱對(duì)收集到的數(shù)據(jù)的影響,將采集到的示功圖數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)歸一化。為符合石油工業(yè)的習(xí)慣,將示功圖放進(jìn)一個(gè)長(zhǎng)寬比為2∶1 的矩形中,滿足繪制的地面示功圖被矩形內(nèi)切這一條件。
(2)網(wǎng)格化示功圖
將長(zhǎng)方形分成多個(gè)網(wǎng)格,本文將之劃分為20×10 大小的網(wǎng)格個(gè)數(shù),并將所有網(wǎng)格的初始灰度賦值“0”;若網(wǎng)格內(nèi)含有示功圖曲線,其灰度值賦值為“1”;邊界內(nèi)部網(wǎng)格的灰度值往矩形中心依次遞增;邊界外部網(wǎng)格的灰度值以矩形邊界依次遞減。邊界搜索方式按列進(jìn)行。
通過(guò)對(duì)構(gòu)建好的示功圖灰度矩陣[17]進(jìn)行數(shù)理統(tǒng)計(jì),計(jì)算灰度均值gˉ、方差σ2、偏度ε、峰度P、能量E和熵ξ這6 個(gè)統(tǒng)計(jì)特征作為示功圖特征值。
假設(shè)灰度矩陣大小為G(A,B),矩陣中任意位置的值gab(1 ≤a≤A,1 ≤b≤B)表示示功圖網(wǎng)格化后對(duì)應(yīng)位置的灰度。設(shè)灰度矩陣中灰度級(jí)數(shù)為R,設(shè)某一灰度級(jí)數(shù)r的數(shù)量為T(mén)(r),則該灰度級(jí)數(shù)在灰度矩陣中出現(xiàn)的概率可表示為p(r)=T(r)/(A×B)。
以統(tǒng)計(jì)的6 個(gè)特征值{d1,d2,d3,d4,d5,d6}作為最終的分類特征向量。
本文的數(shù)據(jù)模型是教師和誤分類代價(jià)決策系統(tǒng)(TMC-DS)[18],該決策系統(tǒng)定義成1 個(gè)四元組
式中:X代表一個(gè)數(shù)據(jù)集向量;y代表數(shù)據(jù)真實(shí)標(biāo)簽向量;M代表誤分類代價(jià)矩陣;t代表專家代價(jià)為1。CALA 算法過(guò)程框圖如圖1 所示。
圖1 CALA 算法流程框圖Fig.1 CALA algorithm flow chart
本節(jié)設(shè)計(jì)了一種基于誤差統(tǒng)計(jì)函數(shù)探索數(shù)據(jù)最佳聚類簇?cái)?shù)的方法。依據(jù)“物以類聚”的原則,樣本間距離越接近,它們的標(biāo)簽就越可能一致的假設(shè)[19]。通過(guò)對(duì)多個(gè)結(jié)構(gòu)化數(shù)據(jù)集進(jìn)行分析測(cè)驗(yàn),得到擬合誤差曲線。其具體步驟如下:
(1)距離閾值實(shí)例對(duì)
依據(jù)距離閾值λ的相鄰實(shí)例對(duì)(xi,xj)定義為
式中:dist(xi,xj)代表數(shù)據(jù)樣本xi和xj間的歐式距離;λ為設(shè)定歸一化距離閾值;Nλ為滿足條件的實(shí)例對(duì)個(gè)數(shù)。
(2)實(shí)例對(duì)標(biāo)簽統(tǒng)計(jì)誤差
根據(jù)式(8)得到的實(shí)例對(duì)個(gè)數(shù),依據(jù)不同的距離閾值定義實(shí)例對(duì)標(biāo)簽統(tǒng)計(jì)誤差函數(shù)
式中:|Nλ|為滿足閾值λ下實(shí)例對(duì)數(shù)量;yi和yj為樣本xi和xj對(duì)應(yīng)的真實(shí)標(biāo)簽。
(3)獲取經(jīng)驗(yàn)誤差函數(shù)
首先選取30 個(gè)不同樣本個(gè)數(shù),不同特征個(gè)數(shù)以及不同類別數(shù)量的公開(kāi)數(shù)據(jù)集,其次通過(guò)式(8)計(jì)算不同閾值λ下的實(shí)例對(duì)個(gè)數(shù),然后通過(guò)式(9)統(tǒng)計(jì)不同閾值λ 下的標(biāo)簽統(tǒng)計(jì)誤差e(λ),最后通過(guò)多項(xiàng)式擬合得到經(jīng)驗(yàn)誤差函數(shù),即
擬合曲線相關(guān)系數(shù)達(dá)到0.999 9,符合工程實(shí)際。
(4)優(yōu)化目標(biāo)函數(shù)
式中:n為數(shù)據(jù)樣本總數(shù),ni為對(duì)應(yīng)第i簇的樣本個(gè)數(shù),λi為第i簇的最遠(yuǎn)兩樣本距離與數(shù)據(jù)集最遠(yuǎn)兩樣本距離的比值。
利用預(yù)分類修正基于統(tǒng)計(jì)策略得到的最佳簇?cái)?shù)。將統(tǒng)計(jì)策略得到的最佳聚類簇?cái)?shù)中每一簇通過(guò)主動(dòng)學(xué)習(xí)方法[20]選擇最具代表性的樣本作為訓(xùn)練集,通過(guò)概率預(yù)測(cè)模型得到樣本預(yù)分類標(biāo)簽。訓(xùn)練集的選取方式為
式中:ci為第Ci簇的聚類中心;s*為該簇交由專家標(biāo)注的樣本。
通過(guò)Softmax 回歸[21],輸入任意樣本xi,屬于樣本對(duì)應(yīng)的預(yù)測(cè)概率為
其預(yù)測(cè)標(biāo)簽為
式中:l為樣本類別數(shù)量;θ為Softmax 目標(biāo)函數(shù)訓(xùn)練得到的最佳參數(shù)。通常通過(guò)梯度下降法[22]求解。
通過(guò)Softmax 回歸模型進(jìn)行預(yù)分類,測(cè)試樣本會(huì)得到一個(gè)相應(yīng)的預(yù)測(cè)標(biāo)簽。將數(shù)據(jù)再次進(jìn)行聚類,依照得到的樣本預(yù)測(cè)標(biāo)簽和經(jīng)驗(yàn)誤差曲線構(gòu)建新的聚類優(yōu)化目標(biāo)函數(shù),有
式中:?1和?2為權(quán)重系數(shù);pu(Ci)為第Ci簇的預(yù)測(cè)標(biāo)簽純度,定義如下
根據(jù)找到的最佳聚類簇?cái)?shù),將數(shù)據(jù)進(jìn)行聚類,選取每一簇離中心點(diǎn)最近的樣本作為訓(xùn)練集,通過(guò)Softmax 回歸得到測(cè)試集的預(yù)測(cè)標(biāo)簽。并且將該訓(xùn)練集同時(shí)作為K最近鄰算法(K-nearest neighbor,KNN)預(yù)測(cè)分類模型的訓(xùn)練集,得到測(cè)試集的KNN 預(yù)測(cè)標(biāo)簽集合j'。結(jié)合二者的預(yù)測(cè)標(biāo)簽構(gòu)建決策函數(shù)
(1)算法偽代碼
算法 CALA
輸入決策信息系統(tǒng)S=(X,y,M,t)
輸出預(yù)測(cè)標(biāo)簽集合Y=[y]n×1
步驟1~5 為賦值和通過(guò)聚類得到數(shù)據(jù)初始分布信息階段,計(jì)算量主要在于聚類算法,時(shí)間復(fù)雜度為O(kdn)。步驟6~8 為選取訓(xùn)練樣本和Softmax 預(yù)分類過(guò)程,選取訓(xùn)練樣本階段時(shí)間復(fù)雜度為O(n2),Softmax 預(yù)分類過(guò)程時(shí)間復(fù)雜度為O(n'2),n'為預(yù)分類樣本數(shù)量,為原始樣本總數(shù)減去訓(xùn)練樣本后的樣本個(gè)數(shù)。n'<n,這階段總的時(shí)間復(fù)雜度為O(n2)+O(n'2)=O(n2)。步驟9~25 為更新最佳聚類分布和集成分類過(guò)程,更新最佳聚類分布與初始聚類階段時(shí)間復(fù)雜度一致為O(kdn),集成分類過(guò)程中,Softmax 分類階段時(shí)間復(fù)雜度為O(n2),KNN 分類階段時(shí)間復(fù)雜度為O(n),考慮while 循環(huán)過(guò)程,則這階段總的時(shí)間復(fù)雜度為O(kdn·log2n)+O(n2log2n)+O(nlog2)=O(n2log2n)。其中特征數(shù)d<n,聚類簇?cái)?shù)k<n,時(shí)間復(fù)雜度為
O(kdn)+O(n2)+O(n2log2n)=O(n2log2n)。
實(shí)驗(yàn)采用來(lái)自新疆風(fēng)城油田4 個(gè)作業(yè)區(qū)不同抽油機(jī)示功圖數(shù)據(jù)對(duì)本文算法進(jìn)行驗(yàn)證分析。其具體信息如表1 所示。這些數(shù)據(jù)包含多個(gè)類別且都是不平衡數(shù)據(jù)。其中A01 是抽油機(jī)作業(yè)一區(qū)常規(guī)油井采集的示功圖數(shù)據(jù),A02 是抽油機(jī)作業(yè)二區(qū)稠油油井采集的示功圖數(shù)據(jù),A03 是抽油機(jī)作業(yè)三區(qū)超稠油油井采集的示功圖數(shù)據(jù),A04 是抽油機(jī)作業(yè)四區(qū)SAGD 油井采集的示功圖數(shù)據(jù)。4 個(gè)油田示功圖數(shù)據(jù)包含有正常工作、供液不足、氣體影響、氣鎖、上碰泵、下碰泵、游動(dòng)閥關(guān)閉遲緩、柱塞脫出泵工作筒、游動(dòng)閥漏、固定閥漏、砂影響+供液不足和慣性影響這12 種常見(jiàn)抽油機(jī)工況。其中,大部分為正常工作,氣體影響工況為最小類別故障工況。A01 中正常工況樣本有4 474 個(gè),氣體影響工況有300 個(gè),不平衡比例為14.91;A02 中正常工況樣本有4 974 個(gè),氣體影響工況有300 個(gè),不平衡比例為16.58;A03 中正常工況樣本有5 374 個(gè),氣體影響工況有300 個(gè),不平衡比例為17.91;A04 中正常工況樣本有5 845 個(gè),氣體影響工況樣本有300個(gè),不平衡比例為19.48。實(shí)際油田工作環(huán)境下,抽油機(jī)示功圖中氣體影響這一類工況數(shù)據(jù)稀少。當(dāng)發(fā)生氣體影響時(shí),抽油機(jī)泵腔內(nèi)壓力不能正常下降,使得加載速度變慢,采油效率降低。對(duì)小類別工況進(jìn)行準(zhǔn)確識(shí)別能夠及時(shí)對(duì)故障機(jī)械進(jìn)行維修,減少損失、延長(zhǎng)機(jī)器設(shè)備的使用壽命。
表1 數(shù)據(jù)集信息Table 1 Information of datasets
本文實(shí)驗(yàn)采用精度、平均代價(jià)F-Measure 作為評(píng)估算法性能的指標(biāo),其精度定義為
式中:|Xt|為測(cè)試集的樣本數(shù)量,error 為誤分類樣本數(shù)量。
對(duì)于不平衡抽油機(jī)故障工況數(shù)據(jù)而言,刻畫(huà)不同工況具有不同的誤分類代價(jià)是很有必要的。對(duì)于稀少工況類別數(shù)據(jù)在實(shí)際場(chǎng)景下樣本數(shù)稀少,誤分類的代價(jià)應(yīng)遠(yuǎn)大于常見(jiàn)工況類別數(shù)據(jù)誤分類代價(jià)。本文設(shè)定的代價(jià)矩陣[23]為
式中:ni和nj分別表示測(cè)試集中屬于第i類和第j類的樣本數(shù)量。平均代價(jià)為
式中:Aij為將第i類誤分類為第j類的樣本數(shù)量;|Xr|為交由專家標(biāo)注的樣本個(gè)數(shù);t為查詢標(biāo)簽代價(jià),實(shí)驗(yàn)中設(shè)置為1。
為驗(yàn)證模型在不平衡數(shù)據(jù)分類上的性能,從準(zhǔn)確率(Precision)和召回率(Recall)和F-measure 分?jǐn)?shù)[24]這3 個(gè)評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行綜合評(píng)判。這3 種評(píng)價(jià)指標(biāo)可以由表2 的混淆矩陣計(jì)算得出。
式中:TP 和TN 分別表示真實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽全部為正,全部為負(fù)的樣本數(shù)量;FP 表示真實(shí)標(biāo)簽為負(fù),預(yù)測(cè)標(biāo)簽為正的樣本數(shù)量,而FN 相反。準(zhǔn)確率是針對(duì)模型測(cè)試結(jié)果,表示預(yù)測(cè)為正實(shí)例中有多少真正的正實(shí)例;召回率是針對(duì)于原始樣本具體標(biāo)簽,表示原始樣本的正實(shí)例有多少被模型預(yù)測(cè)正確。F-measure 綜合兼顧這兩個(gè)評(píng)判標(biāo)注,是評(píng)價(jià)算法性能最常用的指標(biāo)。
表2 混淆矩陣Table 2 Confusion matrix
為驗(yàn)證提出的算法模型性能的優(yōu)越性,將本文提出的CALA 算法與基于欠采樣技術(shù)的代價(jià)敏感學(xué)習(xí)算法(Under-sampling,US)[25]、基于閾值移動(dòng)調(diào)整類別閾值算法(Threshold-moving,TM)[26]、基于過(guò)采樣技術(shù)的代價(jià)敏感學(xué)習(xí)算法(Over-sampling,OS)[27]、增強(qiáng)的自動(dòng)雙支持向量機(jī)算法(Enhanced automatic twin support vector machine,EATWSVM)[28]、基于邊距的非定性采樣主動(dòng)學(xué)習(xí)算法(Uncertainty sampling with margin,UM)[29]、基于熵的不確定性采樣主動(dòng)學(xué)習(xí)算法(Uncertainty sampling with entropy,UE)[30]和基于成本嵌入的主動(dòng)學(xué)習(xí)算法(Active learning with cost embedding,ALCE)[31]以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)這8 種算法進(jìn)行比較。US、TM、OS 和EATWSVM 是4 種代價(jià)敏感不平衡數(shù)據(jù)處理方法,UM、UE 和ALCE 是3 種代價(jià)敏感主動(dòng)學(xué)習(xí)算法。
本節(jié)實(shí)驗(yàn)中,將真實(shí)采集到的4 個(gè)油田的抽油機(jī)示功圖數(shù)據(jù)用于模型性能驗(yàn)證。每個(gè)數(shù)據(jù)集選取30%的樣本交由專家標(biāo)注標(biāo)簽進(jìn)行模型訓(xùn)練,其余樣本作為測(cè)試集。同樣條件下,隨機(jī)10 次重復(fù)實(shí)驗(yàn),統(tǒng)計(jì)各評(píng)價(jià)指標(biāo)結(jié)果。結(jié)果取均值和標(biāo)準(zhǔn)差如表3 所示。
表3 與代價(jià)敏感不平衡數(shù)據(jù)處理方法對(duì)比實(shí)驗(yàn)結(jié)果(均值±方差)Table 3 Comparison of experimental results with cost?sensitive imbalanced data processing methods(mean±std)
從表3 可以看出,在A01、A02、A03 和A04 數(shù)據(jù)集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評(píng)價(jià)指標(biāo)上展現(xiàn)的性能都優(yōu)于其余4 種對(duì)比算法。在代價(jià)性能測(cè)試上,過(guò)采樣算法OS 表現(xiàn)最好,CALA 在4 個(gè)數(shù)據(jù)集上的代價(jià)排名分別為第二、第四、第四和第二。
為驗(yàn)證本文提出的CALA 算法在不同查詢比率下的性能,圖2 顯示了CALA 與4 種代價(jià)敏感不平衡數(shù)據(jù)處理方法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對(duì)比,對(duì)于4 個(gè)真實(shí)油井?dāng)?shù)據(jù)集,CALA 算法的平均F-measure 明顯高于其余算法。
圖2 CALA 算法與4 種不平衡數(shù)據(jù)處理算法在不同查詢比率下的F-measure 比較Fig.2 Comparison of F-measure between CALA algorithm and four imbalanced data processing algorithms under different query ratios
本節(jié)實(shí)驗(yàn)中,將真實(shí)采集到的4個(gè)油田的抽油機(jī)示功圖數(shù)據(jù)用于模型性能驗(yàn)證。每個(gè)數(shù)據(jù)集選取30%的樣本交由專家標(biāo)注標(biāo)簽進(jìn)行模型訓(xùn)練,其余樣本作為測(cè)試集。同樣條件下,隨機(jī)10次重復(fù)實(shí)驗(yàn),統(tǒng)計(jì)各評(píng)價(jià)指標(biāo)結(jié)果。結(jié)果取均值和標(biāo)準(zhǔn)差如表4所示。
表4 與代價(jià)敏感主動(dòng)學(xué)習(xí)算法對(duì)比實(shí)驗(yàn)結(jié)果(均值±方差)Table 4 Comparison of experimental results with cost sensitive active learning algorithms(mean±std)
從表4 可以看出,在A01、A02 和A04 數(shù)據(jù)集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評(píng)價(jià)指標(biāo)上展現(xiàn)的性能都優(yōu)于其余4 種對(duì)比算法。A03 數(shù)據(jù)集上,提出的CALA 算法在召回率和F-measure 評(píng)價(jià)上優(yōu)于其余對(duì)比算法。在代價(jià)性能測(cè)試上,深度學(xué)習(xí)算法CNN 表現(xiàn)最好,CALA 在4 個(gè)數(shù)據(jù)集上的代價(jià)排名分別為第三、第二、第五和第二。
為驗(yàn)證算法在不同查詢比率下的性能,圖3 分別顯示了與3 種代價(jià)敏感主動(dòng)學(xué)習(xí)算法以及深度學(xué)習(xí)算法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對(duì)比,對(duì)于4 個(gè)真實(shí)油井?dāng)?shù)據(jù)集,CALA 算法的平均F-measure 明顯高于其余算法。
圖3 CALA 算法與代價(jià)敏感主動(dòng)學(xué)習(xí)算法以及CNN 算法在不同查詢比率下的F-measure 比較Fig.3 Comparison of F-measure between CALA algorithm and cost-sensitive active learning algorithm and CNN algoithm under different query ratios
為驗(yàn)證本文算法在小類別上的識(shí)別性能,氣體影響工況為最小類別工況。其中A01、A02、A03和A04 數(shù)據(jù)集中氣體影響工況占比分別為2.85%、2.72%、2.60% 和2.38%。表5 和表6 分別列出CALA 算法和8 種對(duì)比算法在氣體影響工況上的性能。表5 和表6 可以得出,CALA 算法在小類別識(shí)別方面的準(zhǔn)確度和F-Measure 優(yōu)于其余對(duì)比算法;在召回率方面,US、TM 和UM 算法表現(xiàn)較好。
表5 小類別工況下與代價(jià)敏感不平衡數(shù)據(jù)處理方法的對(duì)比實(shí)驗(yàn)結(jié)果(均值±方差)Table 5 Experimental results compared with cost?sensitive imbalanced data processing methods under small category conditions(mean±std)
本文算法的核心在于提出的主動(dòng)查詢策略以及基于代價(jià)優(yōu)化目標(biāo)實(shí)現(xiàn)分布優(yōu)化。因此,本文將KNN 算法替換成樸素貝葉斯(Na?ve Bayes,NB)算法即CALA_NB。表7 為CALA_NB 在查詢比率為30%下重復(fù)10 次實(shí)驗(yàn)得到的結(jié)果。結(jié)果表明,將KNN 替換成NB 之后,算法的效果相差不大,說(shuō)明本文算法性能適用性能較好。
表6 小類別工況下與代價(jià)敏感主動(dòng)學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)結(jié)果(均值±方差)Table 6 Experimental results compared with cost?sensitive active learning algorithms under small category conditions(mean±std)
為驗(yàn)證算法在12 種常見(jiàn)抽油機(jī)工況下的不同性能,圖4 分別顯示了CALA 在A01、A02、A03 以及A04 四個(gè)數(shù)據(jù)集用30%查詢比例情況下12 種工況的精度。其中橫坐標(biāo)1~12 分別對(duì)應(yīng)12 種抽油機(jī)工況。從圖中可以看出CALA 在各種工況下的識(shí)別精度表現(xiàn)都較好。
表8 為本文提出算法CALA 與其余9 種模型在4 個(gè)實(shí)際抽油機(jī)數(shù)據(jù)集上運(yùn)行的時(shí)間開(kāi)銷。本文提出的算法CALA 均排名第4,由于使用了集成好的US、TM 和OS 算法,這3 種算法運(yùn)行速度更快。
圖4 CALA 算法在4 個(gè)油田數(shù)據(jù)集上的12 種工況精度Fig.4 Accuracy of CALA algorithm for 12 working conditions on four oil field datasets
針對(duì)抽油機(jī)井下工況復(fù)雜、種類繁多的特點(diǎn),本文提出一種抽油機(jī)故障診斷的分布驅(qū)動(dòng)主動(dòng)學(xué)習(xí)算法。該算法首先利用大量結(jié)構(gòu)化數(shù)據(jù)構(gòu)造經(jīng)驗(yàn)誤差函數(shù),結(jié)合主動(dòng)學(xué)習(xí)查詢少量關(guān)鍵樣本,通過(guò)代價(jià)敏感方法優(yōu)化算法模型,得到工況數(shù)據(jù)最佳聚類簇?cái)?shù)來(lái)改善數(shù)據(jù)分布。有效利用迭代過(guò)程中的代價(jià)優(yōu)化函數(shù),使得該算法在抽油機(jī)示功圖故障診斷方面較對(duì)比算法在精度上有較大提高。在小類別工況識(shí)別中,本文提出的算法在準(zhǔn)確度和F-measure 分?jǐn)?shù)上明顯優(yōu)于其余對(duì)比算法。針對(duì)實(shí)際工程環(huán)境下未知工況的識(shí)別和診斷是下一步將要研究的內(nèi)容。