国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分分析和最近鄰算法的斷層識別研究

2021-09-10 10:58:58鄒冠貴丁建宇張少敏
煤田地質(zhì)與勘探 2021年4期
關(guān)鍵詞:斷層準確率分類

鄒冠貴,任 珂,吉 寅,丁建宇,張少敏

基于主成分分析和最近鄰算法的斷層識別研究

鄒冠貴1,2,任 珂2,吉 寅2,丁建宇2,張少敏2

(1. 中國礦業(yè)大學(xué)(北京)煤炭資源與安全開采國家重點實驗室,北京 100083;2. 中國礦業(yè)大學(xué)(北京)地球科學(xué)與測繪工程學(xué)院,北京 100083)

斷層是影響煤礦安全的致災(zāi)地質(zhì)因素,查明斷層特征是煤礦三維地震勘探的主要目的之一。常規(guī)斷層解釋中采用的人機交互解釋方法,其可靠性在一定程度上取決于解釋者的經(jīng)驗。為提高斷層解釋精度,提出一種基于主成分分析和最近鄰算法來檢測沿目標層斷層分布的方法。首先,選擇峰峰礦區(qū)羊東煤礦作為研究區(qū)域,從礦區(qū)高精度處理后獲得的三維地震數(shù)據(jù)中提取10個地震屬性;然后,采用主成分分析法(PCA)將上述10個地震屬性整合為6個綜合屬性;同時,將屬性信息與從礦區(qū)15口井和3條巷道確定的139個點的斷層信息相結(jié)合,構(gòu)建已知數(shù)據(jù)信息;在該數(shù)據(jù)信息的基礎(chǔ)上,分別組建出數(shù)據(jù)集1和數(shù)據(jù)集2兩種數(shù)據(jù)集,2種數(shù)據(jù)集的訓(xùn)練集與測試集的比分別為9∶1和3∶7。利用這些數(shù)據(jù)集以及十折交叉驗證的方法,開展基于最近鄰算法(kNN)的斷層識別準確率測試,數(shù)據(jù)集1的測試準確率為87.75%,數(shù)據(jù)集2的測試準確率為71.63%;這表明訓(xùn)練數(shù)據(jù)量越大,斷層識別準確率越高,從而也說明高密度三維地震在該方法的應(yīng)用中存在一定優(yōu)勢。在對kNN模型的分類性能進行測試時,使用通過PCA進行降維處理的數(shù)據(jù)作為輸入,計算出的分類準確率分別為89.23%和73.79%;這是因為PCA降低了原始輸入特征的維數(shù),從而減少了所需的計算量并提高了這些特征的表征能力。綜合結(jié)果表明,結(jié)合PCA和kNN方法可以有效地識別斷層分布,減少主觀人為因素的影響,提高斷層解釋的效率。

地震多屬性;主成分分析;最近鄰算法;斷層識別;峰峰礦區(qū)羊東煤礦

煤礦開采過程中,斷層不僅改變了煤(巖)層的埋藏條件,而且使煤(巖)層錯斷并發(fā)生顯著位移,這一方面破壞了煤層的連續(xù)性和完整性,為煤層開采帶來阻力;另一方面,斷層處容易發(fā)生瓦斯突出、透水、冒頂?shù)鹊刭|(zhì)災(zāi)害,嚴重影響礦區(qū)的安全開采。因此,提前探明礦區(qū)斷層分布是煤礦安全開采的重要內(nèi)容。目前,地震領(lǐng)域,斷層的解釋手段主要是人機交互解釋,通過解釋人員肉眼觀察地震波的振幅、相位和時差等特征以確定斷層的存在,解釋可靠性在一定程度上取決于解釋人員對工區(qū)有關(guān)褶皺、斷裂等構(gòu)造模式的掌握程度,依靠這種方法解釋斷層具有很大的局限性,并且是一個費時費力的過程[1]。

為了打破傳統(tǒng)斷層解釋方法的局限性,近年來,不少學(xué)者利用屬性不連續(xù)性來表征斷層分布。M. Bahorich等[2]首先提出了相干體屬性,并獲得了三維數(shù)據(jù)中地層的不連續(xù)性特征;N. M. Albinhassan等[3]將霍夫變換應(yīng)用于時間切面,以增強斷層的顯示;S. I. Pedersen等[4]使用螞蟻跟蹤來增強空間不連續(xù)性并改善地震數(shù)據(jù)中的斷層特征;F. Admasu等[5]提出了一種用于三維地震數(shù)據(jù)的半自動斷層跟蹤方法,該方法涉及使用log-Gabor濾波器來增強斷層振幅的不連續(xù)性,并在地震剖面上跟蹤斷層。這些方法通過完善邊緣檢測屬性來增強斷層響應(yīng),突出顯示斷層邊緣通常取決于屬性的質(zhì)量。Lu Cai等[6]開發(fā)了一種體繪制技術(shù),融合體渲染多個地震屬性,向解釋人員顯示了三維數(shù)據(jù)體內(nèi)部結(jié)構(gòu)的直觀視圖;孫振宇等[7]利用支持向量機(Support Vector Machines,簡稱SVM)進行多屬性斷層識別。這些研究,通過地震多屬性解釋很好地避免了對單一屬性質(zhì)量的依賴。在利用多種屬性進行地震解釋的同時,還需要對其進行數(shù)據(jù)整合,抓住數(shù)據(jù)中有效信息,舍棄干擾信息[8-10]。

主成分分析(Principal Component Analysis,簡稱PCA)是一種使用廣泛的數(shù)據(jù)整合方法,被廣泛應(yīng)用于信號處理、統(tǒng)計等各個領(lǐng)域。這種方法通過分析提取樣本的少量特征來降低空間維數(shù),在降維過程中產(chǎn)生的新特征向量為正交向量,向量之間相互獨立,可以幫助我們抓住主要信息,盡可能地消除噪聲等干擾[11-12]。同時,近年來興起的機器學(xué)習(xí)方法具有很好的數(shù)據(jù)泛化能力,可以從已經(jīng)得到的數(shù)據(jù)中獲取信息,達到分類或者回歸的目的。龐大的地震數(shù)據(jù)量為機器學(xué)習(xí)在該領(lǐng)域的應(yīng)用和發(fā)展提供了先決條件[13]。最近鄰算法(k-nearest Neighbor Alogorithm,簡稱kNN)是機器學(xué)習(xí)領(lǐng)域最常用的算法之一。由于實現(xiàn)簡單,理論清晰和分類性能出色,它已在許多領(lǐng)域得到廣泛使用[14]。同時,傳統(tǒng)的kNN算法需要大量的存儲空間對訓(xùn)練樣本進行存儲,在多維大數(shù)據(jù)量的情況下,這意味著龐大的運算量和運算時間[15],經(jīng)過PCA降維,也很大程度上解決了這方面的不足。

筆者采用PCA方法對多種地震屬性進行整合,產(chǎn)生新的綜合屬性,然后將其作為屬性輸入并利用kNN算法進行斷層識別,同時通過交叉驗證評估斷層識別的準確率,為地震構(gòu)造解釋的研究提供了一種新的思路。

1 基本原理和方法

1.1 主成分分析(PCA)

主成分分析作為一種常用的線性降維方法,其要求低維子空間對樣本具有最大可分性。這種方法最初是由K. Pearson于1901年對非隨機變量引入的。1933年,H. Hotelling進一步完善了PCA的數(shù)學(xué)基礎(chǔ),將其推廣到隨機向量[16-17]。其核心思想是通過坐標旋轉(zhuǎn),尋找新的正交基,從而將數(shù)據(jù)投影到使數(shù)據(jù)方差最大的維坐標軸上,得到數(shù)據(jù)在新坐標系中的表示以消除原數(shù)據(jù)空間的多重共線性,從而達到數(shù)據(jù)降維的目的[18]。這種方法的主要流程如圖1所示。

圖1 PCA算法流程

1.2 最近鄰算法(kNN)

最近鄰算法(k-Nearest Neighbor)是T. Cover和P. Hart于1967年提出一種常用的監(jiān)督學(xué)習(xí)算法[20]。kNN的工作機制是:給定測試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的個訓(xùn)練樣本,然后基于這個“鄰居”的信息來進行預(yù)測。通常,在分類任務(wù)中可使用“投票法”,即選擇這個樣本中出現(xiàn)最多的類別標記作為預(yù)測結(jié)果。

圖2是最近鄰算法的原理。從圖中可以看出,是一個重要參數(shù),當(dāng)取值不同時,分類結(jié)果會顯著不同;另一方面,若采用不同距離的計算方式,則找出的“近鄰”可能有顯著差別,從而也會導(dǎo)致分類結(jié)果的不同[21]。

圖2 最近鄰算法的原理

2 數(shù)據(jù)集構(gòu)建

2.1 研究區(qū)概況

峰峰礦區(qū)羊東煤礦位于中國河北邯鄲。本礦區(qū)內(nèi)含煤地層為石炭系上統(tǒng)本溪組、石炭–二疊系太原組和二疊系下統(tǒng)山西組,井田含煤地層平均總厚約210 m,含可采煤層6層,即2、4、6、7、8、9號煤,本次研究的目的煤層為2號煤層。2號煤層頂板為粉砂巖,底板為含泥質(zhì)及炭質(zhì)粉砂巖,屬穩(wěn)定可采煤層。

研究靶區(qū)的勘探面積為3 km2,工作面內(nèi)已有3條巷道、15口鉆井,其在礦區(qū)內(nèi)的分布情況如圖3所示。根據(jù)巷道和鉆井提供的坐標位置與構(gòu)造特征(是否存在斷層)對應(yīng)關(guān)系信息,在2號煤層確定139個點的坐標及該位置所對應(yīng)的構(gòu)造特征(表1)。

圖3 羊東煤礦2號煤層已有鉆井、巷道分布情況

2.2 特征提取

特征提取的目的是獲取研究對象的盡可能多的信息。地震屬性是由疊前或疊后地震數(shù)據(jù),經(jīng)過數(shù)學(xué)變換而得出的有關(guān)地震波的幾何學(xué)、運動學(xué)、動力學(xué)或統(tǒng)計學(xué)特征,不同的地震屬性代表不同的物理特性。因此,地震屬性是非常合適的特征提取對象[24]。以方差體為例,方差體的計算是通過求取加權(quán)移動的方差值,得到三維數(shù)據(jù)體中每個時間樣點的方差,其計算如式(3)所示。方差值越大,說明相似性越差,常被用于表征地層的不連續(xù)變化及檢測地下斷層。對三維地震數(shù)據(jù)體提取方差屬性,包含了層位不連續(xù)信息。

對數(shù)據(jù)體分別提取了10種地震屬性,包括:方差、衰減系數(shù)、走向曲率、反射強度、瞬時相位、最大振幅、瞬時頻率、傾角偏差、傾角連續(xù)性、混沌體,這10種屬性均能用于表征斷層[7]。然后,將已知構(gòu)造信息的139個點與提取得到的地震屬性根據(jù)坐標位置對應(yīng)起來,構(gòu)建羊東煤礦2號煤層已知數(shù)據(jù)集,見表2。其中,非斷層數(shù)據(jù)97組,用標簽‘0’表示;斷層數(shù)據(jù)42組,用標簽‘1’表示。

表1 139個點位置坐標及其對應(yīng)的構(gòu)造信息

2.3 特征選擇

對于從地震數(shù)據(jù)體提取得到的屬性數(shù)據(jù)集,需要利用PCA對其中的原始地震數(shù)據(jù)進行整合,整合得到的綜合屬性將作為特征選擇的結(jié)果,用于kNN進行斷層識別。本文利用SPSS軟件對數(shù)據(jù)進行主成分分析,具體處理過程如下。

表2 羊東煤礦2號煤層已知數(shù)據(jù)集

表3 主成分特征值及其方差貢獻率

表4 綜合屬性數(shù)據(jù)集

3 模型構(gòu)建與斷層自動識別

3.1 交叉驗證的思想

在對kNN算法分類準確率進行評估時,通常的方法是將已知數(shù)據(jù)集隨機分為兩部分:訓(xùn)練集和測試集。這種方法的樣本選取雖然具有隨機性,但不同的分類方法訓(xùn)練的結(jié)果可能有差異。為了消除這種影響,本文在樣本選取時采用了十折交叉驗證的方法:將用于分類的139組數(shù)據(jù),分成10組,其中每組數(shù)據(jù)數(shù)量如圖4所示,每次實驗,依次分配訓(xùn)練集9份驗證集1份,10次結(jié)果的均值作為算法精度的估計[23]。該方法的優(yōu)點是:所有的樣本都進行了訓(xùn)練,每一份樣本又各自作為測試集進行驗證,提高了預(yù)測的精確度;同時,也降低了分組不同的影響。

圖4 每組數(shù)據(jù)數(shù)量

3.2 模型構(gòu)建與評估

值的選取是構(gòu)建kNN分類模型的重要參數(shù),在過擬合和欠擬合之間保持平衡是選擇值的關(guān)鍵,值的合理選取可以盡可能減少噪聲對輸出類別的影響[25]。根據(jù)經(jīng)驗規(guī)則,一般取奇數(shù)且小于訓(xùn)練樣本數(shù)的平方根,考慮到樣本集數(shù)據(jù)量的大小,本文的取值1、3、5、7、9、11,然后依據(jù)驗證集準確率大小隨取值的變化規(guī)律,確定模型的最佳值。

為了更好地觀察PCA提取特征前后對kNN分類效果的影響,分別將PCA處理前后的2組數(shù)據(jù)集作為輸入,并利用十折交叉驗證的思想和圖4的分組方式對2組數(shù)據(jù)進行分組,然后利用kNN對2組數(shù)據(jù)進行分類。驗證集分類準確率隨取值的變化如圖5所示。

以分組1為例,從圖5中可以看出:在該種分組下,未經(jīng)過PCA提取主成分的數(shù)據(jù)集在取值3、5、9、11時,驗證集分類準確率最高,為84.61%;同樣的分組下,經(jīng)過PCA提取主成分的數(shù)據(jù)集在取值1、9、11時,驗證集分類準確率最高,為92.31%。同樣,其他各組均選擇驗證集準確率最高時的k值作為當(dāng)前分組下kNN模型中的最佳取值,并對其對應(yīng)取值下的驗證集準確率進行統(tǒng)計。統(tǒng)計結(jié)果顯示,未經(jīng)過PCA選擇特征的kNN分類平均準確率為87.75%,經(jīng)過PCA選擇特征的kNN分類平均準確率為89.23%。

為了觀察出的取值對分類準確率的影響。對不同分組下同一值的驗證集準確率進行統(tǒng)計并求平均值,得到的變化規(guī)律曲線如圖6中PCA-kNN(a)和kNN(a)所示。從圖6中可以看出,當(dāng)?shù)娜≈禐?時,對應(yīng)的驗證集平均準確率最高,即構(gòu)建模型最優(yōu),是該組數(shù)據(jù)的最佳值。

圖5 各組驗證集分類準確率隨k取值的變化

圖6 驗證集平均準確率隨k取值的變化規(guī)律

3.3 斷層分布預(yù)測

利用交叉驗證法確定了PCA-kNN的最優(yōu)參數(shù)取值后,對羊東煤礦2號煤層的斷層分布進行了預(yù)測,預(yù)測結(jié)果如圖7所示。

從圖7中可以看出:PCA-kNN預(yù)測的斷層分布與鉆井、巷道揭露的斷層分布吻合程度較高,斷層走向基本一致,這表明利用PCA-kNN的方法可以實現(xiàn)煤礦斷層的分布預(yù)測;通過對比可以發(fā)現(xiàn),使用kNN模型獲得的斷層分布顯然比人工斷層解釋結(jié)果更為寬松,這是由于PCA-kNN利用綜合屬性預(yù)測斷層區(qū)域時,它僅對綜合屬性值的異常區(qū)域產(chǎn)生斷層響應(yīng),因此,預(yù)測結(jié)果是相對松散分布的斷層點;圖中的A處和F處均有斷層揭露,人工解釋的結(jié)果卻并未解釋出這2個區(qū)域的斷層,這是因為該處的斷層落差較小,地震解釋剖面上的斷層特征不明顯,人工解釋常常難以解釋出這種落差較小的斷層,但是PCA-kNN將這2個區(qū)域均預(yù)測為斷層區(qū),這表明PCA-kNN模型相較于人通過肉眼來解釋響應(yīng)更為靈敏,在小斷層的預(yù)測方面具有一定的優(yōu)勢;同理,可以推測B、C兩處,PCA-kNN的預(yù)測結(jié)果與人工解釋結(jié)果相反,極有可能是該區(qū)域存在小斷層分布,但是人工并未解釋出這些斷層;另外,圖中的D、E處被人為地解釋為斷層分布區(qū),但是PCA-kNN的預(yù)測結(jié)果顯示這些區(qū)域的斷層擴展長度很小,這表明這些區(qū)域斷層解釋的可靠性相對較低??傮w來看,PCA-kNN可以實現(xiàn)工區(qū)的斷層分布預(yù)測,并且相較于人工斷層解釋而言,這一方法具有快速、直觀,能夠更好地識別小斷層的特點。

圖7 kNN斷層預(yù)測分布與人工解釋結(jié)果對比

4 結(jié) 論

a.本文在開展研究過程中,隨機形成了2種類型的數(shù)據(jù)集:其中,數(shù)據(jù)集類型1的訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集的比率為9∶1,用于表示訓(xùn)練數(shù)據(jù)比測試數(shù)據(jù)多的情況;數(shù)據(jù)集類型2的訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集的比率為3∶7,用于表示訓(xùn)練數(shù)據(jù)比測試數(shù)據(jù)少的情況。基于以上2種數(shù)據(jù)集,分析了kNN和PCA-kNN的自動斷層識別的準確率,并在峰峰礦區(qū)羊東煤礦進行了基于PCA-kNN算法的斷層自動識別。

b.基于kNN和PCA-kNN,數(shù)據(jù)集類型1的斷層識別精度高于數(shù)據(jù)集類型2的斷層識別精度。這表明斷層識別的精度與數(shù)據(jù)集數(shù)量密切相關(guān)。當(dāng)訓(xùn)練數(shù)據(jù)集的數(shù)量大于測試數(shù)據(jù)集的數(shù)量時,斷層識別的準確性更高。

c. 基于數(shù)據(jù)集類型1和數(shù)據(jù)集類型2,分別開展了kNN和PCA-kNN方法的斷層識別。結(jié)果表明,基于PCA-kNN模型的斷層識別準確率要高于單純基于kNN模型的斷層識別準確率。特別是在數(shù)據(jù)集類型2中,當(dāng)訓(xùn)練數(shù)據(jù)集的數(shù)量少于測試數(shù)據(jù)集的數(shù)量時,基于PCA-kNN模型的斷層識別精度超過了基于kNN模型的斷層識別精度。這表明由PCA形成的單個綜合屬性比單個地震屬性具有更高的有效信息密度,并且具有進一步探查可以表征斷層的地震屬性的能力。

d.在實際應(yīng)用中,使用所構(gòu)建的模型來預(yù)測實際的斷層分布。這種情況類似于本研究中的數(shù)據(jù)集類型2,即訓(xùn)練數(shù)據(jù)小于測試數(shù)據(jù)。為了獲得比測試數(shù)據(jù)更多的訓(xùn)練數(shù)據(jù),有必要在勘探區(qū)域中整合多個已知的地質(zhì)數(shù)據(jù),以進行實際的大數(shù)據(jù)分析,從而有助于形成與數(shù)據(jù)集類型1類似的情況。如果發(fā)生數(shù)據(jù)集類型2,可以考慮采用降維方法(例如PCA)來提高斷層自動識別的準確性。

[1] 董守華,石亞丁,汪洋. 地震多參數(shù)BP人工神經(jīng)網(wǎng)絡(luò)自動識別小斷層[J]. 中國礦業(yè)大學(xué)學(xué)報,1997,26(3):14–18. DONG Shouhua,SHI Yading,WANG Yang. Automatic recognition of small fault by BP artificial nervous network from multiple seismic parameters[J]. China University of Mining and Technology,1997,26(3):14–18.

[2] BAHORICH M,F(xiàn)ARMER S L. 3-D seismic discontinuity for faults and stratigraphic features:The coherence cube[J]. AAPG Bulletin,1995,14(10):1566.

[3] ALBINHASSAN N M,MARFURT K. Fault detection using Hough transforms[C]//Society of Exploration Geophysicists. SEG Technical Program Expanded Abstracts 2003. 2003:1719–1721.

[4] PEDERSEN S I,RANDEN T,SONNELAND L,et al. Automatic fault extraction using artificial ants[C]//Society of Exploration Geophysicists. SEG Technical Program Expanded Abstracts 2002. 2002:512–515.

[5] ADMASU F,BACK S,TOENNIES K. Autotracking of faults on 3D seismic data[J]. Geophysics,2006,71(6):49–53.

[6] LU Cai,YUAN Mingkai,WANG Qi,et al. Application of multi-attributes fused volume rendering techniques in 3D seismic interpretation[C]//Society of Exploration Geophysicists. SEG Technical Program Expanded Abstracts 2014. 2014:1609–1613.

[7] 孫振宇,彭蘇萍,鄒冠貴. 基于SVM算法的地震小斷層自動識別[J]. 煤炭學(xué)報,2017,42(11):2945–2952. SUN Zhenyu ,PENG Suping ,ZOU Guangui,Automatic identification of small faults based on SVM and seismic data[J]. Journal of China Coal Society,2017,42(11):2945–2952.

[8] DI Haibin,SHAFIQ A,WANG Zhen,et al. Improving seismic fault detection by super-attribute-based classification[J]. Interpretation,2019,7(3):251–267.

[9] ZOU Guangui,REN Ke,SUN Zhenyu,et al. Fault interpretation using a support vector machine:A study based on 3D seismic mapping of the Zhaozhuang Coal Mine in the Qinshui Basin,China[J]. Journal of Applied Geophysics,2019,171:103870.

[10] BARNES A E. A filter to improve seismic discontinuity data for fault interpretation[J]. Geophysics,2006,71(3):1.

[11] BAVKAR S,SAHARE S. PCA based single channel speech enhancement method for highly noisy environment[C]//2013 International Conference on Advances in Computing,Communications and Informatics(ICACCI). IEEE,2013:1103–1107.

[12] IWAI M,KOBAYASHI K. Noise reduction in magnetocardiograph based on time-shift PCA just using measurement data[C]// IEEE. 2018 IEEE International Magnetics Conference(INTER MAG). 2018:1.

[13] ARAYA M,DAHLKE T,F(xiàn)ROGNER C,et al. Automated fault detection without seismic processing[J]. The Leading Edge,2017,36(3):208–214.

[14] JAAFAR H,RAMLI N H,NASIR A S A. An improvement to the k-nearest neighbor classifier for ECG database[J]. IOP Conference Series:Materials Science and Engineering,2018,318:012046.

[15] AHA W,KIBLER D,ALBERT M. Instance-based learning algorithms[J]. Machine Learning,1991,6(1):37–66.

[16] WOLD S. Principal component analysis[J]. Chemometrics & Intelligent Laboratory Systems,1987,2(1):37–52.

[17] JOLLIFFE I T. Principal component analysis[J]. Journal of Marketing Research,2002,87(4):513.

[18] MINCHAI H,ZHENMIN Q. Identification of the pesticide fluorescence spectroscopy based on the PCA and KNN[C]// IEEE. 2010 3rd International Conference on Advanced Computer Theory and Engineering(ICACTE). 2010,3:184–186.

[19] 周志華. 機器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社,2016. ZHOU Zhihua. Machine learning[M]. Beijing:Tsinghua University Press,2016.

[20] COVER T,HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory,1967,13(1):21–27.

[21] PETERSON L. K-nearest neighbor[J]. Scholarpedia,2009,4(2):1883.

[22] COST S,SALZBERG S. A weighted nearest neighbor algorithm for learning with symbolic features[J]. Machine Learning,1993,10(1):57–78.

[23] II R,F(xiàn)UKUNAGA K. The optimal distance measure for nearest neighbor classification[J]. IEEE Transactions on Information Theory,1981,27(5):622–627.

[24] WRONA T,PAN I,GAWTHORPE R L,et al. Seismic facies analysis using machine learning[J]. Geophysics,2018,83(5):83–95.

[25] ZHANG Zhongheng. Introduction to machine learning:K-nearest neighbors[J]. Annals of Translational Medicine,2016,4(11):218.

Fault recognition based on principal component analysis and k-nearest neighbor algorithm

ZOU Guangui1,2, REN Ke2, JI Yin2, Ding Jianyu2, ZHANG Shaomin2

(1. State Key Laboratory of Coal Resource and Safety Mining, China University of Mining and Technology(Beijing), Beijing 100083, China; 2. College of Geoscience and Surveying Engineering, China University of Mining and Technology(Beijing), Beijing 100083, China)

Faults are geological structures that can cause disasters and thereby affect the safety of coal mines. Insight into the distribution of faults is one of the main purposes of 3D seismic exploration in coal mines. With respect to human-computer interaction in the interpretation of faults, the reliability of fault interpretation depends to a certain extent on the interpreter’s knowledge. We propose an algorithm based on principal components and nearest neighbors to detect the distribution of faults along target horizons. The Yangdong Coal Mine of Fengfeng Mining Area is selected as the research area, and ten seismic attributes are extracted from the data obtained via three-dimensional seismic acquisition and high-precision processing of the mining area. Principal component analysis(PCA) is used to integrate the aforementioned ten seismic attributes into six integrated attributes. At the same time, the attribute information is combined with the fault information of 139 points determined from 15 wells and 3 roadways in the mining area to construct a known data set. Based on these data, two sets of data were constructed. The ratio of training to testing data for the first and second data set was 9∶1 and 3∶7, respectively. Using these data sets and the 10-fold cross-validation method, the accuracy of fault recognition based on the k-nearest neighbors(kNN) algorithm was determined to be 87.75% for data set 1 and 71.63% for data set 2. This indicates that the accuracy of fault identification is closely related to the number of data sets. In particular, when the number of training data sets is greater than that of the testing data sets, the accuracy of fault identification is higher. The attributes obtained after dimensionality reduction via PCA were used as inputs in the evaluation of the classification results of the KNN model, and the classification accuracy rates were calculated to be 89.23% for data set 1 and 73.79% for data set 2, respectively. This is because PCA reduces the dimensionality of the original input features, thus reducing the amount of calculation required and increasing the characterization capability of these features. The results show that a combination of the PCA and kNN methods can effectively identify fault distribution, and improve the efficiency of fault interpretation.

seismic attributes; principal component analysis(PCA); k-nearest neighbor(kNN) algorithm; fault identification; Yangdong Coal Mine of Fengfeng Mining Area

P315.9

A

1001-1986(2021)04-0015-09

2020-10-14;

2020-11-11

國家重點研發(fā)計劃課題(2018YFC0807803)

鄒冠貴,1981年生,男,福建龍巖人,博士,副教授,博士生導(dǎo)師,從事地震解釋、巖石物理學(xué)研究.E-mail:cumtzgg@foxmail.com

任珂,1993年生,男,山東濰坊人,博士研究生,從事地震解釋研究.E-mail:renke666@foxmail.com

鄒冠貴,任珂,吉寅,等. 基于主成分分析和最近鄰算法的斷層識別研究[J]. 煤田地質(zhì)與勘探,2021,49(4):15–23. doi: 10.3969/j.issn.1001-1986.2021.04.003

ZOU Guangui,REN Ke,JI Yin,et al. Fault recognition based on principal component analysis and k-nearest neighbor algorithm[J]. Coal Geology & Exploration,2021,49(4):15–23. doi: 10.3969/j.issn.1001-1986.2021.04.003

(責(zé)任編輯 聶愛蘭)

猜你喜歡
斷層準確率分類
分類算一算
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
分類討論求坐標
高速公路車牌識別標識站準確率驗證法
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
斷層破碎帶壓裂注漿加固技術(shù)
河南科技(2014年18期)2014-02-27 14:14:52
關(guān)于錨注技術(shù)在煤巷掘進過斷層的應(yīng)用思考
河南科技(2014年7期)2014-02-27 14:11:06
辉县市| 万全县| 于田县| 吴江市| 夏邑县| 常宁市| 大田县| 虎林市| 望江县| 宁晋县| 福贡县| 邹平县| 布尔津县| 中山市| 房产| 商都县| 凤庆县| 噶尔县| 凤山市| 武邑县| 鹰潭市| 佛冈县| 江津市| 阳东县| 黎川县| 犍为县| 安龙县| 红河县| 梓潼县| 永川市| 瑞金市| 临漳县| 伊川县| 敦化市| 梅州市| 玉树县| 安溪县| 盐池县| 新晃| 河津市| 花莲县|