邱振東,石永泉,任 遠(yuǎn)
(成都理工大學(xué)環(huán)境與土木工程學(xué)院,成都610059)
鉆井工程中,按照設(shè)計(jì)井眼軌道的不同,井可分為2類:直井和定向井[1]。其中直井的軌跡為鉛垂線,看似簡(jiǎn)單,但我們從鉆井歷史中發(fā)現(xiàn),在鉆井工程中直井的井眼軌跡控制難度往往比定向井的軌跡控制難度更大。因?yàn)榈叵虑闆r復(fù)雜,井斜是不可避免的,關(guān)鍵在于如何將井斜角和井眼曲率控制在可接受的范圍之內(nèi),井斜一旦超出此范圍會(huì)造成很大的損失和危害,必要時(shí)需要填井糾斜。
在實(shí)際鉆進(jìn)過程中,引起井斜的因素是復(fù)雜多樣的。大致可以分為3類:地質(zhì)因素、技術(shù)因素和工藝因素。其中,地質(zhì)因素是客觀存在的,其對(duì)井斜的影響有很強(qiáng)的規(guī)律性。所以,我們一般將地質(zhì)因素視為客觀因素,而技術(shù)因素和工藝因素對(duì)井斜的影響會(huì)因操作嚴(yán)格程度或大或小,具有一定的可控性和偶然性。因此,技術(shù)因素和工藝因素為主觀因素[2]。
目前,雖然國(guó)外出現(xiàn)了數(shù)種專用新型主動(dòng)防斜打直工具,如:hcy裝置、VDC系統(tǒng)和SDD直井鉆井系統(tǒng)等,但這些效果優(yōu)秀的專用工具成本較高,很難在鉆井工程中普遍采用。因此,目前的鉆井工程中大部分采用被動(dòng)防斜,主動(dòng)糾斜的方法進(jìn)行直井鉆進(jìn)。最常用的有鐘擺鉆具和滿眼剛性鉆具,其中,鐘擺鉆具因不可使用大鉆壓而大大降低鉆進(jìn)效率,滿眼剛性鉆具只能用于防斜與穩(wěn)斜。而且這2種防斜技術(shù)效果并不可靠,所以在鉆井施工中須多次測(cè)斜,以保證井斜在控制范圍之內(nèi),這樣增大了鉆井周期,降低了鉆井效益[3]。以上2種被稱為傳統(tǒng)防斜打直技術(shù),此外還有一種動(dòng)力學(xué)防斜打直技術(shù)。其通過大鉆壓使底部鉆具組合處于渦動(dòng)狀態(tài)來保持井眼垂直并獲得了較快的鉆進(jìn)速度。采用此技術(shù)時(shí),底部力學(xué)狀態(tài)復(fù)雜,可控性差,而且鉆壓值的選取目前還沒有成熟理論支持。此外還會(huì)產(chǎn)生鉆頭和鉆具因疲勞損傷而加速失效的問題。
本文提出應(yīng)用數(shù)據(jù)挖掘技術(shù)分析已有鉆井?dāng)?shù)據(jù),發(fā)現(xiàn)鉆井施工中主要的致斜因素,進(jìn)而為同一區(qū)域接下來的鉆井工程提出有針對(duì)性的調(diào)整建議。
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中提取隱含在其中的、不為人們所知的、但又有潛在應(yīng)用價(jià)值的信息和知識(shí)的過程[4]。
現(xiàn)代社會(huì)是一個(gè)信息社會(huì),在我們周圍存在著海量的數(shù)據(jù),并且正在爆炸性增長(zhǎng)中。在這些數(shù)據(jù)中蘊(yùn)涵著無數(shù)寶貴的信息和知識(shí),但目前對(duì)這些數(shù)據(jù)的利用率很低。因此,我們處在一個(gè)數(shù)據(jù)豐富,信息貧乏的境地。借助數(shù)據(jù)挖掘我們完全有能力從浩瀚的數(shù)據(jù)海洋中,發(fā)現(xiàn)有價(jià)值的信息和知識(shí),為商業(yè)事物、知識(shí)庫、科學(xué)界作出了巨大貢獻(xiàn)。數(shù)據(jù)挖掘是一門多學(xué)科交叉的領(lǐng)域,它涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)技術(shù)、機(jī)器學(xué)習(xí)、人工智能等。數(shù)據(jù)挖掘技術(shù)已被廣泛地應(yīng)用于各個(gè)領(lǐng)域,如天文學(xué)用來幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體,生物學(xué)研究中用數(shù)據(jù)挖掘技術(shù)對(duì)DNA進(jìn)行分析,利用數(shù)據(jù)挖掘技術(shù)識(shí)別顧客的購(gòu)買行為模式,對(duì)客戶進(jìn)行分析等等。
數(shù)據(jù)挖掘的任務(wù)一般可以分為2類:描述和預(yù)測(cè)。它的功能以及它們可以發(fā)現(xiàn)的模式類型有:概念/類描述,挖掘頻繁模式、關(guān)聯(lián)和相關(guān),分類和預(yù)測(cè),聚類分析,離群點(diǎn)分析和演變分析。目前,數(shù)據(jù)挖掘工具的種類很多,根據(jù)其適用范圍主要分為2類:專用數(shù)據(jù)挖掘工具和通用數(shù)據(jù)挖掘工具。
專用數(shù)據(jù)挖掘工具是針對(duì)某特定領(lǐng)域而開發(fā),在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并且進(jìn)行優(yōu)化。主要軟件包有:KD1(針對(duì)零售業(yè)),Options&Choices(針對(duì)保險(xiǎn)業(yè)),HNC(針對(duì)信用卡欺詐或呆賬檢測(cè))和Unica Model 1(針對(duì)營(yíng)銷業(yè))。而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。通用數(shù)據(jù)挖掘工具主要有:SQL2005(及更高版本),SAS Enterprise Miner,IBM Intelligent Miner,SPSS Clementine等[5]。
本文實(shí)例中的鉆井為地?zé)峋?,終孔孔深為1 680m。鉆進(jìn)至275.85m時(shí)井斜嚴(yán)重超過容許范圍,回填至117.88m重新鉆進(jìn)。在后來的鉆進(jìn)過程中曾多次使用鐘擺鉆具組合進(jìn)行降斜。因此,通過數(shù)據(jù)挖掘技術(shù)分析鉆井?dāng)?shù)據(jù),從繁雜的數(shù)據(jù)中發(fā)現(xiàn)各參數(shù)中哪些對(duì)井斜影響較大。
數(shù)據(jù)挖掘的完整步驟為:(1)理解數(shù)據(jù)和數(shù)據(jù)的來源;(2)獲取相關(guān)知識(shí)和技術(shù);(3)整合與檢查數(shù)據(jù);(4)去除錯(cuò)誤或不一致的數(shù)據(jù);(5)建立模型和假設(shè);(6)實(shí)際數(shù)據(jù)挖掘工作;(7)測(cè)試和驗(yàn)證挖掘結(jié)果;(8)解釋和應(yīng)用。事實(shí)上,許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,數(shù)據(jù)預(yù)處理階段占整個(gè)數(shù)據(jù)挖掘工作的60%~90%。因此,數(shù)據(jù)預(yù)處理是否合理直接影響挖掘成果的好壞。
表1為某鉆井部分原始數(shù)據(jù)。從表中可以看出該井的原始數(shù)據(jù)是根據(jù)班報(bào)表錄入的,有些變量,比如“鉆具”、“泵量”等為描述型數(shù)據(jù)。此外,還存在許多缺失值。數(shù)據(jù)挖掘軟件無法直接對(duì)這些數(shù)據(jù)進(jìn)行分析計(jì)算。因此,首先要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。
表1 某井的原始數(shù)據(jù)
數(shù)據(jù)有2種類型:連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)(定性數(shù)據(jù))。Excel數(shù)據(jù)挖掘軟件在準(zhǔn)備數(shù)據(jù)時(shí)會(huì)自動(dòng)或根據(jù)用戶設(shè)置將連續(xù)型數(shù)據(jù)離散化,并在表格中加入新的數(shù)據(jù)列,如圖1中“交班孔深(離散)”、“單位鉆壓(離散)”、“頂角變化率(離散)”所示。預(yù)處理后的數(shù)據(jù)格式如圖1所示。表中“頂角變化率”在取值時(shí)假定2個(gè)測(cè)井點(diǎn)之間頂角為均勻變化。此井的頂角變化率K 為-0.73~2.1°/10m,離散化后為:降斜段(K≤0.1°/10m),穩(wěn)斜段(K∈-0.09-0.09°/10m);輕微增斜段(K∈0.1-0.19°/10m);嚴(yán)重增斜段(K≥0.2°/10m)。
圖1 預(yù)處理后的部分?jǐn)?shù)據(jù)
Excel數(shù)據(jù)挖掘組件提供了多種算法:決策樹、貝葉斯概率分類、關(guān)聯(lián)規(guī)則、聚類分析、時(shí)序聚類、線性回歸、Logistic回歸、類神經(jīng)網(wǎng)絡(luò)和時(shí)間序列分析。經(jīng)多次試驗(yàn),本文最終采用貝葉斯概率分類算法(bayes classifier)。貝葉斯分類是一種簡(jiǎn)單實(shí)用的分類方法。簡(jiǎn)單貝葉斯分類是根據(jù)貝葉斯定理,交換先驗(yàn)概率和后驗(yàn)概率,在分類屬性相互獨(dú)立的假設(shè)下預(yù)測(cè)分類的情形[5]。其公式如下:
式中:hMAP——最大可能的假說;
D——訓(xùn)練樣本;
V——假設(shè)空間;
對(duì)此,??谑惺称匪幤繁O(jiān)督管理局工作人員表示,竹簽雖然可以反復(fù)使用,但發(fā)黑、發(fā)霉的竹簽是不可以使用的?!熬唧w情況還需檢查后才能定論?!惫ぷ魅藛T表示。
P(D|h)——訓(xùn)練樣本的事前概率,對(duì)于假說h而言,為一常數(shù);
P(h)——假說h事前概率(尚未觀察訓(xùn)練樣本時(shí)的概率);
P(h|D)——在訓(xùn)練樣本D集合下,假說h出現(xiàn)的條件概率。
因?yàn)橥诰蚰康臑轭A(yù)測(cè)引起井斜的關(guān)鍵因素,因此將頂角變化率設(shè)為“僅預(yù)測(cè)”其他變量設(shè)定為“輸入”。在計(jì)算分析中的輸入變量均為離散化后的數(shù)據(jù)。如圖2所示。
圖2 計(jì)算變量用法設(shè)置
通過貝葉斯概率分類分析,圖3為鉆井?dāng)?shù)據(jù)中各變量對(duì)井斜影響的具體情況。圖中增斜指數(shù)越高表示改變量處于特定狀態(tài)時(shí)對(duì)井斜的加劇作用越大。
圖3 計(jì)算結(jié)果
從圖3中可知,鉆桿立跟數(shù)量為50~59根;交班孔深為1 135~1 297m;接頭數(shù)量為5及高單位鉆壓處在25.93~29.17kg/mm等均為增斜較嚴(yán)重的因素。結(jié)合專業(yè)知識(shí)分析,鉆桿立跟數(shù)量與交班孔深有很強(qiáng)的相關(guān)性,“鉆桿立跟數(shù)量為50~59根”與“交班孔深為1 135~1 297m”出現(xiàn)在同一井段。因此,可推斷此井段主要致斜因素為地層原因。此外還有鉆壓和接頭數(shù)量對(duì)井斜變化有較大影響。較高的鉆壓會(huì)加劇井斜,接頭數(shù)量為5和2時(shí)增斜,而為3時(shí)減斜。接頭數(shù)量不同代表所用的鉆具組合也不同,因此可根據(jù)計(jì)算結(jié)果調(diào)整鉆具組合。
由上述應(yīng)用實(shí)例可看出,數(shù)據(jù)挖掘可以從大量的復(fù)雜的鉆井?dāng)?shù)據(jù)中分析出引起井斜的原因,并具有較高的可信度,但是還存在一些問題。
在接下來的研究中還需要解決的問題有:(1)鉆井?dāng)?shù)據(jù)記錄格式;(2)數(shù)據(jù)挖掘過程中考慮參數(shù)的選擇,參數(shù)太少,模型簡(jiǎn)單,但精度差,因素多,可能會(huì)產(chǎn)生信息冗余,增大分析難度,模型建立復(fù)雜;(3)探索其他算法在本領(lǐng)域的應(yīng)用;(4)建立適用性強(qiáng)的挖掘系統(tǒng)等等。
總之,數(shù)據(jù)挖掘技術(shù)的應(yīng)用能夠?yàn)殂@井工作者提供較客觀的決策支持,為井斜控制技術(shù)提供了新的發(fā)展方向和思路。
[1]王建學(xué).鉆井工程[M].北京:石油工業(yè)出版社,2008:45-46.
[2]李世忠.鉆探工藝學(xué)(上冊(cè))[M].北京:地質(zhì)出版社,2008:170-174.
[3]常領(lǐng).動(dòng)力學(xué)防斜打直理論研究及實(shí)踐應(yīng)用[J].西部探礦工程,2007(10):75-76.
[4]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2007:56-58.
[5]謝邦昌.Excel 2007數(shù)據(jù)挖掘完全手冊(cè)[M].北京:清華大學(xué)出版社,2008:11-13.
長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版)2012年4期