喬金麗,徐源浩,劉建琴,胡建幫
(1.河北工業(yè)大學(xué)土木與交通學(xué)院,天津 300401; 2. 天津大學(xué)機(jī)械工程學(xué)院,天津 300072)
掘進(jìn)機(jī)在服役過程中對(duì)巖體條件敏感,巖體信息不明確將直接影響智能掘進(jìn)決策,造成操作參數(shù)不合理、預(yù)警不及時(shí)等問題,因此,必須保證掘進(jìn)過程中的安全與效率[1-2]。為了研究掘進(jìn)機(jī)掘進(jìn)過程中各因素之間的相互作用影響,近年來,越來越多的人工智能技術(shù)手段開始應(yīng)用于巖土工程領(lǐng)域。Boubou等[3]利用神經(jīng)網(wǎng)絡(luò)對(duì)地表沉降進(jìn)行預(yù)測(cè);朱北斗等[4]利用BP神經(jīng)網(wǎng)絡(luò)對(duì)掘進(jìn)參數(shù)進(jìn)行訓(xùn)練,建立了地層識(shí)別模型; Liu等[5]同樣利用神經(jīng)網(wǎng)絡(luò)建立了巖體特征預(yù)測(cè)模型; 田睿等[6]利用改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)對(duì)巖爆烈度等級(jí)進(jìn)行預(yù)測(cè); 張?zhí)烊鸬萚7]通過數(shù)據(jù)挖掘技術(shù)對(duì)掘進(jìn)機(jī)運(yùn)行中出現(xiàn)的故障加以診斷,提高了診斷速度; Khamesi等[8]將最近鄰聚類與梯度下降、粒子群(PSO)、帝國(guó)主義競(jìng)爭(zhēng)(ICA)3種算法結(jié)合模糊系統(tǒng)反智能推測(cè)土層類別; Zhou 等[9]建立粒子群算法與支持向量機(jī)的混合模型,對(duì)TBM掘進(jìn)能耗進(jìn)行預(yù)測(cè),用于幫助確定TBM的性能和效率;Yagiz等[10-12]利用粒子群、灰狼算法等基于隧洞地質(zhì)條件來預(yù)測(cè)TBM的掘進(jìn)速度; Masoud等[13]則用基因規(guī)劃表達(dá)在Yagiz的基礎(chǔ)上進(jìn)一步做出了TBM掘進(jìn)速度的擬合公式。
以上工作大都是揭示定量關(guān)系,且由于神經(jīng)網(wǎng)絡(luò)等是黑箱操作,未能清楚地表達(dá)各項(xiàng)因素之間的因果關(guān)系。在數(shù)據(jù)挖掘方面,關(guān)聯(lián)規(guī)則可以實(shí)現(xiàn)直觀定性描述,已經(jīng)成功地應(yīng)用于揭示各種領(lǐng)域中的因果關(guān)系[14-15]。本文基于數(shù)據(jù)挖掘理念,對(duì)數(shù)據(jù)進(jìn)行K-means聚類分析與預(yù)處理,應(yīng)用關(guān)聯(lián)算法,建立數(shù)據(jù)挖掘模型,得到多條關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則可直觀顯示各因素在不同類別下的相互影響作用,建立明確的因果導(dǎo)向。為掘進(jìn)機(jī)提供先導(dǎo)判據(jù),與決策樹預(yù)測(cè)結(jié)果進(jìn)行比對(duì),綜合現(xiàn)場(chǎng)巖體參數(shù)結(jié)果等多源信息,進(jìn)行巖機(jī)的交互式耦合預(yù)測(cè),以期實(shí)現(xiàn)在靜態(tài)預(yù)測(cè)基礎(chǔ)上的掘進(jìn)過程動(dòng)態(tài)分析。
關(guān)聯(lián)規(guī)則分析是為了從數(shù)據(jù)集中找出各項(xiàng)之間的關(guān)聯(lián)關(guān)系。Apriori算法[16]是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心思想是通過連接產(chǎn)生候選項(xiàng)與其支持度,然后通過剪枝生成頻繁項(xiàng)集。
頻繁項(xiàng)集是指支持度大于或等于給定的最小支持度閾值的事項(xiàng)集。關(guān)聯(lián)規(guī)則參數(shù)之間的關(guān)聯(lián)度可以用支持度和置信度2個(gè)指標(biāo)來表示,同時(shí)使用提升度作為鑒定強(qiáng)關(guān)聯(lián)規(guī)則是否有效的標(biāo)準(zhǔn)。支持度、置信度與提升度的表達(dá)式分別如式(1)、式(2)、式(3)所示。
Support(A→B)=P(A∪B)=count(A∪B)/D。
(1)
Confidence(A→B)=P(B│A)。
(2)
Lift(A→B)=P(B│A)/P(B)=
Confidence(A→B)/P(B)。
(3)
式(1)—(3)中:D為數(shù)據(jù)集;A、B為事項(xiàng)集。
在建立關(guān)聯(lián)模型前需要設(shè)定好最小支持度和置信度,只有支持度和置信度不小于最小值,且提升度大于1的結(jié)果才被選為推薦的強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則模型的建立流程如下:
1)對(duì)于給定的最小支持度閾值,遍歷數(shù)據(jù)集D,剔除小于該閾值的項(xiàng)集,得到1項(xiàng)頻繁項(xiàng)集L1。
2)由頻繁項(xiàng)集L1自身連接產(chǎn)生2項(xiàng)候選集D1;同樣對(duì)比閾值,保留滿足條件的2項(xiàng)頻繁項(xiàng)集L2。
3)由頻繁項(xiàng)集L2自身連接產(chǎn)生3項(xiàng)候選集D2;同樣對(duì)比閾值,保留滿足條件的3項(xiàng)頻繁項(xiàng)集L3。
4)循環(huán)2)、3)步,每一步增加1項(xiàng),直到得到最大頻繁項(xiàng)集Lk。
以某一商場(chǎng)的簡(jiǎn)單交易清單為例(如表1所示),假定只存在4種商品,分別為商品0、1、2、3。所探索的是商品組合被一起購買的概率,其組合類型如圖1所示。
表1 某商場(chǎng)的簡(jiǎn)單交易清單
圖1 商品的組合類型
圖1顯示了商品之間所有可能的組合,從上往下第1個(gè)集合是?,表示不包含任何物品的空集,商品集合之間的連線表明2個(gè)或者更多集合可以組合形成1個(gè)更大的集合。
使用集合的支持度來度量其出現(xiàn)的頻率。設(shè)定最小支持度為60%,商品0、1、2、3的支持度分別為4/5、4/5、4/5、2/5,則商品3明顯不符合,因此1項(xiàng)頻繁集為商品0、1、2。
如果1個(gè)項(xiàng)集是非頻繁的,那么它的所有超集也是非頻繁的。因此,所有含有商品3的超集都是不頻繁的,只余下{0,1}、{0,2}、{1,2}、{0,1,2},其支持度分別為3/5、3/5、3/5、2/5,因此{(lán)0,1,2}為非頻繁項(xiàng),只存在2項(xiàng)頻繁集。
置信度計(jì)算: 對(duì)于2項(xiàng)頻繁集,設(shè)定最小置信度為70%,有關(guān)聯(lián)規(guī)則{0}→{1}、{0}→{2}、{1}→{2},其置信度分別為3/4、3/4、3/4,都滿足最小置信度要求,對(duì)于關(guān)聯(lián)規(guī)則{0}→{1}可以說購買商品0的人有很大可能購買商品1,其他關(guān)聯(lián)規(guī)則同樣如此。
研究中,關(guān)聯(lián)模型所采用的數(shù)據(jù)來自于一個(gè)硬巖隧道開挖項(xiàng)目(皇后區(qū)3號(hào)輸水隧道,第2階段)編制的數(shù)據(jù)庫[10]。此數(shù)據(jù)庫包括巖石單軸抗壓強(qiáng)度(UCS)、巴西抗拉強(qiáng)度(BTS)、用于量化巖石脆韌性的峰斜指數(shù)(PSI)、巖體連續(xù)性方向的α角、薄弱面間距(DPW)、掘進(jìn)速度(ROP)、巖石破碎等級(jí)及巖石類型,共計(jì)153例。其中,峰斜指數(shù)是施加在試樣上的最大載荷(kN)與相應(yīng)位移(mm)的比值。巖石共有5種類型,編號(hào)設(shè)置為1—5,分別是: 花崗質(zhì)(長(zhǎng)英質(zhì))片麻巖和正片麻巖,占比29.4%; 正片麻巖,占比20.3%; 片麻巖、角閃巖和片巖,占比39.8%; 塊狀石榴石角閃巖和較大的巖墻,占比9.1%; 流紋英安巖脈巖,占比1.3%。巖石破碎等級(jí)與薄弱面間距除極少數(shù)環(huán)有不同外基本相同,將破碎等級(jí)與薄弱面間距合并為1項(xiàng),共分為3種不同類型,間距小于0.4 m為一類,大于1.6 m 為一類,0.4~16 m為一類。
數(shù)據(jù)庫中UCS、BTS、PSI與α參數(shù)曲線、掘進(jìn)速度曲線分別如圖2和圖3所示,可以看到巴西抗拉強(qiáng)度與峰斜指數(shù)的變化較為平緩,另外3個(gè)參數(shù)的變化則非常明顯。所有數(shù)據(jù)是在整條隧道的不同環(huán)隨機(jī)選取的,保證了數(shù)據(jù)的隨機(jī)性與代表性。表2示出各個(gè)參數(shù)的最大值、最小值、平均值、標(biāo)準(zhǔn)差與偏差值。標(biāo)準(zhǔn)差越小,說明數(shù)據(jù)值與平均值的偏差就越?。黄钪悼梢杂脴?biāo)準(zhǔn)差/平均值的比值來表示,抗拉強(qiáng)度的偏差值最小,說明BTS的變化最小。
圖2 數(shù)據(jù)庫中UCS、BTS、PSI與α參數(shù)曲線圖
圖3 掘進(jìn)速度曲線圖
表2 各項(xiàng)參數(shù)統(tǒng)計(jì)
使用K-means聚類方法對(duì)數(shù)據(jù)庫中的各項(xiàng)參數(shù)進(jìn)行聚類分析,指定數(shù)據(jù)劃分為3類,隨機(jī)選取樣本集中3個(gè)對(duì)象作為初始聚集中心,針對(duì)所有對(duì)象,計(jì)算其與3個(gè)聚集中心點(diǎn)的距離,然后將該對(duì)象歸為距離最小的聚集中心代表的簇。1次計(jì)算歸類結(jié)束之后,針對(duì)每個(gè)簇類,重新計(jì)算聚集中心,然后針對(duì)剩余對(duì)象,重新尋找距離最近的聚集中心。如此循環(huán),直到前后2次迭代的簇類沒有變化。
各項(xiàng)參數(shù)的聚集結(jié)果見表3,按照高、中、低對(duì)聚類結(jié)果用0、1、2進(jìn)行標(biāo)注。由表3可知,高抗壓強(qiáng)度為170.3~199.7 MPa,中抗壓強(qiáng)度為144.8~169 MPa,低抗壓強(qiáng)度為118.3~143.4 MPa,超過一半的巖體屬于低抗壓類; 高抗拉強(qiáng)度為9.8~11.4 MPa,中抗拉強(qiáng)度為8.6~9.6 MPa,低抗拉強(qiáng)度為6.7~8.4 MPa,接近一半的巖體為高抗拉強(qiáng)度; 高峰斜指數(shù)為52~58 kN/mm,中峰斜指數(shù)為35~46 kN/mm,低峰斜指數(shù)為25~34 kN/mm,64.1%的巖體屬于低峰斜指數(shù);α高角度為57°~89°,中角度為31°~56°,低角度為2°~30°,α的分布較為平均,各聚類結(jié)果基本接近1/3。掘進(jìn)機(jī)的掘進(jìn)速度則呈現(xiàn)中間大的分布,高掘進(jìn)速度為2.39~3.07 m/h,中掘進(jìn)速度為1.93~2.37 m/h,低掘進(jìn)速度為1.27~1.91 m/h。
表3 各項(xiàng)參數(shù)的聚類結(jié)果
在本模型中,設(shè)置最小支持度為5%,最小置信度為80%,由于當(dāng)全部數(shù)據(jù)用于分析時(shí),前置條件和后置結(jié)果存在相互支持的現(xiàn)象,所以指定掘進(jìn)機(jī)的掘進(jìn)速度這一參數(shù)作為后置結(jié)果,對(duì)數(shù)據(jù)庫選取的7個(gè)參數(shù)進(jìn)行數(shù)據(jù)挖掘,共生成符合預(yù)先設(shè)定閾值條件的有效關(guān)聯(lián)規(guī)則20條,如表4所示。
表4 掘進(jìn)機(jī)掘進(jìn)關(guān)聯(lián)規(guī)則結(jié)果
表4中的每一條關(guān)聯(lián)規(guī)則都代表著一條因果關(guān)系。例如,關(guān)聯(lián)規(guī)則1揭示了抗拉強(qiáng)度(MPa)在[8.6,9.6]、α(°)在[57,89]、巖石類型為正片麻巖時(shí),掘進(jìn)速度(m/h)位于低速掘進(jìn)區(qū)[1.27,1.91]的置信度為100%。換言之,基于強(qiáng)相關(guān)特性,所有4個(gè)參數(shù)值會(huì)同時(shí)出現(xiàn)。
基于關(guān)聯(lián)規(guī)則整理出的20條規(guī)則,可以看到,有6條規(guī)則置信度為100%,4條規(guī)則不低于90%,剩余規(guī)則置信度則全部低于90%;而在掘進(jìn)速度方面,所得出的結(jié)果要么是處于低掘進(jìn)區(qū)間,要么處于中掘進(jìn)區(qū)間,沒有高掘進(jìn)區(qū)間。導(dǎo)致這一結(jié)果可能的原因,一方面在于采用的數(shù)據(jù)集中高區(qū)間本身所占比例就遠(yuǎn)遠(yuǎn)小于中低區(qū)間,沒有足夠的樣本數(shù)量;另一方面高區(qū)間掘進(jìn)速度實(shí)際出現(xiàn)的情況偏少。
從規(guī)則1與規(guī)則3中可以看到,在增加了一項(xiàng)因素之后,其他條件不變的情況下,所得到的結(jié)果并沒有發(fā)生變化;但這不能說明UCS的影響是可以忽略不計(jì)的,如規(guī)則10與規(guī)則11所示,存在UCS條件的規(guī)則,比存在BTS條件的規(guī)則置信度高。
從規(guī)則4、8、10、14及16、17、18可以近似得到低抗壓強(qiáng)度與低的α角對(duì)于低掘進(jìn)速度是非常必要的,這與通常認(rèn)為的低抗壓強(qiáng)度會(huì)使得破巖速度加快有所出入。但在破巖速度與掘進(jìn)速度之外,還要考慮貫入度等其他因素,如α角較小,在掘進(jìn)時(shí)巖體與掘進(jìn)機(jī)偏向正對(duì),從而導(dǎo)致掘進(jìn)速度較低。這一推斷與其他規(guī)則中高等程度的α角得到的是中等掘進(jìn)速度相比較后可以進(jìn)一步推論,α角在中等掘進(jìn)區(qū)間可能有助于掘進(jìn)速度的提高。
在巖石類型方面,出現(xiàn)的是第2種和第3種巖體,即正片麻巖與片麻巖、角閃巖和片巖,但考慮到出現(xiàn)巖體類型的規(guī)則僅有6條,說明巖體類型對(duì)掘進(jìn)速度的影響偏小,是次要因素;縱觀整個(gè)規(guī)則表,薄弱面間距大都表現(xiàn)為低間距區(qū)間,其與掘進(jìn)速度呈現(xiàn)出正相關(guān)。
隨著隧道掘進(jìn)進(jìn)度的不斷推進(jìn),關(guān)聯(lián)規(guī)則模型逐步建立,一方面在前期地質(zhì)勘察的基礎(chǔ)上,根據(jù)測(cè)點(diǎn)地質(zhì)條件及應(yīng)用模型給出的關(guān)聯(lián)規(guī)則,推斷掘進(jìn)參數(shù)的選取范圍; 另一方面通過正向地質(zhì)勘探或超前地質(zhì)預(yù)測(cè)對(duì)掌子面地質(zhì)進(jìn)行推定,然后對(duì)各項(xiàng)地質(zhì)參數(shù)分類后由關(guān)聯(lián)規(guī)則導(dǎo)出掘進(jìn)參數(shù)范圍。即先獲取地質(zhì)參數(shù),再由當(dāng)前模型參數(shù)聚類結(jié)果明確范圍,最后根據(jù)符合的關(guān)聯(lián)規(guī)則推斷合適的掘進(jìn)參數(shù)范圍。隨著掘進(jìn)過程不斷獲取新數(shù)據(jù),更新關(guān)聯(lián)規(guī)則模型,使其更加完善。
決策樹模擬人通過條件判斷將集合進(jìn)行分割的過程,通常有3個(gè)步驟: 特征選擇、決策樹的生成、決策樹的修剪。1顆決策樹包含1個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部節(jié)點(diǎn)及若干個(gè)葉子節(jié)點(diǎn)。根節(jié)點(diǎn)與內(nèi)部節(jié)點(diǎn)的劃分條件取決于當(dāng)前數(shù)據(jù)集的最優(yōu)劃分屬性,即通過該屬性使劃分出去的下一級(jí)節(jié)點(diǎn)的數(shù)據(jù)集盡可能純凈;葉子節(jié)點(diǎn)是決策樹最終的決策結(jié)果,全部葉子節(jié)點(diǎn)數(shù)據(jù)集的合集是樣本全集;整個(gè)決策樹就是多條由根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的判定測(cè)試序列組成。
決策樹的直觀表示見圖4,A對(duì)應(yīng)為根節(jié)點(diǎn),包含了樣本全集;B對(duì)應(yīng)為內(nèi)部節(jié)點(diǎn);C、D、E為葉子節(jié)點(diǎn);T表示符合當(dāng)前劃分條件,F(xiàn)表示不符合。
圖4 決策樹示意圖
通過每一次決策的判定,在圖4中包含的決策規(guī)則有3條: 決策1,A→B→D; 決策2, A→B→E; 決策3,A→C。
在決策樹模型中,選取全數(shù)據(jù)集的80%作為訓(xùn)練集,20%為測(cè)試集。為充分發(fā)揮決策樹本身對(duì)于最優(yōu)特征選擇的能力,只將掘進(jìn)效率進(jìn)行分類,其余參數(shù)保持原有數(shù)據(jù)。決策樹運(yùn)行結(jié)果見表5。
表5 決策樹結(jié)果
決策樹模型的決策鏈中特征可能出現(xiàn)不止一次,但從葉子節(jié)點(diǎn)進(jìn)行倒推時(shí),每個(gè)特征的區(qū)分區(qū)間必包含于上級(jí)節(jié)點(diǎn)中。以某一決策鏈為例,最后葉子節(jié)點(diǎn)全部數(shù)據(jù)集為24組低區(qū)間,整個(gè)決策鏈中α角出現(xiàn)過2次,DPW出現(xiàn)3次,由高至低α角分別為高于14°、高于57°,DPW分別為高于0.4 m、高于0.8 m、高于1.6 m。
為確定決策樹預(yù)測(cè)模型的可靠性,使用測(cè)試集進(jìn)行驗(yàn)證,但其在測(cè)試集中只有58.97%的正確率。決策結(jié)果分散大,說明其決策鏈對(duì)于樣本量要求比較高;數(shù)據(jù)量少時(shí),模型容易受到個(gè)別數(shù)據(jù)的影響發(fā)生波動(dòng),這是準(zhǔn)確率低的主要原因之一。相較之下,關(guān)聯(lián)規(guī)則是基于全體數(shù)據(jù)庫建立的,每條規(guī)則在建立時(shí)首先進(jìn)行了置信度評(píng)價(jià),其得出的規(guī)則結(jié)論直觀清晰,具有較高的可信度。當(dāng)前研究著力于單一隧道的模型預(yù)測(cè)。在隧道開挖初期,數(shù)據(jù)采集器獲得的數(shù)據(jù)量偏少,關(guān)聯(lián)規(guī)則模型對(duì)數(shù)據(jù)的充分利用使其能在開挖初期仍能得到有效結(jié)論,對(duì)智能掘進(jìn)具有一定的參考價(jià)值。
在隧道開挖初期,關(guān)聯(lián)規(guī)則模型在一定巖體條件的地層進(jìn)行隧道掘進(jìn)時(shí),可以預(yù)估掘進(jìn)參數(shù)的大致范圍,或者根據(jù)正常隧道掘進(jìn)時(shí)的相關(guān)隧道參數(shù),實(shí)現(xiàn)對(duì)其他地質(zhì)特征的初步推測(cè),有助于保證隧道施工的安全與效率。
采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘手段,對(duì)巖體地質(zhì)關(guān)鍵參數(shù)與掘進(jìn)機(jī)工作參數(shù)之間的因果關(guān)系進(jìn)行分析,有效地揭示地質(zhì)參數(shù)與掘進(jìn)參數(shù)之間的耦合關(guān)系,達(dá)到優(yōu)化控制參數(shù)、指導(dǎo)掘進(jìn)的目的。主要結(jié)論如下:
1)K-means聚類算法的應(yīng)用將原始數(shù)據(jù)按照其臨近程度分為高、中、低3組,并編號(hào)處理;分類編碼后,確定了地質(zhì)參數(shù)中的抗壓強(qiáng)度、抗拉強(qiáng)度、峰斜指數(shù)、薄弱面間距、掘進(jìn)速度、巖石連續(xù)性方向的α角、巖石類型等7個(gè)主要因素,為建立關(guān)聯(lián)規(guī)則提供了支撐。
2)關(guān)聯(lián)規(guī)則結(jié)果顯示,巖體的抗拉強(qiáng)度、抗壓強(qiáng)度及巖石連續(xù)性方向的α角是影響隧道掘進(jìn)的重要因素,薄弱面間距的大小雖然也有一定影響,但在20條規(guī)則中出現(xiàn)次數(shù)明顯少于其他因素。
3)在隧道開挖前,通過地質(zhì)勘測(cè)初步確定了巖石的單軸抗壓強(qiáng)度、巴西抗拉強(qiáng)度、峰斜指數(shù)、巖石連續(xù)性方向的α角、薄弱面間距等地質(zhì)參數(shù),結(jié)合本文所述關(guān)聯(lián)規(guī)則可以得到相應(yīng)的掘進(jìn)參數(shù)范圍,為智能掘進(jìn)的實(shí)現(xiàn)提供理論參考依據(jù)。
4)多維關(guān)聯(lián)規(guī)則挖掘方法分析多個(gè)參數(shù)之間的相關(guān)性,在原始數(shù)據(jù)集的基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則挖掘,對(duì)于多因素影響的相關(guān)性分析有著廣泛的適用性;較之決策樹結(jié)論更直觀清晰,適用于開挖初期數(shù)據(jù)量較少時(shí)的模型建立;在實(shí)際的工程中,有助于隧道掘進(jìn)中各參數(shù)的協(xié)調(diào)一致。
因此,針對(duì)掘進(jìn)機(jī)和巖體參數(shù)復(fù)雜的隧道施工數(shù)據(jù)收集,引入數(shù)據(jù)挖掘是一種簡(jiǎn)單而較為成功的嘗試,但規(guī)則簡(jiǎn)單粗放,各個(gè)簇的范圍較大,最終結(jié)果限定在一定范圍內(nèi),沒有明確的參數(shù)值,參考意義大于決定意義;隨著參數(shù)種類的豐富,隧道數(shù)據(jù)的積累,能夠建立越來越完善的關(guān)聯(lián)模型。而使用更多的數(shù)據(jù)挖掘手段,特別是建立多參數(shù)間的明確的模型,可以為隧道的智能化施工奠定基礎(chǔ)。