於三大,朱 浪,蘇 立,廖 勇
(1.中國(guó)三峽建工(集團(tuán))有限公司, 成都 610041;2.重慶大學(xué) 微電子與通信工程學(xué)院, 重慶 400044)
工程安全是工程施工過程中的首要問題,如何準(zhǔn)確評(píng)估工程施工安全成為了當(dāng)前工程項(xiàng)目管理的熱點(diǎn)和難點(diǎn)。然而,隨著施工技術(shù)的快速發(fā)展與施工環(huán)境的日益復(fù)雜,傳統(tǒng)的施工安全評(píng)價(jià)方法忽略了各指標(biāo)之間內(nèi)在的關(guān)聯(lián)性,不能同時(shí)做到對(duì)事故安全風(fēng)險(xiǎn)等級(jí)的劃分及可視化,這并不利于事故安全的成因分析。因此,如何對(duì)施工過程中發(fā)生的安全事故成因及潛在危險(xiǎn)進(jìn)行精準(zhǔn)分析是當(dāng)前亟需解決的關(guān)鍵問題之一[1]。
現(xiàn)有的研究并沒有考慮各施工安全指標(biāo)之間的內(nèi)在關(guān)聯(lián)性,導(dǎo)致對(duì)事故進(jìn)行安全分析時(shí)造成信息交疊,而主成分分析(principal component analysis,PCA)和因子分析(factor analysis,FC)是綜合分析各指標(biāo)間關(guān)聯(lián)度的常見方法。它們可以通過對(duì)數(shù)據(jù)內(nèi)在特征的分析,達(dá)到數(shù)據(jù)降維的作用。張弛等[2]使用PCA的方法,將可能存在相關(guān)性的變量轉(zhuǎn)變?yōu)榫€性無(wú)關(guān)的變量以達(dá)到降維的效果,但是利用原始變量進(jìn)行線性組合消除線性相關(guān)的方法不能明確解釋各原始變量的線性權(quán)重,對(duì)降維后的數(shù)據(jù)分析產(chǎn)生了困難,而FC是通過對(duì)原始變量的分解,提取各變量中的公共因子,從而達(dá)到降維的效果,并且使用因子旋轉(zhuǎn)使得降維后的變量易被解釋。
在眾多工程安全事故分析的研究中,聚類分析是常用的一種方法,可以對(duì)數(shù)據(jù)的未知特征進(jìn)行挖掘并歸為一類,提高對(duì)復(fù)雜數(shù)據(jù)的分簇解釋性。吳德平等[3]使用基于K-means均值的方法對(duì)施工安全事故進(jìn)行分析,但是K-means主要針對(duì)圓形或球形樣本,從文獻(xiàn)[3]的聚類結(jié)果可以看出,其施工安全事故的成因分布并不均衡,而韓旭等[4]驗(yàn)證了高斯混合模型(gaussian mixture model,GMM)對(duì)不平衡數(shù)據(jù)聚類的有效性。同時(shí),參與聚類的變量往往是多維的,這不利于聚類結(jié)果可視化分析,通過邊榮正等[5]對(duì)PCA和T分布隨機(jī)相鄰嵌入法(t-distributed stochastic neighbor embedding,T-SNE)的結(jié)合應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)由高維空間到低維空間的映射,不僅提升了算法準(zhǔn)確度,還通過T-SNE實(shí)現(xiàn)了多維聚類問題的可視化。
為進(jìn)一步提升對(duì)工程安全事故的分析及潛在風(fēng)險(xiǎn)做出準(zhǔn)確的預(yù)防措施,提出一種采用FC與變分貝葉斯高斯混合模型(variational bayesian gaussians mixture model,VBGMM)的T-SNE可視化施工事故安全分析方法,簡(jiǎn)稱FC-VBG-T方法。該方法主要包括3個(gè)步驟:① 使用FC方法,通過對(duì)原始指標(biāo)的分解,得到施工安全事故主要成因因子;② 通過VBGMM對(duì)主要成因因子進(jìn)行聚類結(jié)果分析,劃分不同的安全風(fēng)險(xiǎn)等級(jí),實(shí)現(xiàn)對(duì)數(shù)據(jù)內(nèi)在特征的聚合;③ 結(jié)合T-SNE降維方法,對(duì)聚類分析中的多變量進(jìn)行二維化,便于多變量聚類結(jié)果的可視化呈現(xiàn),解決了多維聚類難以可視化展示和分析結(jié)果的問題。以中國(guó)三峽建工的多項(xiàng)目集成工程項(xiàng)目管理平臺(tái)的安全指標(biāo)數(shù)據(jù)作為應(yīng)用對(duì)象,驗(yàn)證了所提方法的可行性和有效性。
施工安全評(píng)價(jià)模型由FC模型和變分貝葉斯高斯混合聚類模型組成,前者用于綜合關(guān)鍵安全指標(biāo),并作為后者的輸入用于安全等級(jí)聚類評(píng)估。
參考中國(guó)三峽建工的多項(xiàng)目集成管理系統(tǒng),得到安全管理部門的18個(gè)施工安全風(fēng)險(xiǎn)等級(jí)評(píng)價(jià)指標(biāo),如表1所示。
表1 施工安全風(fēng)險(xiǎn)等級(jí)評(píng)價(jià)指標(biāo)體系
FC方法通過分析存在于研究指標(biāo)相關(guān)矩陣內(nèi)部之間的關(guān)系,能夠?qū)⒋嬖谛畔⒔徊?、具有冗雜關(guān)系的眾多變量歸總成互不相關(guān)的幾個(gè)綜合因子。FC方法通過構(gòu)建新的可解釋的公因子,不僅保留了原有的大部分指標(biāo)信息,使原始指標(biāo)之間的相關(guān)性得以消除,還能夠通過各項(xiàng)指標(biāo)的權(quán)重對(duì)指標(biāo)的相對(duì)重要性進(jìn)行客觀反映[6]。
假設(shè)有k個(gè)評(píng)價(jià)指標(biāo),p個(gè)觀測(cè)單位,隨機(jī)向量表示為X=(X1,X2,…,Xk)T,主因子表示為F=(F1,F2,…,Fm)T,得到因子分析模型[7],表示為:
(1)
式中:系數(shù)apk是載荷因子,表示第p個(gè)觀測(cè)單位對(duì)第m個(gè)公因子的相對(duì)重要程度;εi是特殊因子,表示公共因子沒有包含的部分,其為Xi所特有的特殊因子。同時(shí),為了減少解釋的主觀性,可以將因子載荷進(jìn)行正交旋轉(zhuǎn),以使模型更為合理[8]。
采用FC方法,將1.1節(jié)中的18個(gè)施工安全風(fēng)險(xiǎn)等級(jí)評(píng)價(jià)指標(biāo)降維,提取得到的5個(gè)綜合安全因素為:施工者因素、管理者因素、施工對(duì)象因素、施工環(huán)境因素、安全檢驗(yàn)因素。
FC處理后的數(shù)據(jù)X=(X1,X2,…,Xp)T,假設(shè)這些評(píng)價(jià)指標(biāo)共有m類,對(duì)于其中的一個(gè)輸入X,其高斯混合模型[9]可以由下式表示:
(2)
(3)
式中:ci=1表示第i類被選中的概率,即p(ci=1)=ζi;ci=0則表示第i類未被選中。假設(shè)ci之間滿足獨(dú)立同分布,則可以寫出式(4)和式(5):
(4)
(5)
由式(4)和式(5)并結(jié)合條件概率公式可得:
(6)
根據(jù)平均場(chǎng)定理[10],可以將式(6)中的后驗(yàn)概率p(X|ci)由一個(gè)Q模型進(jìn)行表示,即:
p(X|ci)≈Q(ci,μj,νj)
(7)
(8)
式中:p表示樣本數(shù),o=(o1,…,om)表示ci對(duì)應(yīng)的變分參數(shù),m=(m1,…,mp)表示μj對(duì)應(yīng)的變分參數(shù),s=(s1,…,sp)表示νj對(duì)應(yīng)的變分參數(shù)。
根據(jù)貝葉斯變分推斷[11],p(X|ci)和Q(ci,μj,νj)的ELBO函數(shù)(Evidence Lower Bound)為:
(9)
將式(4)、式(5)和式(8)代入式(9)中可得更新后的ELBO函數(shù):
(10)
由式(9)和式(10)可得:
Q(ci;oi)=exp{logp(ci)+E[logp(xi|ci);m,s]}
(11)
計(jì)算式(11)中第二項(xiàng)的對(duì)數(shù)似然,其統(tǒng)計(jì)平均為:
(12)
由式(12)可得變分參數(shù)o的更新公式:
(13)
(14)
同理可得,變分參數(shù)m,s對(duì)應(yīng)的更新公式為:
(15)
(16)
通過迭代的方法對(duì)變分參數(shù)(o,m,s)進(jìn)行更新,直至這些參數(shù)收斂于一個(gè)穩(wěn)定值為止。方法1描述了FC-VBG-T方法偽代碼。
方法1:FC-VGB-T安全評(píng)價(jià)方法
輸入:安全評(píng)價(jià)指標(biāo)下的數(shù)據(jù)X
輸出:簇類別劃分c={c1,c2,…,cm}
過程:
1. 多個(gè)安全指標(biāo)變量換為因子輸出x=FC(X)
2. 隨機(jī)從x中選取m個(gè)數(shù)據(jù)xinit={x1′,x2′,…,xm′}作為初始簇的中心點(diǎn)
3. 對(duì)比數(shù)據(jù)xi與xinit={x1′,x2′,…,xp′}的距離,將距離最近的中心點(diǎn)劃分到第ζj類,j=1,2,…,m,ζj={x1″,x2″,…,xt″}
4. 令mj=μj,sj=νj,j=1,2,…,p;令oi=ζi,i=1,2,…,m
5. Δmi=∞,Δsi=∞,Δoi=∞
6.while
7.forj∈{1,…,p}
9.endfor
10.fori∈{1,…,m}
13.endfor
14.oi=o′i;mi=m′i;νi=ν′i
15. 計(jì)算ELB(o,m,s)
16.untilELB(o,m,s) 17.endwhile 18. fori=1,2,…,m 19. 根據(jù)式(3)計(jì)算每個(gè)xi的簇類別ζj 20.endfor 至此,完成了施工安全評(píng)價(jià)模型的構(gòu)建,得到了完整的安全模型建立和評(píng)價(jià)的整個(gè)流程,如圖1所示。 圖1 基于FC-VBG-T的施工安全評(píng)價(jià)處理流程 依托中國(guó)三峽建工的多項(xiàng)目集成項(xiàng)目管理平臺(tái),對(duì)質(zhì)量安全中的施工安全數(shù)據(jù)進(jìn)行分析。首先對(duì)施工安全指標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,包括數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)標(biāo)準(zhǔn)化操作。通過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,就得到了FC的標(biāo)準(zhǔn)輸入數(shù)據(jù),并把FC方法輸出的降維后的綜合評(píng)價(jià)因子作為變分貝葉斯模型的輸入,通過VBGMM進(jìn)行安全等級(jí)的聚類分析,并使用T-SNE對(duì)結(jié)果進(jìn)行降維可視化,得到最終的FC-VBG-T結(jié)果。 在進(jìn)行因子分析之前,需要對(duì)施工安全指標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理操作,以保證數(shù)據(jù)具備規(guī)范的格式以及提高結(jié)果的可解釋性。 2.1.1 數(shù)據(jù)準(zhǔn)備 盡量選取能對(duì)施工安全產(chǎn)生較大影響的數(shù)據(jù)特征作為因子分析的輸入變量,這不僅能夠提高因子分析輸出的有效性,也有利于后續(xù)的聚類分析。 1) 特征屬性的選取 參考中國(guó)三峽建工多項(xiàng)目集成管理平臺(tái)中已有的對(duì)施工安全事故的研究,確定能有效檢查出潛在施工安全事故的特征,通過這些特征來細(xì)分并建立對(duì)應(yīng)的指標(biāo)體系,能大大加強(qiáng)施工方管理者對(duì)施工過程中潛在風(fēng)險(xiǎn)的評(píng)估,避免重大安全事故的發(fā)生。如表2所示,將本文的因子分析輸出數(shù)據(jù)屬性分成五大類,分別為施工者因素、管理者因素、施工對(duì)象因素、施工環(huán)境因素和安全檢驗(yàn)因素。通過這些方面的指標(biāo)特征,能整體分析當(dāng)前施工條件所對(duì)應(yīng)的安全等級(jí),從而對(duì)潛在的安全事故提前做出措施。 表2 用戶分群評(píng)估因素 2) 數(shù)據(jù)采集 本文選用了來自質(zhì)量安全部的共136周的施工安全監(jiān)測(cè)數(shù)據(jù),通過上文選取的評(píng)估特征進(jìn)行提取,表3為其中的一些施工者因素?cái)?shù)據(jù)。 表3 施工者因素信息 管理者因素信息選取的部分?jǐn)?shù)據(jù)如表4所示,包括了安全投資率、安全抽檢密度等類別。 表4 管理者因素信息 表5為部分周次的施工對(duì)象因素?cái)?shù)據(jù),這些數(shù)據(jù)通過施工對(duì)象危險(xiǎn)度、危險(xiǎn)源種類及比例等指標(biāo),分析施工對(duì)象因素對(duì)施工安全等級(jí)的影響。 表5 施工對(duì)象因素信息 表6中的數(shù)據(jù)代表了部分施工環(huán)境因素的信息,這些數(shù)據(jù)通過施工環(huán)境穩(wěn)定性、地質(zhì)結(jié)構(gòu)特性等指標(biāo),分析施工環(huán)境因素對(duì)施工安全等級(jí)的影響。 表7為部分周次的安全檢驗(yàn)因素信息,通過對(duì)自然災(zāi)害處置不力事件次數(shù)、安全事故誤報(bào)次數(shù)等類別的分析,從安全檢驗(yàn)因素評(píng)判施工安全等級(jí)。 表7 安全檢驗(yàn)因素信息 2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)化 為保證因子分析和聚類分析時(shí)的數(shù)據(jù)規(guī)范統(tǒng)一并且完整,還需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 1) 空白數(shù)據(jù)處理 對(duì)于不同的周次數(shù)據(jù),其對(duì)應(yīng)的全部施工安全指標(biāo)并不是每一次都會(huì)有整體的更新,所以不同的指標(biāo)存在空缺信息,需要對(duì)這種情況進(jìn)行處理。本文采用向上取值的方法進(jìn)行數(shù)據(jù)填充。 2) 干擾數(shù)據(jù)處理 在選用的數(shù)據(jù)中還存在干擾數(shù)據(jù),若該數(shù)據(jù)的分布遠(yuǎn)超整體數(shù)據(jù)的分布范圍,則確定該數(shù)據(jù)為干擾數(shù)據(jù),需要進(jìn)行干擾處理。本文采用的干擾數(shù)據(jù)處理方法為箱線圖法,對(duì)于超過箱線圖上界以及低于箱線圖下界的數(shù)據(jù)視為干擾數(shù)據(jù),則刪除本條數(shù)據(jù)。 3) 指標(biāo)正向化處理 在選取的數(shù)據(jù)中有些數(shù)據(jù)是負(fù)向增益而有些數(shù)據(jù)是正向增益,如果不統(tǒng)一為一個(gè)方向,那么在對(duì)數(shù)據(jù)進(jìn)行因子分析時(shí),則會(huì)導(dǎo)致其結(jié)果不可解釋。本文通過各指標(biāo)正向化進(jìn)行處理,具體為:通過對(duì)反向增益數(shù)據(jù)取倒數(shù)來替代原本數(shù)據(jù)。 本小節(jié)將對(duì)FC-VBG-T方法進(jìn)行仿真分析,通過上述介紹的聚類評(píng)價(jià)指標(biāo)綜合分析評(píng)價(jià)算法的性能。 2.2.1 聚類結(jié)果 將FC方法提取得到的五大安全因素作為輸入,然后改進(jìn)高斯混合模型聚類方法對(duì)數(shù)據(jù)進(jìn)行聚類分析,得到如圖2所示的可視化聚類結(jié)果,將數(shù)據(jù)集共聚為3類。 圖2 基于變分貝葉斯GMM施工安全聚類結(jié)果 同時(shí),經(jīng)過輪廓系數(shù)檢驗(yàn),其結(jié)果如圖3所示,當(dāng)聚類簇?cái)?shù)為3時(shí),所得的輪廓系數(shù)值最優(yōu)為0.572,輪廓系數(shù)位于[-1,1],其值越靠近1,說明簇內(nèi)越緊湊,即該值越大越好。 圖3 輪廓系數(shù)檢驗(yàn)曲線 2.2.2 結(jié)果分析 如圖2所示,總共得到了三類聚類結(jié)果。采用的聚類算法屬于機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí),因此需要管理人員結(jié)合實(shí)際情況對(duì)聚類結(jié)果進(jìn)行類型標(biāo)注。由管理人員將其類型分別標(biāo)注為“安全”“基本安全”“可能存在安全隱患”,其樣本個(gè)數(shù)分別為:50、53、33。表8是圖2所得到的3類安全等級(jí)下的5個(gè)因素指標(biāo)樣本的均值。通過分析聚類結(jié)果有助于三峽建工公司進(jìn)行更為高效、科學(xué)、精準(zhǔn)地安全管理。 表8 聚類結(jié)果均值 安全:該安全等級(jí)在施工安全監(jiān)測(cè)總樣本中占有相當(dāng)大的比例,具體為36.76%。該樣本群體各項(xiàng)安全監(jiān)測(cè)因素指標(biāo)都較為優(yōu)良,其各項(xiàng)因素指標(biāo)的聚類結(jié)果都在0.95附近。故施工者的專業(yè)素養(yǎng)、管理者良好的管理能力、施工對(duì)象的安全性、施工環(huán)境的安全性、安全檢驗(yàn)的及時(shí)性等因素都能夠?yàn)槭┕ぐ踩峁┯辛ΡU稀?/p> 基本安全:該安全等級(jí)在施工安全監(jiān)測(cè)總樣本中占有的比例較小,具體為38.97%。該樣本群體除了施工對(duì)象因素和施工環(huán)境因素,其他各項(xiàng)指標(biāo)與安全等級(jí)情況下相差不大??梢酝茢?施工對(duì)象和施工環(huán)境因素對(duì)最終聚類結(jié)果有較大影響。 可能存在安全隱患:該安全等級(jí)在施工安全檢測(cè)總樣本中占有較少比例,具體為24.26%。該樣本的施工對(duì)象因素和施工環(huán)境因素指標(biāo)均很低。 聚類結(jié)果表明,施工安全管控效果優(yōu)良,但是仍然需要對(duì)部分施工對(duì)象和施工環(huán)境重點(diǎn)關(guān)注并采取相關(guān)措施,杜絕潛在安全事故的發(fā)生??梢詫?duì)危險(xiǎn)程度較高的施工對(duì)象采取更為安全的施工措施,例如提高防護(hù)用品等級(jí)、配置安全級(jí)別更高的施工工具等;可以進(jìn)一步提高施工環(huán)境穩(wěn)定性,例如加大施工環(huán)境監(jiān)測(cè)頻次和優(yōu)化施工環(huán)境布局等。 2.2.3 聚類質(zhì)量評(píng)價(jià) 基于安全施工監(jiān)測(cè)數(shù)據(jù)對(duì)FC-VBG-T方法、層次分析方法[12]、K-means方法[13]、GMM[9]的仿真結(jié)果進(jìn)行聚類質(zhì)量評(píng)價(jià)對(duì)比。聚類有效性評(píng)價(jià)指標(biāo)從內(nèi)部、外部及整體3個(gè)角度進(jìn)行選取,采用緊湊度(compactness index,CI)[9]作為內(nèi)部評(píng)價(jià)指標(biāo)反映簇內(nèi)數(shù)據(jù)集的緊湊程度;選取福爾克斯-馬洛斯(fowlkes-mallows,FM)[14]、 調(diào)整-蘭德(adjusted-rand,AR)[9]作為外部評(píng)價(jià)指標(biāo)反映聚類劃分后的簇與標(biāo)準(zhǔn)簇之間的接近程度,以及評(píng)估結(jié)果在去除隨機(jī)標(biāo)簽后所受的影響;選取分離度(degree of separation,DS)[14]作為整體評(píng)價(jià)指標(biāo)反映聚類后各個(gè)簇之間的分離程度。為使結(jié)果更具一般性,將數(shù)據(jù)集進(jìn)行200次重復(fù)實(shí)驗(yàn)后取平均值,得到如表9所示的評(píng)價(jià)結(jié)果。 表9 聚類質(zhì)量測(cè)試結(jié)果 從表9可以看出,在安全監(jiān)測(cè)樣本數(shù)為136的情況下,所提出的改進(jìn)高斯混合模型聚類方法的AR指標(biāo)與1非常接近,為0.97,表示聚類結(jié)果很好;FM指標(biāo)與1非常接近,為0.96,代表聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果非常接近。因此,本文所提改進(jìn)高斯混合模型聚類方法具有很好的聚類性能。對(duì)比幾種方法的DS指標(biāo)、CI指標(biāo),所提方法的聚類結(jié)果的簇具有更好的分離效果、更好的緊湊程度。雖然所提方法需要更長(zhǎng)的運(yùn)行時(shí)間,但考慮到其具有優(yōu)異的聚類評(píng)價(jià)指標(biāo),在對(duì)安全施工監(jiān)測(cè)數(shù)據(jù)進(jìn)行安全等級(jí)評(píng)價(jià)時(shí),FC-VBG-T方法相較于層次聚類法、K-means方法和GMM方法具有更好的聚類性能。 針對(duì)工程施工安全分析問題,提出了一種采用FC與變分貝葉斯推斷的GMM可視化T-SNE分析方法,簡(jiǎn)稱FC-VBG-T方法。對(duì)影響施工安全的指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行因子分析,得到五類施工變量,并作為變分貝葉斯推斷的GMM方法的數(shù)據(jù)輸入;采用基于變分貝葉斯推斷的GMM聚類方法進(jìn)行求解,進(jìn)一步提取施工安全數(shù)據(jù)中的抽象特征以及施工安全等級(jí)的劃分;通過T-SNE方法將多維聚類變量降為二維變量進(jìn)行聚類可視化。通過對(duì)給定的不同周次的施工安全數(shù)據(jù)進(jìn)行仿真驗(yàn)證,根據(jù)聚類評(píng)價(jià)指標(biāo)進(jìn)行比較,結(jié)果表明,所提FC-VBG-T方法與層次聚類、K-means以及GMM等聚類方法相比有更佳的聚類性能,同時(shí)基于因子分析復(fù)雜的施工安全評(píng)價(jià)指標(biāo)以及對(duì)多維聚類結(jié)果的可視化展示,增強(qiáng)了多維聚類結(jié)果的可解釋性,驗(yàn)證了所提方法的可行性和有效性。 由于本文的數(shù)據(jù)集較小,并不能很好地體現(xiàn)泛化能力,因此在未來的研究中,將使用更廣泛和更復(fù)雜的數(shù)據(jù)集對(duì)本文方法進(jìn)行驗(yàn)證,除此之外,還可以將本文方法應(yīng)用于施工安全數(shù)據(jù)分析的其他領(lǐng)域。2 應(yīng)用案例分析
2.1 數(shù)據(jù)處理
2.2 結(jié)果評(píng)價(jià)
3 結(jié)論