李 智 黃如福 黃 鶴
(1.中國(guó)建筑科學(xué)研究院建筑工程軟件研究所,北京 100013;2.西安建筑科技大學(xué)信控學(xué)院,西安 710055)
基于數(shù)據(jù)挖掘的施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)
李 智1黃如福1黃 鶴2
(1.中國(guó)建筑科學(xué)研究院建筑工程軟件研究所,北京 100013;2.西安建筑科技大學(xué)信控學(xué)院,西安 710055)
質(zhì)量管理是建設(shè)工程管理工作的重中之重,如何借助計(jì)算機(jī)工具協(xié)助建設(shè)工程質(zhì)量監(jiān)督檢測(cè)單位,快捷、準(zhǔn)確地完成質(zhì)量管理工作是建設(shè)工程質(zhì)量監(jiān)督檢測(cè)部門信息化的熱點(diǎn)。本文通過(guò)對(duì)影響工程質(zhì)量?jī)?nèi)外因素的分析,結(jié)合數(shù)據(jù)挖掘的理論,提出了將數(shù)據(jù)挖掘技術(shù)引入施工質(zhì)量管理系統(tǒng)的思路,并在此基礎(chǔ)上構(gòu)造了施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的模型。最后,結(jié)合Weka軟件的特點(diǎn)和優(yōu)勢(shì),本文分析了將Weka軟件與系統(tǒng)集成的可行性,并對(duì)Weka軟件的預(yù)測(cè)效果進(jìn)行了展示。
建設(shè)工程;質(zhì)量管理;信息化;數(shù)據(jù)挖掘;風(fēng)險(xiǎn)預(yù)測(cè);Weka
隨著行業(yè)范圍內(nèi)施工企業(yè)信息化的全面推行和計(jì)算機(jī)信息技術(shù)的發(fā)展,施工企業(yè)逐步建立起了集團(tuán)級(jí)或企業(yè)級(jí)的數(shù)據(jù)庫(kù),積累了一定數(shù)量的施工數(shù)據(jù)。一些走在信息化前沿的企業(yè),逐漸不滿足于僅僅實(shí)現(xiàn)數(shù)據(jù)的儲(chǔ)存和查詢功能,越來(lái)越希望對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析和挖掘,進(jìn)而產(chǎn)生對(duì)工程質(zhì)量管理部門的決策分析提供輔助支持。
質(zhì)量是人類文明進(jìn)步的標(biāo)志,隨著全行業(yè)范圍內(nèi)對(duì)施工質(zhì)量的日益關(guān)注,施工質(zhì)量管理逐漸成為衡量一個(gè)施工企業(yè)管理水平的重要因素。傳統(tǒng)的企業(yè)級(jí)質(zhì)量管理模式僅僅停留在企業(yè)定期質(zhì)量檢查的方式,對(duì)于檢查中發(fā)現(xiàn)的問(wèn)題,也僅能做到發(fā)現(xiàn)一處,整改一處,沒(méi)有連續(xù)性和針對(duì)性,造成質(zhì)量檢查過(guò)程中的重復(fù)勞動(dòng)和效率低下。
為了克服施工過(guò)程中質(zhì)量管理后知后覺(jué)的弊端,早在上個(gè)世紀(jì)90年代,歐美的一些學(xué)者就提出了利用建立模型對(duì)施工風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)的理論。但由于施工情況復(fù)雜多變,給實(shí)際建模帶來(lái)了很多的困難,也使預(yù)測(cè)模型的推廣面臨很大的障礙[1]。直到近幾年數(shù)據(jù)挖掘的技術(shù)越來(lái)越成熟,利用數(shù)據(jù)挖掘工具建立的預(yù)測(cè)模型才重新走回人們的視野,成為研究的新熱點(diǎn)。
本文通過(guò)對(duì)施工企業(yè)業(yè)已積累的建設(shè)工程項(xiàng)目數(shù)據(jù)進(jìn)行分析,并使用數(shù)據(jù)挖掘的方法找尋與質(zhì)量檢查結(jié)果相關(guān)的信息,在此基礎(chǔ)之上建立質(zhì)量檢查結(jié)果的預(yù)測(cè)模型,用以實(shí)現(xiàn)對(duì)質(zhì)量風(fēng)險(xiǎn)的預(yù)測(cè),建立施工企業(yè)的質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)。利用此系統(tǒng),工程質(zhì)量監(jiān)督檢測(cè)人員可以在立項(xiàng)之初,根據(jù)建設(shè)工程項(xiàng)目已知信息預(yù)測(cè)項(xiàng)目施工質(zhì)量檢查結(jié)果,對(duì)預(yù)期風(fēng)險(xiǎn)較大的項(xiàng)目進(jìn)行資源再調(diào)配,以期達(dá)到降低施工風(fēng)險(xiǎn)提高決策效率的目的。同時(shí),質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)分析產(chǎn)生的結(jié)果可作為立項(xiàng)可行性報(bào)告的依據(jù),為領(lǐng)導(dǎo)決策層提供可靠的參考信息。
建設(shè)工程施工質(zhì)量有著嚴(yán)格的要求和標(biāo)準(zhǔn)。在所有影響工程質(zhì)量的因素中,人、材料、機(jī)械和環(huán)境方面的因素是主要因素。如何對(duì)這些因素?cái)?shù)據(jù)進(jìn)行跟蹤管理,并嚴(yán)格加以控制,是保證工程質(zhì)量的關(guān)鍵。
(1)人的因素
人的因素是影響施工質(zhì)量的最主要因素。主要包括領(lǐng)導(dǎo)者的素質(zhì),工程師的理論、技術(shù)水平,以及其他施工人員熟練程度和工作態(tài)度等。選擇人員組織素質(zhì)較高的施工隊(duì)伍,對(duì)現(xiàn)有的人員進(jìn)行組織優(yōu)化,有針對(duì)性地實(shí)行培訓(xùn)和優(yōu)選,進(jìn)行專業(yè)崗位技術(shù)訓(xùn)練,對(duì)于提升質(zhì)量管理水平起到至關(guān)重要的作用。因此,施工過(guò)程中人員的選擇往往直接決定了施工質(zhì)量風(fēng)險(xiǎn)的大小和最終質(zhì)量驗(yàn)收的通過(guò)與否。
(2)材料因素
要?jiǎng)?chuàng)一流的工程質(zhì)量,必須有高質(zhì)量的材料加以保證。材料指原材料、成品半成品、構(gòu)配件等,它是工程施工必要的物質(zhì)條件。在實(shí)際施工過(guò)程中,因材料質(zhì)量造成的安全事故時(shí)有發(fā)生,例如,一些“豆腐渣”工程,就是因?yàn)槭褂昧淤|(zhì)建筑材料,最終造成重大事故,也給施工企業(yè)的聲譽(yù)帶來(lái)無(wú)法彌補(bǔ)的損失。所以,在施工的質(zhì)量管理過(guò)程中,一定要加強(qiáng)材料質(zhì)量的管理,嚴(yán)把材料質(zhì)量關(guān)。同時(shí)要建立供應(yīng)商材料信息庫(kù)和信用考評(píng)機(jī)制,對(duì)所提供的材料進(jìn)行跟蹤,對(duì)供應(yīng)商進(jìn)行考評(píng),最終達(dá)到控制材料質(zhì)量的目的。
(3)機(jī)械設(shè)備因素
施工機(jī)械設(shè)備是實(shí)現(xiàn)施工機(jī)械化的重要物質(zhì)基礎(chǔ),是現(xiàn)代化工程建設(shè)中必要的設(shè)施,對(duì)工程施工的進(jìn)度和工程質(zhì)量都有直接的影響。因此,機(jī)械設(shè)備的購(gòu)置、管理、檢查驗(yàn)收、安裝質(zhì)量以及運(yùn)轉(zhuǎn)情況等,是否符合技術(shù)要求和質(zhì)量標(biāo)準(zhǔn)就顯得十分必要。
(4)環(huán)境因素
在施工過(guò)程中,環(huán)境因素也并不是一成不變的,不同的工程項(xiàng)目會(huì)有著不同的工程技術(shù)環(huán)境、管理環(huán)境和勞動(dòng)環(huán)境。而且同一個(gè)工程項(xiàng)目,在不同時(shí)間,環(huán)境因素也是變化的,如氣象條件,溫度、濕度、風(fēng)雨等都是變化的,而這些變化都會(huì)對(duì)工程質(zhì)量產(chǎn)生一定的影響。例如,在冬雨期、炎熱季節(jié)或者風(fēng)季施工時(shí),尤其是混凝土工程、土石方工程、水下工程及高空作業(yè)等,容易受到凍害、干裂、沖刷等的危害而影響工程質(zhì)量。由此可見(jiàn),環(huán)境因素也是質(zhì)量風(fēng)險(xiǎn)因素中不可或缺的一部分。
根據(jù)以上影響質(zhì)量因素的分析,可以整理出構(gòu)建施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的基本思路。即通過(guò)對(duì)相關(guān)因素的分析,找尋這些因素之間以及與質(zhì)量檢驗(yàn)結(jié)果的聯(lián)系,最終實(shí)現(xiàn)通過(guò)已知因素預(yù)測(cè)質(zhì)量風(fēng)險(xiǎn)的目的。
基于以上理念,可將企業(yè)級(jí)的施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)劃分為三個(gè)層次:數(shù)據(jù)層、模塊層和界面層(如圖1所示)。
數(shù)據(jù)層的核心功能是對(duì)數(shù)據(jù)進(jìn)行提取和預(yù)處理。質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的數(shù)據(jù)主要來(lái)自施工企業(yè)數(shù)據(jù)庫(kù),但企業(yè)信息庫(kù)中的信息紛繁復(fù)雜,并不是所有的信息都有助于對(duì)施工質(zhì)量進(jìn)行分析,所以首先要有數(shù)據(jù)提取和處理的過(guò)程,有關(guān)提取和處理的方式將會(huì)在下文中詳細(xì)論述。這些影響質(zhì)量的相關(guān)信息將會(huì)被分類匯入專用的風(fēng)險(xiǎn)決策數(shù)據(jù)庫(kù)。以該庫(kù)為基礎(chǔ),系統(tǒng)將創(chuàng)建模型庫(kù)、方法庫(kù)和知識(shí)庫(kù)三個(gè)衍生數(shù)據(jù)庫(kù)。模型庫(kù)用來(lái)存放數(shù)據(jù)挖掘中建立的模型;方法庫(kù)將對(duì)數(shù)據(jù)關(guān)聯(lián)的方式、方法進(jìn)行記錄;而知識(shí)庫(kù)則主要用來(lái)儲(chǔ)存數(shù)據(jù)挖掘后產(chǎn)生的數(shù)據(jù)和規(guī)律。
模塊層的核心是風(fēng)險(xiǎn)預(yù)測(cè)模塊,另外還包括數(shù)據(jù)分析模塊和決策支持模塊。風(fēng)險(xiǎn)預(yù)測(cè)模塊是整個(gè)系統(tǒng)的核心,主要功能基于風(fēng)險(xiǎn)決策數(shù)據(jù)庫(kù)的信息,對(duì)項(xiàng)目實(shí)施的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè);數(shù)據(jù)分析模塊的功能是對(duì)數(shù)據(jù)庫(kù)中影響施工質(zhì)量的信息進(jìn)行分析,找出內(nèi)在的關(guān)聯(lián)性;決策支持模塊是基于以上兩個(gè)模塊的分析結(jié)果,為領(lǐng)導(dǎo)決策層提供參考數(shù)據(jù)和決策支持。
界面層是提供人性化的操作界面,使不熟悉計(jì)算機(jī)和數(shù)據(jù)挖掘知識(shí)的人員,經(jīng)過(guò)簡(jiǎn)單的培訓(xùn),可以輕松地掌握本系統(tǒng)。
由圖1可見(jiàn),建立企業(yè)施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的首要任務(wù)是要進(jìn)行數(shù)據(jù)的提取和處理,之后是建立預(yù)測(cè)專用的數(shù)據(jù)庫(kù)。建立專用數(shù)據(jù)庫(kù)的目的是提升系統(tǒng)預(yù)測(cè)效率,同時(shí)也避免了預(yù)測(cè)過(guò)程中對(duì)原數(shù)據(jù)庫(kù)產(chǎn)生的影響。在完成必要的數(shù)據(jù)準(zhǔn)備工作之后,接下來(lái)就可以通過(guò)數(shù)據(jù)挖掘工具找出這些因素與施工質(zhì)量的關(guān)系。
圖1 施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)功能模塊圖
目前,全世界有很多統(tǒng)計(jì)分析和數(shù)據(jù)挖掘軟件,最著名的包括SAS的企業(yè)挖掘者和IBM的智能挖掘者,SPSS的CLEMENTINE,Megaputer的PolyAnalyst等。這些軟件幾乎覆蓋了所有可能盈利的商業(yè)應(yīng)用領(lǐng)域,使用的分析方法包括有回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、聚類分析等等。但由于這些產(chǎn)品使用成本過(guò)高,操作復(fù)雜,對(duì)于一些處在數(shù)據(jù)挖掘起步階段的企業(yè)來(lái)說(shuō)未必是最好的選擇。懷卡托智能分析環(huán)境Weka是一個(gè)基于java、用于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的開(kāi)源項(xiàng)目,被公認(rèn)是數(shù)據(jù)挖掘開(kāi)源項(xiàng)目中最著名的一個(gè)。以其技術(shù)門檻很低和強(qiáng)大的數(shù)據(jù)挖掘功能而著稱,可以完全勝任大中型施工企業(yè)的數(shù)據(jù)挖掘工作。對(duì)于廣大施工企業(yè)來(lái)說(shuō),在質(zhì)量預(yù)測(cè)系統(tǒng)中集成Weka軟件,有以下幾個(gè)明顯的優(yōu)勢(shì):
(1)免費(fèi)。隨著建筑行業(yè)信息化的不斷深入,廣大施工企業(yè)都投入了大筆的資金進(jìn)行企業(yè)信息化建設(shè)。這在大力推進(jìn)本企業(yè)信息化的同時(shí),也給企業(yè)或部門帶來(lái)或多或少的負(fù)擔(dān)。由于質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)在國(guó)內(nèi)施工行業(yè)的實(shí)施尚無(wú)先例,使用免費(fèi)的數(shù)據(jù)挖掘軟件意為著可大比例減少對(duì)系統(tǒng)的投入,對(duì)該系統(tǒng)在行業(yè)內(nèi)的快速推廣極為有利。
(2)功能強(qiáng)大。雖然Weka是免費(fèi)軟件,但其強(qiáng)大的功能并不遜色于CLEMENTINE等商業(yè)數(shù)據(jù)挖掘軟件。Weka里有非常全面的機(jī)器學(xué)習(xí)算法,包括數(shù)據(jù)預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則等。其圖形界面對(duì)不會(huì)寫程序的人來(lái)說(shuō)非常方便,甚至提供了“KnowledgeFlow”功能,允許將多個(gè)步驟組成一個(gè)工作流。
(3)開(kāi)源。為了能夠使不懂?dāng)?shù)據(jù)挖掘知識(shí)的人員能夠無(wú)障礙使用質(zhì)量預(yù)測(cè)系統(tǒng),必須實(shí)現(xiàn)數(shù)據(jù)挖掘軟件和系統(tǒng)之間的無(wú)縫連接。Weka作為開(kāi)源軟件,有著天然的兼容性和可拓展性。系統(tǒng)可較簡(jiǎn)單地實(shí)現(xiàn)軟件的封裝,將復(fù)雜的數(shù)據(jù)挖掘工作后臺(tái)化,有助于沒(méi)有學(xué)過(guò)數(shù)據(jù)挖掘知識(shí)操作人員也能夠輕松地掌控系統(tǒng)。
4.1 預(yù)測(cè)原理
通過(guò)之前對(duì)影響質(zhì)量檢驗(yàn)結(jié)果因素的分析,可以建立較為直觀的數(shù)據(jù)關(guān)聯(lián)表格(如表1)。表格中的每一行代表一個(gè)樣本(WEKA中稱作實(shí)例),表格的最后一列是目標(biāo)屬性(輸出變量),也就是預(yù)測(cè)希望得到的結(jié)果。除了最后一列以外的其他列都作為樣本的條件屬性(輸入變量)。對(duì)這些數(shù)據(jù)進(jìn)行挖掘的目的就是根據(jù)一個(gè)樣本的一組特征(輸入變量),對(duì)目標(biāo)進(jìn)行預(yù)測(cè),得到其目標(biāo)屬性(輸出變量)。為了實(shí)現(xiàn)這一目的,需要有一個(gè)訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中每個(gè)實(shí)例的輸入和輸出都是已知的(如表1)。通過(guò)觀察訓(xùn)練集中的實(shí)例,可以建立起預(yù)測(cè)的模型。有了這個(gè)模型,就可以新的輸出未知的實(shí)例進(jìn)行預(yù)測(cè)了。衡量模型的好壞就在于預(yù)測(cè)的準(zhǔn)確程度。
4.2 數(shù)據(jù)準(zhǔn)備
根據(jù)預(yù)測(cè)的原理,在進(jìn)行數(shù)據(jù)挖掘之前需要進(jìn)行數(shù)據(jù)準(zhǔn)備工作,這項(xiàng)工作可以在預(yù)測(cè)系統(tǒng)中的數(shù)據(jù)提取、處理環(huán)節(jié)來(lái)完成。根據(jù)上一章節(jié)的分析,施工質(zhì)量受人、材、機(jī)和環(huán)境因素的影響,數(shù)據(jù)提取的目的就是將施工信息數(shù)據(jù)庫(kù)中影響質(zhì)量的因素提取出來(lái)。例如,與人的因素相關(guān)的數(shù)據(jù)信息包括施工承包商、項(xiàng)目經(jīng)理、技術(shù)負(fù)責(zé)人、質(zhì)量工程師、施工隊(duì)伍等;與材料因素相關(guān)的數(shù)據(jù)信息包含材料供應(yīng)商、材料工程師、材料等;與機(jī)械設(shè)備相關(guān)的數(shù)據(jù)信息有機(jī)械設(shè)備供應(yīng)商、設(shè)備型號(hào)、年限以及安全設(shè)備工程師、運(yùn)營(yíng)情況等;與環(huán)境因素密切相關(guān)的數(shù)據(jù)信息是施工月份、地點(diǎn)、地形、氣候等。這些核心的數(shù)據(jù)信息被從企業(yè)數(shù)據(jù)庫(kù)中提取出來(lái),形成風(fēng)險(xiǎn)決策系統(tǒng)專用數(shù)據(jù)庫(kù)。在此數(shù)據(jù)庫(kù)中,建立核心信息與質(zhì)量檢查結(jié)果的關(guān)聯(lián),表1舉例說(shuō)明部分信息和最終施工質(zhì)量檢查結(jié)果的關(guān)系。
通過(guò)這樣的信息歸類,找出了影響質(zhì)量檢驗(yàn)結(jié)果的因素在數(shù)據(jù)庫(kù)中對(duì)應(yīng)的信息。系統(tǒng)將企業(yè)數(shù)據(jù)庫(kù)中這些相關(guān)信息數(shù)據(jù)提取出來(lái),就生成了專供預(yù)測(cè)使用的風(fēng)險(xiǎn)決策數(shù)據(jù)庫(kù)。隨后,在數(shù)據(jù)庫(kù)中將這些相關(guān)數(shù)據(jù)與質(zhì)量的檢查結(jié)果相關(guān)聯(lián)。將質(zhì)量驗(yàn)收的最終結(jié)果(合格、不合格)作為目標(biāo)屬性,其他屬性作為條件屬性。根據(jù)表的屬性生成決策樹(shù),再根據(jù)決策樹(shù)和施工項(xiàng)目的詳細(xì)信息實(shí)現(xiàn)對(duì)工程質(zhì)量的預(yù)測(cè)。
表1 施工質(zhì)量檢查因素關(guān)聯(lián)表
4.3 預(yù)測(cè)模型和決策樹(shù)算法介紹
生成決策樹(shù)和預(yù)測(cè)模型是預(yù)測(cè)過(guò)程中最核心的步驟。決策樹(shù)(Decision Tree)又稱為判定樹(shù),是一種具有兩個(gè)以上分支的流程圖狀樹(shù)結(jié)構(gòu)。決策樹(shù)的每個(gè)內(nèi)部結(jié)點(diǎn)就是一個(gè)決策屬性,代表訓(xùn)練樣本集中一個(gè)非類別屬性的測(cè)試,且每個(gè)結(jié)點(diǎn)都與訓(xùn)練樣本集的一個(gè)子集相關(guān)。每個(gè)分枝代表一個(gè)測(cè)試的輸出結(jié)果。每個(gè)葉子結(jié)點(diǎn)用一個(gè)類屬性來(lái)標(biāo)記,代表某種條件下的一個(gè)多維數(shù)據(jù)集,也稱為一個(gè)類或類分布網(wǎng)[2]。
決策樹(shù)是一種直觀而高效的模型。最常用的分類算法有CLS,ID3,C4.5,CART等算法。決策樹(shù)算法一般包括兩個(gè)階段:構(gòu)造樹(shù)階段和樹(shù)剪枝階段。在構(gòu)造樹(shù)階段,通過(guò)對(duì)分類算法的遞歸調(diào)用,產(chǎn)生一棵完全生長(zhǎng)的判定樹(shù)。其通用算法可描述如下[2];
MakeDecisionTree(Training Damset T)
If(T滿足某個(gè)中止條件)Then return;
For(i=1;i<=T中屬性的個(gè)數(shù);i++)
評(píng)估每個(gè)屬性關(guān)于給定的屬性選擇度量的分裂特征:
找出最佳的測(cè)試屬性并據(jù)此將T劃分為T1和T2;
MakeDecisionTree(T1);
MakeDecisionTree(T2);
End If
算法的終止條件一般有三種情況:
①T中的所有訓(xùn)練樣本都屬于同一個(gè)類,則將此節(jié)點(diǎn)作為一個(gè)葉子節(jié)點(diǎn),并以該類標(biāo)記該節(jié)點(diǎn):
②沒(méi)有屬性可以用做測(cè)試屬性;
③訓(xùn)練樣本的數(shù)量太少(少于用戶提供的某個(gè)閾值)。
后兩種情況通常以訓(xùn)練樣本中占優(yōu)勢(shì)的類標(biāo)記該葉子節(jié)點(diǎn)。屬性選擇度量有信息增益(information gain)(如ID3,C4.5等算法),Gini指數(shù)(如SLIQ,SPRINT算法),G-統(tǒng)計(jì)等。
通常情況下,一棵能夠完美地分類訓(xùn)練樣本集的決策樹(shù)并不是一棵最精確的決策樹(shù),因?yàn)檫@樣的一棵樹(shù)對(duì)訓(xùn)練樣本集過(guò)分敏感,而訓(xùn)練樣本集無(wú)可避免的存在噪聲和孤立點(diǎn)。樹(shù)剪枝階段的目的就是要剪去過(guò)分適應(yīng)訓(xùn)練樣本集的枝條。較為常見(jiàn)的剪枝算法主要有悲觀錯(cuò)誤率剪枝算法,最小描述長(zhǎng)度(MDL)剪枝算法等。
本文采用c4.5算法,c4.5算法是對(duì)ID3算法的一種改進(jìn)。能夠處理描述性屬性是連續(xù)型的情況。這種算法比較各個(gè)描述性屬性的Gain值的大小,而后通過(guò)選擇Gain值最大的屬性進(jìn)行分類。如果存在連續(xù)型的描述性屬性,那么首先應(yīng)該將這些連續(xù)型屬性的值分成不同的區(qū)間,即“離散化”。
把連續(xù)型屬性值“離散化”的具體方法是:
①尋找該連續(xù)型屬性的最小值,并把它賦值給Min,尋找該連續(xù)型屬性的最大值,并把它賦值給Max;
②設(shè)置區(qū)間【Min,Max】中的N個(gè)等分?jǐn)帱c(diǎn)Ai,具體的確立方法是:
③分別計(jì)算把【Min,Ai】和【Ai,Max】(i=l,2,…,N)作為區(qū)間值時(shí)的Gain(A)=I(p,n)-E(A)值,并進(jìn)行比較;
④選取Gain值最大的Ak作為該連續(xù)型屬性的斷點(diǎn),把屬性值設(shè)置為【Min,Ak】和【Ak,Max】?jī)蓚€(gè)區(qū)間值。
圖2 施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)決策樹(shù)
C4.5算法使用信息增益的概念來(lái)構(gòu)造決策樹(shù),其中每個(gè)分類的決定都與前面所選擇的目標(biāo)分類有關(guān)[3-4]。
WEKA里的J48決策樹(shù)模型是對(duì)Quinlan的c4.5決策樹(shù)算法的實(shí)現(xiàn),并加入了比較好的剪枝過(guò)程,有非常好的精度[5]。因此,在Weka中選擇“J48”的算法和十字交叉驗(yàn)證方法可生成決策樹(shù)和預(yù)測(cè)模型。質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)決策樹(shù)生成的過(guò)程如下:
①系統(tǒng)從內(nèi)部網(wǎng)各接觸點(diǎn)收集施工質(zhì)量信息,對(duì)數(shù)據(jù)信息進(jìn)行合并,形成結(jié)構(gòu)統(tǒng)一的施工質(zhì)量信息數(shù)據(jù)源。
②對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)預(yù)處理,去掉與決策無(wú)關(guān)的屬性和高分支屬性、將數(shù)值型屬性進(jìn)行概化以及處理含空缺值的屬性,形成決策樹(shù)的訓(xùn)練集。
③對(duì)上一階段形成的訓(xùn)練集進(jìn)行訓(xùn)練,對(duì)每個(gè)屬性的信息增益和獲取率進(jìn)行計(jì)算,尋找獲取率最大的但同時(shí)要保證信息增益不低于所有屬性平均值的屬性。將這些屬性作為當(dāng)前的主屬性節(jié)點(diǎn),并且為其每一個(gè)可能的取值構(gòu)建一個(gè)分支。對(duì)該子結(jié)點(diǎn)所包含的樣本子集遞歸地執(zhí)行上述過(guò)程。如果得到的子集中數(shù)據(jù)記錄在主屬性上取值都相同,或沒(méi)有屬性可繼續(xù)劃分使用,則可生成初始的決策樹(shù)。
④對(duì)上述的初始決策樹(shù)進(jìn)行樹(shù)剪枝。一般采用后剪枝算法對(duì)初始決策樹(shù)進(jìn)行剪枝,并在此過(guò)程中使用悲觀估計(jì)來(lái)補(bǔ)償樹(shù)生成時(shí)的樂(lè)觀偏差。
⑤提取決策樹(shù)的分類規(guī)則。對(duì)從根到樹(shù)葉的每一條路徑創(chuàng)建一個(gè)規(guī)則,形成規(guī)則集。
⑥當(dāng)新項(xiàng)目產(chǎn)生時(shí),根據(jù)施工項(xiàng)目的主要影響因素的信息,運(yùn)用決策樹(shù)進(jìn)行分析,預(yù)測(cè)質(zhì)量檢查合格的概率,從而為項(xiàng)目管理決策提供輔助支持。
圖2為是weka分析后,產(chǎn)生的分類決策樹(shù)。每個(gè)節(jié)點(diǎn)代表一個(gè)表示一個(gè)判斷條件,根據(jù)對(duì)該條件的判斷結(jié)果分為若干子樹(shù),每一個(gè)葉子節(jié)點(diǎn)表示分類結(jié)果。從決策樹(shù)根到?jīng)Q策樹(shù)葉子節(jié)點(diǎn)的任意一條路徑都對(duì)應(yīng)著一個(gè)判斷過(guò)程,越是接近樹(shù)根的判斷條件其優(yōu)先級(jí)越高。
4.4 預(yù)測(cè)結(jié)果分析
模型生成后,可對(duì)其各項(xiàng)指標(biāo)進(jìn)行分析,當(dāng)然考慮的最重要指標(biāo)是模型預(yù)測(cè)的準(zhǔn)確度。
圖3 施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)決策模型參數(shù)
圖3 上方的方框中給出了模型的準(zhǔn)確度,此模型僅有68%左右。對(duì)原屬性進(jìn)行處理和修改算法的參數(shù)均可對(duì)模型的準(zhǔn)確度進(jìn)行調(diào)整,直到達(dá)到滿意的準(zhǔn)確度為止。圖3下方的方框中該分析結(jié)果表示在決策樹(shù)的矩陣之中,原本質(zhì)量檢查合格的樣本中,有16個(gè)被誤判為不合格;原本質(zhì)量檢查不合格的樣本中,也有16個(gè)被誤判為合格。這是對(duì)十字交叉驗(yàn)證方法準(zhǔn)確性的補(bǔ)充說(shuō)明。
4.5 質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)
模型建立以后,可用來(lái)對(duì)質(zhì)量風(fēng)險(xiǎn)進(jìn)行分析和預(yù)測(cè)。搜集新建項(xiàng)目的相關(guān)數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),此時(shí)項(xiàng)目質(zhì)量檢查的結(jié)果為未知條件,需對(duì)其進(jìn)行預(yù)測(cè)(如表2所示)。當(dāng)然不同模型有著不同的準(zhǔn)確率。因此,適當(dāng)調(diào)整模型各項(xiàng)參數(shù),達(dá)到令人滿意的準(zhǔn)確度是提高風(fēng)險(xiǎn)預(yù)測(cè)效率的關(guān)鍵。
表2 施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)表
本文結(jié)合施工質(zhì)量管理理論與數(shù)據(jù)挖掘技術(shù)提出了施工質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)構(gòu)建的思路,并對(duì)Weka軟件與預(yù)測(cè)系統(tǒng)的集成的可行性做出論證。在文章的最后,對(duì)Weka的預(yù)測(cè)效果進(jìn)行了分析。目前,國(guó)內(nèi)的施工行業(yè)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用還處于初級(jí)階段,基于挖掘技術(shù)的預(yù)測(cè)系統(tǒng)更是寥寥無(wú)幾。但相信隨著施工企業(yè)數(shù)據(jù)的積累和領(lǐng)導(dǎo)決策需求的不斷增長(zhǎng),數(shù)據(jù)挖掘技術(shù)勢(shì)必成為未來(lái)施工企業(yè)信息化的新熱點(diǎn)。
[1]Alaa Abdou,John Lewis,Sameera Alzarooni.Modelling Risl for Construction Cost Estimating and Forcasting.Building and Environment,2007.
[2]滕皓,趙國(guó)毅,韓保勝.改進(jìn)決策樹(shù)的研究叨.濟(jì)南大學(xué)學(xué)報(bào),2002,16(3):231-233.
[3]Quinlan,J.R.C4.5:Programs for Machine Learning[J].San Mateo,CA:Morgan IOufinann,1993.
[4]Ruggieri S.Efficient C4.5[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(2):438-444.
[5]劉曉華.基于WEKA的數(shù)據(jù)挖掘技術(shù)在物流系統(tǒng)中的應(yīng)用,科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007(22).
Construction Quality Risk Prediction System Based on Data Mining
Li Zhi1,Huang Rufu1,Huang He2
(1.Institution of Building Engineering Software,China Academy of Building Research,Beijing 100013,China;2.The Information and Control Engineering School,Xi'an University of Architecture and Technology,Xi'an 710055,China)
Quality management plays a significant role in construction enterprises management.How to use computer to complete quality management accurately becomes a new hotspot for construction infomationization.This paper analyzed internal and external factors affecting the quality of the project.Combining data mining theory,this paper proposes construction quality risk prediction system.Finally,the feasibility and predicted effect of Weka were described.
Quality management;Infomationization;Data mining;Risk prediction;Weka
TU71;TP274
A
1674-7461(2010)04-0099-06
“十一五”國(guó)家科技支撐計(jì)劃資助課題(2007BAF23B05)
李智(1981-),男,碩士。主要從事建筑行業(yè)信息化技術(shù)的研究與應(yīng)用。E-mail:lizhi-fw@sohu.com