国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺議水利工程質(zhì)量監(jiān)督數(shù)據(jù)文本分析

2021-01-07 00:57:52吳陽鋒俞觃榮
浙江水利科技 2020年6期
關(guān)鍵詞:特征詞向量水利工程

吳陽鋒,周 進(jìn),俞觃榮

(1.浙江省水利水電工程質(zhì)量與安全管理中心,浙江 杭州 310012;2.諸暨市水利局,浙江 諸暨 311800)

1 問題的提出

從水利工程建設(shè)發(fā)展趨勢(shì)看,水利工程具有項(xiàng)目投資大、工程建設(shè)環(huán)節(jié)復(fù)雜、參建單位多、質(zhì)量要求高等特點(diǎn)[1],對(duì)水利工程建設(shè)監(jiān)督管理提出較大挑戰(zhàn),也積累了大量監(jiān)督數(shù)據(jù)。但目前積累的數(shù)據(jù)僅僅是獨(dú)立的監(jiān)管過程記錄,數(shù)據(jù)自身存在的巨大價(jià)值并沒有被挖掘出來。如何利用監(jiān)督數(shù)據(jù),提高水利工程監(jiān)督能力,提升工程質(zhì)量是當(dāng)前重點(diǎn)研究的課題之一?;诖耍剿餮芯啃畔⒒脚_(tái)分析手段,通過文本挖掘與分類預(yù)測(cè)挖掘技術(shù),自動(dòng)發(fā)現(xiàn)水利監(jiān)管數(shù)據(jù)潛在的模式和規(guī)律,智能預(yù)測(cè)當(dāng)前水利工程質(zhì)量安全狀態(tài)。同時(shí),所有結(jié)果將呈現(xiàn)可交互界面,幫助監(jiān)管人員分析、挖掘水利監(jiān)管數(shù)據(jù)潛在的模式和規(guī)律,并為其提供寶貴的意見或建議,實(shí)現(xiàn)質(zhì)監(jiān)高效化、工具智能化、管理創(chuàng)新化。

2 文本挖掘技術(shù)

針對(duì)監(jiān)管數(shù)據(jù)進(jìn)行文本挖掘和語義分析[2],構(gòu)建文本挖掘模塊。利用計(jì)算機(jī)技術(shù)從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取新的知識(shí)和模式,對(duì)非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。根據(jù)水利工程監(jiān)督檢查記錄中包含的責(zé)任主體、存在問題、事實(shí)描述、記錄人員等文本數(shù)據(jù),通過文本挖掘技術(shù)建立問題分析模型,結(jié)合開工日期、投資金額等其他數(shù)據(jù)對(duì)存在的問題進(jìn)行自動(dòng)分類。

根據(jù)文本挖掘和語義分析構(gòu)建一個(gè)文本挖掘與分類預(yù)測(cè)和一個(gè)分類器,利用分類器對(duì)未知類別的測(cè)試文本集進(jìn)行分類,即根據(jù)已有含文本的水利監(jiān)管數(shù)據(jù),智能預(yù)測(cè)某水利工程可能存在的技術(shù)問題。

3 基于文本挖掘技術(shù)的水利質(zhì)量監(jiān)督數(shù)據(jù)結(jié)果分析

3.1 數(shù)據(jù)來源和分析方式

分析數(shù)據(jù)為收集的水利工程質(zhì)量監(jiān)督數(shù)據(jù)。圖1為水利工程質(zhì)量監(jiān)督文本挖掘分析框圖,以文本挖掘技術(shù)對(duì)大量非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行轉(zhuǎn)化、表示和分析,從大規(guī)模水利質(zhì)量監(jiān)督數(shù)據(jù)挖掘出潛在規(guī)律,以幫助水利質(zhì)監(jiān)人員開展和部署安全防范工作。

圖1 水利工程質(zhì)量監(jiān)督文本挖掘分析框圖

3.2 文本分詞技術(shù)

水利監(jiān)管數(shù)據(jù)包含專業(yè)質(zhì)監(jiān)人員對(duì)水利工程的描述情況,其中文本內(nèi)容可通過分詞操作劃分成一個(gè)獨(dú)立的詞語,用于構(gòu)建候選詞向量。采用中科院的“ICTCLAS”分詞器對(duì)文本進(jìn)行預(yù)處理,例如,在事實(shí)描述中的一條記錄:“對(duì)施工現(xiàn)場(chǎng)安全生產(chǎn)監(jiān)督不到位”,系統(tǒng)先通過詞性判斷需要過濾的詞語并進(jìn)行詞性標(biāo)注,經(jīng)過分詞處理后拆分成“對(duì)”“施工”“現(xiàn)場(chǎng)”“安全”“生產(chǎn)”“監(jiān)督”“不”“到位”等信息。顯然,中文分詞器性能對(duì)文本分類的最終結(jié)果有很大影響,因?yàn)槲谋痉诸愄卣鬟x擇的操作對(duì)象是基于分詞處理后的詞信息,而不再關(guān)聯(lián)原始文本信息。

3.3 文本表示技術(shù)

系統(tǒng)采用性能較優(yōu)的向量空間模型(VSM)[3]進(jìn)行文本表示。VSM是指把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且以空間上的相似度表達(dá)語義的相似度。當(dāng)文檔被表示為文檔空間的向量,可以通過計(jì)算向量之間的相似性來度量文檔間的相似性。文本處理中最常用的相似性度量方式是余弦距離[4]。例如,給定一條文本Document = D(t1,t2,…,tn),D中各個(gè)特征項(xiàng)tk互異(即沒有重復(fù)),且各個(gè)特征項(xiàng)tk無先后順序關(guān)系(即參考文檔的內(nèi)部結(jié)構(gòu))。因此,向量空間模型由n個(gè)特征項(xiàng)組成一個(gè)n維坐標(biāo)系,權(quán)重w1,w2,…,wn為相應(yīng)的坐標(biāo)值(特征值)。由若干條數(shù)據(jù)經(jīng)過向量空間轉(zhuǎn)化得到三維坐標(biāo)系中的點(diǎn),該點(diǎn)表示某一個(gè)特征詞在相應(yīng)問題類別下的特征值。向量空間模型見圖2。

圖2 向量空間模型圖

3.4 文本特征提取技術(shù)

文本特征的選取采用開方測(cè)試(CHI)[5]作為特征選取的方法。開方檢驗(yàn)最基本的思想是通過觀察實(shí)際值與理論值的偏差來確定理論正確與否。先假設(shè)2個(gè)變量獨(dú)立(行話就叫做“原假設(shè)”),然后觀察實(shí)際值(也可以叫做觀察值)與理論值(這個(gè)理論值是指“如果兩者確實(shí)獨(dú)立”的情況下應(yīng)該有的值)的偏差程度。如果偏差足夠小,認(rèn)為誤差是很自然的樣本誤差,是測(cè)量手段不夠精確導(dǎo)致或者偶然發(fā)生,兩者確實(shí)是獨(dú)立的,則接受原假設(shè);如果偏差大到一定程度,使得誤差不太可能是偶然產(chǎn)生或者測(cè)量不精確所致,認(rèn)為兩者實(shí)際相關(guān),即否定原假設(shè),而接受備擇假設(shè)。在分析中,用CHI衡量特征項(xiàng)tk和類別Cj之間的關(guān)聯(lián)程度,特征對(duì)于某類的CHI統(tǒng)計(jì)值越高,則認(rèn)為該特征項(xiàng)對(duì)該類的類別表征程度越強(qiáng),反之越弱。

3.5 文本特征權(quán)重計(jì)算

通過開方測(cè)試,系統(tǒng)可以獲取一條文本的所有特征詞,即可獲得向量空間模型中向量的每一個(gè)分量。文本向量化還需要給每一個(gè)分量賦予權(quán)重,該權(quán)重代表該分量的重要程度。采用TF-IDF方法,即“詞頻-逆文本頻率”,由2部分組成,TF和IDF。TF指詞頻,之前做的向量化就是對(duì)文本中各個(gè)詞的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),并作為文本特征。IDF即“逆文本頻率”,表示一個(gè)詞在所有文本中出現(xiàn)的頻率。如果一個(gè)詞在很多文本中出現(xiàn),那么IDF值應(yīng)該低,如水利工程中的“錨桿”;如果一個(gè)詞在比較少的文本中出現(xiàn),IDF值應(yīng)該高,如一些專業(yè)的名詞“混凝土”“安全帽”等;極端情況下,如果一個(gè)詞在所有的文本中都出現(xiàn),那么IDF值應(yīng)為0。綜上,TF-IDF的思想為:如果詞條t的文檔頻數(shù)越少,則TF-IDF越大,越能說明t有很好的類別區(qū)分性。如果一個(gè)特征大量出現(xiàn)在一類文檔中,且頻數(shù)很大,則TF-IDF值會(huì)變小,說明這個(gè)特征不具有較好的代表性。但是如果一個(gè)特征大量出現(xiàn)在一個(gè)類別中,正好說明這個(gè)特征反映這個(gè)類別?;谒x特征值和TF-IDF方法,可計(jì)算關(guān)于“事實(shí)描述”和“存在問題”的權(quán)重矩陣。每一個(gè)特征詞配以相應(yīng)的字典序號(hào),每一條事實(shí)描述經(jīng)過特征詞篩選后,得到的特征詞添加于特征字典中。將這些特征詞映射到相應(yīng)的問題類別中,可以計(jì)算得到每一個(gè)特征詞所對(duì)應(yīng)問題類別的特征權(quán)重。例如:特征詞“危險(xiǎn)源”“未落實(shí)重大危險(xiǎn)源管理”等問題,經(jīng)分析特征權(quán)重均大,說明它們?cè)谒惺聦?shí)描述中可能頻繁地出現(xiàn)。

3.6 實(shí)際應(yīng)用案例及場(chǎng)景分析

以實(shí)際質(zhì)量監(jiān)督管理數(shù)據(jù)為例驗(yàn)證所采用方法的分析效果。在31 150條質(zhì)量監(jiān)督管理數(shù)據(jù)中,通過文本挖掘技術(shù)將此類非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),并借助文本挖掘技術(shù)對(duì)所有的質(zhì)量監(jiān)督數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,從中挖掘出可能存在的規(guī)律和問題。

首先對(duì)所有短文本進(jìn)行分詞操作,得到分詞結(jié)果,再進(jìn)一步對(duì)所有文本進(jìn)行特征值、特征權(quán)重的提取和計(jì)算,最后按照質(zhì)量類和安全類對(duì)所有的質(zhì)量監(jiān)督檢查意見數(shù)據(jù)進(jìn)行分析,以詞云圖的形式展現(xiàn)。圖3為所有安全類水利工程質(zhì)量監(jiān)督數(shù)據(jù)詞云分析結(jié)果圖。

從圖3中可以看出“驗(yàn)收”“檢測(cè)”“檢查”“評(píng)定”等詞的頻率較高。通過返回查看相應(yīng)的檢查意見可以得出,在質(zhì)量監(jiān)督檢查過程中,“工程驗(yàn)收鑒定書不規(guī)范”“未及時(shí)組織套井回填重要隱蔽單元工程驗(yàn)收”“評(píng)定工作不及時(shí)”“評(píng)定表不合格”等問題頻繁出現(xiàn)。該分析結(jié)果提示相關(guān)的質(zhì)量監(jiān)督檢查人員在評(píng)定工作資料、單元工程驗(yàn)收時(shí)必須注意的問題。同時(shí),分析結(jié)果也給相關(guān)人員制定規(guī)章制度提供參考。此外,從圖3中也可以看出“原材料”一詞出現(xiàn)的頻率較高,從原始數(shù)據(jù)中分析得到,鋼筋、塊石、砌石等原材料問題非常顯著。該結(jié)果建議相關(guān)管理人員需要在此類問題上制定相關(guān)措施,以降低相關(guān)問題的出現(xiàn)頻率。同時(shí),從原始數(shù)據(jù)中可以發(fā)現(xiàn)原材料送檢問題也十分突出。在較多工程中出現(xiàn)原材料常未送檢的問題,進(jìn)而影響工程質(zhì)量。

實(shí)際監(jiān)督檢查數(shù)據(jù)日常質(zhì)量安全問題人工統(tǒng)計(jì),也存在“驗(yàn)收”“檢測(cè)”“安全”“評(píng)定”“不及時(shí)”“未驗(yàn)收”等問題,與大數(shù)據(jù)文本分析結(jié)果存在一定程度上一致性。大數(shù)據(jù)質(zhì)量安全分析結(jié)果與實(shí)際情況比對(duì),經(jīng)查驗(yàn),分析結(jié)果中占比大的質(zhì)量安全問題在工程中實(shí)際存在,具有較大的準(zhǔn)確性、吻合性,對(duì)質(zhì)量安全管理提供參考依據(jù)。

圖3 安全類水利工程監(jiān)督數(shù)據(jù)詞云分析結(jié)果圖

4 結(jié) 語

本文采用文本挖掘技術(shù)可多層析、多角度、多維度分析挖掘相關(guān)水利質(zhì)量監(jiān)督數(shù)據(jù),分析監(jiān)督數(shù)據(jù)的特征和權(quán)重,以及各類型水利工程在施工過程中可能存在的規(guī)律和問題。經(jīng)對(duì)比,很多挖掘成果與實(shí)際工程建設(shè)過程中存在的問題較為吻合,科學(xué)研判水利工程質(zhì)量監(jiān)管的現(xiàn)狀趨勢(shì),準(zhǔn)確挖掘發(fā)現(xiàn)潛在的模式和規(guī)律,針對(duì)數(shù)據(jù)分析結(jié)論提出針對(duì)性指導(dǎo)意義的建議,為今后水利工程質(zhì)量管理提供基礎(chǔ)性理論依據(jù),可大大提升水利工程質(zhì)量管理水平。

猜你喜歡
特征詞向量水利工程
向量的分解
聚焦“向量與三角”創(chuàng)新題
重大水利工程復(fù)工風(fēng)采
營(yíng)改增對(duì)水利工程造價(jià)的影響
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
歡迎訂閱《ANSYS在水利工程中的應(yīng)用》
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
面向文本分類的特征詞選取方法研究與改進(jìn)
南汇区| 日喀则市| 五原县| 循化| 延庆县| 永登县| 民权县| 辽阳县| 会同县| 宜川县| 五常市| 平舆县| 临洮县| 娱乐| 阜平县| 阿鲁科尔沁旗| 平罗县| 望都县| 普洱| 景东| 文水县| 山东| 宜州市| 南召县| 乌兰浩特市| 文成县| 海兴县| 广安市| 锡林浩特市| 太原市| 福贡县| 繁峙县| 赤水市| 启东市| 广宁县| 宕昌县| 怀安县| 尤溪县| 遂昌县| 淳安县| 五台县|