国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)下工程造價的數(shù)據(jù)挖掘問題分析

2021-11-23 09:52袁雄
商品與質(zhì)量 2021年20期
關(guān)鍵詞:中心點數(shù)據(jù)挖掘聚類

袁雄

株洲市盤龍湖建設(shè)投資開發(fā)有限公司 湖南株洲 412000

在大數(shù)據(jù)背景下,工程造價數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)類型、數(shù)據(jù)來源和數(shù)據(jù)表現(xiàn)形式多樣化的特點,增加了工程造價數(shù)據(jù)的海量性和繁雜性,易對工程造價管理決策帶來諸多干擾因素?;诖?,工程造價管理可以運用數(shù)據(jù)挖掘技術(shù),提取出有價值、可靠性強的數(shù)據(jù)信息,輔助完成造價管理決策。工程造價數(shù)據(jù)挖掘流程主要包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)建模分析三個環(huán)節(jié),在數(shù)據(jù)挖掘過程中需要重點解決各個環(huán)節(jié)面臨的技術(shù)問題。

1 大數(shù)據(jù)下工程造價數(shù)據(jù)挖掘存在的問題

1.1 數(shù)據(jù)獲取問題

數(shù)據(jù)獲取是工程造價數(shù)據(jù)挖掘的前提條件,直接影響著數(shù)據(jù)挖掘算法計算結(jié)果的準確性?;诖髷?shù)據(jù)環(huán)境下,工程造價數(shù)據(jù)獲取要重點解決數(shù)據(jù)來源問題。當前,大部分工程造價數(shù)據(jù)來源于實地調(diào)查,通過實地走訪獲得數(shù)據(jù)信息,從中選取可信度較高的信息[1]。但是,由于實地調(diào)查獲得的數(shù)據(jù)易受調(diào)研機構(gòu)能力、調(diào)研人員素質(zhì)、數(shù)據(jù)采集方式、數(shù)據(jù)選取標準等因素的影響,造成數(shù)據(jù)可靠性偏低。

1.2 數(shù)據(jù)清洗問題

在工程造價數(shù)據(jù)采集之后要進行海量數(shù)據(jù)清洗,抽取出適合數(shù)據(jù)建模分析的數(shù)據(jù)結(jié)構(gòu)。在數(shù)據(jù)清洗中,系統(tǒng)會自動隨機抽取海量數(shù)據(jù)中的樣本數(shù)據(jù),可能會出現(xiàn)數(shù)據(jù)錯誤、數(shù)據(jù)缺失等問題,降低數(shù)據(jù)的可用性和準確性。具體表現(xiàn)為:數(shù)據(jù)屬性不全、數(shù)據(jù)特征值缺失、數(shù)據(jù)格式不一致、數(shù)據(jù)表現(xiàn)形式不同、數(shù)據(jù)本身錯誤等[2]。

1.3 數(shù)據(jù)建模問題

數(shù)據(jù)建模是工程造價數(shù)據(jù)挖掘的關(guān)鍵環(huán)節(jié),需要采用適當?shù)乃惴ㄟM行建模,提高數(shù)據(jù)分析的準確性,為工程造價決策提供依據(jù)。但是,由于工程造價具備多維復雜性的特點,數(shù)據(jù)形式多樣,表現(xiàn)形式各有不同,并且數(shù)據(jù)變化程度也不盡相同,所以增加了數(shù)據(jù)建模的難度,很難通過采用一種算法解決工程造價中所有類型價格信息的建模問題。

2 解決對策

2.1 數(shù)據(jù)獲取——內(nèi)外部平臺獲取

為解決數(shù)據(jù)獲取可靠性不足的問題,建議剔除實地調(diào)查方法,通過內(nèi)部數(shù)據(jù)平臺與外部數(shù)據(jù)平臺采集數(shù)據(jù),將數(shù)據(jù)可靠性控制在可接受的范圍內(nèi)。

(1)內(nèi)部平臺采集。建筑企業(yè)自主建立工程造價數(shù)據(jù)庫,在內(nèi)部平臺上采集同類型工程項目的造價信息,將采集后數(shù)據(jù)信息導入新建的數(shù)據(jù)庫中進行備用,并將其轉(zhuǎn)換為直接可用的目標造價數(shù)據(jù)信息。在數(shù)據(jù)采集中,可以通過設(shè)置規(guī)范字段篩選出數(shù)據(jù)庫中相同字段的信息,提高數(shù)據(jù)采集效率。

(2)外部平臺采集。工程造價人員將本地數(shù)據(jù)庫對接相應的平臺接口,創(chuàng)建統(tǒng)一的數(shù)據(jù)交換格式,將外部平臺上的業(yè)務數(shù)據(jù)轉(zhuǎn)變?yōu)楸镜財?shù)據(jù)庫規(guī)范的數(shù)據(jù)格式,完成數(shù)據(jù)采集。外部平臺主要是指具有一定權(quán)威性的工程造價官方網(wǎng)站和專業(yè)化程度高的工程造價信息網(wǎng)等[3]。

2.2 數(shù)據(jù)清洗——數(shù)據(jù)預處理

針對數(shù)據(jù)清洗中存在的問題,可采用以下方法進行數(shù)據(jù)預處理。

(1)處理數(shù)據(jù)缺失。在數(shù)據(jù)抽取中,可以采用以下兩種方法解決數(shù)據(jù)缺失問題:①舍棄元組。在數(shù)據(jù)抽取后,若數(shù)據(jù)元組缺失值超過總樣本數(shù)量的40%時,則必須將元組舍棄,不考慮該元組對數(shù)據(jù)挖掘的影響;②中心度量值填充。在元組符合可用條件后,填充處理缺失數(shù)據(jù),填充方法為中心度量值法。

(2)處理噪點數(shù)據(jù)。在處理噪點數(shù)據(jù)時結(jié)合工程造價數(shù)據(jù)的特點以及數(shù)據(jù)采集方式,采用分箱平滑法。由于工程造價變化受市場經(jīng)濟總體變化的影響程度較高,其變化呈現(xiàn)出時間連續(xù)性的特點,在市場不發(fā)生較大波動的情況下,工程造價變化具有一定的規(guī)律性。所以,將工程造價數(shù)據(jù)的年度變化閾值范圍設(shè)置為20%,即超過平均值20%的數(shù)據(jù)視為噪點,需要在采樣區(qū)間內(nèi)重新計算數(shù)據(jù),修正數(shù)據(jù)。

(3)處理數(shù)據(jù)格式。造價人員可以建立起數(shù)據(jù)采集模板,運用采集模板處理符合模板格式要求的數(shù)據(jù),以保證數(shù)據(jù)格式一致。如,人工單價費用模板格式為:①編號,格式“XXX”;②單價,格式“XX.XX”;③時間,格式“yyyy-mm-dd:hh:mm:ss”;④來源,格式“……”。

2.3 數(shù)據(jù)建模——K-means 聚類算法

在工程造價中,材料費用占工程造價的比重最高,約為70%左右,這使得材料費用數(shù)據(jù)在工程造價決策中占據(jù)中重要地位。為此,本文重點研究材料價格的數(shù)據(jù)建模,結(jié)合材料數(shù)據(jù)的特點采用K-means聚類算法進行建模,并利用Hadoop技術(shù)解算模型。聚類算法具備操作簡便,能夠處理異構(gòu)類型的大規(guī)模數(shù)據(jù),且無需提前進行數(shù)據(jù)分類標簽,可以大幅度提高數(shù)據(jù)處理效率。該算法的運算流程為:①隨機抽取M個樣本,將樣本數(shù)據(jù)作為中心點,即M個中心點,將中心點存入一個文件中,作為全局變量;②依次采用Map函數(shù)、Combine函數(shù)、Reduce函數(shù)進行求解,迭代出最優(yōu)解,最終解算出對應節(jié)點的多維坐標總和,求和后計算出樣本新的坐標值。例如,在復合硅酸鹽水泥采購中,共有20家供應商提供報價,單價范圍從316元-486元不等。采用聚類分析法生成初始數(shù)據(jù)集,比較數(shù)據(jù)集中每個樣本之間的距離,選擇與其他距離最遠的點作為初始中心點,重新分類數(shù)據(jù),確定K值。通過數(shù)據(jù)建模,確定中心點共4個,分別為X1、X2、X3、X4對應4、3、3、10個聚類數(shù)量,對應的數(shù)值分別為316、402、486、427。由于X4對應最多的聚類數(shù)量,所以初步判定復合硅酸鹽水泥的市場真實價格為427元。

3 結(jié)語

綜上所述,在工程造價管理中運用數(shù)據(jù)挖掘技術(shù)有利于輔助做出正確的投資決策。在運用數(shù)據(jù)挖掘技術(shù)時要重點解決數(shù)據(jù)獲取、數(shù)據(jù)清洗以及數(shù)據(jù)建模中的問題,完善數(shù)據(jù)挖掘技術(shù)應用流程。在數(shù)據(jù)挖掘后,工程造價管理人員可以根據(jù)數(shù)據(jù)建模得出的計算結(jié)果,分析數(shù)據(jù)的可靠性,篩選出最有價值的造價數(shù)據(jù)。

猜你喜歡
中心點數(shù)據(jù)挖掘聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應用
一種改進K-means聚類的近鄰傳播最大最小距離算法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
一種基于標準差的K-medoids聚類算法
Scratch 3.9更新了什么?
如何設(shè)置造型中心點?
改進K均值聚類算法
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法