姜建華,洪年松,張廣云
(1.廣東科學(xué)技術(shù)職業(yè)學(xué)院計(jì)算機(jī)工程學(xué)院,廣東珠海519090;
2.浙江工貿(mào)技術(shù)職業(yè)學(xué)院信息傳媒學(xué)院,浙江溫州325003)
一種多源異構(gòu)數(shù)據(jù)融合方法及其應(yīng)用研究
姜建華1,洪年松2,張廣云1
(1.廣東科學(xué)技術(shù)職業(yè)學(xué)院計(jì)算機(jī)工程學(xué)院,廣東珠海519090;
2.浙江工貿(mào)技術(shù)職業(yè)學(xué)院信息傳媒學(xué)院,浙江溫州325003)
針對(duì)基于多源數(shù)據(jù)融合的多用戶(hù)決策問(wèn)題,建立了多源異構(gòu)數(shù)據(jù)融合模型,研究了基于三角模糊數(shù)的異構(gòu)數(shù)據(jù)統(tǒng)一量化表示方法,采用有序加權(quán)平均算子融入決策者的偏好,設(shè)計(jì)了一種支持多用戶(hù)決策的多源異構(gòu)數(shù)據(jù)融合算法。實(shí)際應(yīng)用表明,本文設(shè)計(jì)的算法能解決多源異構(gòu)數(shù)據(jù)在結(jié)構(gòu)和語(yǔ)義上的模糊性、差異性和異構(gòu)性等問(wèn)題,通過(guò)在數(shù)據(jù)融合過(guò)程中考慮決策者偏好,提高了多用戶(hù)決策結(jié)果的可靠度。
多源異構(gòu)數(shù)據(jù);數(shù)據(jù)融合;三角模糊數(shù);有序加權(quán)平均
數(shù)據(jù)融合本質(zhì)上是對(duì)來(lái)自多方數(shù)據(jù)的協(xié)同處理,以達(dá)到減少冗余、綜合互補(bǔ)和捕捉協(xié)同信息的目的,該技術(shù)已成為數(shù)據(jù)處理、目標(biāo)識(shí)別、態(tài)勢(shì)評(píng)估以及智能決策等領(lǐng)域的研究熱點(diǎn)。文獻(xiàn)[1]基于統(tǒng)計(jì)和人工智能方法,研究了多傳感器數(shù)據(jù)融合技術(shù);文獻(xiàn)[2]研究了移動(dòng)地理信息系統(tǒng)中的多源異構(gòu)數(shù)據(jù)組織與管理,建立了多源異構(gòu)數(shù)據(jù)融合模型;文獻(xiàn)[3]將無(wú)線(xiàn)傳感器網(wǎng)絡(luò)和數(shù)據(jù)融合技術(shù)相結(jié)合,提出了一種Kalman濾波分批估計(jì)融合算法;文獻(xiàn)[4]研究了物網(wǎng)聯(lián)網(wǎng)環(huán)境下海量多源異構(gòu)數(shù)據(jù)融合方法,并成功應(yīng)用于目標(biāo)定位跟蹤過(guò)程中;文獻(xiàn)[5]研究了高鐵信號(hào)系統(tǒng)基于異構(gòu)數(shù)據(jù)融合的智能維護(hù)決策架構(gòu),提高了決策的準(zhǔn)確性和有效性;文獻(xiàn)[6]研究了數(shù)字礦山建設(shè)過(guò)程中的多源異構(gòu)數(shù)據(jù)融合技術(shù),保證了數(shù)字礦山建設(shè)中基礎(chǔ)信息平臺(tái)的安全穩(wěn)定和高效。
數(shù)據(jù)的表示方式除了數(shù)值外,還存在著語(yǔ)言或符號(hào)等其他描述形式,多種描述導(dǎo)致了數(shù)據(jù)信息在結(jié)構(gòu)和語(yǔ)義上的模糊性、差異性和異構(gòu)性。另一方面,決策過(guò)程需要綜合考慮多方面的異構(gòu)數(shù)據(jù)信息,并通過(guò)對(duì)數(shù)據(jù)信息的融合處理來(lái)制定最終決策。因此,文中從異構(gòu)數(shù)據(jù)的特點(diǎn)出發(fā),研究一種支持多用戶(hù)決策的多源異構(gòu)數(shù)據(jù)融合方法。
1.1多源異構(gòu)數(shù)據(jù)融合方法
數(shù)據(jù)融合按操作級(jí)別分為數(shù)據(jù)級(jí)融合、特征級(jí)融合以及決策級(jí)融合。本文研究多數(shù)據(jù)源在決策級(jí)上的融合,其方法主要有權(quán)重平均法、D-S證據(jù)理論和投票表決等。
1)權(quán)重平均法
采用Σwitij計(jì)算各數(shù)據(jù)源對(duì)決策的支持度值,wi為數(shù)據(jù)源i權(quán)重,tij為數(shù)據(jù)源i對(duì)第j決策的支持度,該方法根據(jù)支持度的大小判斷決策方案的優(yōu)劣,具有易操作、考慮了數(shù)據(jù)源的重要程度等特點(diǎn),但權(quán)重的確定包含著主觀因素。
2)D-S證據(jù)理論
將待識(shí)別對(duì)象所有可能結(jié)果構(gòu)成的空間定義
為識(shí)別框架D,其子集記為2D,?A?D,定義:
m:2D→[0,1]
其中:m(φ)=0,ΣA?2Dm(A)=1,φ為空集,則m為2D上的基本概率分配函數(shù)(BPAF),它實(shí)際上是根據(jù)證據(jù)對(duì)D的子集進(jìn)行信任度分配。
實(shí)際中往往針對(duì)同一問(wèn)題因證據(jù)不同而得到不同的mi,考慮所有證據(jù)后的m可通過(guò)下式得到:
D-S證據(jù)理論建立在BPAF基礎(chǔ)上,能處理由“不知道”所引起的不確定性,缺點(diǎn)是D中元素必須滿(mǎn)足互斥條件,且當(dāng)BPAF過(guò)多時(shí)計(jì)算很復(fù)雜。
3)投票法
將各個(gè)數(shù)據(jù)源看作投票者,通過(guò)比較各決策獲得的票數(shù)以定優(yōu)劣,計(jì)算方法為:
Sup(ai)=F(Supj(ai))
其中:ai為第i決策,Sup(ai)為其得“票數(shù)”;Supj(ai)為第j數(shù)據(jù)源對(duì)ai的支持度,若支持則取1,否則為0,函數(shù)F可定義為連加求和。
針對(duì)多源異構(gòu)數(shù)據(jù)的BPAF難以確定,投票法不能區(qū)分票數(shù)相同的決策,在考慮決策者偏好的情況下,文中采用OWA方法對(duì)數(shù)據(jù)進(jìn)行融合處理。
1.2多源異構(gòu)數(shù)據(jù)融合結(jié)構(gòu)
文獻(xiàn)[7]提出一種多數(shù)據(jù)源的融合結(jié)構(gòu),如圖1所示。該數(shù)據(jù)融合過(guò)程考慮了表達(dá)用戶(hù)需求的特征因素和信息的可靠程度,利用上下文知識(shí)和領(lǐng)域知識(shí)、采用投票法解決數(shù)據(jù)沖突等問(wèn)題。
圖1 多源數(shù)據(jù)源融合結(jié)構(gòu)
針對(duì)上述模型,本文設(shè)計(jì)了一種支持多用戶(hù)決策的多源異構(gòu)數(shù)據(jù)融合結(jié)構(gòu)模型,如圖2所示。模型中的數(shù)據(jù)融合引擎包括數(shù)據(jù)倉(cāng)庫(kù)、決策支持度計(jì)算、OWA算子權(quán)重向量計(jì)算和數(shù)據(jù)轉(zhuǎn)換與排序4個(gè)模塊,具體描述如下。
圖2 多源異構(gòu)數(shù)據(jù)融合模型
1)數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)選擇、特征提取和統(tǒng)計(jì)等操作實(shí)現(xiàn)對(duì)數(shù)據(jù)的集成、消除數(shù)據(jù)的異構(gòu)性和差異性,為后續(xù)的數(shù)據(jù)處理提供數(shù)據(jù)源;
2)決策支持度計(jì)算模塊根據(jù)決策屬性從數(shù)據(jù)倉(cāng)庫(kù)獲取相關(guān)維度的數(shù)據(jù),并計(jì)算各數(shù)據(jù)源對(duì)決策的支持度值sij(數(shù)據(jù)源i對(duì)第j決策的支持度);
3)OWA算子權(quán)重向量計(jì)算模塊根據(jù)決策者提供的模糊語(yǔ)義原則計(jì)算出OWA權(quán)重wi,模糊語(yǔ)義參數(shù)的選擇體現(xiàn)了決策者對(duì)數(shù)據(jù)源的偏好態(tài)度;
4)數(shù)據(jù)轉(zhuǎn)換與排序根據(jù)決策者提供的數(shù)據(jù)源可信度或重要度,結(jié)合OWA權(quán)重向量wi對(duì)sij進(jìn)行轉(zhuǎn)換,并將轉(zhuǎn)換后的結(jié)果按大小順序排序,最后將排序后的結(jié)果與通過(guò)求和計(jì)算出最終決策值。
2.1數(shù)據(jù)類(lèi)型及其特點(diǎn)
對(duì)數(shù)據(jù)可以從數(shù)量和質(zhì)量?jī)煞矫孢M(jìn)行描述,數(shù)量方面通過(guò)數(shù)值表示,而質(zhì)量方面通過(guò)語(yǔ)言變量進(jìn)行描述[8]。根據(jù)數(shù)據(jù)描述方式的不同,本文將數(shù)據(jù)分為定性和定量?jī)深?lèi),重點(diǎn)研究隨機(jī)變量、二值型、語(yǔ)言程度和采用詞匯術(shù)語(yǔ)的4類(lèi)描述,如表1所示。
表1 數(shù)據(jù)描述方式
大樣本情況下,隨機(jī)變量服從正態(tài)分布,記為:X~(μ,σ2),μ為期望,σ為標(biāo)準(zhǔn)差,且滿(mǎn)足:P(μ-3σ<X<μ+3σ)=0.9974。
二值型數(shù)據(jù)用于描述對(duì)事實(shí)的肯定或否定,取值空間大多為{1,0}或{True,F(xiàn)alse}。
表示程度的數(shù)據(jù)一般采用漢語(yǔ)程度副詞來(lái)表示,如很好、非常差等,程度等級(jí)大多采用7或9個(gè)標(biāo)準(zhǔn)。
基于詞匯術(shù)語(yǔ)的數(shù)據(jù)采用詞匯空間中規(guī)定的詞匯或術(shù)語(yǔ)給出事物定性的描述,詞匯個(gè)數(shù)視具體情況而定。
2.2基于三角模糊數(shù)的支持度計(jì)算
考慮到多源數(shù)據(jù)描述中存在著模糊性,可采用三角模糊數(shù)計(jì)算數(shù)據(jù)對(duì)決策的支持度值。
1)隨機(jī)性數(shù)據(jù)的轉(zhuǎn)換
設(shè):x0=u-3σ
若隨機(jī)變量的取值越大,其對(duì)決策的支持度也越大。將區(qū)間[μ-3σ,μ+3σ]進(jìn)行n等分,則隨機(jī)數(shù)據(jù)向支持度的轉(zhuǎn)換可定義為:
若隨機(jī)變量的取值越小,其對(duì)決策方案的支持度越大,則支持度定義為:
s′(x)=(1,1,1)-s(x)
2)二值型數(shù)據(jù)的轉(zhuǎn)換
二值型數(shù)據(jù)采用1或0進(jìn)行描述,若數(shù)據(jù)源中取1和0的個(gè)數(shù)分別為n和m,且支持度以取值1為依據(jù),則數(shù)據(jù)源對(duì)決策的支持度定義為:
3)程度類(lèi)數(shù)據(jù)的轉(zhuǎn)換
描述對(duì)象好壞程度一般可采用7或9標(biāo)準(zhǔn),本文采用7等級(jí)標(biāo)準(zhǔn)。程度副詞的表示分正比型(效率越高越好)和反比型(費(fèi)用越高越差),則各等級(jí)對(duì)決策的支持度可量化如表2所示的數(shù)據(jù)。
表2 程度類(lèi)型數(shù)據(jù)的支持度
4)詞匯術(shù)語(yǔ)數(shù)據(jù)的轉(zhuǎn)換
設(shè)詞匯空間w包含n個(gè)術(shù)語(yǔ),對(duì)詞匯按對(duì)決策支持度從低到高排序?yàn)椋簑={w0,w1,…,wn-1},則支持度定義為:
2.3OWA的權(quán)重向量計(jì)算
設(shè):F:Rn→R,有一個(gè)與F相關(guān)聯(lián)的n維加權(quán)向量w=(w1, w2,…,wn),wi∈[0,1],1≤i≤n,且使得:
其中:bi是ai中第i個(gè)最大的元素,則F稱(chēng)為n維OWA算子。
OWA權(quán)向量w=(w1,w2,…,wn)由下式確定:
其中:i=1,2,…,n,f為模糊語(yǔ)義量化算子,定義為:
其中:x,a,b∈[0,1]。
此外,OWA算子還定義了反映決策者樂(lè)觀態(tài)度的度量算子:
2.4數(shù)據(jù)融合算法
設(shè)有n個(gè)決策:A=(A1,A2,…,An),m個(gè)數(shù)據(jù)源:S=(S1,S2,…,Sm),各數(shù)據(jù)源的可信度(或重要度)為pi,數(shù)據(jù)融合算法描述如下:
第1步:計(jì)算數(shù)據(jù)源對(duì)決策的支持度;
從數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù),根據(jù)數(shù)據(jù)的不同類(lèi)型,按1.2部分將其轉(zhuǎn)換為對(duì)決策的支持度:
其中:Sij為第i數(shù)據(jù)源對(duì)第j決策目標(biāo)的支持度,(aij,bij,cij)為支持度的三角模糊數(shù)表示,且:0≤aij≤bij≤cij≤1。
第2步:確定OWA算子權(quán)重向量;
根據(jù)決策者的偏好,選擇適當(dāng)?shù)哪:Z(yǔ)義量化準(zhǔn)則,確定式(6)中的參數(shù)和的值。模糊語(yǔ)義原則一般為“大多數(shù)”、“至少一半”或“盡可能多”,它們的參數(shù)值分別為(0.3,0.8)、(0,0.5)和(0.5,1),根據(jù)參數(shù)可確定出模糊語(yǔ)義量化算子f(x)。
根據(jù)f(x),通過(guò)式(5)求得OWA權(quán)重向量w=(w1,w2,…,wn),n為數(shù)據(jù)源個(gè)數(shù),并按式(7)求得c的值。
第3步:根據(jù)各數(shù)據(jù)源可信度(或重要度)pi和支持度值sij對(duì)sij進(jìn)行轉(zhuǎn)換;
為了利用OWA權(quán)重向量,需要根據(jù)pi與sij對(duì)各決策值進(jìn)行轉(zhuǎn)換并按大小順序排序,轉(zhuǎn)換方法采用模糊判決法。
設(shè):
定義:當(dāng)c≤0.5時(shí)
當(dāng)c≥0.5時(shí)
則經(jīng)過(guò)轉(zhuǎn)換后的決策支持度值表示為:
第4步:依據(jù)OWA算子權(quán)重向量和轉(zhuǎn)換后的支持度對(duì)數(shù)據(jù)進(jìn)行融合,并計(jì)算各決策的最終決策值;
其中:bij為中第i個(gè)最大元素。
第5步:根據(jù)實(shí)際問(wèn)題按決策值大小做出決策。
以某公司為了提高其產(chǎn)品市場(chǎng)競(jìng)爭(zhēng)力,擬從同一品牌下多種型號(hào)產(chǎn)品中挑選一款進(jìn)行重點(diǎn)打造為例。假設(shè)現(xiàn)有5種型號(hào)的產(chǎn)品,型號(hào)為A1、A2、A3、A4、A5,公司可搜集到的數(shù)據(jù)包括產(chǎn)品市場(chǎng)需求預(yù)測(cè)、產(chǎn)品使用后的反饋、產(chǎn)品參數(shù)、產(chǎn)品使用歷史狀態(tài)、產(chǎn)品故障以及同行專(zhuān)家提供的建議等數(shù)據(jù)信息。針對(duì)各型號(hào)產(chǎn)品從市場(chǎng)需求評(píng)價(jià)a1、平均年故障次數(shù)a2(μ= 3.5,σ=0.8)、最長(zhǎng)無(wú)故障時(shí)間a3(μ=12.28,σ=2.53)、經(jīng)濟(jì)性a4、用戶(hù)評(píng)價(jià)a5和專(zhuān)家建議a66個(gè)方面進(jìn)行比較。通過(guò)對(duì)數(shù)據(jù)進(jìn)行整理,得到各個(gè)指標(biāo)數(shù)據(jù)信息如表3所示。
1)對(duì)表中各數(shù)據(jù)描述類(lèi)型分析知:a1和a4為程度型,按表2進(jìn)行變換;a2和a3為隨機(jī)變量型,按式1進(jìn)行變換;n且取15;a5為二值型數(shù)據(jù)(表中數(shù)據(jù)為用戶(hù)評(píng)價(jià)為“好”的比例),按式2進(jìn)行變換;a6為詞匯空間描述型,按式(3)進(jìn)行變換。則對(duì)表3中統(tǒng)一量化處理的結(jié)果如表4所示。
2)選擇“大多數(shù)”作為模糊語(yǔ)義原則,式(6)中的和分別為0.3和0.8,根據(jù)式(5)和式(6)可得到OWA權(quán)重向量:w=(0,0.067,0.33,0.33,0.27,0),
計(jì)算出權(quán)重向量后,根據(jù)式(7)求得:
3)根據(jù)pi和sij結(jié)合式(9)和式(10)對(duì)表4中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換結(jié)果如表5所示。
4)對(duì)表5中的每列按第二個(gè)數(shù)據(jù)值從大到小排序,并根據(jù)式(11)進(jìn)行計(jì)算的結(jié)果如表6所示。
表3 各產(chǎn)品支持度和數(shù)據(jù)源可信度
表4 各產(chǎn)品支持度的統(tǒng)一量化結(jié)果
表5 數(shù)據(jù)變換后的結(jié)果
表6 最終決策結(jié)果
5)從表6可以看出,A3產(chǎn)品的支持度最高,則重點(diǎn)考慮第A3型號(hào)產(chǎn)品。
文中建立了多源異構(gòu)數(shù)據(jù)融合結(jié)構(gòu)模型,研究了基于三角模糊數(shù)的異構(gòu)數(shù)據(jù)量化處理方法,基于OWA算子設(shè)計(jì)了數(shù)據(jù)融合算法,實(shí)際應(yīng)用證明算法是可行的和有效的。本文的研究為建立智能決策支持系統(tǒng)提供了一種可行的方案,對(duì)其他類(lèi)似的數(shù)據(jù)處理和融合具有一定的借鑒作用。
[1]Nakamura E R,Loureiro A A F,F(xiàn)rery A C.Information fusion for wireless sensor networks:Methods,models and classifications[J].ACM Computer SURV,2007,39(A9):1-55.
[2]李文闖,章永平,潘瑜春.移動(dòng)地理信息系統(tǒng)中的多源異構(gòu)數(shù)據(jù)融合模型[J].計(jì)算機(jī)應(yīng)用,2012,32(9):2672-2678.
[3]凌云.基于物聯(lián)網(wǎng)的異構(gòu)傳感數(shù)據(jù)融合方法研究[J].計(jì)算機(jī)仿真,2011,28(11):138-140.
[4]胡永利,樸星霖,孫艷豐,等.多源異構(gòu)感知數(shù)據(jù)融合方法及其在目標(biāo)定位跟蹤中的應(yīng)用[J].中國(guó)科學(xué),2013,43(10): 1288-1306.
[5]徐田華,楊連報(bào),胡紅利,等.高速鐵路信號(hào)系統(tǒng)異構(gòu)數(shù)據(jù)融合和智能維護(hù)決策[J].西安交通大學(xué)學(xué)報(bào),2015,49(1): 72-78.
[6]李國(guó)清,胡乃聯(lián),陳玉民.數(shù)字礦山中多源異構(gòu)數(shù)據(jù)融合技術(shù)研究[J].中國(guó)礦業(yè),2011,20(4):90-93.
[7]WANG Guang-yun,LI Wei-hua,HUA Wen-jian,et al.A method for heterogeneous uncertain information fusion and its application[C].International Conference on Signal Processing Proceedings,2004(3):2253-2256.
[8]俞黎陽(yáng),王能,張衛(wèi).無(wú)線(xiàn)傳感器網(wǎng)絡(luò)中基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合模型[J].計(jì)算機(jī)科學(xué),2008,12(35):43-47.
Research on multi-source heterogeneous data fusion and its application
JIANG Jian-hua1,HONG Nian-song2,ZHANG Guang-yun1
(1.School of Computer Engineering&Technology,Guangdong Institute of Science&Technology,Zhuhai 519090,China;2.College of Information and Communications,Zhejiang Industry&Trade Polytechnic,Wenzhou 325003,China)
As to the multi-source data fusion based multi-user decision,a model of multi-source heterogeneous data fusion was designed.Triangular fuzzy number based uniform quantity description of multi-source data was researched.The ordered weight average(OWA)was used to deal with the preference of decision-maker and a data fusion algorithm for decision making was designed.At last,practical application shows the algorithm can solve the problems of semantic ambiguity,difference and heterogeneity of multi-source heterogeneous data,and the reliability of decision results was improved by considering data maker's preference into the process of data fusion.
multi-source heterogeneous data;data fusion;triangular fuzzy number;ordered weight average
TN01
A
1674-6236(2016)12-0033-04
2015-06-24稿件編號(hào):201506219
姜建華(1978—),男,湖北洪湖人,博士研究生,講師。研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。