張?jiān)品? 盧燦舉 李超
摘 要:針對(duì)多源信息類型不一致影響信息利用效率的問(wèn)題,文章在分析傳統(tǒng)多源數(shù)據(jù)融合模型的基礎(chǔ)上,研究了多源信息融合軟件的架構(gòu)及相關(guān)技術(shù),設(shè)計(jì)并開(kāi)發(fā)的軟件具有較高的實(shí)用價(jià)值。
關(guān)鍵詞:多源信息;信息融合;軟件開(kāi)發(fā)
多源信息融合是通過(guò)將多種信源在空間上和時(shí)間上的互補(bǔ)與冗余信息依據(jù)某種優(yōu)化準(zhǔn)則組合起來(lái),產(chǎn)生對(duì)特點(diǎn)對(duì)象的一致性解釋與描述。數(shù)據(jù)融合技術(shù)是指利用計(jì)算機(jī)對(duì)獲得的信息,在一定準(zhǔn)則下加以自動(dòng)分析、綜合,以完成所需決策和評(píng)估任務(wù)而進(jìn)行的信息處理技術(shù)。主要包括對(duì)各類信息源給出有用信息的采集、傳輸、綜合、過(guò)濾、相關(guān)及合成,以便輔助人們進(jìn)行態(tài)勢(shì)/環(huán)境判定、規(guī)劃、探測(cè)、驗(yàn)證。
數(shù)據(jù)格式統(tǒng)一是進(jìn)行數(shù)據(jù)處理的前提。由于信息的來(lái)源多,數(shù)據(jù)格式類別差異較大,對(duì)于數(shù)據(jù)處理帶來(lái)不便。多源信息融合軟件能夠?qū)崿F(xiàn)多源異構(gòu)數(shù)據(jù)信息整合,對(duì)于充分利用信息資源、提高數(shù)據(jù)處理系統(tǒng)性能具有實(shí)用價(jià)值。
1 多源數(shù)據(jù)融合模型
根據(jù)對(duì)輸入信息的抽象或融合輸出結(jié)果的不同,可以將信息融合分為不同的3級(jí),包括數(shù)據(jù)級(jí)融合、特征級(jí)融合及決策級(jí)融合。
作為數(shù)據(jù)級(jí)的多源數(shù)據(jù)融合模型的結(jié)構(gòu)如圖1所示。多源數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換,形成有效數(shù)據(jù),通過(guò)數(shù)據(jù)處理形成數(shù)據(jù)挖掘分析等處理工作的有效數(shù)據(jù)。
數(shù)據(jù)清理是指去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺留數(shù)據(jù)和清洗臟數(shù)據(jù),去除數(shù)據(jù)域的知識(shí)背景上的白噪聲,考慮時(shí)間順序和數(shù)據(jù)變化等。主要包括處理噪聲數(shù)據(jù),處理空值,糾正不一致數(shù)據(jù)等。
數(shù)據(jù)集成就是將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。
數(shù)據(jù)變換就是將數(shù)據(jù)變換成統(tǒng)一的適合處理的形式。數(shù)據(jù)變換主要包括平滑、聚集、屬性構(gòu)造、數(shù)據(jù)泛化和規(guī)范化等內(nèi)容。
2 多源信息融合軟件設(shè)計(jì)
2.1 軟件架構(gòu)
多源信息融合軟件的技術(shù)要求是實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)向指定關(guān)系數(shù)據(jù)庫(kù)進(jìn)行可靠轉(zhuǎn)換。就是按照指定關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)要求,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的數(shù)據(jù)導(dǎo)入及格式轉(zhuǎn)換問(wèn)題。軟件的組成框圖如圖2所示。軟件主要包括2個(gè)主要模塊,多源數(shù)據(jù)預(yù)處理模塊和數(shù)據(jù)導(dǎo)入模塊。數(shù)據(jù)預(yù)處理模塊主要進(jìn)行數(shù)據(jù)清理及格式轉(zhuǎn)換,實(shí)現(xiàn)常用的數(shù)據(jù)(txt、xls、關(guān)系數(shù)據(jù)庫(kù)等數(shù)據(jù))轉(zhuǎn)換為目標(biāo)數(shù)據(jù)庫(kù)支持的數(shù)據(jù)格式。數(shù)據(jù)導(dǎo)入實(shí)現(xiàn)指定類型數(shù)據(jù)轉(zhuǎn)換為指定結(jié)構(gòu)數(shù)據(jù)。
2.2 關(guān)鍵技術(shù)
為了保證多源信息軟件的可靠運(yùn)行,需解決數(shù)據(jù)類型的適應(yīng)性和擴(kuò)展性問(wèn)題,以及數(shù)據(jù)轉(zhuǎn)換的可靠性、可預(yù)制性、數(shù)據(jù)轉(zhuǎn)換過(guò)程的可監(jiān)督性問(wèn)題。
2.2.1 基于模塊化設(shè)計(jì)的類型轉(zhuǎn)換
模塊化設(shè)計(jì)是指在對(duì)一定范圍內(nèi)的不同功能或相同功能不同性能、不同規(guī)格的產(chǎn)品進(jìn)行功能分析的基礎(chǔ)上,劃分并設(shè)計(jì)出一系列功能模塊,通過(guò)模塊的選擇和組合可以構(gòu)成不同的產(chǎn)品,以滿足市場(chǎng)的不同需求的設(shè)計(jì)方法。
雖然目前主流數(shù)據(jù)庫(kù)管理系統(tǒng)都支持?jǐn)?shù)據(jù)轉(zhuǎn)換功能,但數(shù)據(jù)庫(kù)管理系統(tǒng)支持的數(shù)據(jù)類型有限,對(duì)于新增類型數(shù)據(jù),只能通過(guò)升級(jí)或更換數(shù)據(jù)庫(kù)解決。即使對(duì)于支持類型的數(shù)據(jù),有些情況不能實(shí)現(xiàn)正確轉(zhuǎn)換,例如文本文件只能識(shí)別典型分隔符(制表符、空格等),不具有按指定分隔符實(shí)現(xiàn)轉(zhuǎn)換功能。存在數(shù)據(jù)庫(kù)版本問(wèn)題,高版本數(shù)據(jù)不能直接轉(zhuǎn)換低版本數(shù)據(jù)庫(kù)數(shù)據(jù)。使用數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換功能需有管理員權(quán)限,但為了保證數(shù)據(jù)庫(kù)管理系統(tǒng)安全,不便于開(kāi)放管理員權(quán)限,影響數(shù)據(jù)轉(zhuǎn)換。
模塊化設(shè)計(jì)思想在類型轉(zhuǎn)換中的運(yùn)用就是通過(guò)建立統(tǒng)一的類型轉(zhuǎn)換輸入接口,對(duì)于新增類型數(shù)據(jù)的轉(zhuǎn)換問(wèn)題,只要將新增類型轉(zhuǎn)換模塊按照標(biāo)準(zhǔn)格式定義接口,就能實(shí)現(xiàn)新增模塊的可靠增加,減少系統(tǒng)二次開(kāi)發(fā)成本,有效提高系統(tǒng)的適應(yīng)性及擴(kuò)展性。
2.2.2 多線程編程技術(shù)
多線程機(jī)制是指在單個(gè)程序中同時(shí)運(yùn)行多個(gè)線程完成不同的工作,每個(gè)線程與其他線程并發(fā)執(zhí)行。多線程適合執(zhí)行占用大量時(shí)間的操作,執(zhí)行區(qū)分不同優(yōu)先級(jí)的任務(wù),能夠滿足用戶界面在將時(shí)間分配給后臺(tái)任務(wù)時(shí)仍能快速做出響應(yīng)的需求。
由于需轉(zhuǎn)換的數(shù)據(jù)量較大,使得數(shù)據(jù)轉(zhuǎn)換時(shí)間較長(zhǎng),如數(shù)據(jù)不一致或不完整等問(wèn)題將出現(xiàn)轉(zhuǎn)換中斷或數(shù)據(jù)遺漏等情況,所以及時(shí)了解轉(zhuǎn)換進(jìn)度以及實(shí)現(xiàn)異??焖夙憫?yīng)對(duì)于保證有效轉(zhuǎn)換具有重要意義。
軟件采用多線程技術(shù)解決數(shù)據(jù)處理進(jìn)度、過(guò)程可見(jiàn)性以及及時(shí)進(jìn)行異常處理等問(wèn)題。軟件通過(guò)實(shí)時(shí)顯示轉(zhuǎn)換進(jìn)度及轉(zhuǎn)換狀態(tài),有利于實(shí)現(xiàn)轉(zhuǎn)換進(jìn)度和狀態(tài)的有效監(jiān)督。對(duì)于數(shù)據(jù)轉(zhuǎn)換異常,能夠及時(shí)終止轉(zhuǎn)換進(jìn)程或者調(diào)整轉(zhuǎn)換策略,保證數(shù)據(jù)轉(zhuǎn)換的有效性。
2.2.3 基于任務(wù)的數(shù)據(jù)導(dǎo)入
數(shù)據(jù)預(yù)處理獲得的數(shù)據(jù)還需轉(zhuǎn)換為數(shù)據(jù)處理所需格式的數(shù)據(jù),即將轉(zhuǎn)換的源數(shù)據(jù)可靠導(dǎo)入到指定格式的目的數(shù)據(jù)表。數(shù)據(jù)的可靠導(dǎo)入不只是在系統(tǒng)正常運(yùn)行時(shí)保證大量數(shù)據(jù)的導(dǎo)入,更主要是保證在人為終止、系統(tǒng)故障等情況引起異常的情況下,有效實(shí)現(xiàn)斷點(diǎn)續(xù)導(dǎo)。
基于任務(wù)管理的數(shù)據(jù)導(dǎo)入的思想是將數(shù)據(jù)導(dǎo)入分成導(dǎo)入任務(wù)創(chuàng)建、導(dǎo)入任務(wù)管理、導(dǎo)入進(jìn)度監(jiān)督、導(dǎo)入異常處理4個(gè)部分。其中導(dǎo)入任務(wù)創(chuàng)建就是確定源數(shù)據(jù)表導(dǎo)入字段與目的數(shù)據(jù)表相關(guān)字段的對(duì)應(yīng)關(guān)系;導(dǎo)入任務(wù)管理就是實(shí)現(xiàn)任務(wù)名稱,對(duì)應(yīng)關(guān)系等任務(wù)相關(guān)數(shù)據(jù)源信息管理;導(dǎo)入進(jìn)度監(jiān)督就是展示導(dǎo)入任務(wù)的完成情況,即通過(guò)已導(dǎo)入的數(shù)據(jù)量與源數(shù)據(jù)總記錄數(shù)量的比較,確定任務(wù)完成情況,有利于指導(dǎo)后期導(dǎo)入工作;導(dǎo)入異常處理就是根據(jù)導(dǎo)入任務(wù)異常結(jié)束情況,進(jìn)行無(wú)效信息處理,保證有效進(jìn)行可靠導(dǎo)入?;谌蝿?wù)管理的數(shù)據(jù)導(dǎo)入,保證了數(shù)據(jù)導(dǎo)入的完整性和可靠性。
3 軟件性能及主要界面
多源信息融合軟件能夠?qū)崿F(xiàn)如下功能:(1)實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)向指定數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入,有效地實(shí)現(xiàn)數(shù)據(jù)集成。(2)實(shí)現(xiàn)數(shù)據(jù)清理及有效信息提取。(3)實(shí)現(xiàn)斷點(diǎn)續(xù)導(dǎo),提高數(shù)據(jù)導(dǎo)入的可靠性。(4)方便新增類型數(shù)據(jù)轉(zhuǎn)換模塊添加,提高系統(tǒng)擴(kuò)展性。
系統(tǒng)的主要工作界面如圖3-5所示。
通過(guò)設(shè)置文本文件的分隔符,實(shí)現(xiàn)文本信息的有效分割,方便文本數(shù)據(jù)向數(shù)據(jù)庫(kù)格式轉(zhuǎn)換(見(jiàn)圖3)。
利用多線程技術(shù),實(shí)時(shí)觀察及控制數(shù)據(jù)導(dǎo)入和轉(zhuǎn)換進(jìn)度,保證可靠運(yùn)行(見(jiàn)圖4)。
任務(wù)管理由于確定導(dǎo)入關(guān)系,保證導(dǎo)入進(jìn)程可靠有序?qū)嵤ㄒ?jiàn)圖5)。
4 結(jié)語(yǔ)
未經(jīng)處理的多源異構(gòu)信息,嚴(yán)重影響數(shù)據(jù)利用效率。多源信息融合軟件運(yùn)用數(shù)據(jù)融合思想并結(jié)合實(shí)際需求,有效解決處理信息途徑龐雜、資源分散、數(shù)據(jù)處理效率不高的問(wèn)題,對(duì)于提升數(shù)據(jù)處理能力具有一定的應(yīng)用價(jià)值。
[參考文獻(xiàn)]
[1]韓崇昭,朱洪艷,段戰(zhàn)勝.多源信息融合[M].北京:清華大學(xué)出版社,2006.
[2]何友,薛培信,王國(guó)宏.一種新的信息融合功能模型[J].海軍航空工程學(xué)院學(xué)報(bào),2008(3):241-244.
[3]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.
Design and Implementation of Multi-source Information Integration Software
Zhang Yunfeng, Lu Canju, Li Chao
(Electronic Engineering Institute, Hefei 230037, China)
Abstract: Multi-source information is almost incoherence. This problem affects information utilization. Based on the analysis of multisource information fusion model, information integration software is designed and developed. The software has certain practical value.
Key words: multi-source information; information integration; software development