国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法

2016-03-22 13:29李敏
電腦知識(shí)與技術(shù) 2016年1期
關(guān)鍵詞:匹配數(shù)據(jù)項(xiàng)特征詞

李敏

摘要:目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對(duì)數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)沒(méi)有加入中文名,故無(wú)法實(shí)現(xiàn)匹配。該文提出一種數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長(zhǎng)度、數(shù)據(jù)特征等多個(gè)角度設(shè)計(jì)算法,有較強(qiáng)的通用性,能夠在數(shù)據(jù)項(xiàng)名稱不規(guī)范或無(wú)中文名的情況下實(shí)現(xiàn)有效匹配。

關(guān)鍵詞: 數(shù)據(jù)元;數(shù)據(jù)項(xiàng);匹配;特征詞

中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)01-0005-02

An Algorithm of Matching Data Elements and Data Items

LI Min

(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

Key words: data element; data items; matching; feature words

隨著數(shù)據(jù)元標(biāo)準(zhǔn)的建立,數(shù)據(jù)元在各行各業(yè)的數(shù)據(jù)集成過(guò)程中擔(dān)任著重要角色,用于規(guī)范數(shù)據(jù)庫(kù)、報(bào)表中的數(shù)據(jù)項(xiàng)。目前數(shù)據(jù)元標(biāo)準(zhǔn)多以文檔形式出現(xiàn),主要依靠研發(fā)人員自覺(jué)遵守?cái)?shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行系統(tǒng)設(shè)計(jì)。在數(shù)據(jù)大集中體系下,業(yè)務(wù)系統(tǒng)彼此之間的數(shù)據(jù)依賴關(guān)系日益提高,數(shù)據(jù)質(zhì)量關(guān)系到業(yè)務(wù)系統(tǒng)能否正常運(yùn)行。依據(jù)標(biāo)準(zhǔn)數(shù)據(jù)元對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效核查,能進(jìn)一步保障數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)建立匹配映射關(guān)系是數(shù)據(jù)核查的前提。手工匹配費(fèi)時(shí)費(fèi)力,采用自動(dòng)匹配算法可有效提高工作效率。目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要利用字面相似程度實(shí)現(xiàn)匹配,這種算法對(duì)數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)沒(méi)有加入中文名,故無(wú)法實(shí)現(xiàn)匹配。

現(xiàn)有的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對(duì)數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)的規(guī)范化有較強(qiáng)依賴,另外大多業(yè)務(wù)數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)沒(méi)有加入中文名,故采用現(xiàn)有算法無(wú)法實(shí)現(xiàn)匹配。

現(xiàn)提出一種三級(jí)匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長(zhǎng)度、數(shù)據(jù)值特征等多個(gè)角度進(jìn)行比對(duì),對(duì)數(shù)據(jù)項(xiàng)命名是否規(guī)范性沒(méi)有嚴(yán)格要求,在數(shù)據(jù)項(xiàng)無(wú)中文名稱的情況下,根據(jù)數(shù)據(jù)特征也可實(shí)現(xiàn)有效匹配,通用性較強(qiáng)。

1 類型匹配

從數(shù)據(jù)類型轉(zhuǎn)換表中讀取數(shù)據(jù)元和數(shù)據(jù)項(xiàng)類型映射信息,在數(shù)據(jù)項(xiàng)信息上打上數(shù)據(jù)元類型標(biāo)識(shí),數(shù)據(jù)類型匹配運(yùn)算主要為了縮小運(yùn)算范圍,提高運(yùn)算效率,在進(jìn)行第二級(jí)、第三級(jí)匹配運(yùn)算時(shí),只針對(duì)某種類型的數(shù)據(jù)項(xiàng)進(jìn)行運(yùn)算處理。數(shù)據(jù)類型轉(zhuǎn)換表主要存放了標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的類型映射關(guān)系。數(shù)據(jù)元一般表示為字符、數(shù)字、日期等,數(shù)據(jù)項(xiàng)表達(dá)的是數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)類型,包括varchar、char、int、float等多種類型。

2 語(yǔ)義匹配

語(yǔ)義匹配運(yùn)算主要從數(shù)據(jù)元和數(shù)據(jù)項(xiàng)的語(yǔ)義層進(jìn)行匹配處理。數(shù)據(jù)元語(yǔ)義層包括名稱(N)、同義詞(Si)、對(duì)象(O)、特征詞(P)、表示詞(E);數(shù)據(jù)項(xiàng)語(yǔ)義層包括數(shù)據(jù)項(xiàng)名稱(M)、歸屬實(shí)體名稱(T)。在這些信息完整的情況下,本級(jí)運(yùn)算可實(shí)現(xiàn)較高比率的匹配效果。未實(shí)現(xiàn)匹配的數(shù)據(jù)項(xiàng)將放入第三級(jí)運(yùn)算中。

公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級(jí)運(yùn)算中,如果匹配值Probability大于0.5,可達(dá)到很高的有效匹配率。

3 數(shù)據(jù)特征匹配

第三級(jí)運(yùn)算是針對(duì)第二級(jí)運(yùn)算中匹配值小于0.5的數(shù)據(jù)項(xiàng)。本級(jí)運(yùn)算的主要思想是實(shí)現(xiàn)以標(biāo)準(zhǔn)數(shù)據(jù)元為中心的聚類分析,能夠適用算法的數(shù)據(jù)元其數(shù)值必定是有一定特征的,特征包括:

1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個(gè)字符處,必然會(huì)出現(xiàn)一些常見(jiàn)姓氏。

2) 是否枚舉值,獲取具體枚舉項(xiàng)。一般引用數(shù)據(jù)字典的數(shù)據(jù)項(xiàng)其 值必定是枚舉值。

3) 長(zhǎng)度是否有固定范圍,最短值、最長(zhǎng)值是什么。例如身份證號(hào)有15位和18位兩種。

4) 是否定長(zhǎng)值、定長(zhǎng)值是什么。

5) 數(shù)值是否有取值范圍,最大值、最小值分別是什么。

6) 數(shù)據(jù)是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

參見(jiàn)表2,數(shù)據(jù)元信息表。本步驟對(duì)數(shù)據(jù)元的信息完整性有較高要求,但考慮到如果使用數(shù)據(jù)元作為標(biāo)準(zhǔn)檢測(cè)數(shù)據(jù)質(zhì)量,對(duì)其約束信息的全面性完整性原本就會(huì)提出較高要求。

參見(jiàn)表3,數(shù)據(jù)項(xiàng)信息處理后如表所示。需要按照以上特征屬性對(duì)于已有數(shù)據(jù)進(jìn)行預(yù)處理,得到數(shù)據(jù)項(xiàng)信息,標(biāo)識(shí)出其具有的特征和特征值。待處理的數(shù)據(jù)質(zhì)量應(yīng)盡量準(zhǔn)確,可以采取異常點(diǎn)檢測(cè)和平滑處理方法對(duì)數(shù)據(jù)進(jìn)行清洗,目前已有很多此類算法,本專利不再贅述。數(shù)據(jù)項(xiàng)的特征詞不在數(shù)據(jù)預(yù)處理階段檢測(cè),只在與標(biāo)準(zhǔn)數(shù)據(jù)元進(jìn)行聚類分析時(shí)按照數(shù)據(jù)元的特征詞進(jìn)行檢索。

計(jì)算方法主要是對(duì)特征屬性進(jìn)行比對(duì),如果數(shù)據(jù)項(xiàng)特征屬性值在數(shù)據(jù)元特征屬性值的取值范圍內(nèi),則為1,否則為0。公式如下:

[Probability=0.2L+j=160.4Pj]

在數(shù)據(jù)元信息完整的情況下,匹配值大于0.6的數(shù)據(jù)項(xiàng)可到達(dá)到較高的有效匹配率。

4 總結(jié)

本算法通過(guò)對(duì)數(shù)據(jù)元類型長(zhǎng)度、語(yǔ)義說(shuō)明、數(shù)據(jù)特征等信息的充分利用,實(shí)現(xiàn)了數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的有效匹配;且三級(jí)運(yùn)算架構(gòu)中每級(jí)運(yùn)算縮小數(shù)據(jù)范圍,提高運(yùn)算效率;算法有較強(qiáng)的適用性,對(duì)于命名不規(guī)范或無(wú)中文名的數(shù)據(jù)項(xiàng)也可實(shí)現(xiàn)與數(shù)據(jù)元的有效匹配。

參考文獻(xiàn):

[1] 冉婕,孫瑜. 語(yǔ)義檢索中的詞語(yǔ)相似度計(jì)算研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2011(4).

[2] 文必龍, 任秀英,李乃峰,等. 基于數(shù)據(jù)元的數(shù)據(jù)模型語(yǔ)義映射技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2014(11).

[3] 文必龍,付玥. 數(shù)據(jù)集成中數(shù)據(jù)項(xiàng)與數(shù)據(jù)元匹配算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(3).

[4] 時(shí)貴英,文必龍,王志寶. 基于數(shù)據(jù)元的數(shù)據(jù)集成技術(shù)研究[J]. 科學(xué)技術(shù)與工程,2011(18).

[5] 文必龍,史春波,關(guān)翔瑞. 一種數(shù)據(jù)元語(yǔ)義描述方法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010(1).

[6] 秦善華,史春波,邵慶. 基于數(shù)據(jù)元的數(shù)據(jù)模型語(yǔ)義描述[J]. 大慶石油學(xué)院學(xué)報(bào),2009(3).

[7] 劉敏超,劉衛(wèi)東. 數(shù)據(jù)集成系統(tǒng)關(guān)鍵問(wèn)題研究[J]. 計(jì)算機(jī)應(yīng)用,2006(7).

[8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關(guān)系數(shù)據(jù)庫(kù)的查詢方法[J]. 大慶石油學(xué)院學(xué)報(bào),2004(2).

[9]尚云云. IT運(yùn)維服務(wù)管理支撐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2009.

[10] 章成志. 一種基于語(yǔ)義體系的同義詞識(shí)別研究[J]. 淮陰工學(xué)院學(xué)報(bào),2004(1).

[11] 魏宏,章建方. 數(shù)據(jù)元在電子政務(wù)標(biāo)準(zhǔn)體系中的概念與實(shí)踐[J]. 信息技術(shù)與標(biāo)準(zhǔn)化,2004(5).

[12] 王斌君,孫丕龍. 數(shù)據(jù)元標(biāo)準(zhǔn)在信息化中作用的再認(rèn)識(shí)——標(biāo)準(zhǔn)在信息化中的作用之二[J]. 中國(guó)人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2005(3).

[13] 劉羽飛,李健. 電子政務(wù)體系中數(shù)據(jù)元標(biāo)準(zhǔn)的概念與應(yīng)用[J]. 微計(jì)算機(jī)信息,2008(15).

[14] 高貴錦,龍翔. 基于數(shù)據(jù)元的交換數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)[J]. 吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2005(1).

[15] 劉慶河,郝文寧,韓憲勇,等. 基于數(shù)據(jù)元的數(shù)據(jù)交換規(guī)范研究[J]. 電腦知識(shí)與技術(shù),2010(10).

[16] 趙作鵬,尹志民,王潛平,等. 一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2009(2).

[17] 姚遠(yuǎn),李林,馮丹. 數(shù)據(jù)元管理及其網(wǎng)絡(luò)化管理平臺(tái)的設(shè)計(jì)[J]. 中國(guó)衛(wèi)生信息管理雜志,2012(1).

[18] 袁滿,陳永恒. 一種新型的面向信息化應(yīng)用的數(shù)據(jù)元支撐元模型[J]. 計(jì)算機(jī)應(yīng)用研究,2008(7).

猜你喜歡
匹配數(shù)據(jù)項(xiàng)特征詞
一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
非完整數(shù)據(jù)庫(kù)Skyline-join查詢*
基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
工程車輛柴油機(jī)與液力變矩器的功率匹配及優(yōu)化分析
面向文本分類的特征詞選取方法研究與改進(jìn)
多數(shù)據(jù)項(xiàng)請(qǐng)求的多信道并行廣播調(diào)度算法
關(guān)于“方言特征詞”理論的回顧及思考