李賀 李曉琳
摘 要:隨著互聯(lián)網(wǎng)與信息化的普及,數(shù)據(jù)數(shù)量、數(shù)據(jù)來(lái)源與數(shù)據(jù)格式的復(fù)雜性愈加突出。互聯(lián)網(wǎng)、傳感器、人工收集等多種來(lái)源產(chǎn)生了海量異構(gòu)數(shù)據(jù),為解決多源異構(gòu)數(shù)據(jù)處理問題,設(shè)計(jì)一種將海量異構(gòu)數(shù)據(jù)自動(dòng)化集成到同一數(shù)據(jù)倉(cāng)庫(kù)的方法。通過(guò)建立元數(shù)據(jù)模型(以數(shù)據(jù)集為單位)將來(lái)源數(shù)據(jù)按數(shù)據(jù)集分類,映射整合到數(shù)據(jù)倉(cāng)庫(kù)中,通過(guò)CRF序列標(biāo)注模型、Skip-Gram神經(jīng)網(wǎng)絡(luò)、TF*IDF等機(jī)器學(xué)習(xí)技術(shù),解決了數(shù)據(jù)倉(cāng)庫(kù)集成中語(yǔ)義映射的難題,實(shí)現(xiàn)了海量多源異構(gòu)數(shù)據(jù)的自動(dòng)化入庫(kù),為之后的數(shù)據(jù)分析挖掘提供了良好基礎(chǔ)。
關(guān)鍵詞:海量異構(gòu)數(shù)據(jù)處理;元數(shù)據(jù);CRF序列標(biāo)注;Skip-Gram神經(jīng)網(wǎng)絡(luò);TF*IDF算法
DOI:10.11907/rjdk.172628
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)004-0194-03
Abstract:With the popularization of internet and information technology, the complexity among the number of data, data sources and data formats grows more and more prominent. Internet, sensors, artificial collection and other sources have produced massive heterogeneous data, so a method of automating the integration of massive heterogeneous data into the same data warehouse is designed to solve the problem of multi-source heterogeneous data processing. By setting up the metadata model (in units of data sets), the source data is classified according to the data set.The mapping is integrated into the data warehouse. Through the CRF sequence annotation model, Skip-Gram neural network, TF * IDF and other machine learning techniques, the problem of semantic mapping in data warehouse integration is solved, and the automatic storage of massive multi-source heterogeneous data is realized, so as to provide a good foundation for the subsequent dato analysis and mining.
Key Words:mass heterogeneous data; metadata; CRF sequence labeling; Skip-Gram neural networks; TF-IDF algorithm
0 引言
隨著互聯(lián)網(wǎng)的日漸普及,數(shù)據(jù)來(lái)源更加復(fù)雜[1],數(shù)據(jù)量更是以幾何級(jí)數(shù)增長(zhǎng)。如何合理梳理海量異構(gòu)、多來(lái)源的數(shù)據(jù)迫在眉睫。例如公安信息系統(tǒng)[2],由于全國(guó)公安信息互聯(lián),范圍廣、種類多、信息復(fù)雜,導(dǎo)致了數(shù)據(jù)的海量異構(gòu)。
同時(shí),數(shù)據(jù)處理與自然語(yǔ)言處理技術(shù)日趨完善,其中針對(duì)數(shù)據(jù)處理,尹寶才、王文通等[3]介紹了深度學(xué)習(xí)算法在不同數(shù)據(jù)處理中的最新應(yīng)用現(xiàn)狀及發(fā)展趨勢(shì);宗成慶[4]通過(guò)將給予規(guī)則的方法和給予統(tǒng)計(jì)的方法相結(jié)合,提高了自然語(yǔ)言處理正確率,并對(duì)語(yǔ)料庫(kù)技術(shù)、漢語(yǔ)自動(dòng)分詞與詞性標(biāo)注、句法分析、詞義消歧等進(jìn)行了研究。
本文基于海量異構(gòu)數(shù)據(jù)的實(shí)際場(chǎng)景,對(duì)多來(lái)源、多異構(gòu)的數(shù)據(jù)提出智能語(yǔ)義匹配的自動(dòng)化集成接入方案。首先提出將多源、相似數(shù)據(jù)合并成統(tǒng)一的數(shù)據(jù)集,以解決來(lái)源復(fù)雜、存儲(chǔ)重復(fù)的問題;其次,對(duì)多格式數(shù)據(jù)進(jìn)行分析,針對(duì)不同格式,填寫對(duì)應(yīng)的配置文件(文件格式、映射目錄、字段含義、分隔符等),實(shí)現(xiàn)多格式的數(shù)據(jù)處理;然后通過(guò)機(jī)器學(xué)習(xí)的語(yǔ)義匹配對(duì)語(yǔ)義相同、名稱不同的數(shù)據(jù)字段實(shí)現(xiàn)智能自動(dòng)化推薦,解決了來(lái)源數(shù)據(jù)集和企業(yè)內(nèi)標(biāo)準(zhǔn)數(shù)據(jù)集映射的問題;最后,采集大量樣本數(shù)據(jù),通過(guò)現(xiàn)場(chǎng)測(cè)試、學(xué)習(xí)樣本訓(xùn)練等,提高正確率。
1 設(shè)計(jì)思路
常見數(shù)據(jù)集集成方式[5]有:Federated Database(聯(lián)邦數(shù)據(jù)庫(kù))、Data Warehouse(數(shù)據(jù)倉(cāng)庫(kù))、Middleware(中間件體)。聯(lián)邦數(shù)據(jù)庫(kù)對(duì)多源數(shù)據(jù)采用部分集成方式,但查詢復(fù)雜、映射程序關(guān)聯(lián)過(guò)多;數(shù)據(jù)倉(cāng)庫(kù)能夠統(tǒng)一數(shù)據(jù)格式進(jìn)行存儲(chǔ),但數(shù)據(jù)源發(fā)生變化時(shí)不能及時(shí)更新;中間件體實(shí)際提供的是一種查詢方案,可進(jìn)行跨數(shù)據(jù)源的查詢,但存在查詢效率不高、速度慢等缺點(diǎn)。
聯(lián)邦數(shù)據(jù)庫(kù)和中間件體稱為模式集成方法,數(shù)據(jù)倉(cāng)庫(kù)稱為數(shù)據(jù)復(fù)制方法。兩種集成方法對(duì)比如表1所示。
綜上述,本文提出基于元數(shù)據(jù)的集成方案,企業(yè)內(nèi)部制定以數(shù)據(jù)集為單位的元數(shù)據(jù)模型,將海量異構(gòu)數(shù)據(jù)按數(shù)據(jù)集進(jìn)行分類,類似于模型化ETL過(guò)程,并對(duì)數(shù)據(jù)來(lái)源、地市、類別等信息進(jìn)行標(biāo)記,實(shí)現(xiàn)了數(shù)據(jù)的整體化和集成規(guī)范化。相對(duì)于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)方法,可通過(guò)元數(shù)據(jù)修正實(shí)現(xiàn)數(shù)據(jù)的及時(shí)更新;相對(duì)于中間件體方法,減少了跨數(shù)據(jù)庫(kù)的查詢模式,效率更高,關(guān)聯(lián)性更好,信息更全面。
語(yǔ)義匹配則是針對(duì)來(lái)源數(shù)據(jù)集分類映射到企業(yè)內(nèi)部元數(shù)據(jù)模型時(shí),存在的數(shù)據(jù)集歸類、具體字段含義分析問題而實(shí)現(xiàn)智能的映射關(guān)系推薦。整體設(shè)計(jì)如圖1所示。
2 方法實(shí)現(xiàn)
根據(jù)海量數(shù)據(jù)來(lái)源和相關(guān)企業(yè)及國(guó)家標(biāo)準(zhǔn),制定能夠廣泛涵蓋海量數(shù)據(jù)的元數(shù)據(jù)模型,并根據(jù)實(shí)際情況進(jìn)行增刪修改;根據(jù)數(shù)據(jù)集的推薦和對(duì)應(yīng)字段的映射關(guān)系,采用語(yǔ)義匹配方式進(jìn)行智能匹配。主要工作內(nèi)容包含以下幾部分:
(1)通過(guò)CRF序列標(biāo)注模型(Conditional Random Field)進(jìn)行相鄰語(yǔ)句標(biāo)記,通過(guò)上下文確定字段含義,實(shí)現(xiàn)中文文本自動(dòng)分詞,訓(xùn)練領(lǐng)域相關(guān)分詞器。CRF序列標(biāo)注模型屬于判別模型,主要對(duì)條件概率模型P(Y|X)進(jìn)行建模。學(xué)習(xí)時(shí),利用訓(xùn)練數(shù)據(jù)集通過(guò)極大似然估計(jì)或正則化的極大似然估計(jì),迭代求解模型參數(shù);預(yù)測(cè)時(shí),對(duì)于給定的輸入序列X,求出條件概率P(Y|X)最大的輸出序列Y[6]。
(2)針對(duì)訓(xùn)練好的領(lǐng)域相關(guān)分詞器,建立大量語(yǔ)料庫(kù),對(duì)語(yǔ)料進(jìn)行分詞處理,建立語(yǔ)言模型(基于Hierarchical Softmax的Skip-Gram神經(jīng)網(wǎng)絡(luò))訓(xùn)練領(lǐng)域詞向量[7-8]。
(3)去除字段中無(wú)含義的助詞部分(的、了、啊等語(yǔ)氣助詞),應(yīng)用TF-IDF算法[9-10]評(píng)估具體字段或語(yǔ)句在來(lái)源數(shù)據(jù)中的重要性,并通過(guò)對(duì)詞向量的加權(quán)平均,確定其歸屬數(shù)據(jù)集和對(duì)應(yīng)字段。
(4)數(shù)據(jù)集推薦問題分解為兩個(gè)步驟:數(shù)據(jù)集分類、集內(nèi)元素推薦。以之前人工完成的映射作為樣本進(jìn)行向量化,接入的數(shù)據(jù)集編號(hào)作為類別,應(yīng)用MLP建立分類模型,應(yīng)用MLP分類模型訓(xùn)練生成訓(xùn)練數(shù)據(jù)集,應(yīng)用相似性最大匹配算法遍歷解空間計(jì)算字段映射。經(jīng)實(shí)際數(shù)據(jù)檢驗(yàn),分類模型的F1值可達(dá)91%。
具體工作模式分為兩部分,對(duì)來(lái)源數(shù)據(jù)集采用緩存和語(yǔ)義詞向量?jī)煞N方式,實(shí)際步驟如下:①對(duì)數(shù)據(jù)集所有字段的中文描述進(jìn)行排序,然后按順序拼接成一個(gè)長(zhǎng)字符串。應(yīng)用哈希算法,計(jì)算出該數(shù)據(jù)集的哈希值Key。對(duì)字段中文進(jìn)行排序,是為了保證字段的不同順序不會(huì)影響輸出結(jié)果;②根據(jù)哈希值Key,從映射緩存池中查找是否存在相應(yīng)記錄與之對(duì)應(yīng),如果存在,則返回要接入的數(shù)據(jù)集編號(hào)和字段映射;如果不存在,則進(jìn)入基于語(yǔ)義詞向量的接入模式;③進(jìn)入基于語(yǔ)義詞向量的接入模式。將每個(gè)字段與每個(gè)數(shù)據(jù)集看作一個(gè)詞的容器,利用預(yù)訓(xùn)練好的分詞器對(duì)每個(gè)字段的中文描述進(jìn)行分詞;④對(duì)分詞結(jié)果進(jìn)行停詞過(guò)濾,排除一些常見卻沒有太多信息的詞,如“的”、“了”等;⑤統(tǒng)計(jì)每個(gè)詞在要接入數(shù)據(jù)集中出現(xiàn)的頻次TF(Term Frequency),根據(jù)該詞在歷史接入數(shù)據(jù)庫(kù)中的逆文檔頻率(IDF),計(jì)算每個(gè)詞的權(quán)重系數(shù)TF*IDF。對(duì)逆文檔頻率的計(jì)算過(guò)程要進(jìn)行平滑處理;⑥根據(jù)預(yù)訓(xùn)練的詞向量庫(kù),獲取每個(gè)詞對(duì)應(yīng)的詞向量。對(duì)于數(shù)據(jù)集的向量化,用數(shù)據(jù)集內(nèi)所有分詞詞向量的加權(quán)平均表示,加權(quán)系數(shù)為第⑤步計(jì)算的TF*IDF系數(shù);⑦將數(shù)據(jù)接入工作分解為兩部分,一是獲取對(duì)應(yīng)的目的數(shù)據(jù)集,二是在目的數(shù)據(jù)集內(nèi)通過(guò)相似性計(jì)算獲取字段映射表。將數(shù)據(jù)集的接入工作轉(zhuǎn)化為分類問題,可應(yīng)用現(xiàn)階段大量成熟的分類算法,應(yīng)用多層感知機(jī)(MLP)實(shí)現(xiàn)數(shù)據(jù)集多分類任務(wù)。利用歷史接入數(shù)據(jù)庫(kù)預(yù)訓(xùn)練好MLP,以第⑥步計(jì)算出的數(shù)據(jù)集的表征向量作為輸入,計(jì)算出目的數(shù)據(jù)集的類別編號(hào);⑧集內(nèi)字段相似性匹配。遍歷要接入的數(shù)據(jù)集,對(duì)于每一個(gè)字段,分別計(jì)算與目的數(shù)據(jù)集內(nèi)每個(gè)字段的相似性得分,得分最高者即為匹配字段。給出目的數(shù)據(jù)集編號(hào)和字段映射表;⑨將基于語(yǔ)義詞向量接入模式輸出的結(jié)果保存到映射緩存池中。技術(shù)流程如圖2所示。
3 結(jié)果分析
來(lái)源數(shù)據(jù):以快遞類數(shù)據(jù)為例,XX1為快遞單類信息,XX2為快遞訂單信息,XX3為快遞訂單記錄。元數(shù)據(jù)中快遞類數(shù)據(jù)集如圖3所示。
接入流程:當(dāng)有新的快遞類數(shù)據(jù)時(shí),通過(guò)對(duì)來(lái)源數(shù)據(jù)與元數(shù)據(jù)的語(yǔ)義匹配,得出對(duì)應(yīng)關(guān)系,將來(lái)源數(shù)據(jù)按照新的數(shù)據(jù)結(jié)構(gòu)入庫(kù),“物流公司名稱”、“地市”等標(biāo)記字段,根據(jù)數(shù)據(jù)來(lái)源自動(dòng)填充。最終將3個(gè)不同快遞公司的數(shù)據(jù)存入同一數(shù)據(jù)集中,并通過(guò)“物流公司名稱”進(jìn)行來(lái)源區(qū)分,不同數(shù)據(jù)集會(huì)有不同的來(lái)源區(qū)分字段??爝f數(shù)據(jù)入庫(kù)前后對(duì)比結(jié)果如圖4所示。
效果說(shuō)明:顯然3類不同廠家來(lái)源的快遞類信息,通過(guò)語(yǔ)義匹配的集成方法,很好地映射進(jìn)元數(shù)據(jù)模型中的快遞類數(shù)據(jù)集,并且標(biāo)注有廠商名稱、地市、來(lái)源等字段,信息完整、準(zhǔn)確、統(tǒng)一。
4 總結(jié)展望
本文介紹了通過(guò)制定元數(shù)據(jù)模型和機(jī)器學(xué)習(xí)的方法,將來(lái)源復(fù)雜、結(jié)構(gòu)各異的海量數(shù)據(jù)進(jìn)行匹配映射接入,實(shí)現(xiàn)了海量異構(gòu)數(shù)據(jù)的規(guī)范化。以下3個(gè)方面還需進(jìn)一步深入展開:①元數(shù)據(jù)維護(hù)需進(jìn)一步加強(qiáng),以應(yīng)對(duì)一些數(shù)據(jù)的實(shí)時(shí)更新,提高系統(tǒng)魯棒性;②建立基于HDFS、HBase的大數(shù)據(jù)存儲(chǔ)系統(tǒng),提高海量數(shù)據(jù)的接入處理速度;③不斷完善調(diào)整智能推薦模塊詞庫(kù)及其權(quán)重分配,提高推薦效率和準(zhǔn)確度。
參考文獻(xiàn):
[1] HAMPTON S,STRASSER C,TEWKSBURY J J,et al.Big data and the future of ecology[J]. frontiers in Ecology and the Environment,2013,11(3):156-162.
[2] 唐友軍.一個(gè)公安異構(gòu)數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].上海:同濟(jì)大學(xué),2008.
[3] 尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報(bào),2015(1):153-155.
[4] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].第2版.北京:清華大學(xué)出版社,2015.
[5] CALI A,CALVANESE D,GIACOMO G D,et al.Data integration under integrity constrainsts[C].The 14th International Conference on Advanced Information Systems Engineering,2004:147-163.
[6] 趙曉凡,胡順義,劉永革. CRF模型中參數(shù)f在字標(biāo)注漢語(yǔ)分詞中的適用性研究[J].鄭州大學(xué)學(xué)報(bào):工學(xué)版,2011(7):103-106.
[7] 蔡慧蘋.基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D].重慶:西南大學(xué),2016.
[8] 朱家暉.基于深度學(xué)習(xí)的主題建模方法研究[D].武漢:武漢大學(xué),2017.
[9] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志,2014(4):153-155.
[10] 郭太勇.一種基于改進(jìn)的TF-IDF和支持向量機(jī)的中文文本分類研究[J].軟件,2016(12):141-145.
(責(zé)任編輯:黃 ?。?/p>