国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向智慧中臺的多源數(shù)據(jù)集成技術(shù)研究

2020-02-03 02:39馬耀家曹揚(yáng)陳駿曾藝?yán)?/span>陳珊珊
電子技術(shù)與軟件工程 2020年19期
關(guān)鍵詞:中臺數(shù)據(jù)源架構(gòu)

馬耀家 曹揚(yáng) 陳駿 曾藝?yán)?陳珊珊

(江蘇蘇星資產(chǎn)管理有限公司 江蘇省南京市 210000)

多源數(shù)據(jù)集成是指通過運(yùn)用不同數(shù)據(jù)工具,將不同來源的數(shù)據(jù)源集成到所用平臺或系統(tǒng)內(nèi),成為所用平臺或系統(tǒng)能夠識別的數(shù)據(jù)形式[1]。由于數(shù)據(jù)在采集過程中具有明顯的差異,導(dǎo)致數(shù)據(jù)源形式不一,需對此類多源數(shù)據(jù)實(shí)施集成處理。當(dāng)前與數(shù)據(jù)集成相關(guān)的體系架構(gòu)主要包含數(shù)據(jù)復(fù)制及模式集成等。數(shù)據(jù)復(fù)制是通過復(fù)制不同數(shù)據(jù)源,對數(shù)據(jù)源整體的統(tǒng)一性實(shí)施維護(hù)實(shí)現(xiàn)多源數(shù)據(jù)集成;模式集成是通過轉(zhuǎn)化各個(gè)局部概念模式,實(shí)現(xiàn)多源數(shù)據(jù)集成。但上述方法未能有效解決數(shù)據(jù)集成的數(shù)據(jù)源添加與語義等問題。為此,本文運(yùn)用SOA 構(gòu)建多源數(shù)據(jù)集成技術(shù)架構(gòu),對不同數(shù)據(jù)源實(shí)施集成處理后用于智慧中臺內(nèi),實(shí)施相應(yīng)的操作與管理等,提升操作與管理的時(shí)效性。

1 面向智慧中臺的多源數(shù)據(jù)集成技術(shù)

1.1 多源數(shù)據(jù)集成技術(shù)總體架構(gòu)

運(yùn)用SOA 體系結(jié)構(gòu)構(gòu)建包含數(shù)據(jù)源服務(wù)層與應(yīng)用服務(wù)層的多源數(shù)據(jù)集成技術(shù)總體架構(gòu),其中數(shù)據(jù)源服務(wù)層主要針對智慧中臺的現(xiàn)實(shí)數(shù)據(jù)實(shí)施管理,智慧中臺的數(shù)據(jù)源主要為關(guān)系數(shù)據(jù)庫與半結(jié)構(gòu)化數(shù)據(jù)源XML 文件等;應(yīng)用服務(wù)層針對數(shù)據(jù)源服務(wù)層內(nèi)各個(gè)數(shù)據(jù)源內(nèi)源數(shù)據(jù)實(shí)施集成處理[2]。ESB 經(jīng)服務(wù)注冊、調(diào)用及查詢等對應(yīng)用服務(wù)層的不同服務(wù)實(shí)施集中管理,ESB 不但可實(shí)現(xiàn)動(dòng)態(tài)管理服務(wù),同時(shí)可經(jīng)數(shù)據(jù)查詢優(yōu)化模塊與數(shù)據(jù)訪問模塊等提升智慧中臺的性能與安全性。

1.2 語義模塊功能

智慧中臺運(yùn)用了全局模糊本體,對通過消息服務(wù)模塊向語義模塊所傳遞的標(biāo)準(zhǔn)格式源數(shù)據(jù)實(shí)施更正。若用戶定義的擴(kuò)展參數(shù)表與模糊本體創(chuàng)建均表明需實(shí)施語義查詢擴(kuò)展,即對源數(shù)據(jù)實(shí)施對應(yīng)的調(diào)整,同時(shí)基于語義擴(kuò)展查詢,提升查全率與查準(zhǔn)率[3]。以查詢源數(shù)據(jù)為依據(jù),創(chuàng)建匹配規(guī)則,將本體映射文件生成,通過全局本體庫將查詢結(jié)果部分轉(zhuǎn)化為通用模式,可以有效解決智慧中臺的語義問題。

1.3 數(shù)據(jù)存儲

1.3.1 基于MC 算法的防御攻擊處理

將執(zhí)行任務(wù)所得結(jié)果內(nèi)不同歸檔文件的副本冗余數(shù)量設(shè)為r,當(dāng)有攻擊發(fā)生時(shí),運(yùn)用RS 編碼(Reed-solomon codes,RS codes)冗余副本與冗余信息,不能恢復(fù)歸檔文件中不同RS 分組fi的概率上限可表示為:

式中,RS 編碼碼距以d 表示;碼組長度與大規(guī)模數(shù)據(jù)塊數(shù)量分別以g 和n 表示;RS 分組事件以C 表示;數(shù)據(jù)塊損壞比例以σ表示。

將通過RS 冗余編碼擴(kuò)展之后的不同RS 碼組內(nèi)容設(shè)為 (F1,F2,K,Gg),將不同F(xiàn)i元素視作單獨(dú)隨機(jī)變量。Fi可取為1 或0,當(dāng)Fi為1 時(shí),代表數(shù)據(jù)塊損壞;當(dāng)Fi為0 時(shí),代表數(shù)據(jù)塊完整,記為E(Fi)=σ。當(dāng)存在隨機(jī)變量時(shí),可得到:

圖1:數(shù)據(jù)存儲過程圖

將不能恢復(fù)的第i 個(gè)具備錯(cuò)誤的RS 分組事件通過Ci表示,已知分組內(nèi)具備錯(cuò)誤的數(shù)據(jù)塊比閾值高,則事件Ci的Chernoff 上界式為:

在歸檔內(nèi)不同RS 編碼分組為相互獨(dú)立關(guān)系,當(dāng)歸檔D 內(nèi)存在n 塊數(shù)據(jù)塊時(shí),在遭受到攻擊破壞時(shí),無法恢復(fù)的概率式可表示為:

所獲得的數(shù)據(jù)恢復(fù)概率式可表示為:

綜上所述,當(dāng)執(zhí)行任務(wù)所得結(jié)果內(nèi)待存儲源數(shù)據(jù)遭受攻擊行為時(shí),MC 算法具備的數(shù)據(jù)糾錯(cuò)能力較高,執(zhí)行任務(wù)所得結(jié)果的副本冗余數(shù)據(jù)、大規(guī)模數(shù)據(jù)塊數(shù)量以及RS 編碼碼距均對MC 算法的糾錯(cuò)性能具有決定性作用。

1.3.2 數(shù)據(jù)存儲過程

經(jīng)MC 算法對執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)實(shí)施防御攻擊處理后,運(yùn)用增量捕獲工具、Sqoop 及Kafka 等數(shù)種技術(shù)方式,接入執(zhí)行任務(wù)所得結(jié)果安全數(shù)據(jù),依據(jù)統(tǒng)一數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)化格式儲存不同類別數(shù)據(jù)庫[4]。數(shù)據(jù)存儲過程如圖1所示。

運(yùn)用Hadoop 的并行加載機(jī)制,對線上與線下的消息實(shí)施統(tǒng)一處理,提升數(shù)據(jù)向Hadoop 集群內(nèi)存儲的便利性[5];同時(shí)可將數(shù)據(jù)通道格式規(guī)范化,且準(zhǔn)許智慧中臺各實(shí)施一次數(shù)據(jù)獲取與寫入,有效降低數(shù)據(jù)通道的操作用時(shí)與繁瑣性。

圖2:應(yīng)用本文技術(shù)前后智慧中臺語義識別精度對比

圖3:應(yīng)用本文技術(shù)前后智慧中臺各項(xiàng)操作用時(shí)對比

1.4 冗余數(shù)據(jù)處理

為提升已存儲執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)的有效性,應(yīng)將異常數(shù)據(jù)剔除掉。其中異常數(shù)據(jù)重點(diǎn)有重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)及不完整數(shù)據(jù)等,各種異常數(shù)據(jù)的清洗處理方式為:

(1)重復(fù)數(shù)據(jù):導(dǎo)出重復(fù)數(shù)據(jù)的全部字段,選擇性地實(shí)施剔除;

(2)錯(cuò)誤數(shù)據(jù):針對與全角字符相似及數(shù)據(jù)前后存在不可見字符等問題,可采用SQL 語句書寫方式找尋出,并在業(yè)務(wù)系統(tǒng)更正后抽取出;

(3)不完整數(shù)據(jù):過濾出此類不完整數(shù)據(jù),分別依據(jù)缺失內(nèi)容向各個(gè)文件寫入,需在設(shè)定時(shí)間之內(nèi)全部補(bǔ)全,待補(bǔ)全之后即可向數(shù)據(jù)庫內(nèi)寫入。

通過建立多源數(shù)據(jù)集成技術(shù)架構(gòu),采用MC 算法防御攻擊處理數(shù)據(jù),獲得安全存儲數(shù)據(jù),生成統(tǒng)一的XML 格式集成數(shù)據(jù),由此完成多源數(shù)據(jù)集成。

2 應(yīng)用結(jié)果分析

以江蘇蘇星資產(chǎn)管理有限公司的智慧中臺作為實(shí)驗(yàn)對象,將本文技術(shù)應(yīng)用于此智慧中臺內(nèi),檢驗(yàn)本文技術(shù)的實(shí)際應(yīng)用效果。

2.1 語義識別精度檢測

以人事調(diào)度信息、車輛管理信息、餐飲服務(wù)信息、工程維護(hù)信息以及會務(wù)接待信息為例,通過實(shí)驗(yàn)公司智慧中臺實(shí)施語義識別,檢測應(yīng)用本文技術(shù)前后智慧中臺的語義識別精度,檢測結(jié)果如圖2所示。

通過圖2 能夠看出,在對不同信息實(shí)施語義識別過程中,應(yīng)用本文技術(shù)前智慧中臺的語義識別一致度值在54.5%~74.6%之間,而應(yīng)用本文技術(shù)后智慧中臺的語義識別一致度值在74.5%~89.6%之間。由此說明,本文技術(shù)的語義識別一致度較高,可提升實(shí)驗(yàn)公司智慧中臺的語義識別精度。

2.2 操作效率檢測

記錄應(yīng)用本文技術(shù)前后的智慧中臺實(shí)施操作操作所用時(shí)間并對比,結(jié)果如圖3所示。

分析圖3 可得出,應(yīng)用本文技術(shù)后智慧中臺實(shí)施五項(xiàng)操作的總用時(shí)為88.5ms,而應(yīng)用本文技術(shù)前智慧中臺實(shí)施五項(xiàng)操作的總用時(shí)為124.8ms,應(yīng)用本文技術(shù)后智慧中臺實(shí)施五項(xiàng)操作的總用時(shí)比應(yīng)用本文技術(shù)前降低了29.09%。說明本文技術(shù)可提升實(shí)驗(yàn)公司智慧中臺的操作效率,提高了實(shí)驗(yàn)公司的服務(wù)響應(yīng)時(shí)效性。

3 結(jié)論

本文通過構(gòu)建集成技術(shù)整體架構(gòu),實(shí)現(xiàn)對數(shù)據(jù)源服務(wù)層內(nèi)多源數(shù)據(jù)的集成處理,將本文技術(shù)應(yīng)用于智慧中臺內(nèi),能夠有效提升語義識別精度,本文技術(shù)應(yīng)用后更具時(shí)效性,并以此提升該公司的服務(wù)水平與服務(wù)效率。

猜你喜歡
中臺數(shù)據(jù)源架構(gòu)
基于FPGA的RNN硬件加速架構(gòu)
中臺是媒體轉(zhuǎn)型必經(jīng)之路嗎?
——媒體中臺建設(shè)的特點(diǎn)和誤區(qū)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
關(guān)于零售企業(yè)“中臺”建設(shè)的研究
汽車制造企業(yè)質(zhì)量中臺研究
以技術(shù)開發(fā)中心為中臺,數(shù)字化轉(zhuǎn)型之見解
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價(jià)研究
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價(jià)算法