国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分布式異構(gòu)科技資源池?cái)?shù)據(jù)融合設(shè)計(jì)

2021-07-01 05:22蔣添任季于東侯愛琴
物聯(lián)網(wǎng)技術(shù) 2021年6期
關(guān)鍵詞:跨平臺(tái)異構(gòu)代碼

蔣添任,季于東,侯愛琴

(西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)

0 引 言

各類科技資源種類繁多,由不同機(jī)構(gòu)管理、采集和維護(hù)。由于行政管理和信息技術(shù)等方面的障礙,存在嚴(yán)重的信息孤島現(xiàn)象,大量科技資源無法被用戶共享使用,造成資源的極大浪費(fèi)。針對(duì)專業(yè)科技資源和綜合科技資源的異種、異構(gòu)、異域、分布式多層等特點(diǎn),建立開放式跨平臺(tái)分布式科技資源池架構(gòu),首先需要對(duì)各類科技資源進(jìn)行匯聚、清洗和融合,進(jìn)而建立科技資源云分享平臺(tái),以便進(jìn)行精準(zhǔn)搜索、智能匹配,及分析、推理、評(píng)價(jià)和優(yōu)化。

專業(yè)科技資源是一個(gè)以標(biāo)準(zhǔn)和規(guī)范為基礎(chǔ),包含不同層次、不同類型,分散孤立又相互關(guān)聯(lián)的資源庫群,在全國各省市建立了眾多分支中心和基層分中心站點(diǎn),分散建庫為分布式分層科技資源部署形式。不同來源的科技資源數(shù)據(jù)匯聚到資源池必須進(jìn)行清洗融合。數(shù)據(jù)融合指將來自不同數(shù)據(jù)源的同一實(shí)體(如企業(yè)、個(gè)人)的不同表象融合成單一表象,消除潛在的數(shù)據(jù)沖突[1]。

本文重點(diǎn)研究基于分布式資源巨系統(tǒng)的資源融合方法,對(duì)來自萬方數(shù)據(jù)、東方靈盾及寧波信息院等不同結(jié)構(gòu)的專業(yè)科技資源數(shù)據(jù)進(jìn)行匯聚融合,以實(shí)現(xiàn)跨平臺(tái)的科技資源云共享。

1 數(shù)據(jù)融合相關(guān)工作

目前數(shù)據(jù)融合方法大多針對(duì)多傳感器或無線傳感網(wǎng)的多源數(shù)據(jù)融合[2],相關(guān)方法可抽象為數(shù)據(jù)級(jí)融合、特征級(jí)融合及決策級(jí)融合3個(gè)層次[3]。文獻(xiàn)[4]研究了對(duì)多個(gè)異構(gòu)傳感器數(shù)據(jù)進(jìn)行數(shù)據(jù)融合時(shí)的兼容性問題,提出基于多傳感器決策級(jí)數(shù)據(jù)融合的多任務(wù)深度學(xué)習(xí)模型。文獻(xiàn)[5]提出了多源異構(gòu)大數(shù)據(jù)的融合算法,結(jié)合3種數(shù)據(jù)融合功能模型對(duì)多源異構(gòu)大數(shù)據(jù)融合模型進(jìn)行設(shè)計(jì)。文獻(xiàn)[6]針對(duì)“信息孤島”中的關(guān)系數(shù)據(jù)融合問題,提出并實(shí)現(xiàn)了多源關(guān)系數(shù)據(jù)融合的基本框架(Multi-Source Relational Data Fusion, MSF)。框架包含3個(gè)主要部分,即模式匹配、實(shí)體對(duì)齊、實(shí)體融合。模式匹配面向多源關(guān)系數(shù)據(jù)的屬性對(duì)齊問題,結(jié)合屬性值的多維特征,提出基于匈牙利(Hungarian)算法的屬性間對(duì)齊發(fā)現(xiàn)機(jī)制,實(shí)現(xiàn)了多源關(guān)系數(shù)據(jù)的快速模式匹配。實(shí)體對(duì)齊連接多源關(guān)系中的元組對(duì),通過引入多樣性取樣策略和實(shí)體特征抽取方法,提升實(shí)體對(duì)齊的效果。最后將對(duì)齊實(shí)體融合,為數(shù)據(jù)分析提供統(tǒng)一的數(shù)據(jù)視圖。文獻(xiàn)[7]針對(duì)服務(wù)數(shù)據(jù)多源異構(gòu)、數(shù)據(jù)關(guān)系復(fù)雜的特點(diǎn),提出基于異構(gòu)信息網(wǎng)絡(luò)的服務(wù)聚合方法。該方法構(gòu)建了服務(wù)異構(gòu)信息網(wǎng)絡(luò),并提出基于服務(wù)實(shí)體間不同元路徑的相似度度量方法,結(jié)合協(xié)同過濾方法,在BPR模型訓(xùn)練框架下學(xué)習(xí)面向服務(wù)聚合的服務(wù)推薦模型。這種將服務(wù)數(shù)據(jù)表示成統(tǒng)一的異構(gòu)信息網(wǎng)絡(luò)的方式,有效整合了多源異構(gòu)數(shù)據(jù)。文獻(xiàn)[8]對(duì)面向異構(gòu)關(guān)系模式中關(guān)于關(guān)聯(lián)數(shù)據(jù)的一致性規(guī)則發(fā)現(xiàn)問題進(jìn)行研究,說明不論同源數(shù)據(jù)還是異源數(shù)據(jù),數(shù)據(jù)之間是相互關(guān)聯(lián)的,可以利用這種關(guān)系強(qiáng)化規(guī)則約束中語義含義的表達(dá)作用,發(fā)現(xiàn)數(shù)據(jù)中的潛在錯(cuò)誤。

從分布式科技資源來看,來自不同機(jī)構(gòu)的專業(yè)科技資源數(shù)據(jù)屬于各自的數(shù)據(jù)系統(tǒng),每個(gè)系統(tǒng)都有其自己定義的數(shù)據(jù)結(jié)構(gòu),無法直接跨平臺(tái)共享。基于以上問題,本文將探討一種資源池?cái)?shù)據(jù)融合方法,為分布式科技資源數(shù)據(jù)共享平臺(tái)提供支持。

2 專業(yè)科技資源數(shù)據(jù)融合

2.1 分布式資源數(shù)據(jù)融合設(shè)計(jì)

數(shù)據(jù)融合分析最主要的關(guān)注點(diǎn)是結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)的處理方法中應(yīng)用最廣泛的工具是Excel,利用Python編程語言對(duì)不同類型的數(shù)據(jù)進(jìn)行分析,并將其可視化。但現(xiàn)實(shí)中,共享平臺(tái)上的數(shù)據(jù)來源往往較多,無法直接利用上述處理方法。我們需要對(duì)不同來源的數(shù)據(jù)進(jìn)行清洗、融合,使其成為標(biāo)準(zhǔn)化的結(jié)構(gòu)數(shù)據(jù),存儲(chǔ)到相應(yīng)的數(shù)據(jù)庫中或者直接輸出。

本文對(duì)異構(gòu)分布式數(shù)據(jù)融合方法設(shè)計(jì)如圖1所示。首先采集分布式資源池原始數(shù)據(jù),由于分布式資源池?cái)?shù)據(jù)存在異構(gòu)現(xiàn)象,采集得到的數(shù)據(jù)格式各不相同。如萬方數(shù)據(jù)為JSON格式,東方靈盾數(shù)據(jù)為數(shù)據(jù)庫格式,因此需要將采集得到的分布式異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)庫格式。之后進(jìn)行數(shù)據(jù)預(yù)處理操作,對(duì)格式混雜且存在冗余現(xiàn)象的原始數(shù)據(jù)進(jìn)行亂碼等錯(cuò)誤字段的清洗和重復(fù)數(shù)據(jù)的篩選及互補(bǔ),并標(biāo)記資源來源。最后進(jìn)行異構(gòu)分布式數(shù)據(jù)的融合,并將融合后的結(jié)果輸出到標(biāo)準(zhǔn)數(shù)據(jù)庫中。

圖1 分布式資源數(shù)據(jù)融合設(shè)計(jì)

本文的數(shù)據(jù)預(yù)處理主要采用基于Java的MyBatis數(shù)據(jù)持久層框架。Java面向?qū)ο缶幊陶Z言,語法結(jié)構(gòu)和編程形式簡單易用[9]。MyBatis框架中避免了程序員直接進(jìn)行JDBC相關(guān)代碼操作,與JDBC相比,減少了50%以上的代碼量,消除了JDBC大量冗余代碼,無需手動(dòng)進(jìn)行開關(guān)連接,實(shí)現(xiàn)了Java程序代碼與SQL語句的剝離[10]。

2.2 專業(yè)科技資源數(shù)據(jù)融合

2.2.1 科技資源數(shù)據(jù)庫連接和導(dǎo)入

原始數(shù)據(jù)分為SQL格式和JSON格式,分別如圖2、圖3所示,數(shù)據(jù)來源為東方靈盾、寧波信息院、萬方數(shù)據(jù)網(wǎng)站的模擬數(shù)據(jù)。

圖2 SQL腳本文件數(shù)據(jù)格式

圖3 JSON格式文件

通過數(shù)據(jù)庫將這2種格式文件導(dǎo)入數(shù)據(jù)庫中,再通過MyBatis對(duì)數(shù)據(jù)庫的表進(jìn)行操作,先建立表對(duì)應(yīng)的實(shí)體類和對(duì)應(yīng)的數(shù)據(jù)庫訪問接口,如圖4所示。

圖4 對(duì)應(yīng)的實(shí)體類和數(shù)據(jù)庫接口

數(shù)據(jù)對(duì)象w_patent、d_patent、n_patent分別如圖5、圖6、圖7所示。

圖5 萬方的部分模擬數(shù)據(jù)

圖6 東方靈盾的部分模擬數(shù)據(jù)

圖7 寧波信息院的部分模擬數(shù)據(jù)

2.2.2 科技資源數(shù)據(jù)預(yù)處理

讀取出數(shù)據(jù)庫中的信息后,將讀取出的對(duì)象轉(zhuǎn)成w_chinese_patent實(shí)體類,部分個(gè)別列的數(shù)據(jù)類型需要相互轉(zhuǎn)換,比如某些表中的日期是字符串類型,而w_chinese_patent中則是日期類。完成轉(zhuǎn)換操作后,因?yàn)椴煌谋碇泻衼碜圆煌脚_(tái)的數(shù)據(jù),建議在數(shù)據(jù)末端添加該條數(shù)據(jù)的來源,所以轉(zhuǎn)換完成后在w_chinese_patent實(shí)體類中手動(dòng)添加resource_from。清理代碼、添加來源如圖8、圖9所示。

圖8 數(shù)據(jù)清理代碼

圖9 數(shù)據(jù)添加來源

2.2.3 異構(gòu)分布式資源的融合及輸出

處理完數(shù)據(jù)后,需要將3個(gè)表通過全連接的方式融合在1個(gè)表項(xiàng)中,以保證所有數(shù)據(jù)項(xiàng)都會(huì)存在新表中,且無遺漏的數(shù)據(jù)項(xiàng)。融合代碼如圖10所示。

圖10 數(shù)據(jù)融合代碼

融合后的數(shù)據(jù)會(huì)有重復(fù)字段及多余字段,需將這部分字段進(jìn)行清理,按要求輸出121列需要的數(shù)據(jù)。代碼如圖11所示。

圖11 按要求輸出所需數(shù)據(jù)代碼

將數(shù)據(jù)信息完整導(dǎo)入數(shù)據(jù)庫中,方便其他系統(tǒng)調(diào)用。數(shù)據(jù)庫的處理結(jié)果如圖12所示。

圖12 數(shù)據(jù)庫中融合后的標(biāo)準(zhǔn)數(shù)據(jù)

3 結(jié) 語

本文針對(duì)幾種異構(gòu)專業(yè)科技資源結(jié)構(gòu)化數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)冗余、輸出格式混亂等問題,采用Java作為主要工具,利用MyBatis對(duì)多個(gè)來源的異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、清洗和融合,并存儲(chǔ)在MySQL數(shù)據(jù)庫中。實(shí)現(xiàn)了不同科技資源可視化跨平臺(tái)共享。通過對(duì)萬方、東方靈盾及寧波信息院等專業(yè)科技資源數(shù)據(jù)的融合實(shí)驗(yàn)證明,該方法可有效實(shí)現(xiàn)異構(gòu)科技資源的融合,支持科技資源跨平臺(tái)共享系統(tǒng)的構(gòu)建。

猜你喜歡
跨平臺(tái)異構(gòu)代碼
試論同課異構(gòu)之“同”與“異”
跨平臺(tái)APEX接口組件的設(shè)計(jì)與實(shí)現(xiàn)
創(chuàng)世代碼
創(chuàng)世代碼
創(chuàng)世代碼
創(chuàng)世代碼
異構(gòu)醇醚在超濃縮洗衣液中的應(yīng)用探索
overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
基于QT的跨平臺(tái)輸電鐵塔監(jiān)控終端軟件設(shè)計(jì)與實(shí)現(xiàn)