曹 畋(南京曉莊學(xué)院)
?
大數(shù)據(jù)環(huán)境下的圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)化系統(tǒng)
曹畋
(南京曉莊學(xué)院)
摘要:現(xiàn)代圖書(shū)館對(duì)信息技術(shù)的應(yīng)用是全方位的,對(duì)數(shù)據(jù)的存儲(chǔ)和管理早已達(dá)到TB級(jí)別,并且,隨著圖書(shū)館信息的多元化,數(shù)據(jù)來(lái)源將越來(lái)越多樣。如何將這些數(shù)據(jù)以TB級(jí)別計(jì)量的、具有巨大差異的數(shù)據(jù)源、數(shù)據(jù)格式進(jìn)行統(tǒng)一的處理和分析將成為未來(lái)圖書(shū)館數(shù)據(jù)應(yīng)用中面臨的重要問(wèn)題。
現(xiàn)代化圖書(shū)館對(duì)各類(lèi)數(shù)據(jù)庫(kù)的采購(gòu)、部署和新建的快速增長(zhǎng),使數(shù)字信息的訪問(wèn)與轉(zhuǎn)化問(wèn)題逐漸上升為制約圖書(shū)館發(fā)展的關(guān)鍵問(wèn)題。圖書(shū)館通過(guò)多年的信息化建設(shè),幾乎都已自建和購(gòu)買(mǎi)了大量由不同核心技術(shù)構(gòu)建的信息系統(tǒng)或數(shù)據(jù)庫(kù)。這些曾經(jīng)推動(dòng)圖書(shū)館信息化建設(shè)的信息系統(tǒng)或數(shù)據(jù)庫(kù),正演變成一個(gè)龐大的異構(gòu)數(shù)據(jù)源群體,這樣的異構(gòu)數(shù)據(jù)源逐步成為制約圖書(shū)館數(shù)字資源平臺(tái)聯(lián)通的溝壑。目前,通用信息統(tǒng)一訪問(wèn)和轉(zhuǎn)化方面的研究還屬于起步階段,實(shí)現(xiàn)數(shù)據(jù)共享的途徑可以分為兩種:數(shù)據(jù)的轉(zhuǎn)換和數(shù)據(jù)的集成。數(shù)據(jù)的轉(zhuǎn)換是將物理意義上的數(shù)據(jù)集中,這種方式在類(lèi)似圖書(shū)館這樣的海量數(shù)據(jù)進(jìn)行遷移和管理時(shí)存在非常大的風(fēng)險(xiǎn),并且需要在硬件設(shè)備及相關(guān)軟件上進(jìn)行巨額投資,即便是完成了這種數(shù)據(jù)的集中,訪問(wèn)速度慢也是一個(gè)大問(wèn)題。數(shù)據(jù)的集成屬于邏輯上的集中,這種方式比較適合圖書(shū)館信息資源分布存儲(chǔ)、分散管理、統(tǒng)一訪問(wèn)接口的現(xiàn)狀,能最小限度地回避和減少對(duì)現(xiàn)有圖書(shū)館數(shù)據(jù)系統(tǒng)和數(shù)據(jù)庫(kù)的改造。
通過(guò)大數(shù)據(jù)技術(shù),特別是大數(shù)據(jù)技術(shù)中的服務(wù)數(shù)據(jù)對(duì)象(Service Data Objects,SDO)技術(shù)可以大大簡(jiǎn)化實(shí)現(xiàn)異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)難題。大數(shù)據(jù)技術(shù)可以相對(duì)簡(jiǎn)單地實(shí)現(xiàn)統(tǒng)一方式訪問(wèn)和異構(gòu)數(shù)據(jù)庫(kù)操作,使得圖書(shū)館有可能自行完成異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)和轉(zhuǎn)換的部署,因此可能成為最適合當(dāng)前圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)和轉(zhuǎn)換方案。當(dāng)然,需要真正實(shí)現(xiàn)圖書(shū)館大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)統(tǒng)一和轉(zhuǎn)換的問(wèn)題,除了用到SDO技術(shù)外,還需要涉及大數(shù)據(jù)技術(shù)中的Hbase數(shù)據(jù)庫(kù)技術(shù)和模型驅(qū)動(dòng)數(shù)據(jù)轉(zhuǎn)換技術(shù)(Model Driven Architecture,MDA)。
1.1服務(wù)數(shù)據(jù)對(duì)象技術(shù)簡(jiǎn)介
服務(wù)數(shù)據(jù)對(duì)象其實(shí)是一個(gè)信息的容器,這個(gè)容器可以提供在整個(gè)單位應(yīng)用程序中表示信息的方法,包括表示層、業(yè)務(wù)邏輯層和持久層之間的通信。不但如此,SDO還解決了異構(gòu)數(shù)據(jù)的兼容問(wèn)題,提供一個(gè)簡(jiǎn)單、統(tǒng)一的模式處理相關(guān)數(shù)據(jù)。下面通過(guò)圖1來(lái)看一下在SDO下各個(gè)層次是如何進(jìn)行通信的。[1]
SDO通過(guò)統(tǒng)一不同數(shù)據(jù)源類(lèi)型的數(shù)據(jù)編程,屏蔽了數(shù)據(jù)庫(kù)底層的差異。對(duì)于那些無(wú)法預(yù)先知道的數(shù)據(jù)類(lèi)型,SDO可以動(dòng)態(tài)地組合數(shù)據(jù),添加、修改屬性。通過(guò)SDO應(yīng)用程序、框架和工具,數(shù)據(jù)變得更容易被查詢(xún)、綁定、讀取和更新。
圖1 SDO應(yīng)用通信圖
1.2HBase數(shù)據(jù)庫(kù)技術(shù)簡(jiǎn)介
Hadoop Database通常縮寫(xiě)為HBase。HBase是一種分布式存儲(chǔ)系統(tǒng),具有高性能、高可靠性、可伸縮、面向列等一系列特點(diǎn),利用它可以方便地搭建大規(guī)模機(jī)構(gòu)化存儲(chǔ)集群。
2007年10月,HBase第一個(gè)版本隨著Hadoop 0.15.0捆綁發(fā)布。很快,2010年5月,HBase從Hadoop子項(xiàng)目升級(jí)為Apache的頂層項(xiàng)目。如圖2中Hadoop構(gòu)成圖所示,Haddoop System的層次關(guān)系及各層次系統(tǒng)模塊的相互關(guān)系都得到清晰體現(xiàn)。不難發(fā)現(xiàn),Hadoop HDFS為位于結(jié)構(gòu)化存儲(chǔ)層的HBase底層存儲(chǔ)提供高可靠性支持,Zookeeper為HBase提供了failover機(jī)制和穩(wěn)健的服務(wù),Hadoop MapReduce為HBase提供了高性能的計(jì)算支持,HBasede的高層語(yǔ)言支持由Pig和Hive提供。在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)而被變大簡(jiǎn)化,Sqoop為HBase提供的便捷的數(shù)據(jù)導(dǎo)入功能正是這種特別、便捷的導(dǎo)入功能,使得傳統(tǒng)數(shù)據(jù)庫(kù)遷移到HBase變得非常方便。[2]
圖2 Hadoop構(gòu)成圖
在HBase系統(tǒng)架構(gòu)中,HBase Client與HMaster和HRegionServer進(jìn)行通信是由HBase的RPC機(jī)制實(shí)現(xiàn)的(見(jiàn)圖3)。其中,管理類(lèi)操作控制的RPC由HMaster 與Client進(jìn)行;數(shù)據(jù)讀寫(xiě)類(lèi)操作由HRegionServer與Client運(yùn)行。除-ROOT-表的地址和HMaster的地址都存儲(chǔ)在Zookeeper中以外,Zookeeper還存儲(chǔ)以Ephemeral方式注冊(cè)的HRegionServer。這樣不但避免了HMaster的單點(diǎn)問(wèn)題,而且使得HMaster可以隨時(shí)感知到各個(gè)HRegionServer的健康狀態(tài)。HRegionServer 是HBase中最核心的模塊,它負(fù)責(zé)響應(yīng)用戶(hù)I/O請(qǐng)求,向HDFS文件中讀寫(xiě)數(shù)據(jù)。[3]
圖3 HBase系統(tǒng)架構(gòu)
1.3Hadoop MapReduce框架
Hadoop MapReduce是一個(gè)軟件框架,基于這個(gè)框架開(kāi)發(fā)的程序可以運(yùn)行在集群服務(wù)器上,并且以高容錯(cuò)的方式處理T級(jí)別的數(shù)據(jù)群。Google公司對(duì)于海量原始數(shù)據(jù)的處理有大量的技術(shù)經(jīng)驗(yàn),且這些技術(shù)中很關(guān)鍵的一部分就是海量數(shù)據(jù)的處理辦法。海量數(shù)據(jù)處理一般包含以下步驟:首先在輸入數(shù)據(jù)的邏輯記錄上得出一個(gè)中間key/value集合(應(yīng)用Map操作得到),然后在所有具有相同key值的value值上應(yīng)用Reduce操作,合并中間數(shù)據(jù)并最終得到結(jié)果。[4]
1.4模型驅(qū)動(dòng)的數(shù)據(jù)轉(zhuǎn)換技術(shù)
熱門(mén)的基于大數(shù)據(jù)的模型驅(qū)動(dòng)架構(gòu)(Model Driven Architecture,MDA)是由對(duì)象管理組織OMG定義的,是基于UML和其他工業(yè)標(biāo)準(zhǔn)的一種開(kāi)發(fā)框架。設(shè)計(jì)MDA的核心思想是:將與完整描述業(yè)務(wù)功能的核心平臺(tái)無(wú)關(guān)且與實(shí)現(xiàn)技術(shù)無(wú)關(guān)的模型(Platform Independent Model,PIM)抽象出來(lái)后,可以根據(jù)不同的具體實(shí)現(xiàn)技術(shù)指定多種特定的轉(zhuǎn)換規(guī)則,在相關(guān)輔助工具和特定轉(zhuǎn)換規(guī)則共同作用下,將PIM轉(zhuǎn)換到實(shí)際的(Platform Specific Model,PSM)相關(guān)技術(shù)平臺(tái)相關(guān)的模型上,最后將經(jīng)過(guò)填充的PSM變?yōu)樘囟ㄆ脚_(tái)相關(guān)代碼。MDA通過(guò)PIM和PSM實(shí)現(xiàn)了底層平臺(tái)技術(shù)和業(yè)務(wù)模型的分離,這樣就讓不同技術(shù)平臺(tái)遷移不會(huì)影響到建模的成果(見(jiàn)圖4)。
中心圓中的元對(duì)象設(shè)施(Meta Object Facility,MOF)、公共數(shù)據(jù)倉(cāng)庫(kù)元模型(Common Warehouse Metamodel,CWM)及UML構(gòu)成了MDA的核心技術(shù)。中間環(huán)上標(biāo)注了當(dāng)前主流的平臺(tái)技術(shù)JAVA、WebServices、CORBA、XML、.NET等。MDA的一項(xiàng)重要工作就是將這些基于不同技術(shù)平臺(tái)建立的PIM轉(zhuǎn)換到不同的中間件平臺(tái),從而得到相應(yīng)的PSM。[5]
本文主要需要用到MDA框架下的模型轉(zhuǎn)換語(yǔ)言ATL。ATL的全稱(chēng)是ATLAS,它的出現(xiàn)使得一種符合OMG的QVT提案的模型轉(zhuǎn)換成為現(xiàn)實(shí)。所以也有人認(rèn)為ATL其實(shí)本質(zhì)應(yīng)當(dāng)是一種模型轉(zhuǎn)換語(yǔ)言。如果把ATL看成一種語(yǔ)言,那么它可以被認(rèn)為是一種混合語(yǔ)言,因?yàn)樗瓤梢院忻钫Z(yǔ)句的內(nèi)容,也可以描述語(yǔ)言的特征。首先要弄清楚一個(gè)ATL程序需要包含哪些內(nèi)容。而要弄清這些內(nèi)容,就需要先看ATL的整個(gè)框架結(jié)構(gòu)(見(jiàn)圖5)。
圖4 MDA結(jié)構(gòu)示意圖
圖5 ATL轉(zhuǎn)換層次結(jié)構(gòu)
Ma代表源模型,Ma符合元模型MMa。Mb代表目標(biāo)模型,Mb符合元模型MMb。同樣,MMa和MMb都符合唯一的元元模型MMM。Mt是一個(gè)模型轉(zhuǎn)換的實(shí)例,當(dāng)然它也是一種模型,它也就符合模型轉(zhuǎn)換的元模型MMt。同樣,MMt也就必然符合唯一的元元模型MMM。那么,ATL中,Ecore可以被看作那個(gè)唯一的元元模型,它的地位類(lèi)似于DOF。Ecore創(chuàng)建出諸如元模型MMa和MMb等。Ma和Mb則是符合這些元模型的實(shí)例具體化。如果MMt已被ATL定義好了,那么Mt就是使用者自己要定義的模型轉(zhuǎn)換模型,也就是模型轉(zhuǎn)換程序。[6]
通過(guò)對(duì)當(dāng)前大部分圖書(shū)館實(shí)際應(yīng)用情況進(jìn)行抽象分析,可以得出數(shù)據(jù)統(tǒng)一訪問(wèn)和轉(zhuǎn)換的功能性需求(見(jiàn)圖6)。
圖6 圖書(shū)館數(shù)據(jù)統(tǒng)一訪問(wèn)和轉(zhuǎn)換用例
圖書(shū)館數(shù)據(jù)的統(tǒng)一訪問(wèn)和轉(zhuǎn)換需要實(shí)現(xiàn)的主要功能有:數(shù)據(jù)處理中心抽取相關(guān)異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)并依據(jù)這些元數(shù)據(jù)建立映射模式;數(shù)據(jù)處理中心抽取數(shù)據(jù)源中的數(shù)據(jù)信息;數(shù)據(jù)處理中心對(duì)異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換并儲(chǔ)存轉(zhuǎn)換后的數(shù)據(jù);圖書(shū)館用戶(hù)注冊(cè)數(shù)據(jù)源信息到數(shù)據(jù)處理中、異構(gòu)數(shù)據(jù)源對(duì)數(shù)據(jù)源中數(shù)據(jù)進(jìn)行預(yù)處理。當(dāng)然,圖書(shū)館異構(gòu)數(shù)據(jù)是龐大的,在抽取這些數(shù)據(jù)信息并進(jìn)行轉(zhuǎn)換的過(guò)程中需要上文介紹的Hadoop大數(shù)據(jù)平臺(tái)和相關(guān)技術(shù)保障數(shù)據(jù)高效率、快速準(zhǔn)確地運(yùn)算和存儲(chǔ)。[7]
總體說(shuō)來(lái),圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)化系統(tǒng)需要滿足七點(diǎn)基本要求:①數(shù)據(jù)的統(tǒng)一性;②數(shù)據(jù)的一致性;③數(shù)據(jù)的完整性;④數(shù)據(jù)的安全性;⑤訪問(wèn)透明;⑥準(zhǔn)確性;⑦及時(shí)性。[8]根據(jù)以上要求,并結(jié)合圖書(shū)館應(yīng)用實(shí)際,對(duì)圖書(shū)館數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)換平臺(tái)的中體系統(tǒng)設(shè)計(jì)架構(gòu)如圖7所示。
圖7 圖書(shū)館數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)換架構(gòu)圖
整個(gè)框架結(jié)構(gòu)圖可以看作七個(gè)部分組成:數(shù)據(jù)源部分、數(shù)據(jù)抽取管理、數(shù)據(jù)轉(zhuǎn)換管理、元數(shù)據(jù)抽取及管理部分、模式映射管理、數(shù)據(jù)存儲(chǔ)管理和目標(biāo)數(shù)據(jù)應(yīng)用。模式映射管理與元數(shù)據(jù)管理組成了模式管理模塊。在模式管理模塊中元數(shù)據(jù)管理模塊主要負(fù)責(zé)元數(shù)據(jù)的抽取和解析。模式映射管理和數(shù)據(jù)轉(zhuǎn)換管理組成數(shù)據(jù)轉(zhuǎn)換管理模塊,則為用戶(hù)需要定義各轉(zhuǎn)換節(jié)點(diǎn)的轉(zhuǎn)換規(guī)則,創(chuàng)建任務(wù)的工作流則是依據(jù)模式映射構(gòu)建了源到目標(biāo)的字段映射的轉(zhuǎn)換等操作。這些被映射的元數(shù)據(jù)(或者說(shuō)是操作規(guī)則)存儲(chǔ)在元數(shù)據(jù)管理模塊中,元數(shù)據(jù)抽取管理部分和數(shù)據(jù)抽取管理構(gòu)成了數(shù)據(jù)源訪問(wèn)模塊。在執(zhí)行任務(wù)時(shí),系統(tǒng)會(huì)從元數(shù)據(jù)管理模塊中查詢(xún)轉(zhuǎn)換映射規(guī)則并完成數(shù)據(jù)的轉(zhuǎn)換。該模塊中使用的技術(shù)主要有分布式云計(jì)算Haddoop平臺(tái)、HBase數(shù)據(jù)塊技術(shù)以及分布式MapReduce計(jì)算框架。數(shù)據(jù)存儲(chǔ)管理則主要負(fù)責(zé)模式映射管理模塊創(chuàng)建的映射模式存儲(chǔ)以及轉(zhuǎn)換規(guī)則、轉(zhuǎn)換中間數(shù)據(jù)存儲(chǔ)等。[9]
圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)化系統(tǒng)設(shè)計(jì)的整體詳細(xì)架構(gòu)圖如圖8所示。
圖8 異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)化系統(tǒng)設(shè)計(jì)架構(gòu)
大數(shù)據(jù)環(huán)境下,圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)與轉(zhuǎn)化需要對(duì)數(shù)據(jù)源數(shù)據(jù)依據(jù)用戶(hù)要求作預(yù)處理分析,在此基礎(chǔ)上通過(guò)DAS對(duì)異構(gòu)數(shù)據(jù)源實(shí)現(xiàn)統(tǒng)一訪問(wèn),并使用SDO結(jié)合MapReduce完成海量數(shù)據(jù)并行轉(zhuǎn)換應(yīng)用處理。
4.1數(shù)據(jù)分析、數(shù)據(jù)審核和數(shù)據(jù)修正
為了滿足圖書(shū)館大量數(shù)據(jù)的具備統(tǒng)一處理規(guī)則,需要數(shù)據(jù)分析、數(shù)據(jù)審核和數(shù)據(jù)修正三個(gè)部分進(jìn)行協(xié)調(diào)保障,具體流程如圖9所示。
圖9 數(shù)據(jù)分析及預(yù)處理N-S流程圖
數(shù)據(jù)分析是對(duì)數(shù)據(jù)可用性的一個(gè)統(tǒng)一檢查和統(tǒng)計(jì)分析過(guò)程??梢越柚y(tǒng)計(jì)計(jì)量描述一些數(shù)據(jù)集或者樣本集特征,如可以借助與類(lèi)似OWB這樣的ETL工具,也可以借助統(tǒng)計(jì)學(xué)中非常實(shí)用的圖表工具Box plot進(jìn)行數(shù)據(jù)分析。接下來(lái)的數(shù)據(jù)送審,主要是評(píng)估數(shù)據(jù)是否滿足后期數(shù)據(jù)統(tǒng)一處理的規(guī)則要求,主要審核指標(biāo)包括:數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。[10]
4.2構(gòu)建基于DAS的圖書(shū)館數(shù)據(jù)源統(tǒng)一訪問(wèn)
圖書(shū)館異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)需要統(tǒng)一的異構(gòu)源數(shù)據(jù)結(jié)構(gòu)多種多樣,比如:關(guān)系數(shù)據(jù)庫(kù)和其他文本、XML等。而關(guān)系數(shù)據(jù)庫(kù)中常見(jiàn)的就有Oracle、SQL Server、DB2、MySQL等。圖書(shū)館既然要實(shí)現(xiàn)通過(guò)統(tǒng)一的接口訪問(wèn)數(shù)據(jù),就是要屏蔽這些異構(gòu)數(shù)據(jù)源訪問(wèn)中可能的差異性(見(jiàn)圖10)。
圖10 圖書(shū)館數(shù)據(jù)源訪問(wèn)結(jié)構(gòu)圖
圖書(shū)館異構(gòu)數(shù)據(jù)訪問(wèn)模塊主要由數(shù)據(jù)源注冊(cè)管理、數(shù)據(jù)源元數(shù)據(jù)信息抽取和元數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)源數(shù)據(jù)讀取管理及數(shù)據(jù)轉(zhuǎn)換組成。其中,數(shù)據(jù)源數(shù)據(jù)的讀取是關(guān)鍵,該模塊完成所有實(shí)際數(shù)據(jù)的讀取功能,包括將數(shù)據(jù)源的數(shù)據(jù)讀取到數(shù)據(jù)處理中心。由于圖書(shū)館各類(lèi)數(shù)據(jù)源的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)差異巨大,在數(shù)據(jù)源數(shù)據(jù)讀取中往往涉及海量的數(shù)據(jù),對(duì)系統(tǒng)的數(shù)據(jù)處理性能提出了巨大挑戰(zhàn),從數(shù)據(jù)源端讀取數(shù)據(jù)的階段面臨這種性能調(diào)整尤為突出。另外,大量的I/O操作也可能成為數(shù)據(jù)讀取中的硬件性能瓶頸。實(shí)際應(yīng)對(duì)策略,除提高硬件性能外,還可以綜合應(yīng)用諸如建立索引、External Loading、Bulk Loading,建立連接池、緩沖池這些方法提高服務(wù)器的效率,同時(shí)充分利用對(duì)應(yīng)數(shù)據(jù)庫(kù)可能涉及的優(yōu)化技巧,不斷總結(jié)和提高數(shù)據(jù)的讀取速度,當(dāng)然定期升級(jí)數(shù)據(jù)庫(kù)也是其中重要的一環(huán)。最后,通過(guò)基于SDO的技術(shù)來(lái)統(tǒng)一處理圖書(shū)館大數(shù)據(jù),可以最大限度提升數(shù)據(jù)處理性能。因?yàn)橥ㄟ^(guò)DAS將數(shù)據(jù)源數(shù)據(jù)加載到數(shù)據(jù)對(duì)象中后,對(duì)數(shù)據(jù)對(duì)象的處理都可以采用標(biāo)準(zhǔn)SDO方式進(jìn)行。下面用圖書(shū)館數(shù)據(jù)源數(shù)據(jù)獲取流程圖描述數(shù)據(jù)源數(shù)據(jù)訪問(wèn)過(guò)程中的數(shù)據(jù)流導(dǎo)向(見(jiàn)圖11)。[11]
圖11 圖書(shū)館數(shù)據(jù)源數(shù)據(jù)獲取數(shù)據(jù)流圖
本文分析并設(shè)計(jì)了一個(gè)適合圖書(shū)館未來(lái)發(fā)展的基于服務(wù)數(shù)據(jù)對(duì)象的異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)系統(tǒng)。該系統(tǒng)能滿足圖書(shū)館當(dāng)前及未來(lái)很長(zhǎng)一段時(shí)間的異構(gòu)數(shù)據(jù)統(tǒng)一訪問(wèn)及轉(zhuǎn)換,為圖書(shū)館數(shù)字資源建設(shè)與數(shù)字服務(wù)提供了新的契機(jī)。
[參考文獻(xiàn)]
[1]徐青翠,等.SDO在高校數(shù)據(jù)集成平臺(tái)的應(yīng)用研究[J].科技廣場(chǎng),2013(10):69-72.
[2]宮夏屹,等.大數(shù)據(jù)平臺(tái)技術(shù)綜述[J].系統(tǒng)仿真學(xué)報(bào),2014(3):489-496.
[3]靳小龍,等.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術(shù),2013(6):35-43.
[4]張小艷,等.基于模型驅(qū)動(dòng)架構(gòu)的煤質(zhì)管理系統(tǒng)測(cè)試研究[J].工礦自動(dòng)化,2014(2):36-39.
[5]張小艷,文輝.基于ASL的模型驅(qū)動(dòng)架構(gòu)測(cè)試方法[J].計(jì)算機(jī)工程與科學(xué),2014(4):662-666.
[6]王宇英,等.面向信息物理融合系統(tǒng)的異構(gòu)模型轉(zhuǎn)換方法[J].西安電子科技大學(xué)學(xué)報(bào),2015 (2):124-131.
[7]曹畋.試論圖書(shū)館信息化項(xiàng)目的需求工程[J].內(nèi)蒙古科技與經(jīng)濟(jì),2013(13):79,93.
[8]鄭悅,楊勇.SDO2JSON:一種業(yè)務(wù)數(shù)據(jù)模型到表現(xiàn)層模型的轉(zhuǎn)換方法[J].計(jì)算機(jī)應(yīng)用與軟件,2012(3):13-15,73.
[9]亢麗蕓,等.MapReduce原理及其主要實(shí)現(xiàn)平臺(tái)分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012(2):60-67.
[10]Hua-Dong,etal.Thekinematicsofanuntwistingsolar jet in a polar coronal hole observed by SDOIAIA [J].Research in Astronomy and Astrophysics,2012 (5):573-583.
[11]耿玉水,寇紀(jì)淞.云計(jì)算下異構(gòu)數(shù)據(jù)集成模型的構(gòu)建[J].濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(4):384-389.
Uniform Access and Transformation System for Heterogeneous Data in the Big Data Environment of Library
Cao Tian
Abstract:The application of information technology in modern library is extensive, and the storage and management of the data in modern library has already reached the level of TB.Along with the diversification of library collection, data resources are becoming increasingly diverse.The libraries are encountering the fact that the data are heterogeneous and various databases are of different performance and data formats,which makes processing and analysis of these data the primary problem for the libraries inthe future.Keywords: Big Data; Heterogeneous Data; Access; Conversion
[收稿日期]2015-10-09[責(zé)任編輯]劉丹
[作者簡(jiǎn)介]曹畋(1981-),男,南京曉莊學(xué)院工程師,研究方向:圖書(shū)館信息化,新媒體,大數(shù)據(jù)。
中圖分類(lèi)號(hào):G50.73
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1005-8214(2016)02-0080-05
關(guān)鍵字:大數(shù)據(jù);異構(gòu)數(shù)據(jù);訪問(wèn);轉(zhuǎn)換