国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)協(xié)同構(gòu)建研究

2020-10-15 02:43
圖書館界 2020年4期
關(guān)鍵詞:灣區(qū)粵港澳大灣

伍 星

(深圳信息職業(yè)技術(shù)學(xué)院圖書館,廣東 深圳 518172)

2019年2月18日,中共中央、國務(wù)院印發(fā)了《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》[1]。國家大力推動(dòng)灣區(qū)文化以及灣區(qū)行業(yè)、產(chǎn)業(yè)信息融合不斷深入的大背景下,各圖書館通過建設(shè)灣區(qū)信息資源庫及創(chuàng)新服務(wù)方式,為讀者提供更加豐富和全面的灣區(qū)信息資源服務(wù)。經(jīng)過多年積累,粵港澳大灣區(qū)各級(jí)圖書館在灣區(qū)特色館藏及電子資源數(shù)據(jù)、用戶特征數(shù)據(jù)、資源及網(wǎng)站訪問日志、用戶檢索及下載記錄等方面都積累了豐富的資源數(shù)據(jù)量和特色資源評(píng)判基礎(chǔ)數(shù)據(jù)。

這些數(shù)據(jù)是圖書館重要的信息資源,具有很大的發(fā)掘利用價(jià)值,通過對(duì)灣區(qū)資訊數(shù)據(jù)和行為習(xí)慣日志的整合分析可以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律、趨勢(shì)和價(jià)值,進(jìn)而為粵港澳大灣區(qū)圖書館資源共建共享和服務(wù)模式創(chuàng)新和對(duì)灣區(qū)未來發(fā)展趨勢(shì)提供分析與預(yù)測(cè),為實(shí)現(xiàn)更加智能化的信息服務(wù)提供數(shù)據(jù)支持。建設(shè)粵港澳圖書館數(shù)據(jù)平臺(tái)的目的就是通過各級(jí)圖書館的業(yè)務(wù)及服務(wù)數(shù)據(jù)共建共享,匯聚粵港澳行業(yè)、產(chǎn)業(yè)及教育的相關(guān)數(shù)據(jù),實(shí)現(xiàn)粵港澳特色信息資源的多元化采集、主題化匯聚和知識(shí)化分析、可視化展示。隨著京津冀、粵港澳、長(zhǎng)三角和東北等國家九大戰(zhàn)略發(fā)展區(qū)域化進(jìn)程日益深入,對(duì)具有區(qū)域發(fā)展時(shí)代特征的圖書館建設(shè)提出了新要求。本文將以粵港澳大灣區(qū)為例,進(jìn)行區(qū)域數(shù)據(jù)平臺(tái)協(xié)同構(gòu)建的探討。

1 粵港澳大灣區(qū)資源數(shù)據(jù)現(xiàn)狀

粵港澳大灣區(qū)被認(rèn)為是我國開放程度最高、經(jīng)濟(jì)活力最強(qiáng)的區(qū)域之一,在國家發(fā)展大局中具有重要戰(zhàn)略地位[1]?;浉郯娜鼐哂邢嗤牡乩憝h(huán)境和歷史背景,而不同的政治、經(jīng)濟(jì)、科學(xué)、文化和教育制度使粵港澳三地的圖書館在文獻(xiàn)資源收錄、特色資源庫構(gòu)建上又各有特點(diǎn)。但是,灣區(qū)資源庫由于業(yè)務(wù)系統(tǒng)各異的關(guān)系,存在以下問題(見圖1)。

圖1 粵港澳大灣區(qū)資源數(shù)據(jù)現(xiàn)狀

第一,信息孤島問題。數(shù)據(jù)無法整合以提供標(biāo)準(zhǔn)化、準(zhǔn)確的服務(wù)。在進(jìn)行數(shù)據(jù)分析、報(bào)表填報(bào)時(shí),都會(huì)重復(fù)地投入較多人力去搜集各系統(tǒng)數(shù)據(jù),結(jié)果也不一定準(zhǔn)確。

第二,數(shù)據(jù)格式問題。粵港澳行業(yè)、產(chǎn)業(yè)教育資源庫共建共享的過程中,因?yàn)閿?shù)據(jù)采集標(biāo)準(zhǔn)及格式不一致,數(shù)據(jù)的采集、篩選都可能達(dá)不到平臺(tái)要求的標(biāo)準(zhǔn),因不具備時(shí)效性而降低資訊內(nèi)容對(duì)區(qū)域協(xié)同科技創(chuàng)新的指導(dǎo)性,不利于開展數(shù)據(jù)挖掘和進(jìn)行灣區(qū)產(chǎn)業(yè)需求、灣區(qū)行業(yè)熱點(diǎn)、創(chuàng)新創(chuàng)業(yè)指導(dǎo)等隱性知識(shí)挖掘。

第三,數(shù)據(jù)存儲(chǔ)問題。云時(shí)代大數(shù)據(jù)的到來給我們帶來了極大方便,可是隨之而來的信息和網(wǎng)絡(luò)安全的脆弱性問題也日益突顯。由于粵港澳行業(yè)、產(chǎn)業(yè)及教育特色資源的保存較為分散,一旦出現(xiàn)數(shù)據(jù)存儲(chǔ)的安全問題,因數(shù)據(jù)的唯一和獨(dú)立性所造成的損失將無法挽回。根據(jù)美國FBI統(tǒng)計(jì),每年因?yàn)樾畔⒑途W(wǎng)絡(luò)安全問題所造成的損失高達(dá)75億美元,并且該數(shù)字還在上升[2—3]。而數(shù)據(jù)作為信息的表達(dá)形式,它的完整性與安全性問題決定了系統(tǒng)是否安全。數(shù)據(jù)備份技術(shù)的應(yīng)用越來越廣泛,但是數(shù)據(jù)備份設(shè)備、專業(yè)人員或委托數(shù)據(jù)備份公司提供的服務(wù),都需要投入相當(dāng)多的經(jīng)費(fèi)支持,因此,建立粵港澳行業(yè)、產(chǎn)業(yè)及教育文化資源共建共享平臺(tái),將數(shù)據(jù)進(jìn)行匯總,有利于數(shù)據(jù)的統(tǒng)一保存管理和后續(xù)的知識(shí)挖掘及溯源。

2 粵港澳數(shù)據(jù)平臺(tái)構(gòu)建需求與目標(biāo)

2.1 需求分析

在粵港澳大灣區(qū)社會(huì)發(fā)展背景下,圖書館館藏資源內(nèi)容將從傳統(tǒng)通用館藏,擴(kuò)展到著眼于三地行業(yè)、產(chǎn)業(yè)和教育的資源庫,廣泛覆蓋三地行業(yè)技能知識(shí),行業(yè)標(biāo)準(zhǔn)規(guī)范、嶺南文化資源等。建設(shè)粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺(tái),制訂統(tǒng)一的業(yè)務(wù)標(biāo)準(zhǔn)來匯聚、清洗、整合各業(yè)務(wù)系統(tǒng)數(shù)據(jù),消除一直存在的數(shù)據(jù)孤島問題。通過對(duì)大數(shù)據(jù)平臺(tái)的挖掘分析,定義數(shù)據(jù)標(biāo)準(zhǔn),有效地進(jìn)行數(shù)據(jù)類目管理,讓數(shù)據(jù)更直觀、更精準(zhǔn)地指導(dǎo)業(yè)務(wù)。同時(shí),粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)可搜集分析灣區(qū)圖書館館藏?cái)?shù)據(jù),形成各館各地區(qū)的資源分析報(bào)告,為粵港澳大灣區(qū)構(gòu)建網(wǎng)絡(luò)化資源空間格局,推動(dòng)灣區(qū)開放型區(qū)域協(xié)同創(chuàng)新共同體提供資源平臺(tái)支持。建設(shè)粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺(tái),以便篩選灣區(qū)數(shù)據(jù)形成數(shù)據(jù)分析報(bào)表,直觀反映灣區(qū)已有行業(yè)、產(chǎn)業(yè)和教育文化現(xiàn)狀,以便充分發(fā)揮粵港澳科技和產(chǎn)業(yè)優(yōu)勢(shì),積極吸引和對(duì)接全球創(chuàng)新資源,建設(shè)開放互通、布局合理的區(qū)域創(chuàng)新體系[3]。

2.2 建設(shè)目標(biāo)

通過對(duì)粵港澳大灣區(qū)圖書文獻(xiàn)、研究成果、行業(yè)數(shù)據(jù)、標(biāo)準(zhǔn)規(guī)范等數(shù)據(jù)的搜集、整理及分析,確定數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合范圍及規(guī)范,制訂元數(shù)據(jù)標(biāo)準(zhǔn),協(xié)同開發(fā)建設(shè)粵港澳大灣區(qū)圖書館大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)信息資源的多元化采集及清洗、主題化匯聚、知識(shí)化分析、可視化展示,為圖書館依據(jù)《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》實(shí)現(xiàn)服務(wù)戰(zhàn)略決策提供數(shù)據(jù)支持。

3 粵港澳數(shù)據(jù)平臺(tái)架構(gòu)及建設(shè)

3.1 平臺(tái)架構(gòu)

粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺(tái),需依托灣區(qū)圖書館自動(dòng)化系統(tǒng)、網(wǎng)站及資源系統(tǒng)、其他業(yè)務(wù)系統(tǒng)相關(guān)數(shù)據(jù),通過數(shù)據(jù)導(dǎo)入、數(shù)據(jù)同步及采集等手段和工具,將所有數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和映射,統(tǒng)一存儲(chǔ)在協(xié)同數(shù)據(jù)平臺(tái)進(jìn)行統(tǒng)一管理和維護(hù),建設(shè)數(shù)據(jù)分析、個(gè)性化服務(wù)等系統(tǒng),配以定制開發(fā)的算法,以數(shù)據(jù)統(tǒng)計(jì)分析及圖形化展示的形式,為粵港澳提供多維網(wǎng)絡(luò)化空間格局,匯聚灣區(qū)行業(yè)、產(chǎn)業(yè)、科技、教育及文化資訊資源,為構(gòu)建粵港澳大灣區(qū)開放型區(qū)域協(xié)同創(chuàng)新共同體提供資源保障,促進(jìn)信息、技術(shù)等創(chuàng)新要素跨境流動(dòng)和區(qū)域融通,協(xié)同共建粵港澳大灣區(qū)大數(shù)據(jù)中心和國際化創(chuàng)新平臺(tái)[4—5]。系統(tǒng)總體架構(gòu)如圖2所示。

圖2 粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu)

3.2 數(shù)據(jù)集成

粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺(tái)需提供灣區(qū)圖書館業(yè)務(wù)系統(tǒng)數(shù)據(jù)到大數(shù)據(jù)平臺(tái)的同步服務(wù),增量定時(shí)同步、數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計(jì)等多種集成同步服務(wù)。

(1)數(shù)據(jù)庫類型支持問題。目前的主流關(guān)系型數(shù)據(jù)庫類型有Oracle、MySQL、SQL Server、PostgreSQL、Sybase等,基于分布式文件存儲(chǔ)的MongoDB數(shù)據(jù)庫,支持大數(shù)據(jù)平臺(tái)Hadoop的HDFS、HIVE以及阿里云數(shù)據(jù)平臺(tái)等[5]。此外,協(xié)同數(shù)據(jù)平臺(tái)還應(yīng)支持Excel等結(jié)構(gòu)化文件的同步。

(2)資源增量同步問題?;浉郯拇鬄硡^(qū)多源數(shù)據(jù)資源日新月異,協(xié)同數(shù)據(jù)平臺(tái)應(yīng)實(shí)現(xiàn)增量數(shù)據(jù)的自動(dòng)實(shí)時(shí)同步。同步的數(shù)據(jù)包含數(shù)據(jù)正文、類別、日志及時(shí)間等信息,對(duì)資源庫實(shí)時(shí)變化的數(shù)據(jù)同步上傳至粵港澳大灣區(qū)協(xié)同共建大數(shù)據(jù)平臺(tái)。

(3)數(shù)據(jù)傳送安全問題。為保證信息安全可靠地同步傳送,對(duì)傳送數(shù)據(jù)原始明文,通過加密算法進(jìn)行加密,且不依賴于操作系統(tǒng)和安全環(huán)境,盡量采用磁盤加密和驅(qū)動(dòng)級(jí)加密技術(shù),以免應(yīng)用層加密帶來的兼容性和二次開發(fā)問題。

(4)支持?jǐn)帱c(diǎn)續(xù)傳。避免因網(wǎng)絡(luò)不穩(wěn)定等原因引起的數(shù)據(jù)同步失敗,在數(shù)據(jù)同步不成功的情況下,可以自動(dòng)進(jìn)行斷點(diǎn)恢復(fù)續(xù)傳,以避免數(shù)據(jù)的丟失和重復(fù),保證穩(wěn)定可靠的數(shù)據(jù)SSL加密傳輸。

3.3 數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一

粵港澳大灣區(qū)圖書館的館藏文獻(xiàn)資源,既有傳統(tǒng)館藏,也有特色行業(yè)、產(chǎn)業(yè)資源庫?;浉郯拇鬄硡^(qū)行業(yè)、產(chǎn)業(yè)及科技創(chuàng)新優(yōu)勢(shì)所積累的特色資源、行業(yè)標(biāo)準(zhǔn)、國際經(jīng)驗(yàn)、資格體系等多維特色資源,經(jīng)過多年標(biāo)準(zhǔn)各異的信息系統(tǒng)建設(shè)后,存在于各種不同業(yè)務(wù)系統(tǒng)中。這些業(yè)務(wù)系統(tǒng)由不同的軟件開發(fā)商或者系統(tǒng)集成商提供,當(dāng)需要將這些系統(tǒng)的數(shù)據(jù)進(jìn)行集中治理的時(shí)候,就面臨著業(yè)務(wù)部門間信息定義不一致的問題,從而影響對(duì)數(shù)據(jù)共享、理解、價(jià)值提取的過程。這就需要構(gòu)建粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)時(shí),首先建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,利用國家、行業(yè)、企業(yè)等相關(guān)標(biāo)準(zhǔn),對(duì)各類數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化改造,在平臺(tái)中形成統(tǒng)一的數(shù)據(jù)理解視圖,并在統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)集成的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的保證、提升和隱性知識(shí)挖掘,形成灣區(qū)特定行業(yè)領(lǐng)域內(nèi)的資源整合和專題研究。

數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)管理需要從標(biāo)準(zhǔn)數(shù)據(jù)元庫及同義詞等關(guān)聯(lián)信息庫中,清晰描述數(shù)據(jù)標(biāo)準(zhǔn)分類、要素分類、業(yè)務(wù)分類,自動(dòng)建立數(shù)據(jù)標(biāo)準(zhǔn)各類屬性之間的約束、傳遞、映射、聚合關(guān)系?;浉郯拇鬄硡^(qū)參與協(xié)同構(gòu)建資源數(shù)據(jù)平臺(tái)的圖書館,其采集的數(shù)據(jù)包括國際、國家、地方以及企業(yè)在內(nèi)的標(biāo)準(zhǔn)數(shù)據(jù)元,進(jìn)行統(tǒng)一存儲(chǔ)和管理,形成公共標(biāo)準(zhǔn)知識(shí)庫,并對(duì)其進(jìn)行日常維護(hù)和管理。同時(shí),平臺(tái)實(shí)現(xiàn)動(dòng)態(tài)同步更新,提供查詢和追溯功能,為參與協(xié)同構(gòu)建數(shù)據(jù)平臺(tái)的圖書館制訂或擴(kuò)展已有數(shù)據(jù)標(biāo)準(zhǔn)提供參考依據(jù),以保障統(tǒng)一標(biāo)準(zhǔn)的實(shí)施[6]。

為協(xié)同灣區(qū)圖書館進(jìn)行資源數(shù)據(jù)平臺(tái)構(gòu)建,需要制訂基準(zhǔn)數(shù)據(jù)規(guī)則,以便于進(jìn)一步開展灣區(qū)行業(yè)、產(chǎn)業(yè)、科技、教育和文化資源數(shù)據(jù)標(biāo)準(zhǔn)化的調(diào)研、制訂和集成開發(fā)。此外,數(shù)據(jù)索引庫需支持對(duì)數(shù)據(jù)元分類新增、修改和刪除等基本錄入操作,自動(dòng)生成維護(hù)日記信息。支持標(biāo)準(zhǔn)化模板,使資源平臺(tái)協(xié)同構(gòu)建方可以根據(jù)自己的業(yè)務(wù)需要定義模板內(nèi)容,定制數(shù)據(jù)元的相關(guān)屬性。

3.4 資源平臺(tái)協(xié)同構(gòu)建

3.4.1 內(nèi)容構(gòu)建?;浉郯男袠I(yè)、產(chǎn)業(yè)、教育及文化資源數(shù)據(jù)平臺(tái)的協(xié)同構(gòu)建,是大灣區(qū)發(fā)展的重要文獻(xiàn)資源保障,其內(nèi)容構(gòu)建可以從三個(gè)方面進(jìn)行。

(1)統(tǒng)計(jì)經(jīng)濟(jì)指標(biāo),繪制粵港澳行業(yè)、產(chǎn)業(yè)分布圖。即通過粵港澳大灣區(qū)圖書館館藏經(jīng)濟(jì)類電子資源數(shù)據(jù)庫,如國務(wù)院發(fā)展研究中心信息網(wǎng)、中國經(jīng)濟(jì)信息網(wǎng)、中國宏觀經(jīng)濟(jì)信息網(wǎng)等大型經(jīng)濟(jì)類數(shù)據(jù)系統(tǒng)[7],統(tǒng)計(jì)粵港澳大灣區(qū)“9+2”11個(gè)城市的區(qū)域經(jīng)濟(jì)和優(yōu)勢(shì)產(chǎn)業(yè)集群分布情況。

(2)根據(jù)粵港澳行業(yè)、產(chǎn)業(yè)分布,清點(diǎn)灣區(qū)館藏資源收錄情況。對(duì)紙質(zhì)圖書、電子資源數(shù)據(jù)庫、音視頻多媒體資源等館藏載體進(jìn)行清點(diǎn)統(tǒng)計(jì)策略設(shè)計(jì)和資源文獻(xiàn)協(xié)同匯總,得到粵港澳行業(yè)、產(chǎn)業(yè)及教育資源支持的資源數(shù)量、質(zhì)量及結(jié)構(gòu)分布情況。

(3)整合引進(jìn)粵港澳行業(yè)、產(chǎn)業(yè)教育核心資源。首先,將已有粵港澳館藏資源進(jìn)行可索引、有清晰入口的行業(yè)、產(chǎn)業(yè)、教育及文化資源平臺(tái)分類;其次,對(duì)灣區(qū)產(chǎn)業(yè)、制造業(yè)、服務(wù)業(yè)、科技教育、文化資源進(jìn)行需求挖掘,結(jié)合粵港澳大灣區(qū)圖書館年度紙質(zhì)圖書、電子資源專項(xiàng)建設(shè)工作落地,完成資源內(nèi)容的協(xié)同構(gòu)建。

3.4.2 框架及技術(shù)構(gòu)建?;浉郯拇鬄硡^(qū)圖書館資源數(shù)據(jù)平臺(tái)框架和技術(shù)實(shí)現(xiàn)包括數(shù)據(jù)平臺(tái)開發(fā)建設(shè)、數(shù)據(jù)匯聚清洗分類,數(shù)據(jù)索引存儲(chǔ)計(jì)算、數(shù)據(jù)分析統(tǒng)計(jì)和非結(jié)構(gòu)化文檔存儲(chǔ)服務(wù)。數(shù)據(jù)協(xié)同平臺(tái)還需實(shí)現(xiàn)數(shù)據(jù)的壓縮、備份,以保證數(shù)據(jù)安全可靠。

(1)數(shù)據(jù)平臺(tái)開發(fā)建設(shè)。從框架結(jié)構(gòu)層面來看,數(shù)據(jù)平臺(tái)需要提供海量數(shù)據(jù)的匯聚、清洗、建模、工作流開發(fā)以及定時(shí)調(diào)度的服務(wù)。從技術(shù)構(gòu)建層面來看,數(shù)據(jù)平臺(tái)需要提供建表、SQL/MR編寫、算法開發(fā)、數(shù)據(jù)挖掘等數(shù)據(jù)開發(fā)服務(wù),助力灣區(qū)圖書館粵港澳數(shù)據(jù)平臺(tái)建設(shè)。此外,數(shù)據(jù)開發(fā)平臺(tái)可以提供工作流的開發(fā)與調(diào)度。一個(gè)完整的工作流需要完成數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗轉(zhuǎn)化、數(shù)據(jù)庫語言編程、算法開發(fā)、結(jié)果數(shù)據(jù)導(dǎo)出等一系列步驟;對(duì)于需要定時(shí)執(zhí)行的工作流,可通過配置調(diào)度時(shí)間周期,讓工作流自動(dòng)按時(shí)執(zhí)行。工作流的按時(shí)調(diào)度是保證報(bào)表數(shù)據(jù)準(zhǔn)確準(zhǔn)時(shí)提供的前提條件。

(2)數(shù)據(jù)索引存儲(chǔ)與計(jì)算?;跀?shù)據(jù)平臺(tái)提供的海量資源數(shù)據(jù)存儲(chǔ)與計(jì)算,需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行開發(fā)整理,根據(jù)粵港澳大灣區(qū)高科技創(chuàng)新領(lǐng)域、戰(zhàn)略性新興產(chǎn)業(yè)、先進(jìn)制造業(yè)、現(xiàn)代服務(wù)業(yè)、灣區(qū)海洋經(jīng)濟(jì)等相關(guān)的灣區(qū)數(shù)據(jù)索引、建模、建倉,通過內(nèi)置或者自定義算法進(jìn)行相關(guān)數(shù)據(jù)知識(shí)挖掘[8]。

(3)協(xié)同數(shù)據(jù)的分析計(jì)算。通過將粵港澳大灣區(qū)行業(yè)、產(chǎn)業(yè)索引存儲(chǔ)后的資源數(shù)據(jù)進(jìn)行計(jì)算、整理、挖掘后,形成動(dòng)態(tài)監(jiān)測(cè)報(bào)告、發(fā)展預(yù)測(cè)報(bào)告、專題資訊報(bào)告等。這些協(xié)同數(shù)據(jù)的二次分析計(jì)算結(jié)果,能夠同步至數(shù)據(jù)實(shí)時(shí)分析區(qū),直接提供上層應(yīng)用的查詢服務(wù)或者內(nèi)部直接查詢服務(wù)。首先,協(xié)同數(shù)據(jù)的實(shí)時(shí)分析計(jì)算服務(wù)需要具有高性能、高可靠性、應(yīng)用高兼容性、分布式線性可擴(kuò)等性能。大數(shù)據(jù)平臺(tái)提供海量數(shù)據(jù)的實(shí)時(shí)分析能力,百萬級(jí)數(shù)據(jù)的秒級(jí)甚至毫秒級(jí)返回,能夠滿足灣區(qū)圖書館業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)查詢性能的要求。其次,協(xié)同數(shù)據(jù)平臺(tái)應(yīng)該具有多級(jí)計(jì)算節(jié)點(diǎn),以保證數(shù)據(jù)存儲(chǔ)和應(yīng)用服務(wù)的可靠性。任何一個(gè)磁盤的損壞,都不會(huì)造成數(shù)據(jù)丟失或者業(yè)務(wù)中斷。且數(shù)據(jù)庫接口應(yīng)具備高兼容性,支持應(yīng)用系統(tǒng)的遷移[9]。最后,隨著粵港澳大灣區(qū)圖書館業(yè)務(wù)數(shù)據(jù)量的擴(kuò)增,基于分布式的架構(gòu)能夠支持計(jì)算節(jié)點(diǎn)的橫向擴(kuò)展,支持性能的線性上升,足以支持粵港澳資源數(shù)據(jù)的可持續(xù)性積累和分析。

(4)非結(jié)構(gòu)化資源存儲(chǔ)。隨著上層應(yīng)用移動(dòng)化和智能化趨勢(shì)的發(fā)展,數(shù)據(jù)生成的類型正在發(fā)生變化。文檔、視頻、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)在各行各業(yè)累積數(shù)據(jù)中占比逐漸增加。據(jù)統(tǒng)計(jì),目前超過80%的新增數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),未來預(yù)測(cè)這個(gè)比例將達(dá)到90%以上。作為粵港澳大灣區(qū)主要資源數(shù)據(jù)之一的灰色文獻(xiàn),其非結(jié)構(gòu)化數(shù)據(jù)達(dá)95%以上。其涵蓋了行業(yè)、產(chǎn)業(yè)、科技文化相關(guān)的會(huì)議文獻(xiàn)、科技報(bào)告、技術(shù)檔案,以及不對(duì)外發(fā)行的企業(yè)文件、產(chǎn)品資料、貿(mào)易文件(包括產(chǎn)品說明書、相關(guān)機(jī)構(gòu)印發(fā)的動(dòng)態(tài)信息資料)和工作文件。而未刊登稿件以及內(nèi)部刊物、交換資料等因其流通渠道特殊,數(shù)據(jù)存儲(chǔ)單一,容易絕版,且涉及的信息廣泛,內(nèi)容新穎,見解獨(dú)到,具有特殊的資源價(jià)值[10]。因此,粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)在設(shè)計(jì)上,應(yīng)提供非結(jié)構(gòu)化文檔的存儲(chǔ)與管理,如圖書館PDF、CAJ電子文檔、圖片以及一些辦公文檔的上傳、共享、下載、刪除等,并可通過開放接口訪問的方式,對(duì)上層應(yīng)用提供在線閱讀等服務(wù)。

3.5 數(shù)據(jù)分析功能

在數(shù)據(jù)采集、清洗、匯總后,粵港澳資源協(xié)同構(gòu)建平臺(tái)應(yīng)進(jìn)行數(shù)據(jù)分析,實(shí)現(xiàn)最重要的知識(shí)加工挖掘功能,如提供灣區(qū)行業(yè)、產(chǎn)業(yè)教育相關(guān)的咨詢分析、評(píng)估、動(dòng)態(tài)監(jiān)測(cè)、發(fā)展預(yù)測(cè)、專題數(shù)據(jù)等。為粵港澳大灣區(qū)完成數(shù)據(jù)協(xié)同的圖書館提供行業(yè)定制化的數(shù)據(jù)分析報(bào)告,輔助圖書館業(yè)務(wù)分析人員實(shí)現(xiàn)對(duì)常規(guī)業(yè)務(wù)數(shù)據(jù)的分析。例如,圍繞粵港澳大灣區(qū)發(fā)展趨勢(shì)和熱點(diǎn),對(duì)接全球創(chuàng)新資源,生成粵港澳創(chuàng)新創(chuàng)業(yè)專題研究報(bào)告、灣區(qū)科研基礎(chǔ)設(shè)施資源報(bào)告、灣區(qū)產(chǎn)學(xué)研深度融合報(bào)告、灣區(qū)科技成果轉(zhuǎn)化流程及案例匯總、灣區(qū)制造業(yè)結(jié)構(gòu)報(bào)告、灣區(qū)專業(yè)人才培養(yǎng)方案等。還可通過自行設(shè)定時(shí)間軸,提供月度、季度、年度的報(bào)告分析服務(wù)和特定業(yè)務(wù)場(chǎng)景的數(shù)據(jù)分析服務(wù),以及定制化的其他業(yè)務(wù)數(shù)據(jù)報(bào)表等數(shù)據(jù)分析服務(wù)。從多角度進(jìn)行維度和思路分析,輔助圖書館業(yè)務(wù)分析人員挖掘數(shù)據(jù)背后的價(jià)值,用于提升圖書館灣區(qū)情報(bào)供給和數(shù)據(jù)分析能力。

3.6 數(shù)據(jù)交互可視化

粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái),應(yīng)實(shí)現(xiàn)數(shù)據(jù)交互可視化功能??梢园凑?qǐng)D書館業(yè)務(wù)分析的要求,對(duì)數(shù)據(jù)分析報(bào)表設(shè)置范圍、提取條件,從而快速準(zhǔn)確地捕捉灣區(qū)資源信息,生成分析報(bào)表,并以可視化形式直觀展現(xiàn)重要數(shù)據(jù),為灣區(qū)行業(yè)、產(chǎn)業(yè)、科技文化發(fā)展方向提供依據(jù)和支持。數(shù)據(jù)交互的可視化工具主要面向具備一定技術(shù)能力的業(yè)務(wù)人員,一線圖書館業(yè)務(wù)分析人員,通過分析軟件完成數(shù)據(jù)的分析、查詢、篩選。通過資源數(shù)據(jù)標(biāo)簽化的方式,改變傳統(tǒng)的以查詢、檢索為主的分析模式,業(yè)務(wù)人員無須接觸底層的物理表字段,就可以通過拖拉拽等可視化方式快速完成數(shù)據(jù)提取,從而方便發(fā)布自定義數(shù)據(jù)分析應(yīng)用。粵港澳大灣區(qū)圖書館資源數(shù)據(jù)協(xié)同構(gòu)建平臺(tái)需要提供的數(shù)據(jù)可視化交互主要功能如下:

(1)將數(shù)據(jù)轉(zhuǎn)化為標(biāo)簽。根據(jù)粵港澳大灣區(qū)行業(yè)、產(chǎn)業(yè)的不同維度,資源數(shù)據(jù)平臺(tái)提供標(biāo)簽自定義功能,通過標(biāo)簽體系進(jìn)行灣區(qū)大數(shù)據(jù)歸類提取。業(yè)務(wù)人員可以按需擴(kuò)展、定制標(biāo)簽,支持在簡(jiǎn)單的數(shù)據(jù)標(biāo)簽基礎(chǔ)上建立復(fù)雜標(biāo)簽?zāi)0?,支持灣區(qū)行業(yè)、產(chǎn)業(yè)相關(guān)數(shù)據(jù)的求和、取平均值、同比、環(huán)比等數(shù)學(xué)函數(shù)計(jì)算,并提供折線圖、柱狀圖和條形圖等可視化數(shù)據(jù)展示。

(2)提供行業(yè)業(yè)務(wù)模板。資源數(shù)據(jù)平臺(tái)的協(xié)同構(gòu)建,應(yīng)該規(guī)劃設(shè)置灣區(qū)各個(gè)行業(yè)模板,便于業(yè)務(wù)人員快速根據(jù)模板生成相關(guān)粵港澳大灣區(qū)研究應(yīng)用。在基本模板的基礎(chǔ)上,能夠自定義模板,產(chǎn)生數(shù)據(jù)應(yīng)用的同時(shí)自動(dòng)生成業(yè)務(wù)模板,通過模板共享,促進(jìn)數(shù)據(jù)分析和應(yīng)用,提高數(shù)據(jù)平臺(tái)的知識(shí)產(chǎn)出效率和精準(zhǔn)度。

(3)支持報(bào)表的發(fā)布和共享?;浉郯拇鬄硡^(qū)資源數(shù)據(jù)平臺(tái),需要支持發(fā)布獨(dú)立的應(yīng)用。并通過可視化界面,用拖拽的方式產(chǎn)生面向?qū)ο蟮膽?yīng)用,適用于粵港澳行業(yè)、產(chǎn)業(yè)、科技文化等各個(gè)業(yè)務(wù)場(chǎng)景。此外,平臺(tái)支持報(bào)表發(fā)布,支持邀請(qǐng)成員組成工作群組,共同分析、共享研究成果。

3.7 標(biāo)簽畫像體系

標(biāo)簽是通過對(duì)用戶信息分析而得到的高度精練的特征標(biāo)識(shí),是畫像最直觀的解釋[11]。通過“打標(biāo)簽”的方式為所有粵港澳資源數(shù)據(jù)平臺(tái)用戶生成畫像,通過不斷豐富標(biāo)簽來直觀鮮活地描述用戶相關(guān)活動(dòng)特征。此外,對(duì)粵港澳資源數(shù)據(jù)使用的頻度可以反映灣區(qū)行業(yè)、產(chǎn)業(yè)及科技相關(guān)發(fā)展熱點(diǎn),對(duì)生成灣區(qū)資源相關(guān)對(duì)象的標(biāo)簽畫像也非常關(guān)鍵。將用戶畫像和資源畫像、活動(dòng)畫像相結(jié)合,可以更好地圈出灣區(qū)發(fā)展趨勢(shì)熱點(diǎn),推送給符合關(guān)注的人群,繼而深化灣區(qū)研究的深度,契合灣區(qū)發(fā)展的方向。

根據(jù)粵港澳協(xié)同業(yè)務(wù)的要求(如產(chǎn)業(yè)分析、創(chuàng)新創(chuàng)業(yè)、文化活動(dòng)推薦、自定義內(nèi)容推廣等)來決定用戶標(biāo)簽畫像,即不同內(nèi)容所需要的用戶標(biāo)簽畫像是不一樣的,而這樣的標(biāo)簽畫像需要大數(shù)據(jù)管理平臺(tái)提供相應(yīng)的功能進(jìn)行快速配置并產(chǎn)生,以驅(qū)動(dòng)和提高內(nèi)容匹配,提高粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺(tái)的協(xié)同構(gòu)建作用。

通過標(biāo)簽畫像體系,在數(shù)據(jù)清洗、轉(zhuǎn)換,ID匹配等基礎(chǔ)上,積累數(shù)據(jù)平臺(tái)中的內(nèi)容畫像、用戶畫像和活動(dòng)畫像。在前期數(shù)據(jù)和算法模型框架下,根據(jù)任務(wù)處理的需求,形成實(shí)時(shí)快速或精準(zhǔn)離線的計(jì)算任務(wù),通過平臺(tái)計(jì)算引擎進(jìn)行處理后,產(chǎn)生不同層次要求的標(biāo)簽畫像,將處理好的標(biāo)簽畫像數(shù)據(jù)存儲(chǔ)到與平臺(tái)數(shù)據(jù)庫對(duì)應(yīng)的內(nèi)容、業(yè)務(wù)和活動(dòng)的標(biāo)簽畫像數(shù)據(jù)中。因?yàn)楫a(chǎn)生的標(biāo)簽具有不同的層次,所以能滿足灣區(qū)不同的行業(yè)、產(chǎn)業(yè)及科技文化資源需求。

3.8 智能推薦功能

粵港澳大灣區(qū)圖書館資源數(shù)據(jù)協(xié)同構(gòu)建平臺(tái)可依托智慧圖書館建設(shè),設(shè)計(jì)提供個(gè)性化智能推薦功能,根據(jù)用戶的興趣關(guān)注點(diǎn)推薦符合需求的灣區(qū)資訊。智能化推送可以讓用戶更容易找到所需的灣區(qū)資源數(shù)據(jù),減少用戶在海量數(shù)據(jù)中檢索查詢的時(shí)間和精力,并且在用戶感興趣的領(lǐng)域進(jìn)行資訊提醒,有助于提高數(shù)據(jù)平臺(tái)的使用效益。此外,智能推薦功能,讓有意向研究灣區(qū)的特定行業(yè)、產(chǎn)業(yè)、科技文化用戶,集結(jié)成興趣共同的群組,有利于創(chuàng)造基于特定主題的良好交流合集空間,使粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)為更多專業(yè)領(lǐng)域人群所用。

4 結(jié) 語

粵港澳大灣區(qū)的建設(shè)發(fā)展,在國家發(fā)展大局中具有重要戰(zhàn)略地位。協(xié)同構(gòu)建粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái),是推進(jìn)“廣州—深圳—香港—澳門”科技創(chuàng)新走廊建設(shè),探索灣區(qū)行業(yè)、產(chǎn)業(yè)、科技文化等資源要素跨境流動(dòng)和區(qū)域融通的方法。本文從粵港澳大灣區(qū)資源數(shù)據(jù)現(xiàn)狀的三個(gè)問題出發(fā),分析了灣區(qū)圖書館協(xié)同構(gòu)建平臺(tái)的需求,制定了智能精準(zhǔn)信息平臺(tái)建設(shè)的目標(biāo)。從數(shù)據(jù)集成標(biāo)準(zhǔn)、存儲(chǔ)計(jì)算、分析交互和智能標(biāo)簽聚集等八個(gè)方面,給出搭建灣區(qū)數(shù)據(jù)平臺(tái)架構(gòu)的實(shí)施方案和可行性建議,以期為粵港澳大灣區(qū)資源數(shù)據(jù)平臺(tái)協(xié)同建設(shè),特別是圖書館牽頭組織下的區(qū)域開放資源建設(shè)提供參考和借鑒,協(xié)同共建區(qū)域大數(shù)據(jù)中心和創(chuàng)新平臺(tái)。

猜你喜歡
灣區(qū)粵港澳大灣
強(qiáng)中心、聯(lián)灣區(qū)、撐南沙,廣州未來14年地鐵規(guī)劃來了!
“新物種”重新定義空間服務(wù)!實(shí)力賦能灣區(qū)城市發(fā)展
鉑玥明珠ONE,締造大灣區(qū)全能宜居主場(chǎng)!
大咖論道:大灣區(qū)超級(jí)“極點(diǎn)”強(qiáng)勢(shì)崛起!
妙語論道!灣區(qū)加速度,宜居新主場(chǎng)!
徐士偉:金融島TOD,以灣區(qū)加速度,激活全新宜居格局
大灣區(qū)地產(chǎn)新定位
粵港澳大灣區(qū):差異就是最大的價(jià)值存在
珠江水運(yùn)助力粵港澳大灣區(qū)建設(shè)有了“計(jì)劃表”
新機(jī)遇,新飛越
温宿县| 灵台县| 汽车| 淳化县| 达孜县| 于田县| 石楼县| 老河口市| 台山市| 宁国市| 吉木萨尔县| 丽水市| 延川县| 集贤县| 沾化县| 茂名市| 宜黄县| 德格县| 亚东县| 道孚县| 常宁市| 灯塔市| 安康市| 丽水市| 平安县| 桃源县| 湖口县| 玉门市| 宣城市| 罗定市| 贺兰县| 忻城县| 金乡县| 黔南| 秭归县| 安康市| 彩票| 皮山县| 东城区| 曲水县| 沅陵县|