張 寧 李 雪
國家圖書館數(shù)據(jù)管理與分析平臺建設(shè)
張 寧 李 雪
國家圖書館數(shù)據(jù)管理與分析平臺是國家圖書館大數(shù)據(jù)工程的一個實(shí)驗(yàn)性項(xiàng)目。該項(xiàng)目選取國家圖書館五個核心系統(tǒng)的數(shù)據(jù),在虛擬化平臺上搭建相應(yīng)的系統(tǒng)平臺,通過數(shù)據(jù)收集、ETL處理、數(shù)據(jù)統(tǒng)計(jì)與分析等流程,形成統(tǒng)一的數(shù)據(jù)處理規(guī)范,并建立讀者、資源和行為數(shù)據(jù)的標(biāo)簽化體系,從數(shù)據(jù)層面上揭示國家圖書館的館藏資源、資源利用情況和用戶行為等重要信息,為國家圖書館大數(shù)據(jù)利用提供理論與實(shí)踐依據(jù)。圖1。表2。參考文獻(xiàn)33。
數(shù)據(jù)處理與分析 ETL 大數(shù)據(jù) 標(biāo)簽體系
圖書館作為社會重要的信息資源中心,不僅擔(dān)負(fù)著保存人類文化遺產(chǎn)、傳承人類文明的重要責(zé)任,還擔(dān)負(fù)著傳播文化知識、參與社會教育的重要職責(zé)。隨著信息技術(shù)的高速發(fā)展,圖書館的信息服務(wù)也愈來愈依賴互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)[1]。因此,將大數(shù)據(jù)與圖書館業(yè)務(wù)相結(jié)合,分析圖書館現(xiàn)階段數(shù)據(jù)組織、分析、挖掘的開展情況,以及大數(shù)據(jù)時代用戶對信息資源的利用需求,對推動大數(shù)據(jù)在圖書館建設(shè)和服務(wù)中的應(yīng)用具有重要意義。
隨著美國、英國、法國等歐美國家紛紛提出大數(shù)據(jù)發(fā)展戰(zhàn)略[2],大數(shù)據(jù)逐漸成為各行業(yè)的研究熱點(diǎn),圖書館界也開始了相關(guān)的研究與應(yīng)用[3]。以美國為例,圖書館大數(shù)據(jù)主要應(yīng)用在數(shù)據(jù)共享、公益服務(wù)和知識服務(wù)上,并為專業(yè)機(jī)構(gòu)、社會團(tuán)體和個人用戶提供服務(wù)。例如,美國國家醫(yī)學(xué)圖書館為實(shí)現(xiàn)生物學(xué)和臨床信息數(shù)據(jù)共享開展的“整合生物學(xué)與臨床信息項(xiàng)目”[4];美國各類公共圖書館、行業(yè)協(xié)會等非營利機(jī)構(gòu)利用大數(shù)據(jù)開展的“數(shù)據(jù)無邊界運(yùn)動”,為公益服務(wù)的開展提供幫助[5];哈佛大學(xué)圖書館將1200多萬種書目、音視頻、手稿等數(shù)據(jù)向讀者公布,并提供下載服務(wù),滿足用戶的知識服務(wù)需求[6]。除美國外,歐洲國家的圖書館大數(shù)據(jù)應(yīng)用也主要集中在數(shù)據(jù)的開放與共享上。例如,由大英圖書館、荷蘭代爾夫特理工大學(xué)圖書館和德國國家科學(xué)技術(shù)圖書館等共同組建的DataCite非營利組織,為社會團(tuán)體提供研究數(shù)據(jù)的數(shù)字對象唯一標(biāo)識符(DOI),幫助其尋找、識別和引用權(quán)威研究數(shù)據(jù);歐盟委員會在2011年11月提出的“歐盟開放數(shù)據(jù)戰(zhàn)略”,向社會開放大部分公共部門數(shù)據(jù),范圍覆蓋圖書館、博物館和檔案館等組織。
與國外相比,國內(nèi)圖書館對大數(shù)據(jù)的研究和應(yīng)用起步較晚,研究內(nèi)容主要集中在大數(shù)據(jù)的內(nèi)涵、特征和應(yīng)用邊界等基礎(chǔ)理論上[7]。雖然不少學(xué)者指出大數(shù)據(jù)可應(yīng)用于信息服務(wù)、學(xué)科服務(wù)、參考咨詢、個性化服務(wù)、信息營銷、預(yù)測分析和新型知識服務(wù)等方面[8],但在實(shí)際應(yīng)用上仍處于探索階段。近年來,受益于數(shù)字圖書館的建設(shè)成果,我國圖書館界大數(shù)據(jù)應(yīng)用的數(shù)據(jù)基礎(chǔ)已經(jīng)形成,國內(nèi)各大圖書館也開始了大數(shù)據(jù)實(shí)際應(yīng)用的探索與嘗試,如國家圖書館的數(shù)據(jù)管理與分析平臺建設(shè),上海圖書館的“智慧圖書館”建設(shè);各地圖書館還利用大數(shù)據(jù)技術(shù)發(fā)布年度分析報告或各類研究專題等,其中包括上海圖書館自2013年起發(fā)布的年度閱讀報告和讀者閱讀賬單,武漢大學(xué)圖書館發(fā)布的2015年度閱讀報告等。
2.1 項(xiàng)目目的
目前,由于大數(shù)據(jù)在國內(nèi)圖書館界的實(shí)際應(yīng)用仍處于探索階段,尚無成熟經(jīng)驗(yàn)可以借鑒,存在落地較難的問題,不便進(jìn)行大規(guī)模的工程建設(shè)。因此,國家圖書館嘗試?yán)么髷?shù)據(jù)的思想和方法建立數(shù)據(jù)管理與分析平臺,從數(shù)據(jù)的ETL(Extract-Transform-Load,抽取、轉(zhuǎn)換、裝載)處理、組織、讀者與資源描述入手,利用多種分析方法從不同角度對重點(diǎn)系統(tǒng)的數(shù)據(jù)進(jìn)行分析與挖掘,探尋已有數(shù)據(jù)的潛在價值。
該項(xiàng)目旨在實(shí)現(xiàn)以下幾點(diǎn):(1)在對各重點(diǎn)應(yīng)用系統(tǒng)相關(guān)數(shù)據(jù)內(nèi)容的抽取、凈化與轉(zhuǎn)換的過程中,形成數(shù)據(jù)管理與分析平臺的統(tǒng)一數(shù)據(jù)處理規(guī)范。(2)構(gòu)建標(biāo)簽化體系,將讀者數(shù)據(jù)和資源數(shù)據(jù)打上結(jié)構(gòu)化標(biāo)簽,構(gòu)建用戶和資源的“數(shù)據(jù)畫像”。(3)通過讀者屬性和行為數(shù)據(jù)的分析與挖掘,為圖書館的個性化服務(wù)或線上線下活動提供數(shù)據(jù)輔助。(4)以資源特征為基礎(chǔ),結(jié)合讀者對資源的訪問行為,開展涵蓋資源訪問量、熱點(diǎn)資源、檢索熱點(diǎn)詞關(guān)聯(lián)等多維資源分析,為資源采購、資源服務(wù)布局和資源優(yōu)化調(diào)整提供一定的數(shù)據(jù)依據(jù)。
2.2 建設(shè)邊界
對圖書館而言,基本業(yè)務(wù)需求來自讀者服務(wù)、資源建設(shè)以及兩者之間的關(guān)聯(lián)關(guān)系,同時考慮到本項(xiàng)目屬于實(shí)驗(yàn)性項(xiàng)目,故數(shù)據(jù)采集的范圍限定在與讀者和資源相關(guān)的核心業(yè)務(wù)系統(tǒng)內(nèi),選取具有代表性的五個系統(tǒng),分別為Aleph系統(tǒng)①Aleph系統(tǒng)即圖書館集成管理系統(tǒng),由以色列Ex Libris(艾利貝斯有限公司)開發(fā)、具有聯(lián)機(jī)公共查詢目錄、編目及規(guī)范控制、冊件管理、流通、采訪、連續(xù)出版物管理、館際互借、系統(tǒng)管理等功能。、文津搜索系統(tǒng)②文津搜索系統(tǒng)系國家圖書館推出的資源一站式發(fā)現(xiàn)與獲取平臺,有效地整合了國家圖書館自建數(shù)據(jù)和部分已購買了服務(wù)的各類數(shù)字資源,實(shí)現(xiàn)了資源的一站式發(fā)現(xiàn)與獲取,使圖書館內(nèi)的封閉資源能夠?qū)W(wǎng)絡(luò)用戶開放。、統(tǒng)一用戶管理系統(tǒng)③統(tǒng)一用戶管理系統(tǒng)能夠?qū)Σ煌瑏碓?、不同類型的用戶進(jìn)行統(tǒng)一管理,可以將國家圖書館的傳統(tǒng)物理卡用戶、在線注冊用戶、在線實(shí)名用戶、地方公共圖書館用戶和其他特殊用戶統(tǒng)一起來,其中實(shí)名注冊的讀者信息需要經(jīng)公安部身份認(rèn)證中心認(rèn)證。、讀者門戶系統(tǒng)④讀者門戶系統(tǒng)為用戶提供一個單一的在線資源訪問入口,能夠?qū)崿F(xiàn)對所有外購數(shù)據(jù)庫進(jìn)行集中管理、統(tǒng)一認(rèn)證和授權(quán)控制。和門禁系統(tǒng)⑤門禁系統(tǒng)為閱覽室出入管理系統(tǒng),能詳細(xì)地記錄讀者進(jìn)入各閱覽室的時間、位置和狀態(tài)等信息。,并以這五個系統(tǒng)的數(shù)據(jù)作為數(shù)據(jù)邊界進(jìn)行數(shù)據(jù)處理與分析,其分析內(nèi)容也僅限于讀者與資源所呈現(xiàn)出的特點(diǎn)與關(guān)系,以及兩者之間的影響與相互作用。
3.1 數(shù)據(jù)調(diào)查
按照數(shù)據(jù)種類,調(diào)研數(shù)據(jù)主要分為讀者數(shù)據(jù)、資源數(shù)據(jù)和行為數(shù)據(jù)三大類,為了摸清數(shù)據(jù)的真實(shí)情況,本項(xiàng)目對每類數(shù)據(jù)的主要字段、來源和作用進(jìn)行了詳細(xì)的調(diào)查,詳見表1。
表1 數(shù)據(jù)情況調(diào)查
(1)讀者數(shù)據(jù):描述讀者屬性的元數(shù)據(jù),包括讀者ID、性別、出生日期、國家地區(qū)等,可用來刻畫“讀者畫像”,分析讀者特征。
(2)資源數(shù)據(jù):包括描述館藏資源(含紙質(zhì)資源和電子資源)屬性的元數(shù)據(jù)和描述系統(tǒng)內(nèi)所有數(shù)據(jù)庫自身屬性的數(shù)據(jù),不包含對象數(shù)據(jù),主要描述字段有題名、責(zé)任者、出版信息等,可用來刻畫“資源畫像”,分析資源特征和資源使用情況。
(3)行為數(shù)據(jù):記錄讀者行為、行為趨勢的數(shù)據(jù),與時間要素相關(guān),既包括登錄記錄、檢索記錄、瀏覽記錄和借閱記錄等能夠直接從系統(tǒng)中獲取的字段信息,也包括檢索效率、排行榜和閱讀偏好等通過間接計(jì)算獲取的信息。
3.2 數(shù)據(jù)收集
基于五個核心系統(tǒng),從中重點(diǎn)收集讀者數(shù)據(jù)、資源數(shù)據(jù)和行為數(shù)據(jù),內(nèi)容涉及讀者信息、資源數(shù)據(jù)信息、檢索行為信息、瀏覽閱讀行為、實(shí)體資源流通信息和到館讀者運(yùn)動軌跡等,具體收集范圍如下:
(1)讀者數(shù)據(jù):主要來源于國家圖書館統(tǒng)一用戶管理系統(tǒng),以讀者門戶系統(tǒng)和Aleph系統(tǒng)的讀者數(shù)據(jù)為補(bǔ)充,以讀者證號和身份證號作為數(shù)據(jù)是否重復(fù)的判定條件。
(2)資源數(shù)據(jù):由于資源數(shù)據(jù)包括館藏資源元數(shù)據(jù)和數(shù)據(jù)庫屬性數(shù)據(jù),故其收集范圍除了文津搜索系統(tǒng)和讀者門戶系統(tǒng)外,還包括對所有數(shù)據(jù)庫自身屬性的客觀描述信息,如數(shù)據(jù)庫名稱、類型、資源量和訪問方式等。
(3)行為數(shù)據(jù):不同類別的行為數(shù)據(jù)因來源不同,其收集范圍和收集方法也各不相同,其中能夠直接獲取的信息根據(jù)其具體類別分別來源于不同的系統(tǒng),如檢索行為數(shù)據(jù)來源于文津搜索系統(tǒng),瀏覽閱讀行為數(shù)據(jù)來源于讀者門戶系統(tǒng),實(shí)體資源流通數(shù)據(jù)來源于Aleph系統(tǒng),到館讀者運(yùn)動軌跡數(shù)據(jù)則來源于門禁系統(tǒng),而通過間接計(jì)算才能獲取的信息則需要根據(jù)實(shí)際需要進(jìn)行統(tǒng)計(jì)和計(jì)算。
數(shù)據(jù)ETL處理是指將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程[9]。它從源系統(tǒng)中抽取數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,按照一定的規(guī)則將其轉(zhuǎn)換成標(biāo)準(zhǔn)格式,并加載到目標(biāo)數(shù)據(jù)存儲區(qū),包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載四個環(huán)節(jié)。
4.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取數(shù)據(jù)的過程[10]。鑒于關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫之間的差異,數(shù)據(jù)抽取的數(shù)據(jù)源主要包括數(shù)據(jù)庫數(shù)據(jù)和日志文件類數(shù)據(jù)。本項(xiàng)目采用全量抽取的方式,將被列入收集范圍內(nèi)的數(shù)據(jù)表、視圖數(shù)據(jù)和日志文件原封不動的抽取出來,并轉(zhuǎn)換成ETL工具可以識別的格式。同時,根據(jù)業(yè)務(wù)需求對其進(jìn)行數(shù)據(jù)篩選,最終確定出需要抽取的數(shù)據(jù)字段名和來源系統(tǒng)。
4.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗旨在檢測數(shù)據(jù)中存在的錯誤和不一致,通過一系列手段排除噪聲、減少冗余、刪除重復(fù)數(shù)據(jù)和糾正存在的錯誤,以提高數(shù)據(jù)質(zhì)量[11]。本次數(shù)據(jù)清洗主要集中在以下幾個方面:
(1)異常數(shù)據(jù):設(shè)定字段類型,采用統(tǒng)計(jì)方法來檢測數(shù)值型屬性,通過每個字段的置信區(qū)間來識別異常字段和記錄[12],重點(diǎn)檢測數(shù)據(jù)中是否存在亂碼、重碼、非法字符、超長字符和不符合邏輯的數(shù)據(jù)等。
(2)重復(fù)數(shù)據(jù):即相似重復(fù)記錄,包括同一系統(tǒng)中的重復(fù)數(shù)據(jù)和不同系統(tǒng)中同一實(shí)體的不同描述兩種情況。在實(shí)際清洗過程中,對于同一系統(tǒng)中的重復(fù)數(shù)據(jù),通過唯一性約束條件檢測并清除;對于多系統(tǒng)相似或重復(fù)字段,采用字段屬性比較分析法檢測并清除。
(3)殘缺數(shù)據(jù):指數(shù)據(jù)信息的缺失,通過系統(tǒng)判別的方法篩選出殘缺數(shù)據(jù)并補(bǔ)全,同時補(bǔ)全缺少的關(guān)聯(lián)表和代碼表,如中國圖書館圖書分類法、讀者職業(yè)代碼表等。
4.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換是指按照一定的規(guī)則,將清洗過的有效數(shù)據(jù),經(jīng)過必要的拆分、計(jì)算和關(guān)聯(lián)等處理,解決數(shù)據(jù)格式、類型不統(tǒng)一等問題[13],主要包括ETL元數(shù)據(jù)定義、數(shù)據(jù)格式與類型轉(zhuǎn)換、數(shù)據(jù)合并與拆分等。
(1)ETL元數(shù)據(jù)定義:確定和解釋了數(shù)據(jù)資源和數(shù)據(jù)標(biāo)準(zhǔn)[14]。本項(xiàng)目對文津搜索系統(tǒng)中常用的31個外購數(shù)據(jù)庫元數(shù)據(jù)進(jìn)行了數(shù)據(jù)轉(zhuǎn)換,并利用唯一證件號和唯一標(biāo)識符將不同系統(tǒng)、不同數(shù)據(jù)表的讀者屬性信息、行為信息和資源信息關(guān)聯(lián)起來,完成了五大系統(tǒng)數(shù)據(jù)之間映射規(guī)則的制定。
(2)數(shù)據(jù)格式與類型轉(zhuǎn)換:指數(shù)據(jù)格式和類型的統(tǒng)一,將分布在不同系統(tǒng)不同表結(jié)構(gòu)中的數(shù)據(jù)按照統(tǒng)一的標(biāo)準(zhǔn)格式進(jìn)行轉(zhuǎn)換,主要包括以下工作:1)將不同字符集數(shù)據(jù)轉(zhuǎn)換成同一套字符集;2)將系統(tǒng)中存在的二進(jìn)制、八進(jìn)制以及十六進(jìn)制數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成十進(jìn)制數(shù)據(jù);3)將時間格式統(tǒng)一為YYYYMMDD形式;4)統(tǒng)一數(shù)據(jù)的編碼,并提供相應(yīng)的編碼字典表。
(3)數(shù)據(jù)拆分與合并:將數(shù)據(jù)庫中可能不直接存在、但又是必需的數(shù)據(jù)或信息,通過字段的組合、分割或計(jì)算等方式,將其轉(zhuǎn)換成我們需要的數(shù)據(jù)或信息[15]。在實(shí)際的數(shù)據(jù)分析中,對于一個字段包含多個信息的情況,按照特定的規(guī)則將其拆分;對于需要合并的信息,采用如下兩種方法處理:1)對于重復(fù)信息或不同表中的相同字段,選取信息最全、描述最權(quán)威的數(shù)據(jù);2)對于需要合并才能完整描述事物信息的,利用之前制定的映射關(guān)系將其合并。
4.4 數(shù)據(jù)加載
數(shù)據(jù)加載是ETL的最后一步,是將數(shù)據(jù)從臨時表或文件中加載到指定的數(shù)據(jù)倉庫[16]。本項(xiàng)目中對轉(zhuǎn)換完成后的數(shù)據(jù)進(jìn)行加載操作,按照事先設(shè)定的加載策略自動將數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫中。共計(jì)處理讀者數(shù)據(jù)362萬條,其中實(shí)名用戶292萬,非實(shí)名用戶70萬條;處理資源數(shù)據(jù)1.63億條,其中成功加載量為1.54億條,剔除重復(fù)數(shù)據(jù)900萬條。
5.1 數(shù)據(jù)存儲
目前,現(xiàn)行的大數(shù)據(jù)存儲結(jié)構(gòu)包括行式存儲、列式存儲和混合式存儲三種[17]。在分布式系統(tǒng)中,以行式結(jié)構(gòu)存儲時,數(shù)據(jù)表按行水平分割,每行所有的數(shù)據(jù)都存放在同一個HDFS塊中。列式存儲結(jié)構(gòu)是將關(guān)系表按列垂直分割成多個子關(guān)系表,分割后的每組子關(guān)系表中的所有數(shù)據(jù)存放在同一個HDFS塊中,每一列都獨(dú)立存儲[18]。在本項(xiàng)目中,數(shù)據(jù)存儲是以HDFS分布式文件系統(tǒng)和YARN分布式計(jì)算框架為基礎(chǔ),采用列式存儲結(jié)構(gòu)將數(shù)據(jù)存儲于Hbase,不但能保證數(shù)據(jù)讀取時只讀取有用的列,避免額外的磁盤I/O開銷,還能保證單列數(shù)據(jù)類型相同,保持很好的壓縮比,提高磁盤的空間利用率。
5.2 數(shù)據(jù)安全
概括來說,圖書館數(shù)據(jù)安全包括數(shù)據(jù)存儲安全、數(shù)據(jù)訪問安全以及讀者隱私保護(hù)等方面,由于本項(xiàng)目收集的數(shù)據(jù)中有不少涉及讀者身份信息和借閱記錄的個人隱私,因此,數(shù)據(jù)的安全管理也是本項(xiàng)目需要考慮和解決的問題。
(1)數(shù)據(jù)存儲安全。數(shù)據(jù)在保存、使用和傳輸?shù)倪^程中存在被非法刪除、修改和復(fù)制,從而造成數(shù)據(jù)丟失、篡改和泄漏的風(fēng)險[19]。因此,在平臺建設(shè)過程中,根據(jù)自主可控原則,將數(shù)據(jù)存儲在獨(dú)立的服務(wù)器上,并按照國家圖書館服務(wù)器管理的相關(guān)規(guī)定加強(qiáng)數(shù)據(jù)管理。同時采用分布式存儲結(jié)構(gòu),根據(jù)CAP原則(強(qiáng)一致性、可用性和分區(qū)容忍性)制定數(shù)據(jù)副本更新策略,防范數(shù)據(jù)丟失、篡改并保證數(shù)據(jù)更新的有效性。
(2)數(shù)據(jù)訪問安全。圖書館擁有大量的讀者與資源數(shù)據(jù),包括讀者身份信息、書目數(shù)據(jù)、資源屬性信息和其它具有商業(yè)價值的數(shù)據(jù),需要采取一定的措施控制數(shù)據(jù)訪問[20],如訪問控制技術(shù),使平臺具備用戶、角色、權(quán)限三要素,并在此基礎(chǔ)上建立層次化的角色樹;或通過創(chuàng)建、分配、回收權(quán)限等操作[21],認(rèn)證訪問用戶的合法身份并控制可訪問范圍。同時,對平臺網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,控制可訪問IP,打造相對獨(dú)立的物理網(wǎng)絡(luò)結(jié)構(gòu)。
(3)讀者隱私保護(hù)。參考國外代表性圖書館的用戶隱私保護(hù)指南[22],制定相應(yīng)的讀者隱私信息使用規(guī)定,包括不將讀者個人信息置于公眾視野,不用于為讀者提供服務(wù)以外的目的,不用于圖書館外部的機(jī)構(gòu)、團(tuán)體和個人,同時對圖書館員工進(jìn)行相關(guān)培訓(xùn),防止濫用讀者信息。
數(shù)據(jù)存儲和分析技術(shù)是大數(shù)據(jù)技術(shù)體系的核心技術(shù)[23],它不僅包括數(shù)據(jù)流處理的高級數(shù)據(jù)服務(wù),還包括對數(shù)據(jù)的進(jìn)一步挖掘和應(yīng)用分析,通過可視化分析法和數(shù)據(jù)挖掘技術(shù)從大量的、不完全的、噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識[24]。除了可視化分析外,本項(xiàng)目采用的數(shù)據(jù)挖掘方法還包括關(guān)聯(lián)分析、序列分析、分類分析、聚類分析等[25]。
6.1 可視化分析
圖書館大數(shù)據(jù)環(huán)境具有信息分散、數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一的特點(diǎn)[26],同時,系統(tǒng)管理與運(yùn)營監(jiān)控?cái)?shù)據(jù)、讀者閱讀行為數(shù)據(jù)、讀者閱讀關(guān)系數(shù)據(jù)、讀者個體特征與位置信息數(shù)據(jù)等也具有多維信息空間的屬性[27]。因此,僅僅依靠傳統(tǒng)的分析方式難以完全挖掘圖書館大數(shù)據(jù)中潛在的價值,而可視化分析對于圖書館大數(shù)據(jù)分析來說,則是一個行之有效的途徑。
本平臺以基于java平臺的Pentaho開源商業(yè)智能(Business Intelligence,BI)套件為基礎(chǔ),采用組件化的思想將可視化發(fā)布引擎、報表、圖表和數(shù)據(jù)挖掘組件等集成在平臺表現(xiàn)層上,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式加以表示,可從不同的維度觀察數(shù)據(jù),以便于對數(shù)據(jù)進(jìn)行更深入地觀察和分析。此外,為進(jìn)一步豐富可視化效果,平臺還提供包括折線圖、柱狀(條形)圖、散點(diǎn)圖、餅狀圖、地圖、儀表盤、雷達(dá)圖、力導(dǎo)向布局圖、漏斗圖、樹形圖等在內(nèi)的多種統(tǒng)計(jì)展現(xiàn)形式,使其能夠更加直觀、準(zhǔn)確地反映出圖書館大量異構(gòu)數(shù)據(jù)中所蘊(yùn)藏的價值。
6.2 關(guān)聯(lián)分析
關(guān)聯(lián)分析是指通過對數(shù)據(jù)集的分析處理,挖掘數(shù)據(jù)集中各數(shù)據(jù)項(xiàng)之間的聯(lián)系[28],即發(fā)現(xiàn)不同對象之間的相關(guān)性或因果結(jié)構(gòu)。本平臺利用Apriori算法中逐層搜索的迭代方法[29]開發(fā)出迭代分析的方式,即從讀者或資源(兩者任選其一作為集合A)出發(fā),根據(jù)特定的規(guī)則探索或鎖定集合B;然后以集合B為起點(diǎn),再根據(jù)特定的規(guī)則探索集合C;如此反復(fù)迭代,直到找到預(yù)期集合N;然后由系統(tǒng)自動記錄從集合A到集合N的關(guān)聯(lián)規(guī)則,并分析集合A和集合N之間的潛在規(guī)律或聯(lián)系。
6.3 序列分析
平臺建設(shè)過程中主要采用的是時間序列分析方法,它是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)方法[30]。具體而言,將讀者行為數(shù)據(jù)按照時間順序進(jìn)行排列,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,進(jìn)而分析國家圖書館服務(wù)效果的變化情況,如讀者注冊量、到館借閱情況、在線登錄和在線閱讀情況等。
6.4 分類分析
分類分析是數(shù)據(jù)統(tǒng)計(jì)的常用方法,它利用分類函數(shù)或分類模型將數(shù)據(jù)映射到不同的類別,利用歷史數(shù)據(jù)推導(dǎo)所屬類別的推廣描述,從而對未來數(shù)據(jù)進(jìn)行預(yù)測[31]。國家圖書館數(shù)據(jù)管理與分析平臺利用分類分析方法,按照基礎(chǔ)屬性對讀者和資源進(jìn)行分類,一方面描述各類的總體特征,另一方面則將其作為聚類分析的分類基礎(chǔ)。
6.5 聚類分析
數(shù)據(jù)管理與分析平臺按讀者和資源兩大類的基本屬性進(jìn)行聚類,其中讀者聚類是根據(jù)讀者借閱行為,將借閱某一學(xué)科或?qū)I(yè)文獻(xiàn)的讀者按照性別、年齡、年代、籍貫、星座、民族、屬相和教育程度等基本屬性進(jìn)行聚類,而資源聚類則是根據(jù)被借閱情況,將某一類讀者喜歡借閱的資源按照學(xué)科、專業(yè)、媒體類型、資源庫、資源類型、出版社和資源標(biāo)簽等基本屬性進(jìn)行聚類,從而分析其中所包含的讀者與資源之間互相聯(lián)系的規(guī)律。
利用上述數(shù)據(jù)統(tǒng)計(jì)與分析方法,采用軟件分層的思想將所需的各種大數(shù)據(jù)技術(shù)組件應(yīng)用在不同的層次上,通過標(biāo)簽化系統(tǒng)、讀者分析、資源分析和行為分析等組件得到以下結(jié)果。
7.1 標(biāo)簽化系統(tǒng)
建立一套統(tǒng)一的標(biāo)簽體系,對讀者和圖書資源打上基本屬性標(biāo)簽,其中包括讀者屬性、資源屬性和行為特征,利用聚類分析將讀者和資源進(jìn)行聚類,然后根據(jù)相關(guān)的行為特征采用關(guān)聯(lián)分析中的迭代方法探索特定集合,然后將這些集合按照三級標(biāo)簽的結(jié)構(gòu)打上特定標(biāo)簽,并記錄標(biāo)簽規(guī)則。截止到2015年10月,該平臺已經(jīng)建立173,054個標(biāo)簽,其中讀者特征類標(biāo)簽741個,資源類標(biāo)簽172,313個。
7.2 讀者分析
截止到2015年10月,國家圖書館讀者總量(含持證讀者和注冊讀者)已達(dá)362萬人,其中實(shí)名認(rèn)證讀者(包括持證讀者和實(shí)名注冊讀者)292萬,占讀者總?cè)藬?shù)的80.66%,非實(shí)名認(rèn)證讀者70萬,占讀者總?cè)藬?shù)的19.34%??傮w來說,國家圖書館實(shí)名認(rèn)證讀者呈現(xiàn)以下特點(diǎn)。
(1)男女比例基本持平。國家圖書館實(shí)名認(rèn)證讀者中,男性讀者占 50.89%,女性讀者占49.11%,男女比例接近1∶1。
(2)青年讀者成為主力群體。從讀者年齡構(gòu)成來看,16—34歲的青年讀者約占71.87%,35—59歲的中年讀者占24.20%,而60歲及以上的老年讀者和15歲及以下的少兒讀者分別占2.87%和1.06%,80后、90后讀者已經(jīng)成為國家圖書館實(shí)名認(rèn)證讀者的主力群體。
(3)讀者分布范圍廣。國家圖書館擁有的國際讀者遍布全球22個國家,包括美國、加拿大、委內(nèi)瑞拉、德國、法國、俄羅斯、日本、韓國、伊朗和澳大利亞等。除南極洲外,其余各大洲均有國家圖書館實(shí)名認(rèn)證讀者。
(4)華北、華中和華東北部地區(qū)實(shí)名認(rèn)證讀者相對較多。國家圖書館擁有眾多國內(nèi)讀者,其范圍覆蓋全國,其中以華北、華中和華東北部地區(qū)(山東、江蘇和安徽)實(shí)名認(rèn)證讀者人數(shù)最多,占實(shí)名認(rèn)證讀者人數(shù)的60.50%。
(5)國內(nèi)讀者覆蓋所有民族。除漢族外,國家圖書館實(shí)名認(rèn)證讀者包括所有的55個少數(shù)民族,其中滿族、回族和蒙古族人數(shù)相對較多。
(6)覆蓋行業(yè)廣。國家圖書館實(shí)名認(rèn)證讀者的行業(yè)范圍覆蓋教育培訓(xùn)科研機(jī)構(gòu)、IT信息技術(shù)、互聯(lián)網(wǎng)、生物醫(yī)藥、金融、加工制造業(yè)、社會服務(wù)、廣告?zhèn)髅?、農(nóng)林牧漁、房地產(chǎn)、貿(mào)易零售、交通物流、石化采掘和旅游餐飲等各個方面。
7.3 資源分析
國家圖書館數(shù)據(jù)管理與分析平臺收集的資源總數(shù)據(jù)量約為1.54億條,具有以下特征:
(1)學(xué)科范圍廣。國家圖書館館藏資源涉及22個一級學(xué)科,其中,經(jīng)濟(jì)類學(xué)科資源量最大,占26.58%;工業(yè)技術(shù)類第二,占15.71%;醫(yī)藥、衛(wèi)生類第三,占13.77%。
(2)特藏文獻(xiàn)資源豐富。國家圖書館藏有豐富的善本古籍,其中宋朝文獻(xiàn)8,534種、元朝文獻(xiàn)773種、明朝文獻(xiàn) 81,888種、清朝文獻(xiàn) 564,928種。
(3)外文資源涵蓋廣泛。館藏外文資源共涉及48種外文語種,除英語、日語、俄語、德語和法語外,還有依地語、祖魯語、法羅語、馬爾他語和茨瓦納語等少數(shù)語種。
7.4 行為分析
因行為數(shù)據(jù)與時間要素有關(guān),行為數(shù)據(jù)呈現(xiàn)的規(guī)律和趨勢可能會隨著時間的變化而變化,故本項(xiàng)目在進(jìn)行行為分析時,選取的行為數(shù)據(jù)截止日期為2015年10月,重點(diǎn)分析該日期以前國家圖書館實(shí)名認(rèn)證讀者用戶的行為特征。
(1)檢索量與在線閱讀量關(guān)系分析。分析檢索量和在線閱讀量之間的關(guān)系,可以從整體上反映出讀者每檢索一次能夠找到并閱讀文獻(xiàn)資源的平均數(shù)量,計(jì)算公式為:在線閱讀量/檢索量。通過對國家圖書館歷史檢索量和在線閱讀量的分析可以發(fā)現(xiàn),讀者每檢索一次的平均閱讀量3.69,即檢索一次能有3.69本文獻(xiàn)資源符合預(yù)期并被閱讀。此外,通過對不同性別的檢索量和在線閱讀量關(guān)系的分析,發(fā)現(xiàn)男性讀者每檢索一次的平均閱讀量較高,是女性讀者的3.75倍。
表2 檢索量與在線閱讀量關(guān)系
(2)各年齡段閱讀類別①閱讀類別指讀者使用國家圖書館館藏資源的種類,分類標(biāo)準(zhǔn)參考“中國圖書館圖書分類法”,下同。偏好分析。將國家圖書館所有實(shí)名認(rèn)證讀者按照年齡段分類,分析挖掘這些讀者群體的閱讀偏好,可以發(fā)現(xiàn)如下特點(diǎn):
1)不受年齡影響,語言文字類和經(jīng)濟(jì)類資源在各個年齡段中均比較受歡迎。
2)與90后讀者相比,90前讀者更加喜愛文學(xué)類資源,90前讀者閱讀文學(xué)類資源的平均比例為25.66%,而90后僅為3.80%。
3)90后讀者更加喜愛歷史類資源,歷史類資源占90后讀者閱讀總量的41.17%。
4)各年齡段讀者偏好經(jīng)濟(jì)類資源的側(cè)重點(diǎn)不同,如50后讀者更偏好于財(cái)政金融方面,60后與70后讀者更傾向于經(jīng)濟(jì)計(jì)劃與管理方面,而80后與90后讀者則偏好于經(jīng)濟(jì)學(xué)方面。
(3)受教育程度與閱讀類別偏好分析。將國家圖書館所有實(shí)名認(rèn)證讀者按照學(xué)歷進(jìn)行分類,分為本科以下、本科、碩士研究生、博士研究生學(xué)歷四類,挖掘分析每類讀者的閱讀類別偏好,可以發(fā)現(xiàn)以下特點(diǎn):
1)不受教育程度的影響,語言文字類和經(jīng)濟(jì)類資源在各學(xué)歷的讀者中均比較受歡迎。
2)受教育程度越高,閱讀范圍越廣。相對于碩士研究生學(xué)歷和博士研究生學(xué)歷讀者,本科及以下學(xué)歷讀者的閱讀類別分布更為集中,如本科學(xué)歷以下讀者閱讀歷史地理類的占比高達(dá)56.77%,而隨著受教育程度的提高,閱讀類別分布趨于平均(如圖1所示)。
圖1 不同學(xué)歷讀者閱讀的類別范圍
3)學(xué)歷越高,外文資源閱讀率越高。隨著學(xué)歷的提高,閱讀外文資源的讀者比例不斷增加,其中最低為本科以下學(xué)歷,外文資源閱讀率為8.23%,最高的為博士研究生學(xué)歷,外文資源閱讀率為19.82%。
(4)資源使用情況分析。分析近幾年國家圖書館已有資源的使用情況,并按照“中國圖書館圖書分類法”進(jìn)行分類,可以發(fā)現(xiàn)以下特征:
1)經(jīng)濟(jì)類、工業(yè)技術(shù)類資源的閱讀量與讀者所在省份的GDP(國內(nèi)生產(chǎn)總值)排名有關(guān)。從數(shù)據(jù)中可以發(fā)現(xiàn),在經(jīng)濟(jì)類和工業(yè)技術(shù)類資源的閱讀群體中,北京、江蘇、山東、廣東、河南、河北的讀者較多,而這幾個省份恰恰是2014年和2015年GDP較高的省份。
2)熱點(diǎn)檢索詞變化情況。分析2012—2015年熱點(diǎn)檢索詞變化情況可以發(fā)現(xiàn),2012—2014年熱點(diǎn)檢索詞變化不大,基本上集中在四大名著、法律、養(yǎng)生等類別,而2015年熱點(diǎn)檢索詞中經(jīng)濟(jì)類激增至第二名,分析可能與當(dāng)年我國股市因素有關(guān)。
7.5 分析結(jié)果總結(jié)
(1)提高國家圖書館地域輻射范圍
國家圖書館實(shí)名認(rèn)證用戶主要分布在北京、河北、河南、湖北、江蘇和山東等省,地域輻射范圍主要集中在華北、華中以及華東北部地區(qū)。因此,國家圖書館需要在今后的政策制定中擴(kuò)大地域影響力,發(fā)展其他地區(qū)的用戶數(shù)量。
(2)青年讀者成為主要讀者群體
16—34歲的青年讀者,占國家圖書館實(shí)名認(rèn)證用戶的71.87%,已經(jīng)成為讀者群體的主要力量。研究和分析這部分讀者的閱讀類別偏好、行為習(xí)慣和閱讀需求,并制定相應(yīng)的政策,能夠有效地幫助國家圖書館鞏固讀者用戶的主要人群,提升服務(wù)質(zhì)量。
(3)不同年齡段的讀者具有不同的閱讀類別偏好
通過“年齡段與閱讀類別關(guān)系分析”可以發(fā)現(xiàn),針對不同類別的資源,各年齡段讀者的閱讀比例各不相同。如文學(xué)類資源50后讀者閱讀比例最高,經(jīng)濟(jì)類資源70后讀者閱讀比例最高,而語言文字類資源和歷史地理類資源閱讀比例最高的年齡段分別為80后和90后。根據(jù)這些現(xiàn)象,圖書館可以了解不同讀者群體的特殊需求,向特定讀者群體推薦不同資源。
(4)每檢索一次的平均閱讀量存在男女差異
通過“檢索量與在線閱讀量關(guān)系”可以發(fā)現(xiàn),在電子資源檢索方面,男性讀者每檢索一次的平均閱讀量比女性高,是女性讀者的3.75倍。因此,圖書館信息技術(shù)部門在日后的工作中可以有針對性的研究此類現(xiàn)象,幫助不同性別的讀者更快、更精確地找到自己想要的資源。
(5)閱讀范圍與受教育程度有關(guān)
通過“受教育程度與閱讀類別偏好分析”可以發(fā)現(xiàn)一些有趣的現(xiàn)象:1)博士讀者并沒有人們想象的那么“?!?,隨著學(xué)歷的提高,高學(xué)歷人群的閱讀范圍會更加廣泛;2)與其他讀者人群相比,碩士及以上學(xué)歷人群的外文資源閱讀率明顯居高。
(6)社會因素影響閱讀行為
通過對“熱點(diǎn)檢索詞變化情況”的分析可以發(fā)現(xiàn),社會因素對人們的閱讀行為具有很大的影響。例如,對比近幾年熱點(diǎn)檢索詞的變化情況,可以發(fā)現(xiàn)2015年由于中國股市的影響,經(jīng)濟(jì)類關(guān)鍵詞迅速成為年度第二熱點(diǎn)。
本項(xiàng)目作為國家圖書館的實(shí)驗(yàn)性大數(shù)據(jù)項(xiàng)目,是圖書館對大數(shù)據(jù)工程的探索和實(shí)驗(yàn),難免存在許多不足和需要改進(jìn)的地方,具體如下:
(1)數(shù)據(jù)收集范圍需要擴(kuò)大。本次數(shù)據(jù)收集僅僅局限于國家圖書館的五個核心系統(tǒng),在以后的數(shù)據(jù)收集過程中,還需從業(yè)務(wù)驅(qū)動的角度出發(fā),思考希望實(shí)現(xiàn)的目的和達(dá)到的效果,擴(kuò)大數(shù)據(jù)收集的范圍,收集與之相關(guān)的數(shù)據(jù)。
(2)“養(yǎng)數(shù)據(jù)”能力需要加強(qiáng)?!梆B(yǎng)數(shù)據(jù)”是一種數(shù)據(jù)戰(zhàn)略,是基于深入理解業(yè)務(wù)的更高層次的決策,是一種主動收集數(shù)據(jù)的行為。在實(shí)際收集數(shù)據(jù)的過程中,存在部分?jǐn)?shù)據(jù)是我們急需但無法獲得的情況,例如讀者行為數(shù)據(jù)中瀏覽頁面的停留時間、點(diǎn)擊頁面的哪些模塊等等,因而無法更加精確地分析出讀者想要什么、喜歡什么。在今后的工作中,需要加強(qiáng)“養(yǎng)數(shù)據(jù)”的能力,主動的去收集、補(bǔ)充和生產(chǎn)這些數(shù)據(jù),實(shí)現(xiàn)從運(yùn)營化數(shù)據(jù)向運(yùn)營數(shù)據(jù)的轉(zhuǎn)變[32]。
(3)需要對數(shù)據(jù)進(jìn)行估值與分類。制定圖書館數(shù)據(jù)價值評估標(biāo)準(zhǔn),對數(shù)據(jù)進(jìn)行量化評判和估值,按照數(shù)據(jù)價值進(jìn)行排序與分類,建立圖書館數(shù)據(jù)價值信息庫。這不但有利于收集核心數(shù)據(jù),更有利于了解數(shù)據(jù)價值分布情況,方便數(shù)據(jù)的后續(xù)收集、保存與使用[33]。
(4)提高數(shù)據(jù)分析技能。本項(xiàng)目在數(shù)據(jù)分析上還不夠深入,主要是因?yàn)橄嚓P(guān)人員的數(shù)據(jù)分析技能存在不足,需要我們在以后的大數(shù)據(jù)實(shí)踐中培養(yǎng)自己的數(shù)據(jù)挖掘和分析能力,將數(shù)據(jù)分析和挖掘的重點(diǎn)從簡單的統(tǒng)計(jì)分析轉(zhuǎn)變到復(fù)雜的算法分析和空間分析上來。
1 潘家芳.大數(shù)據(jù)對圖書館信息服務(wù)的沖擊[J].玉林師范學(xué)院學(xué)報,2015(3).
2 2014我國大數(shù)據(jù)發(fā)展分析報告[OL].[2015-11-20].http://www.cssn.cn/xwcbx/xwcbx_ gcsy/201411/t20141104_1388658.shtml.
3 黃惠蘭.關(guān)于大數(shù)據(jù)時代圖書館現(xiàn)狀的一些討論[J].科技視界,2015(6).
4 李鵬云.大數(shù)據(jù)與圖書館服務(wù)[J].農(nóng)業(yè)圖書情報學(xué)刊,2013(9).
5 程蓮娟.美國推進(jìn)大數(shù)據(jù)的應(yīng)用實(shí)踐及其有益借鑒—基于圖書館視角的分析[J].情報資料工作,2013(5).
6 The New York Times.Harvard Releases Big Data for Books[EB/OL].[2015-10-12].http://bits.blogs.nytimes.com/2012/04/24/harvardreleases-big-data-for-books/.
7 陸靜.我國圖書館界大數(shù)據(jù)研究評述與展望[J].圖書館雜志,2014(1).
8 任湘,鄒慧玲.國內(nèi)外圖書館大數(shù)據(jù)研究現(xiàn)狀分析[J].圖書館研究,2015(3).
9 李恒銳.構(gòu)建數(shù)據(jù)倉庫的ETL系統(tǒng)研究[D].西安:西安理工大學(xué),2009.
10 羅會蘭.數(shù)據(jù)提取、轉(zhuǎn)換和裝載技術(shù)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2004(5).
11 蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識服務(wù)的數(shù)據(jù)清洗研究[J].圖書與情報,2013(5).
12 王曰芬,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書情報技術(shù),2007(12).
13 于立.ETL數(shù)據(jù)抽取研究綜述[D].南京:東南大學(xué),2005.
14 張寧,等.數(shù)據(jù)倉庫中ETL技術(shù)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2002(24).
15 徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計(jì)算機(jī)科學(xué),2011(4).
16 王新英,陳語林.數(shù)據(jù)抽取、轉(zhuǎn)換、裝載綜述[J].企業(yè)技術(shù)開發(fā),2004(8).
17 張俊林.大數(shù)據(jù)日知錄:架構(gòu)與算法[M].北京:電子工業(yè)出版社,2014:150-157.
18 馮漢超,周凱東.分布式系統(tǒng)下大數(shù)據(jù)存儲結(jié)構(gòu)優(yōu)化研究[J].河北工程大學(xué)學(xué)報,2014(4).
19 張挺.圖書館數(shù)據(jù)安全與管理研究[J].信息與電腦,2011(11).
20 趙培云.大數(shù)據(jù)與圖書館數(shù)據(jù)安全共享[J].圖書館學(xué)研究,2014(9).
21 虞慧群,等.大數(shù)據(jù)分析與隱私保護(hù)[J].微型電腦應(yīng)用,2014(11).
22 田淑嫻,許春漫.國外圖書館用戶隱私保護(hù)指南文本分析與啟示[J].圖書情報工作,2015(18).
23 丁兆明,等.大數(shù)據(jù)存儲和分析技術(shù)應(yīng)用及標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(5).
24 張春華,王陽.數(shù)據(jù)挖掘技術(shù)、應(yīng)用及發(fā)展趨勢[J].現(xiàn)代情報,2003(4).
25 董云鵬.數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用[J].現(xiàn)代情報,2006(11).
26 楊利軍,高軍.圖書館個性化服務(wù)中的大數(shù)據(jù)可視化分析與應(yīng)用研究[J].現(xiàn)代情報,2015(7).
27 馬曉亭.圖書館大數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2015(10).
28 司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2005(10). 29 肖健,方逵.關(guān)聯(lián)分析在數(shù)字圖書館中的應(yīng)用研究[J].農(nóng)業(yè)圖書情報學(xué)刊,2012(12).
30 張淼.讀者借閱行為的時間序列分析及預(yù)測[J].河北科技圖苑,2013(5).
31 李志聰.數(shù)據(jù)挖掘中的分類分析算法及其應(yīng)用[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報,2007(4).
32 車品覺.決戰(zhàn)大數(shù)據(jù):駕馭未來商業(yè)的利器[M].杭州:浙江人民出版社,2014:63-67.
33 張寧,李雪.圖書館行業(yè)大數(shù)據(jù)建設(shè)研究[J].科技與創(chuàng)新,2016(5).
(張 寧 李 雪 館 員 國家圖書館)
The Construction of Data Management and Analysis Platform of the National Library of China
Zhang Ning Li Xue
The Data Management and Analysis Platform is an experimental project of big-data program in the National Library of China(NLC).The project selects the data of five core systems of the NLC,builds the corresponding system platform on the virtual platform,forms unified data processing specification through data collection,ETL process,data statistics and analysis,and establishes label system for readers,resources and behavior,which reveals the important information of collection resources,utilization of the resources,user behavior and other important information in the NLC from the data level,and provides theoretical and practical basis for the utilization of big data in the NLC.1 fig.2 tabs.33 refs.
Data Management and Analysis;Extract-Transform-Load;Big Data;Label System
2016-04-11