郝建軍
摘 要:文章介紹了大數(shù)據(jù)時(shí)代高校圖書館開展嵌入式知識(shí)服務(wù)的內(nèi)容,分析了大數(shù)據(jù)與情報(bào)的共性,并重點(diǎn)闡述了嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)的重要環(huán)節(jié),同時(shí)又設(shè)計(jì)了大數(shù)據(jù)時(shí)代高校圖書館嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)模型,該模型主要包括數(shù)據(jù)資源層、知識(shí)發(fā)現(xiàn)處理層和界面展示層。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;高校圖書館;嵌入式服務(wù);知識(shí)發(fā)現(xiàn);情報(bào)分析
中圖分類號(hào):G252文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2017)02-0049-03
大數(shù)據(jù)技術(shù)的快速發(fā)展促進(jìn)了科研方式的變革,基于數(shù)據(jù)緊密型的科研方式已經(jīng)成為自科研經(jīng)驗(yàn)方式、理論方式、計(jì)算機(jī)模擬方式之后的新的發(fā)展模式[1]。現(xiàn)階段,海量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)給科研帶來了巨大挑戰(zhàn),而且數(shù)據(jù)存儲(chǔ)和共享功能缺乏合理性和有效性,這也給高校圖書館的服務(wù)模式造成不小的影響。在大數(shù)據(jù)時(shí)代,高校圖書館應(yīng)該更加重視用戶數(shù)據(jù)安全和服務(wù)質(zhì)量,積極利用先進(jìn)的數(shù)據(jù)分析和處理技術(shù)來提升高校圖書館服務(wù)的智能化和個(gè)性化,為高校圖書館的服務(wù)創(chuàng)新創(chuàng)造出有利條件[2]。高校圖書館應(yīng)該借助大數(shù)據(jù)技術(shù),充分了解用戶的服務(wù)需求,并以滿足用戶的服務(wù)需求為目的開展相應(yīng)的服務(wù)。
1 大數(shù)據(jù)時(shí)代高校圖書館開展嵌入式知識(shí)服務(wù)的內(nèi)容
1.1 用戶需求的分析
在大數(shù)據(jù)環(huán)境下,首先,高校圖書館可以收集和存儲(chǔ)用戶的基本信息,比如:用戶的學(xué)歷、年齡、科研成果、學(xué)習(xí)經(jīng)歷以及工作單位等信息,并詳細(xì)記錄用戶的操作信息及檢索、查詢、收藏以及標(biāo)識(shí)等操作行為,可以與用戶查詢資料的內(nèi)容、學(xué)科類別以及相應(yīng)用戶權(quán)限進(jìn)行關(guān)聯(lián),還可以收集用戶具體的信息咨詢、科技前沿以及參考導(dǎo)航等服務(wù)情境[3]。其次,高校圖書館可以分析海量數(shù)據(jù),利用基于語(yǔ)義網(wǎng)的技術(shù)來規(guī)范用戶信息資源,并將其轉(zhuǎn)換為能夠被應(yīng)用程序理解和直接調(diào)用的數(shù)據(jù),從而可以更好地感知和預(yù)測(cè)用戶行為。最后,高校圖書館利用用戶數(shù)據(jù)作為決策依據(jù),為用戶制訂當(dāng)前目標(biāo)、短期目標(biāo)以及長(zhǎng)期目標(biāo),并根據(jù)需求環(huán)境的變化動(dòng)態(tài)分配硬件和軟件資源,從而讓高校圖書館的服務(wù)融入用戶的科研活動(dòng)中。
1.2 規(guī)律趨勢(shì)的分析預(yù)測(cè)
針對(duì)某些行業(yè)或者學(xué)科進(jìn)行全面收集信息資源時(shí),在專業(yè)研究成果的基礎(chǔ)上進(jìn)行深入分析,比如對(duì)比、推理以及綜合利用等科學(xué)分析手段,或參照專業(yè)學(xué)科發(fā)展規(guī)律,計(jì)量學(xué)發(fā)展規(guī)律等[4]。由于學(xué)科的知識(shí)特點(diǎn)和發(fā)展規(guī)律各不相同,因此需要運(yùn)用多種分析和處理手段來構(gòu)建不同的學(xué)科模型,從而能夠準(zhǔn)確地預(yù)測(cè)學(xué)科發(fā)展規(guī)律以及發(fā)展趨勢(shì)。常見的預(yù)測(cè)方法有以下幾種:①將大量文獻(xiàn)內(nèi)容進(jìn)行數(shù)據(jù)統(tǒng)計(jì),以歸納總結(jié)出文獻(xiàn)的內(nèi)在規(guī)律,比如齊普夫定律、洛特卡定律以及布拉德福定律等都是常見的基于文獻(xiàn)內(nèi)容的統(tǒng)計(jì)方式。②根據(jù)文獻(xiàn)的發(fā)展規(guī)律和趨勢(shì)來構(gòu)建數(shù)學(xué)模型,可以達(dá)到預(yù)測(cè)文獻(xiàn)發(fā)展規(guī)律的目的,比如普賴斯就專門構(gòu)建了基于指數(shù)增長(zhǎng)規(guī)律的數(shù)學(xué)模型。③將其他領(lǐng)域的數(shù)學(xué)規(guī)律和數(shù)學(xué)模型移植到文獻(xiàn)發(fā)展的預(yù)測(cè)中,比如物理學(xué)中的半衰期規(guī)律、經(jīng)濟(jì)學(xué)中的人口增長(zhǎng)規(guī)律以及生物學(xué)中的成長(zhǎng)規(guī)律等。④依據(jù)模糊理論來搜集相似文獻(xiàn)內(nèi)容,存儲(chǔ)在計(jì)算機(jī)中,并利用統(tǒng)計(jì)技術(shù)進(jìn)行分析和對(duì)比數(shù)據(jù),以此幫助科研人員挖掘數(shù)據(jù)關(guān)聯(lián)性。
2 大數(shù)據(jù)分析與情報(bào)分析的共性
2.1 看重對(duì)數(shù)據(jù)的定量分析
數(shù)據(jù)作為最直觀的資源,已經(jīng)潛移默化地改變了分析決策的方式,如何有效地收集、篩選以及整理各種數(shù)據(jù)資源,并利用合理的方法來挖掘數(shù)據(jù)的潛在價(jià)值,已經(jīng)成為評(píng)價(jià)一個(gè)組織是否具有競(jìng)爭(zhēng)力的重要衡量方式。情報(bào)分析學(xué)科同樣十分重視數(shù)據(jù)資源的應(yīng)用,在情況分析研究的初期階段,分析人員主要依靠人員的智力來分析少量數(shù)據(jù)現(xiàn)象,并從中歸納總結(jié)出情報(bào)分析的規(guī)律。隨著科學(xué)技術(shù)的快速發(fā)展,學(xué)科之間的關(guān)聯(lián)性和交叉性逐漸加強(qiáng),學(xué)科知識(shí)的劃分越細(xì)致,所涉及的內(nèi)容也就越專業(yè)。目前,情報(bào)分析更多地依靠先進(jìn)的信息處理技術(shù),利用“機(jī)器學(xué)習(xí)”方式來挖掘數(shù)據(jù)、分析和統(tǒng)計(jì)相關(guān)聯(lián)系,還可以利用定量化方式來關(guān)聯(lián)基于關(guān)鍵字的詞匯共現(xiàn),其核心思路就是在計(jì)算能力的基礎(chǔ)上利用人工分析判斷數(shù)據(jù)聯(lián)系。因此,利用數(shù)據(jù)來闡述問題已經(jīng)成為情報(bào)分析的主要特點(diǎn),在情報(bào)分析報(bào)告中利用數(shù)據(jù)、公式以及圖表來說明理論的方式也充分體現(xiàn)了數(shù)據(jù)分析技術(shù)在情報(bào)分析領(lǐng)域的重要地位。
2.2 關(guān)注多源數(shù)據(jù)融合
大數(shù)據(jù)技術(shù)可以通過各種渠道,并利用各種收集手段來獲取各種數(shù)據(jù)信息,在進(jìn)行集中整理后,形成一種基于不同數(shù)據(jù)格式的統(tǒng)一處理方式,這種處理過程被稱為多源數(shù)據(jù)處理融合技術(shù)[5]。一方面,可以通過不同用戶和不同網(wǎng)絡(luò)途徑來獲取同一個(gè)研究方向的內(nèi)容;另一方面,根據(jù)信息數(shù)據(jù)的種類和用途的不同,比如:根據(jù)視頻、音頻及文本等方式進(jìn)行分類,也可以根據(jù)結(jié)構(gòu)化和非結(jié)構(gòu)化等方式進(jìn)行分類,同時(shí)也要考慮數(shù)據(jù)的異構(gòu)性。需要注意的是,相同類型的數(shù)據(jù)也有可能分布在不同的站點(diǎn),并由各自的數(shù)據(jù)供應(yīng)商提供,如論文分析研究的數(shù)據(jù)來源就包括中國(guó)知網(wǎng)、維普及萬方數(shù)據(jù)庫(kù)等[6]。一般情況下,針對(duì)前沿領(lǐng)域進(jìn)行情報(bào)分析時(shí),只利用一種類型的數(shù)據(jù)是不夠全面的,應(yīng)該從其所涉及的期刊論文、圖書資源、專利以及項(xiàng)目等收集有效信息,進(jìn)行整合處理,這樣才能夠體現(xiàn)出該研究的整體特征。
3 嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)的重要環(huán)節(jié)
3.1 知識(shí)發(fā)現(xiàn)系統(tǒng)的利用
將文獻(xiàn)分析方式與數(shù)據(jù)挖掘技術(shù)進(jìn)行有機(jī)結(jié)合已經(jīng)成為知識(shí)發(fā)現(xiàn)方面的熱門研究?jī)?nèi)容,并且取得了可以直接應(yīng)用的研究成果,這為嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)提供了重要的研究方式。不可否認(rèn),選擇和使用合理的知識(shí)發(fā)現(xiàn)系統(tǒng)會(huì)提高信息數(shù)據(jù)的分析效果,其中比較有代表性的就是充分認(rèn)識(shí)到知識(shí)發(fā)現(xiàn)系統(tǒng)的優(yōu)勢(shì),評(píng)估數(shù)據(jù)分析結(jié)果與用戶的契合程度,從而讓數(shù)據(jù)分析服務(wù)的效果得到用戶的認(rèn)同。比如:一些基于知識(shí)發(fā)現(xiàn)的軟件和系統(tǒng)比較適合大型結(jié)構(gòu)化文獻(xiàn)數(shù)據(jù)分析,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)分析出信息的特定發(fā)展規(guī)律[7];還有一些基于主題和科研本身的知識(shí)發(fā)現(xiàn)模型,其可以利用文獻(xiàn)資源之間的相關(guān)性挖掘有效信息,并對(duì)文獻(xiàn)資料進(jìn)行多角度分析,根據(jù)關(guān)聯(lián)原則描述該學(xué)科領(lǐng)域的發(fā)展趨勢(shì)圖;另外還可以利用關(guān)聯(lián)和非關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)方法,再結(jié)合相關(guān)語(yǔ)義分析、詞匯頻率統(tǒng)計(jì)等技術(shù),最后通過關(guān)鍵詞聚類方式來尋找潛在的知識(shí)發(fā)現(xiàn)。
3.2 準(zhǔn)確獲取數(shù)據(jù)
知識(shí)發(fā)現(xiàn)可以分析大量數(shù)據(jù)和信息資源,并從中挖掘明顯關(guān)聯(lián)或者非關(guān)聯(lián)的科學(xué)研究的內(nèi)在規(guī)律,情報(bào)分析人員可以向科研人員提供相關(guān)情報(bào)分析,一般采用的是定量和定性相結(jié)合的分析方法。在進(jìn)行定量分析之前,如果要獲取較為準(zhǔn)確的目標(biāo)數(shù)據(jù),除了要分析數(shù)據(jù)源以及檢索方式之外,還要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如消除噪聲數(shù)據(jù)、集成數(shù)據(jù)等。大部分的數(shù)據(jù)分析軟件都具有數(shù)據(jù)篩選功能,其中常見的TDA(Threat Discovery Appliance)軟件就可以通過列表功能手工篩選原始數(shù)據(jù)。需要注意的是,當(dāng)自動(dòng)篩選數(shù)據(jù)時(shí),常常由于數(shù)據(jù)中檢測(cè)出偶發(fā)的錯(cuò)誤或者不同的存儲(chǔ)格式導(dǎo)致篩選失敗,這就無法按照要求構(gòu)建知識(shí)圖譜。嵌入式的知識(shí)發(fā)現(xiàn)服務(wù)可以將篩選后的數(shù)據(jù)與專業(yè)數(shù)據(jù)分析專家共享,由此可以進(jìn)一步提高數(shù)據(jù)的準(zhǔn)確性,從而得到與研究對(duì)象關(guān)聯(lián)緊密的數(shù)據(jù)。
3.3 應(yīng)用綜合分析方法
科技創(chuàng)新活動(dòng)不僅包括學(xué)科和領(lǐng)域的創(chuàng)新,而且還涉及社會(huì)各個(gè)方面的創(chuàng)新,所以嵌入式知識(shí)發(fā)現(xiàn)服務(wù)需要為決策人員提供情報(bào)分析服務(wù),幫助分析對(duì)象的社會(huì)行為,并為決策人員指明科研決策的發(fā)展方向;此外,還可以根據(jù)用戶的需求,結(jié)合經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、管理學(xué)以及情報(bào)學(xué)等學(xué)科的分析方法,多方面地展現(xiàn)科技創(chuàng)新在社會(huì)環(huán)境中的具體狀況和發(fā)展趨勢(shì)。如今,國(guó)外已經(jīng)出現(xiàn)了專門提供情報(bào)分析服務(wù)的公司,比如美國(guó)的麥肯錫公司就對(duì)醫(yī)藥領(lǐng)域提供多方面的分析和研究服務(wù)。而國(guó)內(nèi)關(guān)于情報(bào)分析的研究還處于起步階段,高校圖書館可以借鑒國(guó)外成熟的研究成果,比如可以利用波士頓矩陣方法來分析文獻(xiàn)資源之間的關(guān)聯(lián)性。
4 情報(bào)分析服務(wù)模型總體設(shè)計(jì)
情報(bào)分析服務(wù)的主要功能就是針對(duì)數(shù)據(jù)進(jìn)行整理和分析,從而挖掘知識(shí)的內(nèi)在關(guān)聯(lián)性。該研究根據(jù)內(nèi)容解析方法來實(shí)施情報(bào)分析服務(wù),并專門構(gòu)建一個(gè)情報(bào)分析的服務(wù)模型。該模型采用了分層結(jié)構(gòu),自上向下共分成三個(gè)層次,即界面展示層、知識(shí)發(fā)現(xiàn)處理層、數(shù)據(jù)資源層等,具體結(jié)構(gòu)示意圖如圖1所示。
首先是數(shù)據(jù)資源層,其確定研究對(duì)象包括三個(gè)步驟:確定分析目的、確定研究范圍、搜集情報(bào)等內(nèi)容。其次是知識(shí)發(fā)現(xiàn)處理層,它主要包括三個(gè)方面的內(nèi)容:①制定編碼標(biāo)準(zhǔn),并借助計(jì)算機(jī)輔助工具來構(gòu)建專屬詞典,其主要分為專業(yè)術(shù)語(yǔ)詞典、停止詞詞典、同義詞詞典等。②編碼部分,可以將文本文件轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別的文本向量。③數(shù)據(jù)分析部分,可以利用相似度算法和聚類算法來處理文本向量,從而實(shí)現(xiàn)情報(bào)自動(dòng)聚類和串并功能。最后是界面展示層,主要功能為針對(duì)數(shù)據(jù)進(jìn)行分析。
4.1 數(shù)據(jù)資源層設(shè)計(jì)
數(shù)據(jù)資源層為情報(bào)分析提供海量的數(shù)據(jù)資源,從各個(gè)數(shù)據(jù)源中收集數(shù)據(jù)并集成在情報(bào)員數(shù)據(jù)庫(kù)中。眾所周知,數(shù)據(jù)庫(kù)的性能會(huì)直接影響情報(bào)分析服務(wù)模式的處理效率。目前,比較成熟的數(shù)據(jù)庫(kù)種類主要有兩種:關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。經(jīng)過幾十年的發(fā)展,關(guān)系型數(shù)據(jù)庫(kù)技術(shù)相對(duì)比較成熟,其中的行和列的關(guān)系非常明確,主要采用表型結(jié)構(gòu)存儲(chǔ)數(shù)據(jù),用戶比較容易接受。但是,隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,關(guān)系型數(shù)據(jù)庫(kù)的弊端也逐漸顯現(xiàn)出來:①針對(duì)海量數(shù)據(jù)進(jìn)行查詢和存儲(chǔ)操作,海量數(shù)據(jù)信息時(shí)刻充斥在互聯(lián)網(wǎng)上,如果關(guān)系型數(shù)據(jù)庫(kù)還是采用表型存儲(chǔ)海量數(shù)據(jù),這時(shí)的存儲(chǔ)是以億為單位。當(dāng)利用SQL(Structured Query Language)語(yǔ)言查詢或者針對(duì)多張表進(jìn)行關(guān)聯(lián)查詢時(shí),其查詢效率是非常低的。②數(shù)據(jù)庫(kù)的擴(kuò)展性較差。當(dāng)處理海量數(shù)據(jù)時(shí),數(shù)據(jù)的結(jié)構(gòu)非常復(fù)雜,修改數(shù)據(jù)庫(kù)的表結(jié)構(gòu)是非常耗時(shí)的,因此復(fù)雜的數(shù)據(jù)結(jié)構(gòu)的處理效率無法達(dá)到用戶的要求。③數(shù)據(jù)庫(kù)的讀寫效率。針對(duì)動(dòng)態(tài)的信息,每秒的讀寫次數(shù)要達(dá)到上萬次以上,而關(guān)系型數(shù)據(jù)庫(kù)的讀寫速度無法達(dá)到這種要求。
4.2 知識(shí)發(fā)現(xiàn)處理層設(shè)計(jì)
知識(shí)發(fā)現(xiàn)處理層的主要功能是針對(duì)數(shù)據(jù)資源層的數(shù)據(jù)進(jìn)行深度的分析和挖掘,它可以利用內(nèi)容分析方法進(jìn)行數(shù)據(jù)分析和情報(bào)編碼,具體的功能模塊圖如圖2所示。知識(shí)發(fā)現(xiàn)處理層主要包括四個(gè)功能模塊:情報(bào)自動(dòng)聚類處理模塊、情報(bào)串并處理模塊、文本預(yù)處理模塊、文本向量表示模塊。
4.3 界面展示層設(shè)計(jì)
界面展示層主要包括兩個(gè)部分:知識(shí)圖譜展示功能和人機(jī)交互功能。知識(shí)圖譜展示功能形象展現(xiàn)出情報(bào)數(shù)據(jù)資源的分析結(jié)果,是針對(duì)情報(bào)數(shù)據(jù)資源分析的拓展,它可以準(zhǔn)確表達(dá)現(xiàn)象層面的具體信息,并通過更進(jìn)一步的分析來找出隱藏在情報(bào)中的規(guī)律,從而協(xié)助情報(bào)分析人員更好地處理情報(bào)。人機(jī)交互功能是利用操作界面來實(shí)現(xiàn)用戶和軟件之間的信息交流,更好地幫助用戶控制軟件。
5 結(jié)語(yǔ)
嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)模式是建立在先進(jìn)的信息處理技術(shù)的基礎(chǔ)上,為了更好地滿足科研人員對(duì)于知識(shí)服務(wù)的需求,同時(shí)也是情報(bào)服務(wù)可持續(xù)發(fā)展的重要保證。科學(xué)技術(shù)的快速發(fā)展、大數(shù)據(jù)技術(shù)的研究以及數(shù)據(jù)分析方法的改進(jìn),都為嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)的個(gè)性化、智能化及多元化發(fā)展創(chuàng)造了有利條件,提供了良好的研究前景。
參考文獻(xiàn):
[1]顧濤.基于大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)協(xié)作分析研究[J].情報(bào)科學(xué),2013(12):114-118,135.
[2]鄧仲華,李立睿,陸穎雋.基于科研用戶情景感知的嵌入式知識(shí)服務(wù)研究(上)[J].情報(bào)理論與實(shí)踐,2014(9):16-19.
[3]韓翠峰.大數(shù)據(jù)時(shí)代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[4]田瑞強(qiáng),姚長(zhǎng)青,潘云濤.關(guān)聯(lián)文獻(xiàn)的知識(shí)發(fā)現(xiàn)與創(chuàng)新研究進(jìn)展[J].情報(bào)理論與實(shí)踐,2013(8):117-123.
[5]周曉英.數(shù)據(jù)密集型科學(xué)研究范式的興起與情報(bào)學(xué)的應(yīng)對(duì)[J].情報(bào)資料工作,2012(2):5-11.
[6]化柏林.多源信息融合方法研究[J].情報(bào)理論與實(shí)踐,2013(11):16-19.
[7]Bormer K.Boyack K Mapping interdisciplinary research(sidebar,systems sciencesection)[M].New York:Oxford University Press,2010:457-460.
(編校:崔 萌)