陳蘭杰 侯鵬娟
(1.中國(guó)科學(xué)技術(shù)信息研究所 北京 100038;2.河北大學(xué)管理學(xué)院 河北保定 071000;3.中國(guó)地質(zhì)大學(xué)長(zhǎng)城學(xué)院圖書館 河北保定 071000)
眾所周知,數(shù)字資源組織是數(shù)字資源開發(fā)利用的前提,當(dāng)前,面對(duì)多樣的、海量的、非結(jié)構(gòu)化的數(shù)字資源,傳統(tǒng)的文獻(xiàn)組織和數(shù)據(jù)庫(kù)組織已不能滿足用戶日益增長(zhǎng)的需求,對(duì)數(shù)字文獻(xiàn)資源的組織正在從數(shù)字資源整合向更高層次的數(shù)字資源聚合邁進(jìn)。[1]然而,由于數(shù)字文獻(xiàn)資源的分布分散、異質(zhì)結(jié)構(gòu)等特點(diǎn),給充分利用數(shù)字文獻(xiàn)資源帶來(lái)了極大挑戰(zhàn),為此,如何對(duì)海量數(shù)字文獻(xiàn)信息資源進(jìn)行科學(xué)的組織和開發(fā)成為當(dāng)前圖書情報(bào)界關(guān)注的熱點(diǎn)問題,這從近幾年國(guó)家級(jí)的課題可窺見一斑,例如:2012年國(guó)家自然科學(xué)基金項(xiàng)目“基于海量數(shù)字資源的科研關(guān)系網(wǎng)絡(luò)構(gòu)建研究(曾建勛)”以及“語(yǔ)義網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館資源多維度聚合與可視化研究(畢強(qiáng))”;2013年國(guó)家自然科學(xué)基金項(xiàng)目“基于關(guān)聯(lián)書目數(shù)據(jù)的分層聚合和導(dǎo)航機(jī)制研究”。2012年國(guó)家社科基金重大項(xiàng)目中的三個(gè)項(xiàng)目都與數(shù)字文獻(xiàn)資源開發(fā)利用有關(guān),“云計(jì)算環(huán)境下的信息資源集成與服務(wù)研究”(杜小勇)、“面向?qū)W科領(lǐng)域的網(wǎng)絡(luò)信息資源深度聚合與服務(wù)研究”(孫建軍)、“基于特定領(lǐng)域的網(wǎng)絡(luò)資源知識(shí)組織與導(dǎo)航機(jī)制研究”(曹樹金);2013年國(guó)家社科基金一般項(xiàng)目“公共數(shù)字文化服務(wù)中的資源整合研究”(肖希明);2014年國(guó)家社科基金青年項(xiàng)目“語(yǔ)義和情景關(guān)聯(lián)的網(wǎng)絡(luò)資源聚合單元分類體系構(gòu)建”(馬翠嫦)等。
在學(xué)術(shù)研究方面,對(duì)數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示的研究也已引起眾多學(xué)者的關(guān)注。在國(guó)內(nèi),李亮先在2004年較早地提出信息資源關(guān)聯(lián)的應(yīng)用[2],此后有關(guān)信息資源關(guān)聯(lián)的研究相繼展開,如基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合[3]、基于社會(huì)網(wǎng)絡(luò)和資源關(guān)聯(lián)基礎(chǔ)上的數(shù)字圖書館資源聚合[4-6]、基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[7]、基于共現(xiàn)與耦合的資源聚合[8]、基于語(yǔ)義的資源聚合與關(guān)聯(lián)識(shí)別[9-10]、基于元數(shù)據(jù)的文獻(xiàn)關(guān)聯(lián)研究[11]、基于多共現(xiàn)的文獻(xiàn)相關(guān)度判定[12]、基于多重共現(xiàn)揭示高校圖書館與核心期刊間的發(fā)文關(guān)聯(lián)關(guān)系研究[13]。在國(guó)外,已有文獻(xiàn)[14-16]較早地對(duì)科技文獻(xiàn)的關(guān)聯(lián)進(jìn)行了探討,美國(guó)科學(xué)計(jì)量專家 Morris開發(fā)了交叉圖和時(shí)間線技術(shù),實(shí)現(xiàn)了機(jī)構(gòu)與研究主題兩種文獻(xiàn)特征項(xiàng)的關(guān)聯(lián)[17-18],Leydesdorff則把作者-期刊-關(guān)鍵詞的特征項(xiàng)關(guān)聯(lián)起來(lái),實(shí)現(xiàn)了多個(gè)特征性的多重共現(xiàn)關(guān)聯(lián)[19]。
上述研究成果表明,對(duì)數(shù)字文獻(xiàn)資源的開發(fā)利用更加關(guān)注多維度、集成化、關(guān)聯(lián)化的特點(diǎn),特別是更加注重海量數(shù)據(jù)環(huán)境下滿足不同用戶需求的應(yīng)用。對(duì)數(shù)字資源的組織正在從文獻(xiàn)層面、記錄層面的組織轉(zhuǎn)向更加碎片化的知識(shí)間關(guān)聯(lián)的組織;從數(shù)字資源整合向數(shù)字資源聚合邁進(jìn),將分散獨(dú)立的數(shù)字資源構(gòu)建成一個(gè)內(nèi)容相互關(guān)聯(lián)、多維度、多層次的資源體系,形成集概念主題、學(xué)科內(nèi)容和科研對(duì)象實(shí)體為一體的立體化知識(shí)網(wǎng)絡(luò)。[20]事實(shí)上,對(duì)海量數(shù)字資源的組織只從一個(gè)層面加以組織已經(jīng)不能滿足用戶多樣化的需求,同時(shí)也會(huì)因信息冗余阻礙數(shù)字資源價(jià)值的充分發(fā)揮。因此,必須考慮數(shù)字資源內(nèi)部組織結(jié)構(gòu)、內(nèi)容結(jié)構(gòu)、與人的利用、知識(shí)更新之間的關(guān)聯(lián),構(gòu)建動(dòng)態(tài)的、與時(shí)俱進(jìn)的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)。
數(shù)字文獻(xiàn)資源關(guān)聯(lián)的直接作用是構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),而知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)主要是由各種知識(shí)節(jié)點(diǎn)及節(jié)點(diǎn)間錯(cuò)綜復(fù)雜的各種關(guān)系構(gòu)成。
對(duì)數(shù)字文獻(xiàn)資源而言,構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)則主要是基于數(shù)字文獻(xiàn)的外部特征和內(nèi)容特征來(lái)實(shí)現(xiàn)。數(shù)字文獻(xiàn)的外部特征主要包括題名、作者、機(jī)構(gòu)、工作單位、文獻(xiàn)出處、參考文獻(xiàn)等信息。內(nèi)容特征則包括關(guān)鍵詞、主題詞、分類號(hào)、知識(shí)元等。在構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)時(shí),一方面可以通過外部特征的關(guān)聯(lián)來(lái)實(shí)現(xiàn),也可以通過內(nèi)容特征的關(guān)聯(lián)來(lái)實(shí)現(xiàn),還可以通過外在特征與內(nèi)容特征的交叉關(guān)聯(lián)來(lái)實(shí)現(xiàn)。一般而言,通過數(shù)字文獻(xiàn)外部特征的關(guān)聯(lián)形成的知識(shí)網(wǎng)絡(luò)是對(duì)數(shù)字文獻(xiàn)資源的簡(jiǎn)單整合,而通過數(shù)字文獻(xiàn)內(nèi)容特征的關(guān)聯(lián)形成的知識(shí)網(wǎng)絡(luò)和通過外在特征與內(nèi)容特征的交叉關(guān)聯(lián)則是對(duì)數(shù)字文獻(xiàn)資源的深度聚合,顯然,后者的意義和價(jià)值更大,從某種程度上來(lái)說(shuō)后者是一個(gè)知識(shí)發(fā)現(xiàn)的過程,數(shù)字文獻(xiàn)之間增加了更多的邏輯關(guān)系。
目前,在數(shù)字文獻(xiàn)資源知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)中存在的關(guān)聯(lián)關(guān)系主要有:機(jī)構(gòu)關(guān)聯(lián)、學(xué)者關(guān)聯(lián)、期刊關(guān)聯(lián)、主題關(guān)聯(lián)發(fā)現(xiàn)、文獻(xiàn)關(guān)聯(lián)和交叉關(guān)聯(lián)等多種關(guān)聯(lián)。[21]
加強(qiáng)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的研究,目的是構(gòu)建一個(gè)多維的、內(nèi)容關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò),具有如下重要價(jià)值和意義。
2.2.1 數(shù)字文獻(xiàn)資源的關(guān)聯(lián)是數(shù)字圖書館的資源建設(shè)與管理的重要內(nèi)容。數(shù)字圖書館本身就是數(shù)字文獻(xiàn)資源的集合體,儲(chǔ)存有多種媒體、不同結(jié)構(gòu)的異質(zhì)數(shù)字資源,隨著這個(gè)集合體內(nèi)容的不斷增加,有關(guān)聯(lián)關(guān)系的數(shù)字資源越來(lái)越多,為了充分發(fā)揮這些資源的潛在價(jià)值,需要建立這些資源的關(guān)聯(lián)。因此,利用數(shù)字文獻(xiàn)資源關(guān)聯(lián)技術(shù)可將有效信息資源有機(jī)地關(guān)聯(lián)起來(lái)。
2.2.2 數(shù)字文獻(xiàn)資源關(guān)聯(lián)是實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的重要途徑。利用數(shù)字文獻(xiàn)資源關(guān)聯(lián)技術(shù)可以實(shí)現(xiàn)信息資源的關(guān)聯(lián)應(yīng)用,從某種程度上來(lái)說(shuō)避免了檢索結(jié)果的單一化、無(wú)序化,為用戶的檢索提供了更智能化的導(dǎo)航,這無(wú)疑是信息檢索和知識(shí)發(fā)現(xiàn)的有力途徑。當(dāng)然,數(shù)字文獻(xiàn)資源的不斷增加會(huì)導(dǎo)致資源關(guān)聯(lián)模式發(fā)生變化,新資源的收錄、資源之間的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)也會(huì)發(fā)生變化,其檢索結(jié)果和知識(shí)發(fā)現(xiàn)模式也會(huì)隨之改變。
2.2.3 數(shù)字文獻(xiàn)資源關(guān)聯(lián)能滿足用戶的個(gè)性化需求。通過關(guān)聯(lián)關(guān)系構(gòu)建的知識(shí)網(wǎng)絡(luò)能從不同側(cè)面、不同角度展示數(shù)字文獻(xiàn)資源之間千絲萬(wàn)縷的聯(lián)系,深入挖掘數(shù)字文獻(xiàn)網(wǎng)絡(luò)中所蘊(yùn)含的內(nèi)在價(jià)值,為知識(shí)發(fā)現(xiàn)提供可能,并能按照用戶的需求對(duì)數(shù)字文獻(xiàn)資源進(jìn)行揭示,滿足用戶的個(gè)性化需求,提高用戶檢索效率及準(zhǔn)確率。
3.1.1 原理。引文分析主要是對(duì)各類文獻(xiàn)資源之間的引用與被引用現(xiàn)象進(jìn)行分析,以便揭示其數(shù)量分布特征和內(nèi)在關(guān)聯(lián)規(guī)律。[22]引文分析是進(jìn)行文獻(xiàn)關(guān)聯(lián)研究最早、也是最成熟的方法之一。通過文獻(xiàn)之間的引證形成的引文鏈接可以構(gòu)建起知識(shí)信息間的關(guān)聯(lián)關(guān)系[23],對(duì)于實(shí)現(xiàn)科技文獻(xiàn)的集成信息服務(wù)和促進(jìn)知識(shí)發(fā)現(xiàn)具有重要意義。
引文理論源于1955年加菲爾德(E·Garfield)在《科學(xué)》雜志上發(fā)表的《引文索引用于科學(xué)》[24]一文,在該文中加菲爾德率先提出了引文分析概念和相關(guān)理論,從此拉開了對(duì)引文分析的先河??茖W(xué)文獻(xiàn)之間通過引用關(guān)系構(gòu)成了特定研究主題的知識(shí)網(wǎng)絡(luò),其單向無(wú)回路的特征揭示了學(xué)科主題的知識(shí)結(jié)構(gòu)和發(fā)展過程。[25]在科技文獻(xiàn)網(wǎng)絡(luò)中,每一篇文獻(xiàn)都是一個(gè)知識(shí)節(jié)點(diǎn)并具有相應(yīng)的價(jià)值。引文網(wǎng)絡(luò)不僅能揭示文獻(xiàn)之間的關(guān)聯(lián),還能通過關(guān)聯(lián)關(guān)系進(jìn)行文獻(xiàn)聚合,更好地滿足用戶個(gè)性化需求。[26]基于引文的關(guān)聯(lián)分析主要包括三種模式:基于引用的直接關(guān)聯(lián)模式、 基于同被引的關(guān)聯(lián)模式、基于引文的擴(kuò)展關(guān)聯(lián)模式。
3.1.2 應(yīng)用。基于引文的關(guān)聯(lián)前提是文獻(xiàn)之間有某種引用關(guān)系,因此,這種關(guān)聯(lián)是一種強(qiáng)關(guān)聯(lián),這對(duì)于信息檢索需求具有重要價(jià)值。世界上最早利用引文建立關(guān)聯(lián)關(guān)系的文獻(xiàn)系統(tǒng)是1961年由美國(guó)科學(xué)信息研究所(ISI)創(chuàng)辦出版的檢索評(píng)價(jià)工具《科學(xué)引文索引》(Science Citation Index,簡(jiǎn)稱SCI)。目前國(guó)內(nèi)的CNKI《中國(guó)期刊全文數(shù)據(jù)庫(kù)》、萬(wàn)方《中國(guó)科技期刊論文數(shù)據(jù)庫(kù)》、維普《中文科技期刊數(shù)據(jù)庫(kù)》等三大期刊全文數(shù)據(jù)庫(kù)均具有引文檢索分析功能。
近年來(lái),基于引文開展文獻(xiàn)計(jì)量分析、知識(shí)關(guān)聯(lián)分析和科研影響力評(píng)估已經(jīng)成為圖書情報(bào)領(lǐng)域的一個(gè)重要研究分支。如王立學(xué)等以發(fā)表于 2005-2009 年的情報(bào)學(xué)論文為基礎(chǔ),通過頻次統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)、論文同被引等文獻(xiàn)計(jì)量分析方法,挖掘并闡釋研究主題關(guān)聯(lián)以及作者同被引、機(jī)構(gòu)同被引和期刊同被引等關(guān)聯(lián)關(guān)系。[27]
3.2.1 原理。共現(xiàn)(Co-occurrence or occurrence) 現(xiàn)象是文獻(xiàn)計(jì)量中一個(gè)特有現(xiàn)象,主要是指科技文獻(xiàn)中相同或不同類型特征項(xiàng)共同出現(xiàn)的現(xiàn)象。例如多篇文獻(xiàn)中共同出現(xiàn)的同類特征項(xiàng),如關(guān)鍵詞、作者、機(jī)構(gòu)等,以及不同特征項(xiàng)共同出現(xiàn)的現(xiàn)象,如論文與關(guān)鍵詞、機(jī)構(gòu)與作者等的共現(xiàn)等。共現(xiàn)分析就是采用定量化的方法來(lái)分析文獻(xiàn)中因特征項(xiàng)的共同出現(xiàn)所產(chǎn)生的文獻(xiàn)之間的內(nèi)容關(guān)聯(lián)。一般而言,共現(xiàn)的特征項(xiàng)之間一定存在著某種關(guān)聯(lián),關(guān)聯(lián)程度可用共現(xiàn)頻次來(lái)測(cè)度。
通過共現(xiàn)分析可以從多個(gè)維度挖掘和揭示隱含在文獻(xiàn)中的各類知識(shí)信息單元的內(nèi)容關(guān)聯(lián)和邏輯關(guān)聯(lián)。在信息計(jì)量學(xué)研究中,主要采用分析文獻(xiàn)特征項(xiàng)之間關(guān)聯(lián)來(lái)探討文獻(xiàn)內(nèi)容的關(guān)聯(lián)。信息計(jì)量學(xué)中的共現(xiàn)分析通常包括共詞分析、耦合分析、同被引分析和合作分析等。目前,研究較多的是二重共現(xiàn),即兩個(gè)文獻(xiàn)特征項(xiàng)的共現(xiàn)。如果將共現(xiàn)現(xiàn)象擴(kuò)展到三重或者更多,則其揭示的關(guān)聯(lián)關(guān)系和邏輯聯(lián)系會(huì)更加豐富,其價(jià)值也會(huì)更大。如邱均平等(2013)提出了四種基于共現(xiàn)和耦合的數(shù)字文獻(xiàn)資源關(guān)聯(lián)模式,分別是文獻(xiàn)特征關(guān)聯(lián)、文獻(xiàn)利用過程關(guān)聯(lián)、知識(shí)關(guān)聯(lián)和用戶需求關(guān)聯(lián)。[28]
3.2.2 應(yīng)用。利用共現(xiàn)方法來(lái)揭示文獻(xiàn)之間的關(guān)聯(lián)關(guān)系在文獻(xiàn)計(jì)量研究中被廣泛應(yīng)用,如Morris[29-30]開發(fā)了交叉圖和時(shí)間線技術(shù)來(lái)研究?jī)煞N相同特征項(xiàng)之間的關(guān)聯(lián),以此發(fā)現(xiàn)哪些機(jī)構(gòu)合作研究了哪些相關(guān)的研究主題;胡瓊芳和曾建勛[31]提出從共引、耦合、共篇三個(gè)3角度,利用引文-被引文-關(guān)鍵詞三個(gè)特征項(xiàng)共現(xiàn)的方法來(lái)挖掘論文之間的關(guān)聯(lián);龐弘燊對(duì)Morris 的交叉圖技術(shù)進(jìn)行了改進(jìn),提出了多重共現(xiàn)交叉圖技術(shù),用以展示三個(gè)特征項(xiàng)(機(jī)構(gòu)-期刊-關(guān)鍵詞)之間的共現(xiàn)關(guān)系,以揭示更多文獻(xiàn)之間的關(guān)聯(lián)信息。[32]
3.3.1 原理。社會(huì)網(wǎng)絡(luò)是因個(gè)體成員間有效互動(dòng)形成的較穩(wěn)定的社會(huì)關(guān)系和社會(huì)團(tuán)體的總和。社會(huì)網(wǎng)絡(luò)分析法是在社會(huì)網(wǎng)研究過程中形成的方法,從資源聚合的角度,可將社會(huì)資源網(wǎng)絡(luò)看成是由知識(shí)單元、知識(shí)關(guān)聯(lián)和知識(shí)群落構(gòu)成的三元組。[33]從數(shù)字文獻(xiàn)資源組織的角度來(lái)講,知識(shí)單元是知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)中的知識(shí)節(jié)點(diǎn),知識(shí)關(guān)聯(lián)是知識(shí)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,知識(shí)群落則是依據(jù)關(guān)聯(lián)關(guān)系劃分的知識(shí)單元的集合,而不同知識(shí)群落之間的交叉關(guān)聯(lián)則構(gòu)成多維立體的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)體系。
社會(huì)網(wǎng)絡(luò)分析法主要用于資源間關(guān)聯(lián)關(guān)系的分析,其將資源間的關(guān)系看成“網(wǎng)”或“網(wǎng)絡(luò)”,并對(duì)此“網(wǎng)絡(luò)”進(jìn)行結(jié)構(gòu)劃分,形成不同的子群,從而實(shí)現(xiàn)關(guān)聯(lián)文獻(xiàn)的聚合。社會(huì)網(wǎng)絡(luò)分析法實(shí)現(xiàn)資源聚合主要是圍繞網(wǎng)絡(luò)中心性、網(wǎng)絡(luò)群聚性和網(wǎng)絡(luò)關(guān)聯(lián)性三個(gè)維度展開。其中網(wǎng)絡(luò)中心性主要用于衡量節(jié)點(diǎn)在整個(gè)社會(huì)網(wǎng)絡(luò)中的地位和影響力;網(wǎng)絡(luò)群聚性主要用于實(shí)現(xiàn)節(jié)點(diǎn)分類和定位,用于網(wǎng)絡(luò)結(jié)構(gòu)和層級(jí)劃分;網(wǎng)絡(luò)關(guān)聯(lián)性主要用于判斷網(wǎng)絡(luò)節(jié)點(diǎn)間關(guān)系以及節(jié)點(diǎn)的重要程度。對(duì)于數(shù)字文獻(xiàn)資源,可依據(jù)數(shù)字文獻(xiàn)資源的內(nèi)外部特征建立社會(huì)網(wǎng)絡(luò)關(guān)系,進(jìn)而開展數(shù)字資源結(jié)構(gòu)屬性和關(guān)聯(lián)關(guān)系分析。
3.3.2 應(yīng)用。畢強(qiáng)等(2014)采用社會(huì)網(wǎng)絡(luò)分析法對(duì)從資源特征間關(guān)聯(lián)和資源利用過程關(guān)聯(lián)的視角出發(fā),提出了6種數(shù)字資源聚合模式:基于作者互引關(guān)系的資源聚合、基于作者合作關(guān)系的資源聚合、基于作者-關(guān)鍵詞關(guān)系的資源聚合、基于多作者-關(guān)鍵詞關(guān)系的資源聚合、基于多關(guān)鍵詞-作者關(guān)系的資源聚合,以及資源特征間交叉關(guān)聯(lián)的聚合。[34]其中,基于作者互引關(guān)系的關(guān)聯(lián)主要用于發(fā)現(xiàn)作者間引用情況,識(shí)別核心作者;基于作者合作關(guān)系的關(guān)聯(lián)主要用于挖掘作者間相同的研究主題,揭示外在的合作群體;基于作者關(guān)鍵詞交叉關(guān)聯(lián)主要用于揭示潛在的合作群體;基于多作者-關(guān)鍵詞關(guān)系的關(guān)聯(lián)主要用于尋找關(guān)鍵詞共同體,識(shí)別相同研究主題;基于多關(guān)鍵詞-作者關(guān)系的關(guān)聯(lián)主要用于識(shí)別同一研究領(lǐng)域的核心作者。郭金龍[35]對(duì)圖書情報(bào)界學(xué)者博客互引情況進(jìn)行了社會(huì)網(wǎng)絡(luò)分析;魏群義[36]還利用社會(huì)網(wǎng)絡(luò)分析軟件Pajek對(duì)國(guó)內(nèi)近10年圖書情報(bào)學(xué)碩士學(xué)位論文關(guān)鍵詞進(jìn)行了統(tǒng)計(jì)。
3.4.1 原理。語(yǔ)義方法就是對(duì)文本,圖片,多媒體等各種資源進(jìn)行語(yǔ)義標(biāo)注,通過語(yǔ)義標(biāo)注使得它們之間建立各種關(guān)聯(lián),這些標(biāo)注不僅人可以讀懂,而且計(jì)算機(jī)也能夠理解。[37]本體方法是通過對(duì)客觀世界事物進(jìn)行系統(tǒng)化、抽象化的描述和組織,體現(xiàn)特定領(lǐng)域的知識(shí)結(jié)構(gòu)。
利用語(yǔ)義和本體方法是構(gòu)建數(shù)字文獻(xiàn)資源關(guān)聯(lián)最理想的方法之一。在本體中,概念之間、實(shí)例對(duì)象之間存在著各種復(fù)雜語(yǔ)義關(guān)系,如等級(jí)關(guān)系、等同關(guān)系、相似關(guān)系、相關(guān)關(guān)系、互操作關(guān)系等。通過對(duì)不同領(lǐng)域的資源集合構(gòu)建領(lǐng)域本體,利用語(yǔ)義映射機(jī)制實(shí)現(xiàn)異構(gòu)資源和系統(tǒng)之間的語(yǔ)義關(guān)聯(lián),就可以實(shí)現(xiàn)異構(gòu)的、不同類型資源的深度聚合。[38]
3.4.2 應(yīng)用。早在20世紀(jì)90年代,國(guó)外就對(duì)基于本體模型的異構(gòu)數(shù)字資源進(jìn)行語(yǔ)義標(biāo)注方式作了研究,本體在其中的作用是提供對(duì)資源進(jìn)行語(yǔ)義標(biāo)注的詞匯標(biāo)準(zhǔn)。H.Wache等人將基于本體的整合方法歸納為單一本體法、多本體法和混合法3種類型[39];李勁等(2013)則提出了兩種基于語(yǔ)義信息檢索可視化模型[40];何超等(2013)構(gòu)建了基于本體的館藏?cái)?shù)字資源語(yǔ)義聚合與可視化模型,該模型利用本體提供的語(yǔ)義知識(shí)進(jìn)行深層次的館藏?cái)?shù)字資源語(yǔ)義聚合。旨在解決數(shù)字資源孤島問題和數(shù)字資源超載問題,揭示館藏?cái)?shù)字資源內(nèi)部存在的錯(cuò)綜復(fù)雜關(guān)聯(lián)和深層次內(nèi)涵,從而增強(qiáng)對(duì)數(shù)字信息資源聚合結(jié)果的認(rèn)知和理解。[41]
3.5.1 原理。關(guān)聯(lián)數(shù)據(jù)是指共享、連接各類數(shù)據(jù)、信息和知識(shí)的一種知識(shí)信息組織方式,它克服了本體的領(lǐng)域局限性,實(shí)現(xiàn)了各類數(shù)據(jù)的無(wú)縫鏈接。關(guān)聯(lián)數(shù)據(jù)一般包括創(chuàng)建、發(fā)布、自動(dòng)關(guān)聯(lián)、瀏覽和鏈接維護(hù)等環(huán)節(jié)。關(guān)聯(lián)數(shù)據(jù)的本質(zhì)在于為各類分布的、異構(gòu)的數(shù)據(jù)建立語(yǔ)義關(guān)聯(lián),因此,它在數(shù)字資源整合和共享方面具有得天獨(dú)厚的優(yōu)勢(shì)。關(guān)聯(lián)數(shù)據(jù)旨在構(gòu)建一個(gè)計(jì)算機(jī)能理解的具有結(jié)構(gòu)化和富含語(yǔ)義的數(shù)據(jù)網(wǎng)絡(luò)。其最大優(yōu)勢(shì)在于可以對(duì)分布式異構(gòu)數(shù)據(jù)進(jìn)行整合并提供關(guān)聯(lián)訪問。數(shù)字圖書館可利用關(guān)聯(lián)數(shù)據(jù)進(jìn)行數(shù)字資源的組織、集成和關(guān)聯(lián)信息服務(wù)。關(guān)聯(lián)數(shù)據(jù)是數(shù)字圖書館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一。[42]
3.5.2 應(yīng)用。關(guān)聯(lián)數(shù)據(jù)意在通過發(fā)布和鏈接結(jié)構(gòu)化數(shù)據(jù)使得分散異構(gòu)的數(shù)據(jù)孤島實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián),從而促進(jìn)傳統(tǒng)文件網(wǎng)絡(luò)向數(shù)據(jù)網(wǎng)絡(luò)演進(jìn)。在國(guó)外 ,瑞典國(guó)家圖書館最先將本國(guó)國(guó)家聯(lián)合目錄(LIBRIS)發(fā)布為關(guān)聯(lián)數(shù)據(jù)[43]。隨后,美國(guó)、德國(guó)、法國(guó)、OCLC 等國(guó)際、國(guó)家級(jí)的書目數(shù)據(jù)也紛紛開放了關(guān)聯(lián)數(shù)據(jù)服務(wù)。
我國(guó)對(duì)關(guān)聯(lián)數(shù)據(jù)在數(shù)字文獻(xiàn)資源聚合與分析中的應(yīng)用研究才剛剛起步,主要是對(duì)關(guān)聯(lián)數(shù)據(jù)在信息資源整合中的應(yīng)用進(jìn)行理論探討。譬如,丁楠和潘有能構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型[44];游毅和成全對(duì)基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式進(jìn)行了理論闡述[45]。
目前,國(guó)內(nèi)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的揭示主要從兩個(gè)角度出發(fā),一種思路是從發(fā)現(xiàn)數(shù)字文獻(xiàn)資源之間的關(guān)聯(lián)關(guān)系出發(fā),利用計(jì)量分析來(lái)挖掘數(shù)字文獻(xiàn)資源之間的關(guān)聯(lián)關(guān)系,包括基于引文的、基于共現(xiàn)與耦合的和基于社會(huì)網(wǎng)絡(luò)分析的關(guān)聯(lián)關(guān)系與數(shù)字文獻(xiàn)資源聚合;另一種是從構(gòu)建關(guān)聯(lián)關(guān)系出發(fā),從知識(shí)組織角度,主要通過運(yùn)用概念分析、本體、關(guān)聯(lián)數(shù)據(jù)等方法增強(qiáng)資源語(yǔ)義,從而進(jìn)行關(guān)聯(lián)關(guān)系揭示,包括基于本體和語(yǔ)義的數(shù)字文獻(xiàn)資源聚合、基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字文獻(xiàn)資源聚合等。
引文分析法直接揭示文獻(xiàn)之間的關(guān)聯(lián)關(guān)系,形式化程度高,其不足在于對(duì)數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示較單一。
基于共現(xiàn)與耦合的揭示方法能通過數(shù)字文獻(xiàn)中不同特征項(xiàng)實(shí)現(xiàn)數(shù)字文獻(xiàn)關(guān)聯(lián),并可根據(jù)不同的研究目的來(lái)分析不同的特征項(xiàng)之間的共現(xiàn)關(guān)聯(lián)關(guān)系。其不足在于由于理論和技術(shù)原因,目前只能對(duì)三個(gè)或以下特征項(xiàng)進(jìn)行共現(xiàn)分析。
社會(huì)網(wǎng)絡(luò)分析法可以提供多個(gè)聚合應(yīng)用的數(shù)據(jù)關(guān)聯(lián)訪問,將不同資源的關(guān)聯(lián)特征或不同資源間建立的社會(huì)網(wǎng)絡(luò)進(jìn)行整合、提取,并按用戶的需求組織資源。基于資源內(nèi)、外部特征間的關(guān)聯(lián)以及資源利用過程的關(guān)聯(lián),可以構(gòu)建作者互引關(guān)系、作者合作關(guān)系、作者-關(guān)鍵詞等關(guān)系網(wǎng)絡(luò),其主要缺點(diǎn)是難以形式化表達(dá)。
基于本體與語(yǔ)義的揭示方法能對(duì)數(shù)字資源本身構(gòu)建豐富的語(yǔ)義,形式化程度高,可以共享復(fù)用,其主要不足在于重表達(dá),輕分析,特別是本體往往局限于某一領(lǐng)域。
基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示法是應(yīng)用于數(shù)字資源整合的極少實(shí)踐研究方法之一,其語(yǔ)義豐富,形式化程度高。主要不足在于對(duì)資源間隱含關(guān)系和深層次語(yǔ)義關(guān)系的識(shí)別還不夠充分。
在以往的研究中,大多數(shù)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示的視角往往基于某一單一的技術(shù)方法。但實(shí)際上很多方法在數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示方面存在著必然聯(lián)系和相似性,如社會(huì)網(wǎng)絡(luò)分析方法、復(fù)雜網(wǎng)絡(luò)分析方法、信息計(jì)量學(xué)等。因此,了解技術(shù)方法上的互補(bǔ)融合之處,是全面、透徹地揭示數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的關(guān)鍵所在,這也是實(shí)現(xiàn)數(shù)字文獻(xiàn)全方位關(guān)聯(lián)的重要保障。未來(lái)還會(huì)有更多的數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的揭示方法,必然也是多維度和多視角的。
(來(lái)稿時(shí)間:2014年10月)
1,21.張?jiān)浦?從整合到聚合:國(guó)內(nèi)數(shù)字資源再組織模式的變革.數(shù)字圖書館論壇,2014(6):16-20
2.李亮先.信息資源的關(guān)聯(lián)應(yīng)用.情報(bào)雜志,2004(2):103-104
3.王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究.圖書館學(xué)刊,2012(8):44-46
4.畢強(qiáng),王雨,孫暢.數(shù)字圖書館資源聚合模式研究——基于社會(huì)網(wǎng)絡(luò)分析的視角.數(shù)字圖書館論壇,2014(6):2-7
5,34.畢強(qiáng),王雨,吳海媛.基于社會(huì)網(wǎng)絡(luò)分析的數(shù)字圖書館資源聚合實(shí)證研究.數(shù)字圖書館論壇,2014(6):8-15
6.孫中秋等.大數(shù)據(jù)時(shí)代數(shù)字資源整合與聚合研究.數(shù)字圖書館論壇,2014(6):28-34
7,44.丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究.圖書與情報(bào),2011(6):50-53
8,28.邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻(xiàn)資源深度聚合研究探析. 中國(guó)圖書館學(xué)報(bào),2013(5):25-33
9.賀德方,曾建勛.基于語(yǔ)義的館藏資源深度聚合研究.中國(guó)圖書館學(xué)報(bào),2012,38(7):79-87
10.魏來(lái).基于在線詞表的 folksonomy 語(yǔ)義關(guān)聯(lián)識(shí)別方法研究.圖書情報(bào)工作,2011,55(5):103-108
11.黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究.情報(bào)理論與實(shí)踐,2013(7):27-40
12,31.胡瓊芳,曾建勛.基于多共現(xiàn)的文獻(xiàn)相關(guān)度判定研究.情報(bào)理論與實(shí)踐,2010,33(8):77-80
13,32.龐弘燊.基于多重共現(xiàn)揭示高校圖書館與核心期刊間的發(fā)文關(guān)聯(lián)關(guān)系研究.圖書館,2012(2):75-78
14.ARONSON A R. Effective mapping of biomedical text to the UMLS metathesaurus: the metamap program//ProcAMIA Annu Fall Symp,2001: 17-21
15.MANNING C H S. Foundations of statistical natural language processing.Cambridge.MA: MIT Press,1999
16.YOSHIDA M,F(xiàn)UKUDA K,TAKAQI T. PNAD-CSS: a workbench for constructing a protein name abbreviation dictionary.Bioinformatics,2000,16(2):169-175
17,29. Morris S.A.etc.DIVA: a visualization system for exploring document databases for technology forecasting.Computers & Industrial Engineering,2002(43): 841-862
18,30. Morris S. A.,Gary G.Yen.Crossmaps: Visualization of overlapping relationships in collections of journal papers.[2014-08-21].http://www.pnas. org /cgi/doi/10.1073/pnas.030760410
19. Loet Leydesdorff.What Can Heterogeneity Add to the Scientometric Map? Steps towards algorithmic historiography.[2014-08-21].http:// arxiv.org/abs/1002.0532
20.畢強(qiáng).數(shù)字資源:從整合到聚合的轉(zhuǎn)變.數(shù)字圖書館論壇,2014(6):前言
22.邱均平.信息計(jì)量學(xué).武漢:武漢大學(xué)出版社, 2007:316-317
23.周曉英,陳蘭杰.基于引文網(wǎng)絡(luò)的知識(shí)鏈接框架研究.情報(bào)雜志,2010(10):37-40
24.Garfield E.citation indexes for science:a new dimension in documentation through association of ideas.science,1955,122:108-111
25,26.邱均平,董克.引文網(wǎng)絡(luò)中文獻(xiàn)深度聚合方法與實(shí)證研究——以 WOS 數(shù)據(jù)庫(kù)中 XML 研究論文為例.中國(guó)圖書館學(xué)報(bào),2013(3):111-120
27.王立學(xué),孫楊,楊代慶.基于引文的情報(bào)學(xué)領(lǐng)域主題關(guān)聯(lián)特征分析.情報(bào)雜志,2012(10):27-31
33.孫中秋,陳曉美,周珊珊.Folksonomy與SNA資源聚合類比研究.數(shù)字圖書館論壇,2014(6):21-27
35.郭金龍,許鑫.領(lǐng)域博客的社會(huì)網(wǎng)絡(luò)分析:基于圖書情報(bào)與互聯(lián)網(wǎng)博客的實(shí)證.圖書情報(bào)工作網(wǎng)刊,2012(1):1
36.魏群義,侯桂楠,霍然.近10年國(guó)內(nèi)情報(bào)學(xué)碩士學(xué)位論文研究熱點(diǎn)統(tǒng)計(jì)分析.圖書情報(bào)工作,2012,56(2):35-39
37.凌海云,左志宏,陳蘭.語(yǔ)義標(biāo)注元數(shù)據(jù)及其抽取技術(shù).計(jì)算機(jī)應(yīng)用研究,2004(7):147-149
38.馬文峰,杜小勇,盧曉慧.基于知識(shí)的資源整合.情報(bào)資料工作,2007(1):51-56
39.Wache, H., Voegele, T., Visser, U., Stuckenschmidt, H.,Schuster, G., Neumann, H., Huebner, S.Ontology-based integration of information - a survey of existing approaches.Proceedings of the workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001:108-117
40.李勁,程秀峰,宋紅文.基于語(yǔ)義的館藏資源深度聚合方法研究.情報(bào)科學(xué),2013,31(11):100-103
41.何超,張玉峰.基于本體的館藏?cái)?shù)字資源語(yǔ)義聚合與可視化研究.情報(bào)理論與實(shí)踐,2013,36(10):73-76,39
42.王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究.圖書館學(xué)刊,2012(8):44-46
43. Sderbck A, Malmsten M.LIBRIS-Linked Library Data.Nodalities,2008(5):19-20
45.游毅,成全.試論基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式.情報(bào)理論與實(shí)踐,2013,36(1):109-114