国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示方法研究*

2015-02-13 11:43陳蘭杰侯鵬娟
圖書館 2015年2期
關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義文獻(xiàn)

陳蘭杰 侯鵬娟

(1.中國(guó)科學(xué)技術(shù)信息研究所 北京 100038;2.河北大學(xué)管理學(xué)院 河北保定 071000;3.中國(guó)地質(zhì)大學(xué)長(zhǎng)城學(xué)院圖書館 河北保定 071000)

1 前言

眾所周知,數(shù)字資源組織是數(shù)字資源開發(fā)利用的前提,當(dāng)前,面對(duì)多樣的、海量的、非結(jié)構(gòu)化的數(shù)字資源,傳統(tǒng)的文獻(xiàn)組織和數(shù)據(jù)庫(kù)組織已不能滿足用戶日益增長(zhǎng)的需求,對(duì)數(shù)字文獻(xiàn)資源的組織正在從數(shù)字資源整合向更高層次的數(shù)字資源聚合邁進(jìn)。[1]然而,由于數(shù)字文獻(xiàn)資源的分布分散、異質(zhì)結(jié)構(gòu)等特點(diǎn),給充分利用數(shù)字文獻(xiàn)資源帶來(lái)了極大挑戰(zhàn),為此,如何對(duì)海量數(shù)字文獻(xiàn)信息資源進(jìn)行科學(xué)的組織和開發(fā)成為當(dāng)前圖書情報(bào)界關(guān)注的熱點(diǎn)問題,這從近幾年國(guó)家級(jí)的課題可窺見一斑,例如:2012年國(guó)家自然科學(xué)基金項(xiàng)目“基于海量數(shù)字資源的科研關(guān)系網(wǎng)絡(luò)構(gòu)建研究(曾建勛)”以及“語(yǔ)義網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館資源多維度聚合與可視化研究(畢強(qiáng))”;2013年國(guó)家自然科學(xué)基金項(xiàng)目“基于關(guān)聯(lián)書目數(shù)據(jù)的分層聚合和導(dǎo)航機(jī)制研究”。2012年國(guó)家社科基金重大項(xiàng)目中的三個(gè)項(xiàng)目都與數(shù)字文獻(xiàn)資源開發(fā)利用有關(guān),“云計(jì)算環(huán)境下的信息資源集成與服務(wù)研究”(杜小勇)、“面向?qū)W科領(lǐng)域的網(wǎng)絡(luò)信息資源深度聚合與服務(wù)研究”(孫建軍)、“基于特定領(lǐng)域的網(wǎng)絡(luò)資源知識(shí)組織與導(dǎo)航機(jī)制研究”(曹樹金);2013年國(guó)家社科基金一般項(xiàng)目“公共數(shù)字文化服務(wù)中的資源整合研究”(肖希明);2014年國(guó)家社科基金青年項(xiàng)目“語(yǔ)義和情景關(guān)聯(lián)的網(wǎng)絡(luò)資源聚合單元分類體系構(gòu)建”(馬翠嫦)等。

在學(xué)術(shù)研究方面,對(duì)數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示的研究也已引起眾多學(xué)者的關(guān)注。在國(guó)內(nèi),李亮先在2004年較早地提出信息資源關(guān)聯(lián)的應(yīng)用[2],此后有關(guān)信息資源關(guān)聯(lián)的研究相繼展開,如基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合[3]、基于社會(huì)網(wǎng)絡(luò)和資源關(guān)聯(lián)基礎(chǔ)上的數(shù)字圖書館資源聚合[4-6]、基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[7]、基于共現(xiàn)與耦合的資源聚合[8]、基于語(yǔ)義的資源聚合與關(guān)聯(lián)識(shí)別[9-10]、基于元數(shù)據(jù)的文獻(xiàn)關(guān)聯(lián)研究[11]、基于多共現(xiàn)的文獻(xiàn)相關(guān)度判定[12]、基于多重共現(xiàn)揭示高校圖書館與核心期刊間的發(fā)文關(guān)聯(lián)關(guān)系研究[13]。在國(guó)外,已有文獻(xiàn)[14-16]較早地對(duì)科技文獻(xiàn)的關(guān)聯(lián)進(jìn)行了探討,美國(guó)科學(xué)計(jì)量專家 Morris開發(fā)了交叉圖和時(shí)間線技術(shù),實(shí)現(xiàn)了機(jī)構(gòu)與研究主題兩種文獻(xiàn)特征項(xiàng)的關(guān)聯(lián)[17-18],Leydesdorff則把作者-期刊-關(guān)鍵詞的特征項(xiàng)關(guān)聯(lián)起來(lái),實(shí)現(xiàn)了多個(gè)特征性的多重共現(xiàn)關(guān)聯(lián)[19]。

上述研究成果表明,對(duì)數(shù)字文獻(xiàn)資源的開發(fā)利用更加關(guān)注多維度、集成化、關(guān)聯(lián)化的特點(diǎn),特別是更加注重海量數(shù)據(jù)環(huán)境下滿足不同用戶需求的應(yīng)用。對(duì)數(shù)字資源的組織正在從文獻(xiàn)層面、記錄層面的組織轉(zhuǎn)向更加碎片化的知識(shí)間關(guān)聯(lián)的組織;從數(shù)字資源整合向數(shù)字資源聚合邁進(jìn),將分散獨(dú)立的數(shù)字資源構(gòu)建成一個(gè)內(nèi)容相互關(guān)聯(lián)、多維度、多層次的資源體系,形成集概念主題、學(xué)科內(nèi)容和科研對(duì)象實(shí)體為一體的立體化知識(shí)網(wǎng)絡(luò)。[20]事實(shí)上,對(duì)海量數(shù)字資源的組織只從一個(gè)層面加以組織已經(jīng)不能滿足用戶多樣化的需求,同時(shí)也會(huì)因信息冗余阻礙數(shù)字資源價(jià)值的充分發(fā)揮。因此,必須考慮數(shù)字資源內(nèi)部組織結(jié)構(gòu)、內(nèi)容結(jié)構(gòu)、與人的利用、知識(shí)更新之間的關(guān)聯(lián),構(gòu)建動(dòng)態(tài)的、與時(shí)俱進(jìn)的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)。

2 數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的主體分析及關(guān)聯(lián)揭示的價(jià)值

2.1 數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的主體分析

數(shù)字文獻(xiàn)資源關(guān)聯(lián)的直接作用是構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),而知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)主要是由各種知識(shí)節(jié)點(diǎn)及節(jié)點(diǎn)間錯(cuò)綜復(fù)雜的各種關(guān)系構(gòu)成。

對(duì)數(shù)字文獻(xiàn)資源而言,構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)則主要是基于數(shù)字文獻(xiàn)的外部特征和內(nèi)容特征來(lái)實(shí)現(xiàn)。數(shù)字文獻(xiàn)的外部特征主要包括題名、作者、機(jī)構(gòu)、工作單位、文獻(xiàn)出處、參考文獻(xiàn)等信息。內(nèi)容特征則包括關(guān)鍵詞、主題詞、分類號(hào)、知識(shí)元等。在構(gòu)建知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)時(shí),一方面可以通過外部特征的關(guān)聯(lián)來(lái)實(shí)現(xiàn),也可以通過內(nèi)容特征的關(guān)聯(lián)來(lái)實(shí)現(xiàn),還可以通過外在特征與內(nèi)容特征的交叉關(guān)聯(lián)來(lái)實(shí)現(xiàn)。一般而言,通過數(shù)字文獻(xiàn)外部特征的關(guān)聯(lián)形成的知識(shí)網(wǎng)絡(luò)是對(duì)數(shù)字文獻(xiàn)資源的簡(jiǎn)單整合,而通過數(shù)字文獻(xiàn)內(nèi)容特征的關(guān)聯(lián)形成的知識(shí)網(wǎng)絡(luò)和通過外在特征與內(nèi)容特征的交叉關(guān)聯(lián)則是對(duì)數(shù)字文獻(xiàn)資源的深度聚合,顯然,后者的意義和價(jià)值更大,從某種程度上來(lái)說(shuō)后者是一個(gè)知識(shí)發(fā)現(xiàn)的過程,數(shù)字文獻(xiàn)之間增加了更多的邏輯關(guān)系。

目前,在數(shù)字文獻(xiàn)資源知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)中存在的關(guān)聯(lián)關(guān)系主要有:機(jī)構(gòu)關(guān)聯(lián)、學(xué)者關(guān)聯(lián)、期刊關(guān)聯(lián)、主題關(guān)聯(lián)發(fā)現(xiàn)、文獻(xiàn)關(guān)聯(lián)和交叉關(guān)聯(lián)等多種關(guān)聯(lián)。[21]

2.2 數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示的價(jià)值和意義

加強(qiáng)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的研究,目的是構(gòu)建一個(gè)多維的、內(nèi)容關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò),具有如下重要價(jià)值和意義。

2.2.1 數(shù)字文獻(xiàn)資源的關(guān)聯(lián)是數(shù)字圖書館的資源建設(shè)與管理的重要內(nèi)容。數(shù)字圖書館本身就是數(shù)字文獻(xiàn)資源的集合體,儲(chǔ)存有多種媒體、不同結(jié)構(gòu)的異質(zhì)數(shù)字資源,隨著這個(gè)集合體內(nèi)容的不斷增加,有關(guān)聯(lián)關(guān)系的數(shù)字資源越來(lái)越多,為了充分發(fā)揮這些資源的潛在價(jià)值,需要建立這些資源的關(guān)聯(lián)。因此,利用數(shù)字文獻(xiàn)資源關(guān)聯(lián)技術(shù)可將有效信息資源有機(jī)地關(guān)聯(lián)起來(lái)。

2.2.2 數(shù)字文獻(xiàn)資源關(guān)聯(lián)是實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的重要途徑。利用數(shù)字文獻(xiàn)資源關(guān)聯(lián)技術(shù)可以實(shí)現(xiàn)信息資源的關(guān)聯(lián)應(yīng)用,從某種程度上來(lái)說(shuō)避免了檢索結(jié)果的單一化、無(wú)序化,為用戶的檢索提供了更智能化的導(dǎo)航,這無(wú)疑是信息檢索和知識(shí)發(fā)現(xiàn)的有力途徑。當(dāng)然,數(shù)字文獻(xiàn)資源的不斷增加會(huì)導(dǎo)致資源關(guān)聯(lián)模式發(fā)生變化,新資源的收錄、資源之間的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)也會(huì)發(fā)生變化,其檢索結(jié)果和知識(shí)發(fā)現(xiàn)模式也會(huì)隨之改變。

2.2.3 數(shù)字文獻(xiàn)資源關(guān)聯(lián)能滿足用戶的個(gè)性化需求。通過關(guān)聯(lián)關(guān)系構(gòu)建的知識(shí)網(wǎng)絡(luò)能從不同側(cè)面、不同角度展示數(shù)字文獻(xiàn)資源之間千絲萬(wàn)縷的聯(lián)系,深入挖掘數(shù)字文獻(xiàn)網(wǎng)絡(luò)中所蘊(yùn)含的內(nèi)在價(jià)值,為知識(shí)發(fā)現(xiàn)提供可能,并能按照用戶的需求對(duì)數(shù)字文獻(xiàn)資源進(jìn)行揭示,滿足用戶的個(gè)性化需求,提高用戶檢索效率及準(zhǔn)確率。

3 數(shù)字文獻(xiàn)資源關(guān)聯(lián)揭示方法及其應(yīng)用

3.1 基于引文的分析方法

3.1.1 原理。引文分析主要是對(duì)各類文獻(xiàn)資源之間的引用與被引用現(xiàn)象進(jìn)行分析,以便揭示其數(shù)量分布特征和內(nèi)在關(guān)聯(lián)規(guī)律。[22]引文分析是進(jìn)行文獻(xiàn)關(guān)聯(lián)研究最早、也是最成熟的方法之一。通過文獻(xiàn)之間的引證形成的引文鏈接可以構(gòu)建起知識(shí)信息間的關(guān)聯(lián)關(guān)系[23],對(duì)于實(shí)現(xiàn)科技文獻(xiàn)的集成信息服務(wù)和促進(jìn)知識(shí)發(fā)現(xiàn)具有重要意義。

引文理論源于1955年加菲爾德(E·Garfield)在《科學(xué)》雜志上發(fā)表的《引文索引用于科學(xué)》[24]一文,在該文中加菲爾德率先提出了引文分析概念和相關(guān)理論,從此拉開了對(duì)引文分析的先河??茖W(xué)文獻(xiàn)之間通過引用關(guān)系構(gòu)成了特定研究主題的知識(shí)網(wǎng)絡(luò),其單向無(wú)回路的特征揭示了學(xué)科主題的知識(shí)結(jié)構(gòu)和發(fā)展過程。[25]在科技文獻(xiàn)網(wǎng)絡(luò)中,每一篇文獻(xiàn)都是一個(gè)知識(shí)節(jié)點(diǎn)并具有相應(yīng)的價(jià)值。引文網(wǎng)絡(luò)不僅能揭示文獻(xiàn)之間的關(guān)聯(lián),還能通過關(guān)聯(lián)關(guān)系進(jìn)行文獻(xiàn)聚合,更好地滿足用戶個(gè)性化需求。[26]基于引文的關(guān)聯(lián)分析主要包括三種模式:基于引用的直接關(guān)聯(lián)模式、 基于同被引的關(guān)聯(lián)模式、基于引文的擴(kuò)展關(guān)聯(lián)模式。

3.1.2 應(yīng)用。基于引文的關(guān)聯(lián)前提是文獻(xiàn)之間有某種引用關(guān)系,因此,這種關(guān)聯(lián)是一種強(qiáng)關(guān)聯(lián),這對(duì)于信息檢索需求具有重要價(jià)值。世界上最早利用引文建立關(guān)聯(lián)關(guān)系的文獻(xiàn)系統(tǒng)是1961年由美國(guó)科學(xué)信息研究所(ISI)創(chuàng)辦出版的檢索評(píng)價(jià)工具《科學(xué)引文索引》(Science Citation Index,簡(jiǎn)稱SCI)。目前國(guó)內(nèi)的CNKI《中國(guó)期刊全文數(shù)據(jù)庫(kù)》、萬(wàn)方《中國(guó)科技期刊論文數(shù)據(jù)庫(kù)》、維普《中文科技期刊數(shù)據(jù)庫(kù)》等三大期刊全文數(shù)據(jù)庫(kù)均具有引文檢索分析功能。

近年來(lái),基于引文開展文獻(xiàn)計(jì)量分析、知識(shí)關(guān)聯(lián)分析和科研影響力評(píng)估已經(jīng)成為圖書情報(bào)領(lǐng)域的一個(gè)重要研究分支。如王立學(xué)等以發(fā)表于 2005-2009 年的情報(bào)學(xué)論文為基礎(chǔ),通過頻次統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)、論文同被引等文獻(xiàn)計(jì)量分析方法,挖掘并闡釋研究主題關(guān)聯(lián)以及作者同被引、機(jī)構(gòu)同被引和期刊同被引等關(guān)聯(lián)關(guān)系。[27]

3.2 共現(xiàn)分析法

3.2.1 原理。共現(xiàn)(Co-occurrence or occurrence) 現(xiàn)象是文獻(xiàn)計(jì)量中一個(gè)特有現(xiàn)象,主要是指科技文獻(xiàn)中相同或不同類型特征項(xiàng)共同出現(xiàn)的現(xiàn)象。例如多篇文獻(xiàn)中共同出現(xiàn)的同類特征項(xiàng),如關(guān)鍵詞、作者、機(jī)構(gòu)等,以及不同特征項(xiàng)共同出現(xiàn)的現(xiàn)象,如論文與關(guān)鍵詞、機(jī)構(gòu)與作者等的共現(xiàn)等。共現(xiàn)分析就是采用定量化的方法來(lái)分析文獻(xiàn)中因特征項(xiàng)的共同出現(xiàn)所產(chǎn)生的文獻(xiàn)之間的內(nèi)容關(guān)聯(lián)。一般而言,共現(xiàn)的特征項(xiàng)之間一定存在著某種關(guān)聯(lián),關(guān)聯(lián)程度可用共現(xiàn)頻次來(lái)測(cè)度。

通過共現(xiàn)分析可以從多個(gè)維度挖掘和揭示隱含在文獻(xiàn)中的各類知識(shí)信息單元的內(nèi)容關(guān)聯(lián)和邏輯關(guān)聯(lián)。在信息計(jì)量學(xué)研究中,主要采用分析文獻(xiàn)特征項(xiàng)之間關(guān)聯(lián)來(lái)探討文獻(xiàn)內(nèi)容的關(guān)聯(lián)。信息計(jì)量學(xué)中的共現(xiàn)分析通常包括共詞分析、耦合分析、同被引分析和合作分析等。目前,研究較多的是二重共現(xiàn),即兩個(gè)文獻(xiàn)特征項(xiàng)的共現(xiàn)。如果將共現(xiàn)現(xiàn)象擴(kuò)展到三重或者更多,則其揭示的關(guān)聯(lián)關(guān)系和邏輯聯(lián)系會(huì)更加豐富,其價(jià)值也會(huì)更大。如邱均平等(2013)提出了四種基于共現(xiàn)和耦合的數(shù)字文獻(xiàn)資源關(guān)聯(lián)模式,分別是文獻(xiàn)特征關(guān)聯(lián)、文獻(xiàn)利用過程關(guān)聯(lián)、知識(shí)關(guān)聯(lián)和用戶需求關(guān)聯(lián)。[28]

3.2.2 應(yīng)用。利用共現(xiàn)方法來(lái)揭示文獻(xiàn)之間的關(guān)聯(lián)關(guān)系在文獻(xiàn)計(jì)量研究中被廣泛應(yīng)用,如Morris[29-30]開發(fā)了交叉圖和時(shí)間線技術(shù)來(lái)研究?jī)煞N相同特征項(xiàng)之間的關(guān)聯(lián),以此發(fā)現(xiàn)哪些機(jī)構(gòu)合作研究了哪些相關(guān)的研究主題;胡瓊芳和曾建勛[31]提出從共引、耦合、共篇三個(gè)3角度,利用引文-被引文-關(guān)鍵詞三個(gè)特征項(xiàng)共現(xiàn)的方法來(lái)挖掘論文之間的關(guān)聯(lián);龐弘燊對(duì)Morris 的交叉圖技術(shù)進(jìn)行了改進(jìn),提出了多重共現(xiàn)交叉圖技術(shù),用以展示三個(gè)特征項(xiàng)(機(jī)構(gòu)-期刊-關(guān)鍵詞)之間的共現(xiàn)關(guān)系,以揭示更多文獻(xiàn)之間的關(guān)聯(lián)信息。[32]

3.3 社會(huì)網(wǎng)絡(luò)分析法

3.3.1 原理。社會(huì)網(wǎng)絡(luò)是因個(gè)體成員間有效互動(dòng)形成的較穩(wěn)定的社會(huì)關(guān)系和社會(huì)團(tuán)體的總和。社會(huì)網(wǎng)絡(luò)分析法是在社會(huì)網(wǎng)研究過程中形成的方法,從資源聚合的角度,可將社會(huì)資源網(wǎng)絡(luò)看成是由知識(shí)單元、知識(shí)關(guān)聯(lián)和知識(shí)群落構(gòu)成的三元組。[33]從數(shù)字文獻(xiàn)資源組織的角度來(lái)講,知識(shí)單元是知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)中的知識(shí)節(jié)點(diǎn),知識(shí)關(guān)聯(lián)是知識(shí)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,知識(shí)群落則是依據(jù)關(guān)聯(lián)關(guān)系劃分的知識(shí)單元的集合,而不同知識(shí)群落之間的交叉關(guān)聯(lián)則構(gòu)成多維立體的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)體系。

社會(huì)網(wǎng)絡(luò)分析法主要用于資源間關(guān)聯(lián)關(guān)系的分析,其將資源間的關(guān)系看成“網(wǎng)”或“網(wǎng)絡(luò)”,并對(duì)此“網(wǎng)絡(luò)”進(jìn)行結(jié)構(gòu)劃分,形成不同的子群,從而實(shí)現(xiàn)關(guān)聯(lián)文獻(xiàn)的聚合。社會(huì)網(wǎng)絡(luò)分析法實(shí)現(xiàn)資源聚合主要是圍繞網(wǎng)絡(luò)中心性、網(wǎng)絡(luò)群聚性和網(wǎng)絡(luò)關(guān)聯(lián)性三個(gè)維度展開。其中網(wǎng)絡(luò)中心性主要用于衡量節(jié)點(diǎn)在整個(gè)社會(huì)網(wǎng)絡(luò)中的地位和影響力;網(wǎng)絡(luò)群聚性主要用于實(shí)現(xiàn)節(jié)點(diǎn)分類和定位,用于網(wǎng)絡(luò)結(jié)構(gòu)和層級(jí)劃分;網(wǎng)絡(luò)關(guān)聯(lián)性主要用于判斷網(wǎng)絡(luò)節(jié)點(diǎn)間關(guān)系以及節(jié)點(diǎn)的重要程度。對(duì)于數(shù)字文獻(xiàn)資源,可依據(jù)數(shù)字文獻(xiàn)資源的內(nèi)外部特征建立社會(huì)網(wǎng)絡(luò)關(guān)系,進(jìn)而開展數(shù)字資源結(jié)構(gòu)屬性和關(guān)聯(lián)關(guān)系分析。

3.3.2 應(yīng)用。畢強(qiáng)等(2014)采用社會(huì)網(wǎng)絡(luò)分析法對(duì)從資源特征間關(guān)聯(lián)和資源利用過程關(guān)聯(lián)的視角出發(fā),提出了6種數(shù)字資源聚合模式:基于作者互引關(guān)系的資源聚合、基于作者合作關(guān)系的資源聚合、基于作者-關(guān)鍵詞關(guān)系的資源聚合、基于多作者-關(guān)鍵詞關(guān)系的資源聚合、基于多關(guān)鍵詞-作者關(guān)系的資源聚合,以及資源特征間交叉關(guān)聯(lián)的聚合。[34]其中,基于作者互引關(guān)系的關(guān)聯(lián)主要用于發(fā)現(xiàn)作者間引用情況,識(shí)別核心作者;基于作者合作關(guān)系的關(guān)聯(lián)主要用于挖掘作者間相同的研究主題,揭示外在的合作群體;基于作者關(guān)鍵詞交叉關(guān)聯(lián)主要用于揭示潛在的合作群體;基于多作者-關(guān)鍵詞關(guān)系的關(guān)聯(lián)主要用于尋找關(guān)鍵詞共同體,識(shí)別相同研究主題;基于多關(guān)鍵詞-作者關(guān)系的關(guān)聯(lián)主要用于識(shí)別同一研究領(lǐng)域的核心作者。郭金龍[35]對(duì)圖書情報(bào)界學(xué)者博客互引情況進(jìn)行了社會(huì)網(wǎng)絡(luò)分析;魏群義[36]還利用社會(huì)網(wǎng)絡(luò)分析軟件Pajek對(duì)國(guó)內(nèi)近10年圖書情報(bào)學(xué)碩士學(xué)位論文關(guān)鍵詞進(jìn)行了統(tǒng)計(jì)。

3.4 基于語(yǔ)義和本體的關(guān)聯(lián)分析方法

3.4.1 原理。語(yǔ)義方法就是對(duì)文本,圖片,多媒體等各種資源進(jìn)行語(yǔ)義標(biāo)注,通過語(yǔ)義標(biāo)注使得它們之間建立各種關(guān)聯(lián),這些標(biāo)注不僅人可以讀懂,而且計(jì)算機(jī)也能夠理解。[37]本體方法是通過對(duì)客觀世界事物進(jìn)行系統(tǒng)化、抽象化的描述和組織,體現(xiàn)特定領(lǐng)域的知識(shí)結(jié)構(gòu)。

利用語(yǔ)義和本體方法是構(gòu)建數(shù)字文獻(xiàn)資源關(guān)聯(lián)最理想的方法之一。在本體中,概念之間、實(shí)例對(duì)象之間存在著各種復(fù)雜語(yǔ)義關(guān)系,如等級(jí)關(guān)系、等同關(guān)系、相似關(guān)系、相關(guān)關(guān)系、互操作關(guān)系等。通過對(duì)不同領(lǐng)域的資源集合構(gòu)建領(lǐng)域本體,利用語(yǔ)義映射機(jī)制實(shí)現(xiàn)異構(gòu)資源和系統(tǒng)之間的語(yǔ)義關(guān)聯(lián),就可以實(shí)現(xiàn)異構(gòu)的、不同類型資源的深度聚合。[38]

3.4.2 應(yīng)用。早在20世紀(jì)90年代,國(guó)外就對(duì)基于本體模型的異構(gòu)數(shù)字資源進(jìn)行語(yǔ)義標(biāo)注方式作了研究,本體在其中的作用是提供對(duì)資源進(jìn)行語(yǔ)義標(biāo)注的詞匯標(biāo)準(zhǔn)。H.Wache等人將基于本體的整合方法歸納為單一本體法、多本體法和混合法3種類型[39];李勁等(2013)則提出了兩種基于語(yǔ)義信息檢索可視化模型[40];何超等(2013)構(gòu)建了基于本體的館藏?cái)?shù)字資源語(yǔ)義聚合與可視化模型,該模型利用本體提供的語(yǔ)義知識(shí)進(jìn)行深層次的館藏?cái)?shù)字資源語(yǔ)義聚合。旨在解決數(shù)字資源孤島問題和數(shù)字資源超載問題,揭示館藏?cái)?shù)字資源內(nèi)部存在的錯(cuò)綜復(fù)雜關(guān)聯(lián)和深層次內(nèi)涵,從而增強(qiáng)對(duì)數(shù)字信息資源聚合結(jié)果的認(rèn)知和理解。[41]

3.5 關(guān)聯(lián)數(shù)據(jù)分析法

3.5.1 原理。關(guān)聯(lián)數(shù)據(jù)是指共享、連接各類數(shù)據(jù)、信息和知識(shí)的一種知識(shí)信息組織方式,它克服了本體的領(lǐng)域局限性,實(shí)現(xiàn)了各類數(shù)據(jù)的無(wú)縫鏈接。關(guān)聯(lián)數(shù)據(jù)一般包括創(chuàng)建、發(fā)布、自動(dòng)關(guān)聯(lián)、瀏覽和鏈接維護(hù)等環(huán)節(jié)。關(guān)聯(lián)數(shù)據(jù)的本質(zhì)在于為各類分布的、異構(gòu)的數(shù)據(jù)建立語(yǔ)義關(guān)聯(lián),因此,它在數(shù)字資源整合和共享方面具有得天獨(dú)厚的優(yōu)勢(shì)。關(guān)聯(lián)數(shù)據(jù)旨在構(gòu)建一個(gè)計(jì)算機(jī)能理解的具有結(jié)構(gòu)化和富含語(yǔ)義的數(shù)據(jù)網(wǎng)絡(luò)。其最大優(yōu)勢(shì)在于可以對(duì)分布式異構(gòu)數(shù)據(jù)進(jìn)行整合并提供關(guān)聯(lián)訪問。數(shù)字圖書館可利用關(guān)聯(lián)數(shù)據(jù)進(jìn)行數(shù)字資源的組織、集成和關(guān)聯(lián)信息服務(wù)。關(guān)聯(lián)數(shù)據(jù)是數(shù)字圖書館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一。[42]

3.5.2 應(yīng)用。關(guān)聯(lián)數(shù)據(jù)意在通過發(fā)布和鏈接結(jié)構(gòu)化數(shù)據(jù)使得分散異構(gòu)的數(shù)據(jù)孤島實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián),從而促進(jìn)傳統(tǒng)文件網(wǎng)絡(luò)向數(shù)據(jù)網(wǎng)絡(luò)演進(jìn)。在國(guó)外 ,瑞典國(guó)家圖書館最先將本國(guó)國(guó)家聯(lián)合目錄(LIBRIS)發(fā)布為關(guān)聯(lián)數(shù)據(jù)[43]。隨后,美國(guó)、德國(guó)、法國(guó)、OCLC 等國(guó)際、國(guó)家級(jí)的書目數(shù)據(jù)也紛紛開放了關(guān)聯(lián)數(shù)據(jù)服務(wù)。

我國(guó)對(duì)關(guān)聯(lián)數(shù)據(jù)在數(shù)字文獻(xiàn)資源聚合與分析中的應(yīng)用研究才剛剛起步,主要是對(duì)關(guān)聯(lián)數(shù)據(jù)在信息資源整合中的應(yīng)用進(jìn)行理論探討。譬如,丁楠和潘有能構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型[44];游毅和成全對(duì)基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式進(jìn)行了理論闡述[45]。

4 現(xiàn)有揭示方法評(píng)價(jià)及未來(lái)發(fā)展趨勢(shì)

目前,國(guó)內(nèi)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的揭示主要從兩個(gè)角度出發(fā),一種思路是從發(fā)現(xiàn)數(shù)字文獻(xiàn)資源之間的關(guān)聯(lián)關(guān)系出發(fā),利用計(jì)量分析來(lái)挖掘數(shù)字文獻(xiàn)資源之間的關(guān)聯(lián)關(guān)系,包括基于引文的、基于共現(xiàn)與耦合的和基于社會(huì)網(wǎng)絡(luò)分析的關(guān)聯(lián)關(guān)系與數(shù)字文獻(xiàn)資源聚合;另一種是從構(gòu)建關(guān)聯(lián)關(guān)系出發(fā),從知識(shí)組織角度,主要通過運(yùn)用概念分析、本體、關(guān)聯(lián)數(shù)據(jù)等方法增強(qiáng)資源語(yǔ)義,從而進(jìn)行關(guān)聯(lián)關(guān)系揭示,包括基于本體和語(yǔ)義的數(shù)字文獻(xiàn)資源聚合、基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字文獻(xiàn)資源聚合等。

引文分析法直接揭示文獻(xiàn)之間的關(guān)聯(lián)關(guān)系,形式化程度高,其不足在于對(duì)數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示較單一。

基于共現(xiàn)與耦合的揭示方法能通過數(shù)字文獻(xiàn)中不同特征項(xiàng)實(shí)現(xiàn)數(shù)字文獻(xiàn)關(guān)聯(lián),并可根據(jù)不同的研究目的來(lái)分析不同的特征項(xiàng)之間的共現(xiàn)關(guān)聯(lián)關(guān)系。其不足在于由于理論和技術(shù)原因,目前只能對(duì)三個(gè)或以下特征項(xiàng)進(jìn)行共現(xiàn)分析。

社會(huì)網(wǎng)絡(luò)分析法可以提供多個(gè)聚合應(yīng)用的數(shù)據(jù)關(guān)聯(lián)訪問,將不同資源的關(guān)聯(lián)特征或不同資源間建立的社會(huì)網(wǎng)絡(luò)進(jìn)行整合、提取,并按用戶的需求組織資源。基于資源內(nèi)、外部特征間的關(guān)聯(lián)以及資源利用過程的關(guān)聯(lián),可以構(gòu)建作者互引關(guān)系、作者合作關(guān)系、作者-關(guān)鍵詞等關(guān)系網(wǎng)絡(luò),其主要缺點(diǎn)是難以形式化表達(dá)。

基于本體與語(yǔ)義的揭示方法能對(duì)數(shù)字資源本身構(gòu)建豐富的語(yǔ)義,形式化程度高,可以共享復(fù)用,其主要不足在于重表達(dá),輕分析,特別是本體往往局限于某一領(lǐng)域。

基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字文獻(xiàn)關(guān)聯(lián)關(guān)系揭示法是應(yīng)用于數(shù)字資源整合的極少實(shí)踐研究方法之一,其語(yǔ)義豐富,形式化程度高。主要不足在于對(duì)資源間隱含關(guān)系和深層次語(yǔ)義關(guān)系的識(shí)別還不夠充分。

在以往的研究中,大多數(shù)對(duì)數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示的視角往往基于某一單一的技術(shù)方法。但實(shí)際上很多方法在數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系揭示方面存在著必然聯(lián)系和相似性,如社會(huì)網(wǎng)絡(luò)分析方法、復(fù)雜網(wǎng)絡(luò)分析方法、信息計(jì)量學(xué)等。因此,了解技術(shù)方法上的互補(bǔ)融合之處,是全面、透徹地揭示數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的關(guān)鍵所在,這也是實(shí)現(xiàn)數(shù)字文獻(xiàn)全方位關(guān)聯(lián)的重要保障。未來(lái)還會(huì)有更多的數(shù)字文獻(xiàn)資源關(guān)聯(lián)關(guān)系的揭示方法,必然也是多維度和多視角的。

(來(lái)稿時(shí)間:2014年10月)

1,21.張?jiān)浦?從整合到聚合:國(guó)內(nèi)數(shù)字資源再組織模式的變革.數(shù)字圖書館論壇,2014(6):16-20

2.李亮先.信息資源的關(guān)聯(lián)應(yīng)用.情報(bào)雜志,2004(2):103-104

3.王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究.圖書館學(xué)刊,2012(8):44-46

4.畢強(qiáng),王雨,孫暢.數(shù)字圖書館資源聚合模式研究——基于社會(huì)網(wǎng)絡(luò)分析的視角.數(shù)字圖書館論壇,2014(6):2-7

5,34.畢強(qiáng),王雨,吳海媛.基于社會(huì)網(wǎng)絡(luò)分析的數(shù)字圖書館資源聚合實(shí)證研究.數(shù)字圖書館論壇,2014(6):8-15

6.孫中秋等.大數(shù)據(jù)時(shí)代數(shù)字資源整合與聚合研究.數(shù)字圖書館論壇,2014(6):28-34

7,44.丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究.圖書與情報(bào),2011(6):50-53

8,28.邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻(xiàn)資源深度聚合研究探析. 中國(guó)圖書館學(xué)報(bào),2013(5):25-33

9.賀德方,曾建勛.基于語(yǔ)義的館藏資源深度聚合研究.中國(guó)圖書館學(xué)報(bào),2012,38(7):79-87

10.魏來(lái).基于在線詞表的 folksonomy 語(yǔ)義關(guān)聯(lián)識(shí)別方法研究.圖書情報(bào)工作,2011,55(5):103-108

11.黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究.情報(bào)理論與實(shí)踐,2013(7):27-40

12,31.胡瓊芳,曾建勛.基于多共現(xiàn)的文獻(xiàn)相關(guān)度判定研究.情報(bào)理論與實(shí)踐,2010,33(8):77-80

13,32.龐弘燊.基于多重共現(xiàn)揭示高校圖書館與核心期刊間的發(fā)文關(guān)聯(lián)關(guān)系研究.圖書館,2012(2):75-78

14.ARONSON A R. Effective mapping of biomedical text to the UMLS metathesaurus: the metamap program//ProcAMIA Annu Fall Symp,2001: 17-21

15.MANNING C H S. Foundations of statistical natural language processing.Cambridge.MA: MIT Press,1999

16.YOSHIDA M,F(xiàn)UKUDA K,TAKAQI T. PNAD-CSS: a workbench for constructing a protein name abbreviation dictionary.Bioinformatics,2000,16(2):169-175

17,29. Morris S.A.etc.DIVA: a visualization system for exploring document databases for technology forecasting.Computers & Industrial Engineering,2002(43): 841-862

18,30. Morris S. A.,Gary G.Yen.Crossmaps: Visualization of overlapping relationships in collections of journal papers.[2014-08-21].http://www.pnas. org /cgi/doi/10.1073/pnas.030760410

19. Loet Leydesdorff.What Can Heterogeneity Add to the Scientometric Map? Steps towards algorithmic historiography.[2014-08-21].http:// arxiv.org/abs/1002.0532

20.畢強(qiáng).數(shù)字資源:從整合到聚合的轉(zhuǎn)變.數(shù)字圖書館論壇,2014(6):前言

22.邱均平.信息計(jì)量學(xué).武漢:武漢大學(xué)出版社, 2007:316-317

23.周曉英,陳蘭杰.基于引文網(wǎng)絡(luò)的知識(shí)鏈接框架研究.情報(bào)雜志,2010(10):37-40

24.Garfield E.citation indexes for science:a new dimension in documentation through association of ideas.science,1955,122:108-111

25,26.邱均平,董克.引文網(wǎng)絡(luò)中文獻(xiàn)深度聚合方法與實(shí)證研究——以 WOS 數(shù)據(jù)庫(kù)中 XML 研究論文為例.中國(guó)圖書館學(xué)報(bào),2013(3):111-120

27.王立學(xué),孫楊,楊代慶.基于引文的情報(bào)學(xué)領(lǐng)域主題關(guān)聯(lián)特征分析.情報(bào)雜志,2012(10):27-31

33.孫中秋,陳曉美,周珊珊.Folksonomy與SNA資源聚合類比研究.數(shù)字圖書館論壇,2014(6):21-27

35.郭金龍,許鑫.領(lǐng)域博客的社會(huì)網(wǎng)絡(luò)分析:基于圖書情報(bào)與互聯(lián)網(wǎng)博客的實(shí)證.圖書情報(bào)工作網(wǎng)刊,2012(1):1

36.魏群義,侯桂楠,霍然.近10年國(guó)內(nèi)情報(bào)學(xué)碩士學(xué)位論文研究熱點(diǎn)統(tǒng)計(jì)分析.圖書情報(bào)工作,2012,56(2):35-39

37.凌海云,左志宏,陳蘭.語(yǔ)義標(biāo)注元數(shù)據(jù)及其抽取技術(shù).計(jì)算機(jī)應(yīng)用研究,2004(7):147-149

38.馬文峰,杜小勇,盧曉慧.基于知識(shí)的資源整合.情報(bào)資料工作,2007(1):51-56

39.Wache, H., Voegele, T., Visser, U., Stuckenschmidt, H.,Schuster, G., Neumann, H., Huebner, S.Ontology-based integration of information - a survey of existing approaches.Proceedings of the workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001:108-117

40.李勁,程秀峰,宋紅文.基于語(yǔ)義的館藏資源深度聚合方法研究.情報(bào)科學(xué),2013,31(11):100-103

41.何超,張玉峰.基于本體的館藏?cái)?shù)字資源語(yǔ)義聚合與可視化研究.情報(bào)理論與實(shí)踐,2013,36(10):73-76,39

42.王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究.圖書館學(xué)刊,2012(8):44-46

43. Sderbck A, Malmsten M.LIBRIS-Linked Library Data.Nodalities,2008(5):19-20

45.游毅,成全.試論基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式.情報(bào)理論與實(shí)踐,2013,36(1):109-114

猜你喜歡
關(guān)聯(lián)語(yǔ)義文獻(xiàn)
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
Hostile takeovers in China and Japan
語(yǔ)言與語(yǔ)義
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
智趣
批評(píng)話語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構(gòu)建