孫 璐 李廣建
(北京大學信息管理系 北京 100871)
國外數(shù)字圖書館研究文獻的定量與定性分析研究
孫 璐 李廣建
(北京大學信息管理系 北京 100871)
以數(shù)字圖書館為主題,選取Web of Science中收錄的近12年來該領(lǐng)域文獻為研究對象,分別采用基于主題特征詞突變分割算法、關(guān)鍵詞有序聚類算法、關(guān)鍵詞共現(xiàn)聚類算法及文獻同被引分析等算法進行文獻計量分析。研究發(fā)現(xiàn)12年中數(shù)字圖書館領(lǐng)域研究的三個明顯階段,詳述了三個發(fā)展階段的主要研究特征。通過文獻計量綜述,全面了解數(shù)字圖書館領(lǐng)域研究的發(fā)展特點及發(fā)展方向。
有序聚類 數(shù)字圖書館 主題演化
自上世紀90年代初美國提出“數(shù)字圖書館”概念以來,數(shù)字圖書館的研究和建設(shè)已經(jīng)成為圖書情報、計算機等學科領(lǐng)域的熱點研究課題。經(jīng)歷了早期的發(fā)展,特別是本世紀,在世界各國的積極推動下,數(shù)字圖書館研究和建設(shè)取得了豐富的成果。本文以2000年至2012年的英文文獻為基礎(chǔ),考察國際數(shù)字圖書館領(lǐng)域的研究發(fā)展歷程,以期借鑒。
2.1 數(shù)據(jù)源采集
筆者于2012年5月以 Web of Science 數(shù)據(jù)庫為數(shù)據(jù)源,用“digital library”或“digital libraries”為檢索詞,時間限定為2000-2012年,查詢題名、摘要以及關(guān)鍵詞中出現(xiàn)檢索詞的研究論文,得到6 153篇文獻,作為分析對象。
需要指出的是,數(shù)字圖書館是一個跨學科的研究領(lǐng)域,內(nèi)容范圍相當廣泛。雖然有些研究例如信息檢索技術(shù)中并未直接使用“數(shù)字圖書館”這一概念,但仍然屬于數(shù)字圖書館的研究范疇??紤]到這種情況的界定和甄別要花費大量的精力和時間,因此本文的研究對象僅限于上述在論文中出現(xiàn)數(shù)字圖書館關(guān)鍵詞的文獻。盡管覆蓋率方面受到一定影響,但本文檢索得到的6 153篇文獻也能在一定程度上反映本世紀以來數(shù)字圖書館研究的概貌。
2.2 研究步驟
(1)對檢出結(jié)果的相關(guān)元數(shù)據(jù)信息,包括標題、作者、摘要、關(guān)鍵詞、引文等進行抽取和規(guī)范化存儲。
(2)對規(guī)范化存儲集合中的各元數(shù)據(jù)信息進行同義詞、近義詞等手工歸并,用開源系統(tǒng)Lucene提供的分詞功能獲得文檔特征詞。
(3)用變異點識別方法分析文檔特征詞演變情況,找出特征詞突變點,根據(jù)突變點對研究的重點進行分期。
(4)對各研究分期的文獻,計算文檔特征詞的共現(xiàn)頻率,形成文檔共現(xiàn)詞矩陣,用MatLab對文檔共現(xiàn)詞矩陣進行層次聚類計算,構(gòu)造文檔聚類簇,用來分析文獻的相關(guān)性以及文檔研究內(nèi)容的分類特征。
(5)用RefViz軟件的引文分析功能,找出各研究階段引文中心級的文獻,進一步閱讀文獻,確定其具體內(nèi)容,以期了解各研究分期中的熱點內(nèi)容的主要學術(shù)觀點。
3.1 總體概況
表1列出了6 153篇文獻的年代分布情況以及每年引用情況,其中,2012年非全年度統(tǒng)計,故對引文未作分析。從表1可見,從2002年到2009年文獻數(shù)量都保持在500篇以上的多產(chǎn)態(tài)勢,且2007年文獻數(shù)量最多,達到了684篇,從2007年之后呈明顯的下降態(tài)勢,到2011年縮減到峰值的一半還多。被引用的文獻是指某一年度發(fā)表論文累計被引用的文獻數(shù)量。被引用文獻數(shù)量變化在12年中呈鐘形變化態(tài)勢,且2007年后急速下降。
表1 各年度文獻數(shù)量及被引文獻數(shù)量情況
3.2 各年度出現(xiàn)新詞及消失詞變化分析
表2反映了各年度文獻中出現(xiàn)的新詞和消失詞的情況數(shù)量。由表2的數(shù)據(jù)可見,12年來數(shù)字圖書館領(lǐng)域出現(xiàn)的新詞數(shù)量呈明顯下降態(tài)勢,說明本領(lǐng)域的研究內(nèi)容基本趨于穩(wěn)定。
表2 各年度出現(xiàn)新詞及消失詞變化情況
進一步分析新詞的增加情況,可以發(fā)現(xiàn)2006年之前每年新增詞的數(shù)量都在50個以上,反映了這階段是數(shù)字圖書館研究處于開拓和發(fā)展時期;2006年之后,新增詞數(shù)量減少,反映了數(shù)字圖書館研究進入了平臺期。在消失詞方面,其變化規(guī)律與新增詞正好相反,處于逐年遞增狀態(tài)。進一步分析消失詞的內(nèi)容,發(fā)現(xiàn)有兩種情況,一種是后續(xù)文獻中不再出現(xiàn),相應(yīng)詞匯徹底消失。據(jù)我們分析,有兩種原因,其一是由于處在探索階段,概念的提出還不夠完善,結(jié)果是被自然淘汰,例如knowledge subspace,learning tool;其二是相應(yīng)問題在學術(shù)界已經(jīng)達成共識,對該問題的研究基本告一段落,例如在2004-2006年消失的descriptive metadata,structural metadata,metadata model,visual metadata,metadata management,metadata repository正是這種原因。另一種情況是消失的詞被歸并到專指詞中,表明研究工作正在細化,從宏觀研究進入到更為具體和微觀的研究。例如2003年消失的Server一詞,實際被歸并為Web Server、DB Server以及Agent Server中,反映了研究工作的細化。
3.3 有序聚類分析
有序聚類分析方法[1]是一種獲得連續(xù)樣品段內(nèi)發(fā)生可能性突變點的有效方法。其基本原理在連續(xù)樣品段內(nèi),通過獲得最優(yōu)突變點,使得同類之間的離差平方和最小,而類與類之間的離差平方和相對較大。設(shè)最可能的突變點為V,則突變點前后離差平方和表示為:
S(τ)=Vτ+Vn-τ
那么當S=min{S(τ)}(2≤τ≤n-1)時τ推斷為突變點。
設(shè)相關(guān)文獻集合為Ti(i=1,2,...,n),從Ti中抽取每個文檔的特征詞,則可將文獻集合轉(zhuǎn)換為特征詞集合Wj(j=1,2,...,q),那么特征詞集合在時間集tm(m=1,2,...,p)上的特征矩陣為:
其中Wij=(i=1,2,...,p;j=1,2,...,q)表示詞Wj在時間tm上出現(xiàn)的頻次。
可以獲得特征詞集合Wj(j=1,2,...q)在不同時間段tm(m=1,2,...,p)上發(fā)生突變的時間點集合為tj(τ)(2<τ 利用上述方法分別計算每一年度特征詞的變異,得到圖1所示的特征詞變異點年度分布圖。 圖1 數(shù)字圖書館主題演化過程中特征詞年度變異分布情況 根據(jù)圖1中變異點的時間分布,我們將數(shù)字圖書館研究主題發(fā)展過程劃分為4個階段:2000-2001年基礎(chǔ)期、2002-2004年活躍期I、2005-2007年活躍期II、2008-2012年發(fā)展期。其中2000-2001年共700篇、2002-2004年共1 712篇、2005-2007年共計1 848篇、2008-2012年共計1 893篇。 3.4 分階段共現(xiàn)及引文分析 圖2體現(xiàn)了經(jīng)特征詞和引文分析處理后得到的各階段研究主題分布。從中可以看出,基于用戶交互接口及行為、用戶服務(wù)提供方式等方面的研究貫穿整個數(shù)字圖書館的12年研究歷程之中。另一貫穿始終的研究主題集中在數(shù)字圖書館資源整合的相關(guān)理論、方法、實證應(yīng)用等方面。 圖2 數(shù)字圖書館各發(fā)展階段主題分布對比情況 下面具體分析各研究階段的主要特點。 (1) 2000-2001年期間,數(shù)字圖書館領(lǐng)域的研究特點主要體現(xiàn)在兩個方面:一是數(shù)字圖書館框架研究。從用戶交互及用戶接口層面比較分析不同系統(tǒng)框架,并研究框架的構(gòu)建與具體的用戶應(yīng)用環(huán)境關(guān)系。二是數(shù)字圖書館用戶交互的應(yīng)用研究。從總體上來看,這一時期主要是從用戶需求以及用戶交互層面來研究數(shù)字圖書館的框架,但是關(guān)于數(shù)字圖書館理論模型的研究比較少。 (2) 2002-2007年期間,數(shù)字圖書館進入明顯的活躍期,研究熱點相對分散,可謂百花齊放。其研究重點主要有:有關(guān)數(shù)字圖書館方法、模型和系統(tǒng)本身的研究;數(shù)字圖書館參考模型研究;利用具體描述邏輯構(gòu)建數(shù)字圖書館系統(tǒng)的中間框架;利用元數(shù)據(jù)和本體進行網(wǎng)絡(luò)數(shù)據(jù)整合和信息共享。其研究特點主要體現(xiàn)在理論方法的深入和理論應(yīng)用的拓展。從突變點的數(shù)量上來看,2005-2007年達到最大值。一方面表明研究內(nèi)容差異性比較大,另一方面也表明這個時期人們的研究思路更加寬廣,對數(shù)字圖書館全方位的研究開始了。 (3) 2008-2012年間,數(shù)字圖書館研究進入發(fā)展期,熱點相對集中。研究熱點之一是數(shù)字圖書館用戶交互的應(yīng)用,許多研究采用實證方法驗證已經(jīng)提出的各種框架及其與具體用戶的應(yīng)用環(huán)境相結(jié)合的應(yīng)用效果;另一研究熱點集中在數(shù)字圖書館用戶的可接受性、用戶易用性的評價理論應(yīng)用實踐方面。 在定量分析的基礎(chǔ)上,我們進一步閱讀了各發(fā)展階段的中心級文獻,將本世紀以來國外數(shù)字圖書館的研究內(nèi)容歸納為理論框架、技術(shù)方法、系統(tǒng)架構(gòu)及互操作、質(zhì)量評價、用戶交互以及服務(wù)模式等六個方面的內(nèi)容。 4.1 理論框架研究 主要表現(xiàn)為數(shù)字圖書館參考模型的研究,2002-2007年是數(shù)字圖書館理論框架研究的最活躍時期,其中最具影響力的理論框架有兩個,分別是DELOS模型和5S模型。 (1) DELOS模型 DELOS模型由歐盟資助的DELOS項目提出,用以指導數(shù)字圖書館研究和數(shù)字圖書館系統(tǒng)開發(fā)。該模型由三層框架、六個基礎(chǔ)概念及四大主要角色構(gòu)成。三層框架分別是數(shù)字圖書館(Digital Library)、數(shù)字圖書館系統(tǒng)(Digital Library System)和數(shù)字圖書館管理系統(tǒng)(Digital Library Management System)。六個基礎(chǔ)概念包括內(nèi)容(Content)、用戶(User)、功能(Functionality)、質(zhì)量(Quality)、策略(Policy)和體系結(jié)構(gòu)(Architecture)。四大主要角色分別是數(shù)字圖書館終端用戶(DL End-users)、數(shù)字圖書館設(shè)計者(DL Designers)、數(shù)字圖書館系統(tǒng)管理者(DL System Administrators)以及數(shù)字圖書館應(yīng)用開發(fā)者(DL Application Developers)。DELOS模型對這些概念、構(gòu)成及其關(guān)系進行了詳細定義,試圖構(gòu)建數(shù)字圖書館的全景理論和實踐體系。 (2) 5S模型 5S模型由M. A. Goncalves和E. A. Fox[2]等人提出。他們認為數(shù)字圖書館(DL)是一個復雜的信息系統(tǒng),應(yīng)該用形式化的架構(gòu)來加以描述。因此,他們提出了由流(streams)、結(jié)構(gòu)(structures)、空間(spaces)、場景(scenarios)和社會(societies)構(gòu)成5S模型,用該模型作為數(shù)字圖書館研究和建設(shè)的分析工具,并給出了每一個S的形式化表達,據(jù)此還設(shè)計了一個最小的DL所涉及的核心概念及要素。 4.2 技術(shù)方法研究 數(shù)字圖書館技術(shù)方法的特點是分散化,研究內(nèi)容不斷豐富,研究角度差異性比較大。從研究內(nèi)容上來看,主要分為智能信息訪問和智能搜索技術(shù)、可視化技術(shù)及社會語義網(wǎng)絡(luò)技術(shù)三大方面。 智能信息訪問和智能搜索技術(shù)的研究熱點主要包括自動分類、聚類、信息抽取、問題應(yīng)答(QA)、文本摘要、查詢理解、知識組織及搜索策略。典型的研究工作有:Chih-Ping Wei和Chin-Sheng Yang[3]利用用戶的偏好來改善文檔聚類效果。他們提出了一種組合偏好與基于內(nèi)容方法的混合文檔聚類技術(shù),使得聚類精度和聚類查全度都得到了提高。D. Merkl[4-6]在SOMLib數(shù)字圖書館框架項目下,提出利用無人監(jiān)管的人工神經(jīng)網(wǎng)絡(luò)進行文檔分類,改善了文檔分類的效果。Hisham. Al-Mubaid和Syed A. Umair[7]探索了一種新的結(jié)合分布式單詞聚集和學習型邏輯技術(shù)的文本分類方法,證明了改變訓練集大小對學習者的分類性能影響。 可視化是以圖形圖像方式展示數(shù)字圖書館服務(wù)及其內(nèi)容的一種技術(shù),目的在于幫助用戶對內(nèi)容進行理解,提高數(shù)字圖書館資源的利用效率和效果。這方面的代表有:K. Borner[8]對數(shù)字圖書館用戶查詢結(jié)果的二維和三維可視化進行了全面的探索;提出了一種改進的預(yù)測算法,使數(shù)字圖書館能夠提供交互式服務(wù),協(xié)助用戶最大限度地獲得查詢結(jié)果并能對它們做正確的解讀。A. Rauber[9]研究證實了自組織地圖是一種受歡迎的神經(jīng)網(wǎng)絡(luò)模型,他提出了一種可以將獨立自組織地圖與分布式自組織地圖結(jié)合起來的技術(shù),這種技術(shù)支持集群或獨立數(shù)字圖書館系統(tǒng)的創(chuàng)建和維護,并能適應(yīng)個人用戶的需求。 社會語義網(wǎng)絡(luò)技術(shù)的研究熱點主要包括:數(shù)字圖書館信息整合中引入語義技術(shù)、在線語義、基于自動行為選擇的多模型技術(shù)等。相關(guān)研究包括:K.K. Matusiak[10]提出的以用戶為中心構(gòu)建索引的社會分類標簽技術(shù),也即用戶參與創(chuàng)建的元數(shù)據(jù)技術(shù)。C. C. Marshall和A. J. B. Brush[11]研究了個人標簽和公共標簽之間的關(guān)系,并使用這些研究結(jié)果探討如何從個人標簽過渡到公共標簽的方法。Xiaoming Liu和J. Bollen[12]利用社會網(wǎng)絡(luò)分析方法研究面向數(shù)字圖書館研究社區(qū)中的網(wǎng)絡(luò)合作作者的服務(wù)模式,分析了ACM、IEEE、ACM / IEEE聯(lián)合數(shù)字圖書館會議的網(wǎng)絡(luò)合作作者的十年來活動,以此為基礎(chǔ)總結(jié)了數(shù)字圖書館研究的發(fā)展規(guī)律。 4.3 系統(tǒng)架構(gòu)及互操作研究 (1)系統(tǒng)體系架構(gòu) 系統(tǒng)體系架構(gòu)研究包括三個階段: 第一階段是早期的研究。主要是C/S二層架構(gòu)和多層架構(gòu)在數(shù)字圖書館系統(tǒng)中的應(yīng)用。例如,L. L. Hill和J. Frew[13-15]等人在亞歷山大數(shù)字圖書館項目研究中提出并實證了一個三層的客戶端-服務(wù)器架構(gòu),該架構(gòu)可以支持多個異構(gòu)服務(wù)器之間的通信并實現(xiàn)了會話管理、采集、發(fā)現(xiàn)和評估,元數(shù)據(jù)檢索和在線內(nèi)容檢索等功能。 第二個階段集中在分布算法上的研究,主要有兩個有代表性的研究團隊,其一是M. R. Korupolu和M. Dahlin[16],他們利用模擬環(huán)境,考察了三個實際應(yīng)用的資源整合分布算法,研究了這些算法的優(yōu)化配置,通過實驗總結(jié)了在數(shù)字圖書館中應(yīng)用分布算法要遵循的法則。其二是B. F. Cooper和H. Garcia-Molina[17]等人,他們研究信息的對等(P2P)數(shù)據(jù)交換算法,提出了如何通過調(diào)整算法的策略來提供系統(tǒng)的最高可靠性。 第三階段,主要集中在中間件的研究,例如,A. Rajasekar和M. Wan[18]等人利用虛擬化中間件SRB(儲資源代理)框架構(gòu)建了分布式數(shù)字圖書館,提出了一種面向數(shù)據(jù)網(wǎng)格的數(shù)字圖書館資源共享、發(fā)布和數(shù)據(jù)歸檔的綜合方法。 (2)系統(tǒng)互操作 這方面的代表性成果是提出了一系列互操作協(xié)議并對這些協(xié)議進行應(yīng)用研究,包括SDLIP,OAI,AUQA以及OpenURL等。 SDLIP即簡單數(shù)字圖書館互操作協(xié)議,是一種基于HTTP或者CORBA的互操作架構(gòu),它規(guī)定數(shù)字圖書館互操作過程中的查詢接口、資源元數(shù)據(jù)接口以及結(jié)果存取接口等三類基本接口。A. Paepcke[19]應(yīng)用SDLIP協(xié)議,提出一種在相對復雜的Z39.50標準與相對通用輕量級的Web協(xié)議之間的折中解決方案。 OAI全稱為Open Archives Initiative Protocol for Metadata Harvesting,簡稱OAI協(xié)議,是一種獨立于應(yīng)用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標準。Liu X.,K. Maly和M. Zubair[20]等人設(shè)計開發(fā)了一個OAI兼容的開源的網(wǎng)關(guān)服務(wù)系統(tǒng)DP9,該系統(tǒng)提供統(tǒng)一的URL庫記錄,并在發(fā)生請求操作時將URL轉(zhuǎn)換成對適當庫記錄的OAI查詢,從而將原本支持OAI協(xié)議搜索引擎,比如:ldquodeep和Webrdquo,也可以被納入到OAI檢索體系中來,實現(xiàn)基于OAI的互操作。 AUQA接口是由L. Kovacs[21]在亞歷山大數(shù)字圖書館原型項目中提出的一種通用的用戶接口模型,它能模擬查詢迭代,內(nèi)置常見的模式和高級查詢方法。它被應(yīng)用于NCSTRL的分布式數(shù)字圖書館中,同時把它用于作為NCSTRL和ETRDL的替代性查詢接口。作為AQUA用戶接口模式的擴展實證,排名機制也被應(yīng)用在系統(tǒng)之中。 OpenURL即“開放鏈接”,是一種解決不同的數(shù)字資源系統(tǒng)互操作、進行資源整合的方案,也是一項技術(shù)標準,可用來解決二次文獻數(shù)據(jù)庫到原文服務(wù)的動態(tài)鏈接。目前,許多數(shù)據(jù)庫出版商和圖書館自動化系統(tǒng)都開發(fā)了自己的OpenURL鏈接解析器 J.E. Grogg和C.L. Ferguson[22]詳細研究了OpenURL在谷歌學術(shù)搜索中的應(yīng)用,提出了OpenURL鏈接解析器注冊的機制,使得一個機構(gòu)的用戶能夠通過OpenURL鏈接解析器將在谷歌學術(shù)搜索上的結(jié)果定位到本機構(gòu)訂閱的全文。 4.4 質(zhì)量評價研究 系統(tǒng)評價的研究思想起源于2001年,基于NCSTRL業(yè)務(wù)系統(tǒng)的實踐研究項目,S. Kapidakis[23]提出了一種數(shù)字圖書館服務(wù)質(zhì)量的評估框架,試圖針對這一時期數(shù)字圖書館服務(wù)質(zhì)量的突出問題,即互聯(lián)網(wǎng)上網(wǎng)絡(luò)延遲和中斷等不可預(yù)知的因素,為數(shù)字圖書館搜索請求服務(wù)提供網(wǎng)絡(luò)負載平衡機制,使之提供優(yōu)質(zhì)服務(wù)。自此之后,面向質(zhì)量評估及系統(tǒng)評價的典型研究主要體現(xiàn)在如下三個模型之中: (1) 技術(shù)接受模型 技術(shù)接受模型(TAM)作為一個技術(shù)使用的預(yù)測模型,于1989年提出,旨在探討外部因素對信息技術(shù)使用者的內(nèi)部信念(beliefs)、態(tài)度(attitudes)及意向(intentions)的影響,以解釋和預(yù)測人們對信息技術(shù)的接受程度。Weiyin Hong、J.Y.L. Thong、Wai-Man Wong和Kar-Yan Tam[24]等人首先以TAM模型作為一種理論框架研究了用戶接受數(shù)字圖書館的影響因素。其后的10年中,很多研究者都基于該模型進行實證及應(yīng)用研究。 (2) 開源數(shù)字圖書館軟件的評估檢查框架 該框架是一個包括12個一級評價指標的檢查單框架,由Goh、Dion Hoe-Lian以及Alton. Chua[25]等人提出,他們利用這一框架對流行的開源數(shù)字圖書館軟件包進行了評價,結(jié)果是Greenstone的表現(xiàn)最佳,滿足了框架中大多數(shù)指標,隨后是CDSware,F(xiàn)edora和EPrints。 (3) CASSM模型框架 該模型框架的全稱為Concept-based Analysis for Source and Structural Misfits,由Ann. Blandford及Thomas R. G. Green[26]等人提出,著眼于用戶和系統(tǒng)互動之間相適應(yīng)性的質(zhì)量評價。并給出了一套進行CASSM分析的方法,同時開發(fā)了支持完成CASSM分析的原型工具Cassata。 4.5 用戶交互研究 2000年,C. Jayawardana[27-28]指出,由于數(shù)字圖書館使用的增加,用戶越來越期望圖書館能提供個性化的服務(wù)。他認為,數(shù)字圖書館的個性化包括兩個方面:收集資料過程的個性化和資料內(nèi)容本身的個性化,提出數(shù)字圖書館應(yīng)該允許用戶組織和集成圖書館資源,并設(shè)計了一種個人文檔模型,用于保證在不侵犯資源版權(quán)和所有權(quán)的前提下建立屬于用戶自己的資源集合。在Jayawardana的研究基礎(chǔ)上,后期的相關(guān)研究包括基于用戶使用場景實驗研究、基于系統(tǒng)事務(wù)日志分析和用戶需求分析方法三個方面。 (1) 基于用戶使用場景的實驗 最具有代表性的是S. Park[29]在TREC國際會議上招募了28名來自Rutger大學的通信專業(yè)、信息科學專業(yè)以及圖書館專業(yè)研究生志愿者作為實驗對象,實驗分析了用戶對不同類型檢索系統(tǒng)的使用偏好、效果和用戶行為特征。結(jié)果顯示,用戶更喜歡使用可以自主選擇數(shù)據(jù)庫的多庫檢索系統(tǒng),而不傾向于使用已經(jīng)屏蔽掉后端數(shù)據(jù)庫的集成檢索系統(tǒng),表明用戶在使用數(shù)字圖書館過程中更注重自己對資源的控制。 (2) 基于系統(tǒng)事務(wù)日志的分析方法 該方法由M. Mahoui[30-31]和S. Jones[32]等人提出。他們認為,事務(wù)日志是針對用戶檢索行為的結(jié)構(gòu)化信息,是一種寶貴的數(shù)據(jù)資源。為充分利用這些資源,他們提出了基于系統(tǒng)事務(wù)日志的分析方法,并利用這種方法分析了新西蘭數(shù)字圖書館中用戶查詢計算機科學文獻的日志數(shù)據(jù),從中找出了這類查詢的行為模式,總結(jié)了用戶查詢行為的變化規(guī)律。 (3) 用戶需求分析方法 典型代表是Weiguo Fan和M.D. Gordon[33]提出的對消費者信息檢索需求進行有效分析的框架和實例比較方法。為充分滿足用戶的要求,數(shù)字圖書館服務(wù)需要有效地獲取用戶的個人興趣點,提出了通過跨系統(tǒng)路由比對用戶個人興趣文檔的方法,以幫助服務(wù)提供者有效分析用戶的興趣。 4.6 服務(wù)模式研究 有關(guān)數(shù)字圖書館服務(wù)模式的研究早在2003年就已經(jīng)興起,直到2005年才開始引起廣大研究者的重視。直至今日,服務(wù)模式的研究仍是數(shù)字圖書館研究領(lǐng)域的熱點之一。在此,按時間順序概述這一主題的研究內(nèi)容。 L. M. Moyo[34]于2004年提出數(shù)字圖書館服務(wù)模式的概念,并總結(jié)了在信息獲取和傳遞、參考、指導、技術(shù)設(shè)施和客戶支持領(lǐng)域出現(xiàn)的新的服務(wù)模式。 2005年,N. R. Adam和V. Atluri[35]等人提出了一種基于內(nèi)容的認證模型,用以解決數(shù)字圖書館服務(wù)中資源保護與用戶需求之間的矛盾,給出了與以往完全不同的資源服務(wù)模式。主要內(nèi)容包括:① 不僅要依據(jù)用戶的資格,而且要依據(jù)用戶自身的特點,確定他們的訪問權(quán)限;② 要根據(jù)內(nèi)容對象進而引發(fā)訪問控制;③ 授權(quán)用戶的粒度范圍應(yīng)該可調(diào)。 2009年,M. E. Renda和U. Straccia[36]提出了一種數(shù)字圖書館個性化協(xié)作的服務(wù)模型。他們認為,數(shù)字圖書館不僅僅是提供信息的空間,而且還應(yīng)該是用戶之間能夠協(xié)同工作、分享知識和經(jīng)驗的空間。在他們的模型中,用戶不僅可以在數(shù)字圖書館中建立自己的信息空間,還可以建立社區(qū),做到與其他用戶交換信息和知識。 2010年,Gao Fengrong和Xing Chunxiao[37]提出了一種基于混合過濾的數(shù)字圖書館個性化服務(wù)模式。協(xié)同過濾是進行個性化服務(wù)的重要手段,常用方法有基于內(nèi)容的過濾和協(xié)作過濾,但每種方法都有其缺點。為此,他們提出了將兩者結(jié)合起來的新方法,實驗結(jié)果表明,新方法效率高、性能良好。 本文綜合運用統(tǒng)計分析、特征詞有序聚類、引文分析等方法對國外本世紀以來的數(shù)字圖書館文獻特征和研究內(nèi)容進行了初步分析,有助于了解國外數(shù)字圖書館研究的發(fā)展脈絡(luò)和發(fā)展特點。對技術(shù)手段的完善以及對文獻內(nèi)容的深入分析,將是我們下一步努力的方向。 [1] Wang Liya, Zhang Zhiqiang. Research on the subject alternation of information integration based on aberrance point[C]. National Information Science Doctoral Forum,2011:350-355. [2] Goncalves M A, Fox E A, Watson L T, et al. Streams, structures, spaces, scenarios, societies (5S): A formal model for digital libraries[J]. ACM Transactions on Information Systems,2004,22(2):270-312. [3] Chih-Ping Wei, Chin-Sheng Yang, Han-Wei Hsiao, et al. Combining preference- and content-based approaches for improving document clustering effectiveness[J]. Information Processing & Management,2006,42(2):350-372. [4] Rauber A, Merkl D. Providing topically sorted access to subsequently released newspaper editions or: how to build your private digital library[C]// Proceedings of the Conference on Database and Expert Systems (DEXA'00). Greenwich, UK.: Springer Verlag,2000:499-508. [5] Merkl D, Rauber A. Digital libraries-classification and visualization techniques[C]//Proceedings of 2000 Kyoto International Conference on Digital Libraries: Research and Practice,2000:434-438. [6] Rauber A, Merkl D. Text mining in the SOMLib Digital Library System: The representation of topics and genres[J]. Applied Intelligence,2003,18(3):271-293. [7] Al-Mubaid H, Umair S A. A new text categorization technique using distributional clustering and learning logic[J]. IEEE Transactions on Knowledge and Data Engineering, 2006,18(9):1156-1165. [8] Borner K. Searching for the perfect match: A comparison of free sorting results for images by human subjects and by Latent Semantic Analysis techniques[C]// 2000 IEEE INTERNATIONAL CONFERENCE ON INFORMATION VISUALISATION, PROCEEDINGS: IEEE CONFERENCE ON INFORMATION VISUALIZATION-PROCEEDINGS,2000: 192-197. [9] Rauber A, Bina H. Visualizing electronic document repositories: drawing books and papers in a digital library,Advances in Visual Information Management[J]. Visual Database Systems. IFIP TC2 WG2.6 Fifth Working Conference on Visual Database Systems,2000(1): 95-114. [10] Matusiak K K. Towards user-centered indexing in digital image collections[J]. OCLC Systems & Services,2006(1): 283-298. [11] Marshall C C, Brush A J B. Exploring the relationship between personal and public annotations[C]//JCDL 2004: PROCEEDINGS OF THE FOURTH ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES: GLOBAL REACH AND DIVERSE IMPACT,2004: 349-357. [12] Liu Xiaoming, Bollen J, Nelson M L, et al. Co-authorship networks in the digital library research community[J]. INFORMATION PROCESSING & MANAGEMENT,2005,41(6): 1462-1480. [13] Hill L L, Carver L, Larsgaard M, et al. Alexandria digital library: User evaluation studies and system design[J]. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE , 2000,51(3): 246-259. [14] Janee G, Frew J, Hill L L. Issues in georeferenced digital libraries[J]. D-Lib Magazine,2004,10(5). [15] Frew J, Freeston M, Freitas N, et al. The Alexandria Digital Library architecture[J]. International Journal on Digital Libraries,2000,2(4): 259-268. [16] Korupolu M R, Dahlin M. Coordinated placement and replacement for large-scale distributed caches[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(6) :1317-1329. [17] Cooper B F, Garcia-Molina H. Peer-to-peer data trading to preserve information[J],ACM TRANSACTIONS ON INFORMATION SYSTEMS,2002,20(2): 133-170. [18] Rajasekar A, Wan M, Moore R. My SRB and SRB -components of a Data Grid[C]//Proceedings of 11th IEEE International Symposium on High Performance Distributed Computing,2002(: 301-310. [19] Paepcke A, Brandriff R, Janee G, et al. Search middleware and the Simple Digital Library Interoperability[J]. D-Lib Magazine,2000,6(3). [20] Liu X, Maly K, Zubair M. DP9: an OAI gateway service for Web crawlers[C]//JCDL 2002. Proceedings of the Second ACM/IEEE-CS Joint Conference on Digital Libraries,2002: 283-284. [21] Kovacs L, Micsik A, Pataki B,et al. AQUA -(Advanced query user interface architecture),RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES[C]//PROCEEDINGS : LECTURE NOTES IN COMPUTER SCIENCE,2000,19(23): 372-375. [22] Grogg J E, Ferguson C L. OpenURL linking with Google Scholar[J]. Searcher,2005,13(9): 39-46. [23] Kapidakis S, Terzis S, Sairamesh J. A framework for performance monitoring, load balancing, adaptive timeouts and quality of service in digital libraries[J]. International Journal on Digital Libraries, 2000,3(1): 19-35. [24] Weiyin Hong, Thong J Y Lv, Wai-Man Wong, et al. Determinants of user acceptance of digital libraries: an empirical examination of individual differences and system characteristics[J]. Journal of Management Information Systems, 2002,18(3): 97-124. [25] Goh Dion Hoe-Lian, Chua Alton Khoo, Davina Anqi Khoo, et al. A checklist for evaluating open source digital library software[J]. ONLINE INFORMATION REVIEW, 2006,30(4): 360-379. [26] Blandford Ann Green, Thomas R G, Furniss Dominic, et al. Evaluating system utility and conceptual fit using CASSM[J]. INTERNATIONAL JOURNAL OF HUMAN-COMPUTER STUDIES, 2008,66(6): 393-409. [27] Jayawardana C, Hewagamage K P, Hirakawa M. A personalized information environment for digital libraries[J]. INFORMATION TECHNOLOGY AND LIBRARIES, 2001,20(4): 185-196. [28] Jayawardana C, Hirakawa M. Interface mechanism to personalize a digital library[J]. Transactions of the Information Processing Society of Japan,2000,41(10): 2863-2872. [29] Park S. Usability, user preferences, effectiveness, and user behaviors when searching individual and integrated full-text databases: Implications for digital libraries[J]. Journal of the American Society for Information Science, 2000,51(5): 456-468. [30] Mahoui M, Cunningham S J. A comparative transaction log analysis of two computing collections[J]. RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES, PROCEEDINGS: LECTURE NOTES IN COMPUTER SCIENCE,2000,19(23): 418-423. [31] Mahoui M, Cunningham S J. Search behavior in a research-oriented digital library[J]. Research and Advanced Technology for Digital Libraries. 5th European Conference, ECDL 2001. Proceedings (Lecture Notes in Computer Science Vol.2163), 2001(1): 13-24. [32] Jones S, Cunningham S J, McNab R, et al. A transaction log analysis of a digital library[J]. International Journal on Digital Libraries,2000,3(2): 152-169. [33] Fan Weiguo, Gordon M D, Pathak P. Effective profiling of consumer information retrieval needs: a unified framework and empirical comparison[J]. Decision Support Systems, 2005,40(2): 213-233. [34] Moyo L M. Electronic libraries and the emergence of new service paradigms[J]. ELECTRONIC LIBRARY, 2004,22(3): 220-230. [35] Adam N R, Atluri V, Bertino E, et al. A content-based authorization model for digital libraries[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(2): 296-315. [36] Renda M E, Straccia U. A personalized collaborative Digital Library environment: a model and an application[J]. INFORMATION PROCESSING & MANAGEMENT, 2005,41(1): 5-21. [37] Gao Fengrong, Xing Chunxiao, Du Xiaoyong, et al. Personalized service system based on hybrid filtering for digital library[C]//Proceedings of the Twenty-eighth International Conference on Very Large Data Bases, 2007:35-46. QuantitativeandQualitativeAnalysisofForeignLiteratureonDigitalLibraries Sun Lu, Li Guangjian Dept. of Information Management,Peking University, Beijing 100871, China The present paper uses algorithms such as the keyword ordered clustering, keyword co-occurrence clustering and literature co-citation analysis to make a bibliometric study of the literature on the digital library in the latest 12 years obtained by searching the Web of Science. It finds that the research on the digital library has gone through three stages of development and elaborates on the characteristics of these stages. Such a bibliometric overview will contribute to a comprehensive understanding of the features and trends of the research in this field. ordered clustering; digital library; evolution of subjects G250.76 孫 璐,女,1977年生,博士研究生,研究方向為信息資源管理與網(wǎng)絡(luò)信息系統(tǒng),發(fā)表論文數(shù)篇。4 定性研究
5 結(jié)語