(徐州工程學院圖書館,江蘇徐州221008)
國內三大中文發(fā)現系統比較分析及評價
趙功群,王 恒
(徐州工程學院圖書館,江蘇徐州221008)
從元數據資源整合、檢索功能、數據挖掘服務、全文獲取途徑等幾個方面,對中國知網學術搜索、超星發(fā)現系統、百度學術搜索三大中文發(fā)現系統的發(fā)現功能進行實證比較分析。通過數據比對,認為超星發(fā)現系統無論在資源整合還是數據挖掘等方面都具有明顯的優(yōu)勢,其他的知識發(fā)現系統需要進一步的完善和優(yōu)化,以提高知識發(fā)現系統的整體水平。
知識發(fā)現;超星發(fā)現系統;中國知網學術搜索;百度學術搜索
大數據給圖書館帶來豐富資源的同時也帶來了數據冗余和信息孤島效應。為應對大數據帶來的問題,圖書館積極探索數字資源整合的途徑和方法,但整合的結果較差。近年來,數據服務提供商與圖書館合作開發(fā)知識發(fā)現系統,為用戶提供一個實現各類學術資源發(fā)現與獲取的一站式解決方案,以提升用戶利用資源的有效性與友好性。
知識發(fā)現系統是在日益增長的海量數字資源基礎之上建立的,其宗旨在于打破以往的書刊目錄、文獻索引和部分文獻全文利用的局限,為用戶提供具有完善、高效的知識挖掘與數據分析功能的知識發(fā)現系統,從而實現從資源發(fā)現到知識發(fā)現的轉變[1]。知識發(fā)現系統內建海量數據的元數據倉,整合各種圖書館資源,包括內部的、外部的、紙質的、電子的、自有的、許可的以及可自由獲取的數據源,使用統一標引的數據格式,提供簡單、單一的檢索入口,通常是類似Google的“一框式”搜索,通過檢索預先設定的元數據倉來快速返回結果,通過鏈接解析器鏈接到全文,提供分面和高級檢索功能,在用戶體驗層面全面超越了聯邦檢索[2]。
目前,國內比較有代表性的知識發(fā)現系統主要有超星知識發(fā)現系統、中國知網學術搜索、百度學術搜索。通過在元數據整合、檢索功能、數據挖掘服務、全文獲取途徑等方面的比較分析,全面考量上述三大知識發(fā)現系統對數據挖掘技術、學術研究及評價的積極作用。
2.1 收錄數據
2.1.1 元數據資源整合
由于中國知網學術搜索和百度學術搜索不支持空檢索,所以系統元數據總量無法核實。為了相對直觀地進行比較,筆者隨機選取“圖書館”“信息安全”“屠呦呦”作為檢索關鍵詞,語種限定為中文,檢索時間為2016年4月8日,利用三個發(fā)現系統分別檢索,并對檢索結果進行比較,檢索結果見表1。
表1 關鍵詞抽查結果比較
從表1可看出,百度學術搜索收錄的期刊總量遠遠大于超星知識發(fā)現系統和中國知網學術搜索,在會議文獻和學位論文方面的收錄數量低于超星知識發(fā)現系統。但百度學術搜索的圖書檢索總量為整數零,檢索結果的準確性有待提高。以“中國圖書館學報”為檢索詞,通過百度學術搜索檢索期刊結果顯示為21 900條,但是通過手工統計結果僅為760條,遠遠低于系統顯示條數。在商業(yè)數據庫方面,超星知識發(fā)現系統無論在圖書、期刊還是學位論文、會議論文,其數據量都遠遠大于中國知網學術搜索。中國知網學術搜索并沒有統計檢索數據所占每種類型的數量,需要手工統計,耗費時間。
2.1.2 元數據的類型
表2 元數據類型比較
如表2所示,三大發(fā)現系統都能保證期刊、學位論文和會議論文的收錄。但從資源揭示的類型來看,超星知識發(fā)現系統和中國知網學術搜索還收錄了報紙、專利、標準、科研項目等其他元數據,具備較為完善的文獻資源類型,資源完備度高于百度學術搜索。另外,超星知識發(fā)現系統還收錄了視頻、科技成果等半結構化數據,數據資源更加豐富。這與超星公司在圖書、視頻資源以及期刊數據資源整合上的積累是分不開的。
2.2 檢索功能
超星知識發(fā)現系統、中國知網學術搜索和百度學術搜索均能提供強大的檢索功能,檢索的交互性、個性化特點表明發(fā)現系統更加注重讀者檢索的愉悅性和可操作性。
表3 檢索功能對比表
如表3所示,三大發(fā)現系統均提供基本檢索功能,檢索界面如搜索引擎一樣簡單直觀,通過單一檢索框實現關鍵詞的統一檢索。百度學術搜索不提供二次檢索。超星知識發(fā)現系統、中國知網學術搜索均提供二次檢索(在結果中檢索)功能。
百度學術搜索的高級檢索功能繼承了百度搜索的簡練界面,可以限定檢索詞為精確檢索詞、全部包含等,但是檢索詞的位置限定比較單一,只有全部和篇名。超星知識發(fā)現系統和中國知網學術搜索延續(xù)了商業(yè)數據庫注重檢索功能的多樣性傳統,在高級檢索功能中提供布爾邏輯檢索和可擴展的檢索框,方便讀者根據學術研究的需要增減檢索詞。另外,超星知識發(fā)現系統在保證題名、作者、關鍵詞等主要檢索途徑的同時,還增加了ISBN號檢索,每頁顯示條目以及館藏紙質圖書和電子圖書的歸類,極大地方便了讀者的個性化檢索。
聚類檢索是發(fā)現系統為方便讀者檢索而設計的個性化程度最高的檢索方式,以元數據資源為基礎,以文獻計量學和數據挖掘技術為手段,較好地解決了復雜異構數據的資源整合,通過分面聚類的方式實現高價值資源的發(fā)現。目前,百度學術搜索提供了期刊、學位論文、學術會議論文的聚類;中國知網學術搜索提供了期刊、學位論文、學術會議論文等10種資源的聚類檢索;超星知識發(fā)現系統則提供圖書、期刊、學位論文等9種資源的聚類檢索。百度學術搜索、中國知網學術搜索和超星知識發(fā)現系統均提供了基于學科(領域)的分面篩選,而超星知識發(fā)現系統更為嚴格的參照了《中國圖書館圖書分類法》的分類體系和標準,同時支持二級分類[3]。
2.3 數據挖掘服務
2.3.1 引證分析
圖1 中國知網的引證關系
筆者以《圖書館2.0:構建新的圖書館服務》這篇圖書館領域引用率較高的學術論文作為樣本,分別檢索百度學術搜索、中國知網學術搜索和超星知識發(fā)現系統。百度學術搜索在檢索出該文獻后可以查看其對應的引證文獻,包括全部文獻、期刊、學位論文和會議文獻,同時能揭示引證文獻的所屬的學科領域。中國知網學術搜索揭示的引證關系需要跳轉到中國知網界面(見圖1),引證文獻顯示期刊、學位論文和會議文獻,同時可以揭示節(jié)點文獻的共引文獻、同被引文獻等。超星知識發(fā)現系統的功能更加強大,除展示期刊、圖書、學位論文、會議論文外,也支持共引文獻、同被引文獻(見圖2),提供引證文獻的EXCEL格式導出功能。超星知識發(fā)現系統是目前唯一能對圖書的參考引證關系進行對比分析的系統。另外,超星知識發(fā)現系統還對該文發(fā)表的期刊在不同時期的影響因子進行了揭示(見圖3)。
圖2 超星知識發(fā)現系統的引證關系
圖3 超星知識發(fā)現系統文章發(fā)表期刊的歷年影響因子
2.3.2 圖書信息對比分析
在文獻信息源中,圖書、期刊和專利并列為三大信息源,所以知識發(fā)現系統中圖書信息的發(fā)現和揭示也是考量發(fā)現系統揭示的深度以及知識顆粒度細化的重要指標。以“信息系統與數據庫技術”為例,百度學術搜索不提供圖書的檢索,中國知網學術搜索和超星知識發(fā)現系統的圖書發(fā)現見圖4和圖5。
圖4 中國知網學術搜索圖書發(fā)現圖
圖5 超星知識發(fā)現系統圖書發(fā)現圖
用戶不能每看一本圖書就需要購買。如果用戶只想看其中的一些章節(jié),或是買到手發(fā)現可用的并不多,直接購買圖書是很大的浪費,學術搜索平臺能起到多大的作用呢?在這點上超星知識發(fā)現系統就比中國知網學術搜索服務更加人性化,可以為用戶提供全文讀取(圖書館已先期購置),如果用的內容少則沒必要購買,超星知識發(fā)現系統提供圖書的全部目錄,用戶可以根據實際需求選擇試讀或者通過文獻傳遞方式獲取所需的內容。
2.3.3 可視化對比分析
(1)相關性分析。百度學術搜索和中國知網學術搜索在每次搜索后都會推薦相關性搜索,包括相關性期刊、相關性作者等。超星知識發(fā)現系統提供可視化知識圖譜,用戶可以根據當前的檢索詞的相關詞繼續(xù)篩選所需要的內容,更精準的定位到檢索內容,主要是給用戶一個直接的提示作用,如知識點提示、作者提示、機構提示等,避免用戶不知道精準的檢索詞信息而檢索不出想要檢索的圖書期刊等(見圖6)。
圖6 相關性分析對比
(2)趨勢圖分析。學術趨勢分析(Academic-trend Analysis)方法是在海量文獻以及大量用戶使用記錄的基礎上,提煉某一主題或關鍵詞進行的時間序列統計。它可以為研究者掌握學術方向、了解學術前沿動態(tài)提供重要信息依據,尤其適合新涉足某一研究領域或致力于開發(fā)交叉學科新興研究方向的研究人員。學術趨勢分析可以比較直觀地顯示搜索主題每年的發(fā)文量并提供部分重要信息,研究者可利用該項功能把握搜索主題的研究生命周期及其發(fā)展前途[4]。在三大發(fā)現系統中,百度學術搜索和中國知網學術搜索均沒有提供趨勢分析圖表,中國知網的平臺下提供了基于學術熱點的趨勢分析。超星知識發(fā)現系統提供強大的學術趨勢的深度分析,不僅對某個知識點的資源類型進行單獨分析,還創(chuàng)建一個以時間為橫軸、發(fā)文量為縱軸的涵蓋圖書、期刊等各類文獻信息源的綜合對比分析圖(見圖7)。用戶可以查看檢索內容近10年、20年或是30年各種內容類型的發(fā)展趨勢,更直觀地了解檢索內容,便于分析選擇。針對很多文獻分類都有其發(fā)展分析,這里也給用戶提供了一個很便捷的選擇方式,用戶只需點擊某個類型的某個年份就可以直接定位到其選擇內容中,并且最多可支持五個關鍵字的對比分析,也就是用戶檢索一個關鍵字還可以檢索其他相關聯或是無關聯的關鍵字,一起展示它們之間的趨勢分析,更直觀地對比關鍵字之間的發(fā)展形勢。
圖7 超星知識發(fā)現系統各類型學術發(fā)展趨勢曲線
(3)統計圖分析。超星知識發(fā)現系統更直觀地展示了每一部分占總的比例,可以清楚地知道圖書檢索數量,并且知道占總量的百分比(見圖8)。從圖8也可知道超星知識發(fā)現系統對于文獻的分類是很全面的。
圖8 超星知識發(fā)現系統資源檢索量分布統計圖
如果用戶需要統計相關資料的分析,趨勢圖分析和統計圖分析還提供了“導出excel文件”,用戶可以直接使用,不需要再零散地找資料分析。而百度學術搜索和中國知網學術搜索則沒有這方面的功能。
2.4 全文獲取
百度學術搜索提供維普、萬方、知網的全文下載鏈接,如果讀者所在單位購買了相關資源,就可以直接下載。同時提供百度文庫、道客巴巴、豆丁網等下載鏈接和文獻互助。中國知網學術搜索依托中國知網對期刊資源強大的整合力,在平臺上直接提供PDF和CAJ格式的論文下載,外文資源一般提供開放獲取資源的鏈接。超星知識發(fā)現系統在“獲得途徑”處提供萬方、知網、維普等電子資源供應商名稱,點鏈接直接進入相應的數據庫文摘頁面進行在線閱讀全文或下載,提供“郵箱接收全文”的文獻傳遞獲取方式。
通過上述對元數據整合、檢索功能、數據挖掘、全文獲取等方面的對比分析,可以看出超星知識發(fā)現系統具備絕對的優(yōu)勢,超星知識發(fā)現系統以海量元數據為基礎,利用數據倉儲、資源整合、知識挖掘、數據分析、文獻計量學模型等相關技術,較好地解決了復雜異構數據庫群的集成整合以及高效、精準、統一的學術資源搜索,進而通過分面聚類、引文分析、知識關聯分析等實現高價值學術文獻發(fā)現、縱橫結合的深度知識挖掘、可視化的全方位知識關聯,幫助用戶快速實現對相關知識和信息的結構性認識。
[1]劉江玲.面向大數據的知識發(fā)現系統研究[J].情報科學,2014(3):90-92,101.
[2]秦鴻,錢國富,鐘遠薪.三種發(fā)現服務系統的比較研究[J].大學圖書館學報,2012(5):5-11,17.
[3]覃燕梅.百度學術搜索與超星發(fā)現系統比較分析及評價[J].現代情報,2016(3):48-60.
[4]黎子輝.CNKI與萬方的學術趨勢分析簡述與對比[J].現代情報,2013(1):142-144.
(編發(fā):章忠平)
Comparative Analysis and Evaluation of the Three Major Domestic Chinese Discovery System
ZHAO Gong-qun,WANG Heng
(Library of Xuzhou Institute of Technology,Xuzhou 221008,China)
From the metadata resource integration,retrieval,data mining service,full text access method,this paper makes empirical comparative analysis on the discovery function of“CNKI SCHOALR”,“Superstar Discovery System”,“Baidu Academic Scholar”,considers that superstar discovery system has obvious advantages in terms of the integration of resources and data mining through data comparison,other knowledge discovery system need further improvement and optimization in order to improve the overall level of knowledge discovery systems.
knowledge discovery;Superstar Discovery System;CNKI Scholar;Baidu Academic Scholar
G252
G252
A
2095-5197(2016)06-0072-06
趙功群(1976-),男,副研究館員,本科,研究方向:學科服務、信息素質教育;王恒(1983-),男,助理館員,本科,研究方向:數據挖掘、信息系統與管理。
2016-08-29