□ 孔云 資蕓 楊婷 薛秀珍/昆明理工大學(xué)圖書館 昆明 650093
論文收錄證明輔助系統(tǒng)的設(shè)計(jì)與應(yīng)用
□ 孔云 資蕓 楊婷 薛秀珍/昆明理工大學(xué)圖書館 昆明 650093
出具論文收錄證明是高校圖書館信息咨詢部的重要業(yè)務(wù)之一,其基本流程為客戶提出申請,圖書館員檢索引文數(shù)據(jù)庫,從檢索結(jié)果文件提取論文信息,生成報(bào)告等。其中最耗時(shí)的環(huán)節(jié)為從引文文件提取信息的蠻力過程,所耗時(shí)間和論文篇數(shù)呈線性增長。文章首先分析了開具檢索證明的業(yè)務(wù)流程和業(yè)內(nèi)研究現(xiàn)狀,其次分析了檢索結(jié)果文件,接著設(shè)計(jì)和開發(fā)了論文收錄證明報(bào)告輔助系統(tǒng),最后以系統(tǒng)在本校超過三年的使用效果說明:該系統(tǒng)極大地提高了出具收錄證明的速度和信息咨詢部的工作效率,是一套具有參考和推廣價(jià)值的系統(tǒng)。
論文收錄證明,自動(dòng)化,信息咨詢,信息服務(wù)
1.1 論文收錄證明服務(wù)介紹
根據(jù)我國的國情和相關(guān)部門的規(guī)定,高校教師或其他科研機(jī)構(gòu)的科研人員在申報(bào)國家及省部級(jí)各類獎(jiǎng)項(xiàng)、課題、科技成果鑒定驗(yàn)收、科研成果獎(jiǎng)勵(lì)、個(gè)人職稱評(píng)定等工作時(shí),申報(bào)人員提供的論文須由相關(guān)部門審定,其中以獨(dú)撰或第一作者發(fā)表的論文被SCI、EI等收錄的,須由具有國家認(rèn)可的資質(zhì)單位開具收錄或引用檢索報(bào)告。因此國內(nèi)具備資質(zhì)的高校圖書館為申報(bào)人員開展了論文收錄證明服務(wù),一般由圖書館的信息咨詢服務(wù)部承擔(dān)此項(xiàng)服務(wù),以下簡稱為信咨部。
1.2 引文數(shù)據(jù)庫平臺(tái)簡介
ISI Web of Knowledge簡介[1]:此平臺(tái)以三大引文數(shù)據(jù)庫SCI、SSCI、A&HCI為核心,同時(shí)還有兩個(gè)化學(xué)信息事實(shí)型數(shù)據(jù)庫CCR、IC和三個(gè)引文數(shù)據(jù)庫CPCI-SSH、SCIE、CPCIS(ISTP)。兼具知識(shí)的檢索、提取、管理、分析與評(píng)價(jià)等多項(xiàng)功能。
Engineering Village簡介[2]:該平臺(tái)是最權(quán)威的工程、應(yīng)用科學(xué)領(lǐng)域文獻(xiàn)檢索平臺(tái)。它提供最專業(yè)、內(nèi)容最豐富的工程科學(xué)數(shù)據(jù)庫和相應(yīng)的科技文獻(xiàn)檢索,以及全球優(yōu)秀工程科學(xué)期刊的全文在線訪問服務(wù),提供著名的工程索引EI功能。
2.1 業(yè)內(nèi)相關(guān)研究現(xiàn)狀
以萬方和CNKI數(shù)據(jù)庫為依據(jù),用“檢索證明”、“檢索報(bào)告”、“代查代檢”、“自動(dòng)化管理”、“網(wǎng)絡(luò)化管理”、“計(jì)算機(jī)管理”以及“服務(wù)平臺(tái)”等為檢索詞,分別在主題、關(guān)鍵詞和摘要中進(jìn)行檢索,發(fā)現(xiàn)相關(guān)的研究成果和系統(tǒng)可以歸納為[3,4]:(1)進(jìn)行查新項(xiàng)目檔案管理;(2)進(jìn)行量化管理或績效管理;(3)建立網(wǎng)上服務(wù)方式方便用戶;(4)進(jìn)行質(zhì)量控制,通過對業(yè)務(wù)流程的控制,提升服務(wù)質(zhì)量;(5)建立知識(shí)庫。
從已有的文獻(xiàn)來看[4-10],目前圖書館界針對論文收錄證明自動(dòng)化系統(tǒng)的研究幾乎為空白。
2.2 當(dāng)前出具檢索證明的弊端
出具論文收錄證明的基本流程為:客戶填寫檢索申請表,圖書館員根據(jù)申請表選擇引文數(shù)據(jù)庫,檢索客戶需要的論文,篩選論文,經(jīng)客戶同意后輸出記錄文件,圖書館員分析文件內(nèi)容,按格式生成檢索報(bào)告文檔,蓋章簽字、支付服務(wù)費(fèi)完成服務(wù)。其服務(wù)流程如圖1所示。
在和信咨部的專家反復(fù)溝通業(yè)務(wù)過程后,一致認(rèn)為:論文收錄證明業(yè)務(wù)流程最耗時(shí)的環(huán)節(jié)為從分析文件內(nèi)容到按格式生成檢索報(bào)告文檔的過程,其所耗時(shí)間和客戶要求檢索的論文篇數(shù)成正比例關(guān)系。通常來說,提取一篇論文信息所耗費(fèi)的時(shí)間為30分鐘左右。如果一個(gè)客戶一次要求檢索的論文篇數(shù)為10篇(這種情況在我們學(xué)校比較普遍),則所耗費(fèi)時(shí)間為30*10=300分鐘。實(shí)際情況要多于這個(gè)時(shí)間,因?yàn)楣ぷ魅藛T不是機(jī)器,越往后就越疲勞,而且中間環(huán)節(jié)還會(huì)被其他業(yè)務(wù)中斷。據(jù)信咨部反映,提取信息的過程,基本是一個(gè)尋找信息、組合信息、復(fù)制、粘貼到Word的過程。信咨部希望能夠把這個(gè)過程自動(dòng)化,以提高他們的工作效率。
圖1 論文收錄證明報(bào)告流程
圖2 自動(dòng)解析引文文件流程圖
作者和信咨部的專家溝通后,明確了出具論文收錄證明的流程(見2.2節(jié)介紹)。國內(nèi)需出具收錄證明的引文數(shù)據(jù)庫已經(jīng)被整合到ISI Web of Knowledge(為了便于討論,以SCI為簡稱)和Engineering Village(為了便于討論,以EI為簡稱)兩大引文檢索平臺(tái),這一工作為本文想實(shí)現(xiàn)的輔助系統(tǒng)提供了有限的數(shù)據(jù)來源,系統(tǒng)只需要分析兩種數(shù)據(jù)格式:即SCI和EI引文數(shù)據(jù)格式,有效降低了系統(tǒng)實(shí)現(xiàn)的難度和復(fù)雜度。
3.1 論文收錄證明輔助系統(tǒng)的設(shè)計(jì)思路
要實(shí)現(xiàn)論文收錄證明的全部自動(dòng)化需要檢索平臺(tái)提供功能完整和靈活的API便于第三方開發(fā)者調(diào)用。從目前掌握的信息來看,Thomson Reuters公司于2012年2月開放了SCI的一個(gè)Web服務(wù)[11]:通過此API,機(jī)構(gòu)用戶可以實(shí)時(shí)查詢和獲取該機(jī)構(gòu)的元數(shù)據(jù)信息,包括作者,文章標(biāo)題,Source數(shù)據(jù),關(guān)鍵字和文章唯一標(biāo)識(shí)號(hào)。此API主要是為方便學(xué)術(shù)機(jī)構(gòu)從其主頁或機(jī)構(gòu)知識(shí)庫接入SCI平臺(tái)。針對出具論文收錄證明,此API至少有兩方面的不足:首先是返回的數(shù)據(jù)有限,只返回5個(gè)字段;其次,只返回本機(jī)構(gòu)的數(shù)據(jù)。論文收錄證明報(bào)告要求返回較完整的數(shù)據(jù),便于適應(yīng)不同的報(bào)告模板;其次客戶的范圍是廣泛的:包括不同高校、不同的科研機(jī)構(gòu),而不是限制在一個(gè)機(jī)構(gòu)內(nèi)。至于EI,目前還沒有提供開放的接口。因此,以目前的情況看,通過API的方式是不可行的。
從2.2節(jié)的討論可以看出,出具證明的瓶頸在于:從引文文件到生成檢索報(bào)告的過程,幾乎占去了整個(gè)過程90%的時(shí)間。如果可以解決此瓶頸,將極大提高出具證明的效率。因此本文設(shè)計(jì)和開發(fā)了論文收錄證明輔助系統(tǒng):主要是解決從分析文件內(nèi)容到生成檢索報(bào)告的自動(dòng)化問題。首先由圖書館員在兩大檢索平臺(tái)上檢索到客戶的論文并下載引文文件數(shù)據(jù),然后使用輔助系統(tǒng)自動(dòng)生成檢索報(bào)告:圖書館員上傳引文結(jié)果文件到輔助系統(tǒng),系統(tǒng)按照算法自動(dòng)解析文件,然后生成并返回網(wǎng)頁形式的檢索報(bào)告,檢查無誤后,自動(dòng)生成Word格式的正式報(bào)告。其流程如圖2所示。
3.2 引文文件分析
3.2.1 SCI引文文件分析
在獲取SCI引文庫檢索結(jié)果后,按如下步驟輸出檢索結(jié)果文件:(1)選擇全記錄方式,目的是獲取論文的相關(guān)信息,為后續(xù)解析文件提供完整的信息;(2)選擇保存文件的方式為制表符分隔的格式(Win,UTF-8),這里規(guī)定字符編碼為UTF-8,目的是為避免編碼出現(xiàn)亂碼。分析導(dǎo)出文件,可以看到SCI引文為論文提供了58個(gè)字段,提供的內(nèi)容是以二維表的方式呈現(xiàn)的,這為計(jì)算機(jī)程序自動(dòng)分析和提取內(nèi)容提供了便利。SCI引文文件格式如表1所示。
3.2.2 EI引文文件分析
在獲取EI引文庫檢索結(jié)果后,選擇下載選中的文章,在下載頁面,選擇記錄詳情(record detail)和下載格式(plain text format ASCII)。分析下載的文件,可以看到EI引文的文件格式是以<record +編號(hào)>,換行,字段名稱+“:”+字段內(nèi)容+換行的方式陳列,第一篇文章的內(nèi)容顯示完后,換行,然后又是以<record + 編號(hào)>,換行,字段名稱+“:”+字段內(nèi)容+換行的方式顯示內(nèi)容。EI引文為論文提供了30個(gè)左右的字段信息,抽象后的文件格式如表2所示。
3.3 檢索結(jié)果算法設(shè)計(jì)
3.2 節(jié)分析了SCI和EI兩大引文結(jié)果文件結(jié)構(gòu),為設(shè)計(jì)計(jì)算機(jī)算法提供了基礎(chǔ)。
表1 SCI引文文件格式
3.3.1 SCI算法設(shè)計(jì)
由3.2節(jié)的分析可知,SCI引文文件的內(nèi)容為一張二維表,表頭為每篇論文的字段名稱,每篇文章對應(yīng)二維表的一行,每行提供58列(即58個(gè)屬性),二維表的行數(shù)由檢索到的論文篇數(shù)確定。為了便于計(jì)算機(jī)程序操作,定義如下數(shù)據(jù)結(jié)構(gòu):
(1)SCI對象SCI(PT,AU,BA, BE,GP,AF,BF,CA,TI,SO,SE,BS,LA ,DT,CT,CY,CL,SP,HO,DE,ID,AB,C 1,RP,EM,RI,FU,FX,CR,NR,TC,Z9, PU,PI,PA,SN,BN,J9,JI,PD,PY,VL,I S,PN,SU,SI,MA,BP,EP,AR,DI,D2, PG,P2,WC,SC,GA,UT),其中SCI為對象名稱,是每篇論文字段信息的集合,括號(hào)內(nèi)的58個(gè)字段為SCI引文為每篇論文提供的字段名稱。
(2)SCI對象數(shù)組
為了存儲(chǔ)所有的SCI對象,定義對象數(shù)組List<SCI>={SCI1,SCI2,…,SCIn}。List<SCI>是一個(gè)線性表,線性表的元素為SCI對象。SCI引文文件解析流程如圖3所示。
(3)SCI引文算法sciAnalyze關(guān)鍵代碼如下所示:
1.輸入:sciBufferedReader //輸入為SCI引文檢索結(jié)果文件
2.輸出:sciList //返回SCI對象數(shù)組
3.List<Sci> sciList = new ArrayList<Sci>(); //新建SCI數(shù)組
4.String s = null //定義字符串變量
5.int i = 0 //定義標(biāo)志符
7. String sp[]= s.split( "\ t" );//根據(jù)水平制表符分隔字符串
8. SCI sci = new SCI();//新建SCI對象
9. sci.setPT( sp[ 0 ]); //為對象屬性賦值
10. sci.setAU( sp[ 1 ]); //為對象屬性賦值
...
11. sci.setUT( sp[ 57 ]); //為對象屬性賦值
12. sciList.add( sci ); //添加SCI對象到對象數(shù)組
}
13.sciBufferedReader.close();//關(guān)閉引文文件輸入流
14. Return sciList; //返回SCI對象數(shù)組
3.3.2 EI算法設(shè)計(jì)
由前面的分析可知,EI引文文件的內(nèi)容如表2所示。為了便于操作,定義如下數(shù)據(jù)結(jié)構(gòu):
(1)EI對象EI(accessionNum bertitle,authors,authorAffiliation, correspondingAuthor,souceTitle,a bbreviatedSourceTitle,volume,iss ue,monographTitle,issueDate,publ icationYear,pages,articleNumber,l anguage,issn,eissn,isbn,isbn10,do cumentType,conferenceName,con ferenceDate,conferenceLocation,c onferenceCode,sponsor,publisher, abstract,numberOfReferences,mai nHeading,controlledTerms,uncont rolledTerms,classificationCode,do i,database),其中EI為對象名稱,是EI引文所能提供的所有字段信息的集合,括號(hào)內(nèi)的字段為EI引文為每篇論文提供的字段名稱。
(2)EI對象數(shù)組
為了存儲(chǔ)所有的EI對象,定義對象數(shù)組List<EI>={EI1,EI2,…,EIn}。List<EI>是一個(gè)線性表,其元素為EI對象。EI引文文件解析流程如圖4所示。
(3)EI引文算法eiAnalyze關(guān)鍵代碼如下所示:
1.輸入:eiBufferedReader //輸入EI引文檢索結(jié)果文件
2.輸出:eiList//返回EI對象數(shù)組
圖3 SCI引文文件解析流程
圖4 EI引文文件解析流程
3.4 輔助系統(tǒng)完整的算法
(1)圖書館員上傳引文檢索結(jié)果文件;
(2)系統(tǒng)選擇解析算法:sciAnalyze()或eiAnalyze();
(3)生成檢索報(bào)告,并按顯示格式返回網(wǎng)頁形式的檢索結(jié)果;
(4)檢索結(jié)果自動(dòng)導(dǎo)入到Word文檔;
(5)檢查和調(diào)整Word文檔,形成正式檢索報(bào)告;系統(tǒng)流程如圖2所示。
J2EE平臺(tái)具有開發(fā)結(jié)構(gòu)簡單、開發(fā)效率高、移植性強(qiáng)、重用性好、易于維護(hù)、伸縮性強(qiáng)、被廣泛接受等優(yōu)勢,是企業(yè)級(jí)應(yīng)用系統(tǒng)事實(shí)上的標(biāo)準(zhǔn)。對于信息技術(shù)日新月異的時(shí)代,考慮系統(tǒng)的可擴(kuò)展性,是企業(yè)應(yīng)用的首選開發(fā)平臺(tái)。
4.2 系統(tǒng)部署平臺(tái)
論文收錄證明自動(dòng)生成系統(tǒng)的部署環(huán)境為:Intel(R) Xeon(R) CPU E5420,主頻為2.50GHz,RAM 1.0 GB,Windows Server 2003 Enterprise Edition SP2,JDK1.6.-0.26,Web容器采用開源且性能穩(wěn)定的Apache-Tomcat-6.0.32[12],本系統(tǒng)在開發(fā)過程中綜合使用了HTML、JAVA SCRIPT、VELOCITY[13]、JAVA和開源文件上傳組件commons-fileupload-1.2.1.jar[14]等技術(shù)。
4.3 系統(tǒng)在我校圖書館的應(yīng)用效果
2010年12月,我校被批準(zhǔn)為“教育部部級(jí)科技查新工作站籌建單位”。論文收錄證明服務(wù)是我校圖書館的重要業(yè)務(wù)之一,自系統(tǒng)應(yīng)用以來,為我校高端人才引進(jìn)、創(chuàng)新團(tuán)隊(duì)建設(shè)、人才培養(yǎng)、重點(diǎn)實(shí)驗(yàn)室建設(shè)、重點(diǎn)學(xué)科與專業(yè)建設(shè)、專業(yè)評(píng)估、專業(yè)技術(shù)職稱評(píng)審、教師績效考核等工作和校外其他單位開展的論文收錄與檢索證明服務(wù)提供了有力的支持。2009、2010、2011年完成論文收錄證明報(bào)告分別為112項(xiàng)、228項(xiàng)、391項(xiàng),2012年截止到11月12日,已完成收錄證明報(bào)告650項(xiàng)。歷年累計(jì)完成SCI檢索3577篇,EI檢索4062篇,ISTP檢索377篇,共累計(jì)完成8016篇檢索證明服務(wù)。
自本系統(tǒng)應(yīng)用以來,信咨部做論文收錄證明報(bào)告的速度有了顯著的提高,不但顯著降低了工作辛勞度,而且可以把更多的時(shí)間投入到其他信息咨詢服務(wù)中去;同時(shí)極大地縮短了客戶開具檢索證明的等待周期,為客戶節(jié)約了寶貴的時(shí)間。圖5所示:為檢索文件輸入入口,圖書館員根據(jù)引文選擇文獻(xiàn)類型,然后上傳文件到文件自動(dòng)解析系統(tǒng),服務(wù)器將自動(dòng)生成檢索報(bào)告,并返回網(wǎng)頁形式的檢索結(jié)果,如圖6所示,為EI類型的檢索結(jié)果,從輸入文件到生成固定格式的檢索報(bào)告所用的時(shí)間在秒級(jí)以內(nèi)。點(diǎn)擊圖6左上角的導(dǎo)入Word按鈕,程序?qū)⒆詣?dòng)調(diào)用Word組件,并按配置參數(shù)生成Word文檔,圖書館員只用稍加修飾就可以形成一份檢索報(bào)告,極大地提高了工作效率。
本文首先研究了引文證明業(yè)務(wù)流程和業(yè)內(nèi)研究現(xiàn)狀;然后設(shè)計(jì)并實(shí)現(xiàn)了論文收錄證明輔助系統(tǒng);最后以系統(tǒng)在我校的使用效果說明系統(tǒng)有效提高了信咨部的工作效率,尤其是當(dāng)同一個(gè)作者或科研團(tuán)隊(duì)要出具多篇文章的檢索證明時(shí),系統(tǒng)所花的時(shí)間幾乎沒增加,讓原本是一件痛苦的事情變得十分簡便。展望未來,筆者希望ISI Web of Knowledge和Engineering Village引文檢索平臺(tái)能夠提供完整和靈活的API服務(wù),讓第三方開發(fā)機(jī)構(gòu)可以調(diào)用接口,從而簡化檢索過程和自主定制檢索報(bào)告,進(jìn)一步提高系統(tǒng)自動(dòng)化的程度,同時(shí)由于每個(gè)學(xué)校出具檢索證明的模板各異,系統(tǒng)下一步將增加后臺(tái)模板定制功能。
圖5 文件自動(dòng)解析入口
圖6 檢索結(jié)果實(shí)例
[1]百度百科.ISI Web of Knowledge [OL].[2013-03-20].http://baike.baidu.com/view/878678.htm.
[2]百度百科.Engineering Village介紹[OL].[2013-03-20].http://baike.baidu.com/view/1466057.htm.
[3]鄂麗君.高校圖書館科技查新服務(wù)調(diào)查與分析[J].情報(bào)雜志,2012,31(1).
[4]孫海剛.個(gè)性化服務(wù)在數(shù)字圖書館科技查新中的研究與應(yīng)用[D].中南大學(xué),2007.
[5]張?zhí)炜?Php&Mysql技術(shù)在高校圖書館“代查代檢”服務(wù)系統(tǒng)開發(fā)中的應(yīng)用[J].情報(bào)科學(xué),2003,21(7).
[6]戰(zhàn)玉華,等.代檢代查服務(wù)系統(tǒng)的開發(fā)及應(yīng)用[J].圖書情報(bào)工作,2005,49(11).
[7]鄭菲,等.中國科學(xué)院科技查新檢索服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)踐應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2010(11).
[8]馬驊,等.多校區(qū)環(huán)境下科技查新:以南京大學(xué)圖書館為例[J].圖書館學(xué)研究(理論版),2010(2).
[9]馬景娣,等.基于J2EE的科技查新綜合信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2004(8).
[10]但旺等.科技查新業(yè)務(wù)管理系統(tǒng)設(shè)計(jì)分析[J].圖書館學(xué)研究,2008(4).
[11]Thomson Reuters.Web of Science [OL].[2013-03-20].http://wokinfo.com/products_tools/products/related/webservices/.
[12]The Apache Software Foundation.Apache Tomcat [OL].[2013-03-20].http://tomcat.apache.org/index.html.
[13]The Apache Software Foundation.The Apache Velocity Project [OL].(2010-11-29) [2013-03-20].http://velocity.apache.org/.
[14]The Apache Software Foundation.Commons FileUpload [OL].(2010-07-30) [2013-03-20].http://commons.apache.org/fileupload/index.html.
資蕓(1973-),副研究館員,研究方向:數(shù)字圖書館。
Design and Application of Assistant System on Paper Published Proof
Kong Yun, Zi Yun, Yang Ting, Xue Xiuzhen/Lib of Kunming University of Science and Technology, Kunming, 650093
Showing paper published proof is one of the most important business for the information department in the university library, whose basic process includes customer submitting an application, librarian retrieving database, extracting information from the result, generating a report, etc.The most time-consuming part of this process is to extract information from the downloaded result, which is a procedure of brute force.The time consuming is growing linearly as the number of papers increases.This article first analyses the business process and survey the background on showing paper published proof, followed by analyzing the search result, and then designing and developing an assistant system about paper published proof, at last the system's application effect for more than three years in our library demonstrates that the system greatly improves the librarian's working efficiency and accelerates the speed on making a report.It is really a system of promotional and reference value on the industry.
Paper published proof, Automation, Information consultation, Information service
10.3772/j.issn.1673—2286.2013.09.008
孔云(1982-),館員,研究方向:圖書館自動(dòng)化。E-mail: 920581344@qq.com
2013-04-14)