国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本相似度的高校圖書館電子資源建設(shè)研究

2018-03-02 08:04:16
關(guān)鍵詞:期刊數(shù)據(jù)庫圖書館

孫 慧

(長(zhǎng)春師范大學(xué) 圖書館, 長(zhǎng)春 130032)

引言

大數(shù)據(jù)環(huán)境背景下,高校圖書館數(shù)字資源建設(shè)是圖書館建設(shè)的最重要的組成部分,高校圖書館數(shù)據(jù)庫資源的建設(shè)情況不僅反映了高校資源建設(shè)的重視程度,更在一定層面反映了學(xué)校教學(xué)和科研的發(fā)展水平。此外,高校資源建設(shè)情況還與高校的學(xué)科建設(shè)和服務(wù)等級(jí)密不可分[1]。

通常情況下,按照數(shù)據(jù)來源,數(shù)據(jù)庫可分為購(gòu)買數(shù)據(jù)庫、試用數(shù)據(jù)庫、自建數(shù)據(jù)庫和特色數(shù)據(jù)庫;按照數(shù)據(jù)庫的語種,可分為中文數(shù)據(jù)庫、英文數(shù)據(jù)庫、西文數(shù)據(jù)庫及多語種數(shù)據(jù)庫;按照數(shù)據(jù)庫資源類型,可分為數(shù)據(jù)、期刊、電子書、多媒體、參考工具、平臺(tái)、專利、報(bào)紙、古籍、技術(shù)標(biāo)準(zhǔn)、多出版類型等[2]。

1 高校數(shù)據(jù)庫資源獲取

1.1 數(shù)據(jù)來源

本次研究搜集的數(shù)據(jù)庫資源數(shù)據(jù)主要來自于各高校圖書館網(wǎng)站中資源欄目,據(jù)教育部公示2016全國(guó)最新高校名單統(tǒng)計(jì),共有2 879所高校,每所高校網(wǎng)站分別具有幾十到幾百個(gè)不等的電子資源數(shù)據(jù)庫[3]。本文有針對(duì)性地搜集了截至2017年8月國(guó)內(nèi)30所重點(diǎn)高校使用的數(shù)據(jù)庫作為數(shù)據(jù)分析樣本,主要搜集數(shù)據(jù)庫資源的名稱、語種、類型以及學(xué)科服務(wù)范圍等信息[4]。

1.2 數(shù)據(jù)獲取工具

本文研究處理的數(shù)據(jù)主要是通過八爪魚采集器對(duì)高校圖書館網(wǎng)站的資源模塊使用數(shù)據(jù)獲取方式得到的。八爪魚采集器是一款業(yè)界領(lǐng)先的新一代、智能、通用的網(wǎng)頁數(shù)據(jù)采集器,能迅速采集各種資源,使用簡(jiǎn)單,而且全部可視化操作[5]。通過八爪魚數(shù)據(jù)采集器提取的數(shù)據(jù)可以導(dǎo)入/導(dǎo)出多種格式的數(shù)據(jù)文件,如:導(dǎo)入SqlServer、MySql數(shù)據(jù)庫、導(dǎo)出到excel或txt等。

1.3 數(shù)據(jù)獲取結(jié)果

本文數(shù)據(jù)獲取結(jié)果為30個(gè)國(guó)內(nèi)重點(diǎn)高校圖書館數(shù)據(jù)。結(jié)果中包括有:綜合類院校15個(gè),理工類院校8個(gè),師范類院校4個(gè),財(cái)經(jīng)類院校3個(gè),具體的數(shù)據(jù)獲取結(jié)果見表1所示。其中,資源種類是指該校圖書館網(wǎng)站上顯示的數(shù)據(jù)庫總個(gè)數(shù);學(xué)科分類是指是否可以根據(jù)學(xué)科來查看數(shù)據(jù)庫;語種分類是指是否可以根據(jù)數(shù)據(jù)庫語言類別來查看數(shù)據(jù)庫;類型分類是指使用數(shù)據(jù)庫時(shí)是否可以根據(jù)數(shù)據(jù)、期刊、電子書、多媒體、參考工具、平臺(tái)、專利、報(bào)紙、古籍、技術(shù)標(biāo)準(zhǔn)、多出版類型等來檢索數(shù)據(jù)庫[6]。

表1 30所國(guó)內(nèi)高校圖書館資源建設(shè)情況Tab. 1 Resources construction of 30 domestic university libraries

通過數(shù)據(jù)搜集得到的30所高校圖書館網(wǎng)站的數(shù)據(jù)庫列表,共采集到6 796條信息紀(jì)錄。

2 文本相似度數(shù)據(jù)分析

2.1 數(shù)據(jù)標(biāo)準(zhǔn)化

數(shù)據(jù)標(biāo)準(zhǔn)化主要是將數(shù)據(jù)進(jìn)行規(guī)范化處理,轉(zhuǎn)換為有利于數(shù)據(jù)分析的數(shù)據(jù),本文的數(shù)據(jù)標(biāo)準(zhǔn)化研究主要可解析為如下設(shè)計(jì)內(nèi)容:

(1)去除重復(fù)數(shù)據(jù)。如:同一個(gè)圖書館數(shù)據(jù)庫列表中會(huì)出現(xiàn)“中國(guó)知網(wǎng)鏡像”與“中國(guó)知網(wǎng)主站”兩個(gè)電子資源,實(shí)質(zhì)為同一資源的2種存儲(chǔ)方式,需要去除重復(fù)的記錄。

(2)合并相同數(shù)據(jù)項(xiàng)。如:對(duì)于中國(guó)知網(wǎng)碩博論文、中國(guó)知網(wǎng)期刊全文數(shù)據(jù)庫,需要進(jìn)行合并,統(tǒng)稱為中國(guó)知網(wǎng)數(shù)據(jù)庫。

(3)規(guī)范化數(shù)據(jù)庫命名法。如:“國(guó)務(wù)院發(fā)展研究中心信息網(wǎng)”與“國(guó)研網(wǎng)”雖然數(shù)據(jù)庫名稱文字標(biāo)識(shí)不同,但屬于同一個(gè)數(shù)據(jù)庫,統(tǒng)稱為國(guó)研網(wǎng),而對(duì)于英文數(shù)據(jù)庫統(tǒng)一使用英文拼寫和簡(jiǎn)寫方法命名,去除中文詞匯命名。

2.2 數(shù)據(jù)分析程序

對(duì)于搜集得到的 6 796條數(shù)據(jù)庫信息,分析可知其中的很多信息記錄表征的都是同一數(shù)據(jù)庫,譬如很多學(xué)校都使用中國(guó)知網(wǎng)CNKI數(shù)據(jù)庫,復(fù)旦大學(xué)圖書館數(shù)據(jù)庫列表中對(duì)該數(shù)據(jù)庫命名為“中國(guó)知網(wǎng)”,而吉林大學(xué)圖書館數(shù)據(jù)庫列表中命名為“中國(guó)知網(wǎng)CNKI”,為此就需要一種有效的數(shù)據(jù)分析方法進(jìn)行文字的相似度比較。本文即使用VBA語言實(shí)現(xiàn)了一種文本相似度比較的程序,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)與分析?;A(chǔ)研究數(shù)據(jù)源如圖1所示。其中,Sheet1名字為數(shù)據(jù)源,Sheet2名字為相似度,用來保存比較結(jié)果[7]。

圖1 數(shù)據(jù)源信息表Fig. 1 Data source information table

文本比較相似度程序的關(guān)鍵功能可表述如下:

(1)自動(dòng)獲取數(shù)據(jù)總行數(shù)。

(2)設(shè)置比較行,不包含表頭,設(shè)置從某幾行到某幾行進(jìn)行比較。

(3)根據(jù)相似度閾值的設(shè)置,篩選符合相似度閾值的數(shù)據(jù)會(huì)被復(fù)制到圖1相似度的表中。

(4)設(shè)置復(fù)制行數(shù)是指保存相似度結(jié)果時(shí),需要復(fù)制的源數(shù)據(jù)的行數(shù)。

(5)連續(xù)比較,程序每次運(yùn)行不清空上次比較結(jié)果并設(shè)定數(shù)據(jù)追加,否則每次運(yùn)行前將清空相似度表。

2.3 算法原理

本文給出的文本相似度分析算法的研究原理是:從2個(gè)字符串的左邊開始比較,計(jì)算并記錄已經(jīng)比較過的子串的距離,然后進(jìn)一步得到下一個(gè)字符位置時(shí)的距離,距離就是用來計(jì)算從源串s轉(zhuǎn)換到目標(biāo)串t所需要的最少的插入、刪除和替換的數(shù)目,算法流程設(shè)計(jì)如圖2所示[8]。

計(jì)算相似度的數(shù)學(xué)表達(dá)式為:

Q=(rep/Longer)^2*L(L=1)

(1)

其中,Q為相似度百分比,取值范圍為0~100;rep為重疊率為1的情況下,計(jì)算不同字符的個(gè)數(shù),即為需要替換的字符個(gè)數(shù);Longer為需比較的2個(gè)字符串較長(zhǎng)字符串的長(zhǎng)度值[9]。

圖2 數(shù)據(jù)分析算法Fig. 2 Data analysis algorithm

3 數(shù)據(jù)分析結(jié)果

本文分析結(jié)果設(shè)置程序的相似度閾值為60~100,目的是最大可能地去除相似度較高的數(shù)據(jù)庫信息,精確篩選結(jié)果。由于英文和外文期刊名稱的巨大區(qū)別性,及中文和外文期刊配置提供的服務(wù)有所不同,可以依據(jù)語種針對(duì)所得到的30所高校的數(shù)據(jù)庫列表中的數(shù)據(jù)展開統(tǒng)計(jì)分析,并分別給出如下研究處理結(jié)果[10]。

3.1 中文數(shù)據(jù)庫分析結(jié)果

圖3顯示了在30所高校中排名前15的中文數(shù)據(jù)庫的使用情況信息,排名先后順序?yàn)橹袊?guó)知網(wǎng)(CNKI)、KUKE數(shù)字音樂圖書館、人大報(bào)刊復(fù)印資料、新東方多媒體學(xué)習(xí)庫、中文社會(huì)科學(xué)引文索引(CSSCI)、維普期刊資源整合平臺(tái)、讀秀搜索、國(guó)研網(wǎng)、NoteExpress參考文獻(xiàn)管理軟件、中國(guó)基本古籍庫、超星電子圖書、超星數(shù)字圖書館、EPS全球統(tǒng)計(jì)數(shù)據(jù)/分析平臺(tái)、超星學(xué)術(shù)視頻。

圖3 中文數(shù)據(jù)庫使用情況Fig. 3 Chinese database usage

由圖3結(jié)果可見,中文數(shù)據(jù)庫中使用以人文社會(huì)科學(xué)領(lǐng)域中的各個(gè)學(xué)科為主,而且是以期刊和電子圖書為主,高校比較注重英語、音樂、經(jīng)濟(jì)、古籍等方面資料的學(xué)習(xí)[11]。

3.2 外文數(shù)據(jù)庫分析結(jié)果

圖4 顯示了在30所高校中排名前15的外文數(shù)據(jù)庫的使用情況信息。排名先后順序?yàn)椋篐einOnline(著名的法學(xué)期刊全文數(shù)據(jù)庫)、Taylor & Francis、ACM Digital Library、 Science Online(即《科學(xué)》在線)、Wiley Online Library、ACS(美國(guó)化學(xué)學(xué)會(huì))、Nature、Annual Reviews(專注于出版綜述期刊,回顧本學(xué)科最前沿的進(jìn)展,為科學(xué)研究提供方向性指導(dǎo))、MyiLibrary(世界領(lǐng)先的集成性電子書平臺(tái))、Encyclopedia Britannica Online(享有盛譽(yù)的綜合性英文百科全書)、Elsevier ScienceDirect、OCLC FirstSearch、Web of Science、Oxford Scholarship Online(專門收錄牛津大學(xué)出版社最優(yōu)秀的學(xué)術(shù)專著圖書)、MathSciNet(美國(guó)數(shù)學(xué)學(xué)會(huì)出版的《數(shù)學(xué)評(píng)論》)。

圖4 外文數(shù)據(jù)庫使用情況Fig. 4 Foreign language database usage

由圖4結(jié)果可以看出,外文數(shù)據(jù)庫主要以自然科學(xué)為主,人文科學(xué)為輔,并且是以高水平的期刊和圖書為主,各高校比較注重?cái)?shù)學(xué)、計(jì)算機(jī)、化學(xué)、生物等學(xué)科的建設(shè)和發(fā)展。

4 應(yīng)用

通過本文的研究技術(shù)對(duì)國(guó)內(nèi)30所重點(diǎn)高校圖書館數(shù)據(jù)的分析,最終得到了有利于圖書館資源建設(shè)的很多數(shù)據(jù),可以將這些技術(shù)更好地應(yīng)用于以下工作中。

4.1 依托優(yōu)勢(shì)學(xué)科,提高學(xué)科服務(wù)能力

高校圖書館擁有豐富的數(shù)字資源和較為穩(wěn)定的高素質(zhì)用戶群。通過了解一家學(xué)校的重點(diǎn)學(xué)科并對(duì)其數(shù)字資源建設(shè)數(shù)據(jù)展開實(shí)時(shí)跟蹤,及對(duì)用戶使用行為進(jìn)行統(tǒng)計(jì),可以分析得到該校的重點(diǎn)學(xué)科的研究發(fā)展態(tài)勢(shì),進(jìn)而總結(jié)提煉為學(xué)科發(fā)展規(guī)律,可以利于有的放矢地制定學(xué)科資源建設(shè)和發(fā)展策略規(guī)劃,并對(duì)重點(diǎn)學(xué)科提供高質(zhì)量的服務(wù)[12]。

4.2 搭建高校聯(lián)合采購(gòu)方案的橋梁

通過電子資源建設(shè)的相關(guān)數(shù)據(jù)來探尋各個(gè)高校學(xué)科發(fā)展態(tài)勢(shì),分析院校之間使用電子資源的相似性,有助于高校之間學(xué)科聯(lián)合,為高校未來館際間的進(jìn)一步資源整合和聯(lián)合采購(gòu)提供了有效的基礎(chǔ)依據(jù)。

4.3 促進(jìn)館際互借與文獻(xiàn)傳遞

通過數(shù)據(jù)分析,以了解各個(gè)高校電子資源的建設(shè)情況,這樣就可以得到各高校圖書館資源的來源和渠道,有助于館際互借及文獻(xiàn)傳遞業(yè)務(wù)的順利開展。

4.4 評(píng)估數(shù)字資源利用價(jià)值

通過采集提取各高校圖書館數(shù)據(jù)資源信息,可以對(duì)研究選擇的高校圖書館的已訂購(gòu)的數(shù)字資源的瀏覽量、下載量等數(shù)據(jù)進(jìn)行調(diào)查分析,為其它院校選購(gòu)電子資源發(fā)揮有益的參考與借鑒作用。

5 結(jié)束語

到目前為止,國(guó)內(nèi)圖書館建設(shè)已經(jīng)步入正軌,數(shù)據(jù)挖掘與分析技術(shù)也陸續(xù)涌現(xiàn),并取得了長(zhǎng)足進(jìn)步。在以后的工作中,可以擴(kuò)大數(shù)據(jù)采集的范圍,同時(shí)設(shè)計(jì)優(yōu)化文本相似度分析算法,得到更加準(zhǔn)確的數(shù)字資源分析結(jié)果,再將其應(yīng)用于其它數(shù)據(jù)分析工作中,旨在為大數(shù)據(jù)環(huán)境下數(shù)字資源的建設(shè)與分析研究提供更多的可行性分析方法及途徑。

[1] 王飛. 基于數(shù)據(jù)挖掘的高校圖書館個(gè)性化推薦服務(wù)的應(yīng)用研究[D]. 呼和浩特: 內(nèi)蒙古工業(yè)大學(xué),2015.

[2] 曾路平. 基于相似度的文本聚類算法研究及應(yīng)用[D]. 鎮(zhèn)江: 江蘇大學(xué),2009.

[3] 許君寧. 基于知網(wǎng)語義相似度的中文文本聚類方法研究[D]. 西安:西安電子科技大學(xué),2010.

[4] 梁茹,李建霞,劉穎,等. 高校圖書館數(shù)字資源綜合服務(wù)能力評(píng)價(jià)[J]. 金融大學(xué)圖書館學(xué)報(bào),2015(2): 38-46.

[5] 蔣巖波, 陳香珠. 國(guó)內(nèi)高等財(cái)經(jīng)院校圖書館數(shù)字資源建設(shè)問題研究—基于國(guó)內(nèi)45所財(cái)經(jīng)院校圖書館的調(diào)查分析[J]. 圖書情報(bào)工作,2015,59(8): 65-71.

[6] 何建新. 大數(shù)據(jù)時(shí)代高校圖書館的數(shù)字資源共享策略探討[J]. 現(xiàn)代情報(bào),2014,34(9): 101-104,110.

[7] 李賀,袁翠敏,李亞峰. 基于文獻(xiàn)計(jì)量的大數(shù)據(jù)研究綜述[J]. 情報(bào)科學(xué),2014,32(6): 148-155.

[8] WANG Gang,ZHONG Guoxiang. Study on text clustering algorithm based on similarity measurement of ontology [J].Computer Science,2010,37(9): 222-224,228.

[9] 陳大慶,葉蘭,楊巍,等. 電子資源使用統(tǒng)計(jì)平臺(tái)USSER的設(shè)計(jì)與實(shí)現(xiàn) [J]. 圖書情報(bào)工作,2015,59(1):106-112.

[10]周婕. 高校圖書館電子資源建設(shè)實(shí)踐與研究 [J]. 情報(bào)理論與實(shí)踐,2006,29(6):715-718.

[11]陳妙鳳. 試論大數(shù)據(jù)時(shí)代高校圖書館電子資源特色化服務(wù)[J]. 才智,2017(5):101.

[12]常定姁. 基于微信的高校圖書館電子資源推廣調(diào)查與分析—以“985”高校圖書館為例[J]. 圖書館學(xué)研究, 2017(16): 69-77.

猜你喜歡
期刊數(shù)據(jù)庫圖書館
期刊更名啟事
期刊簡(jiǎn)介
期刊問答
圖書館
數(shù)據(jù)庫
飛躍圖書館
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
去圖書館
周口市| 哈尔滨市| 昌邑市| 巴南区| 玉树县| 阳西县| 甘德县| 晋江市| 女性| 五河县| 黄大仙区| 陆川县| 文化| 岳阳县| 安宁市| 德钦县| 那曲县| 景泰县| 宿迁市| 晋江市| 林州市| 鲁山县| 常熟市| 黔南| 大新县| 舒兰市| 迭部县| 云梦县| 徐州市| 乌恰县| 台北县| 翁源县| 辽宁省| 黔西县| 全椒县| 宝兴县| 东乡| 朝阳市| 渑池县| 内乡县| 丰城市|