国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用

2013-10-25 03:23:26王若亭
銅仁學(xué)院學(xué)報(bào) 2013年5期
關(guān)鍵詞:借書置信度類別

王若亭

( 貴州財(cái)經(jīng)大學(xué) 圖書館,貴州 貴陽 550004 )

一、背景及意義

隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,人們獲得數(shù)據(jù)的手段越來越多。當(dāng)前,人類擁有的數(shù)據(jù)在急劇地增加,但是對(duì)這些數(shù)據(jù)進(jìn)行分析處理卻很少,也就出現(xiàn)了人們所說的“數(shù)據(jù)豐富,知識(shí)貧乏”的局面。雖然說數(shù)據(jù)庫技術(shù)在不斷地提高,但是大多數(shù)的數(shù)據(jù)庫系統(tǒng)也只是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行存取、檢索、查詢和統(tǒng)計(jì)等基本操作。人們通過數(shù)據(jù)庫系統(tǒng)也只能獲取對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分類等少量信息,無法發(fā)現(xiàn)數(shù)據(jù)間存在的聯(lián)系和規(guī)則,更難以發(fā)現(xiàn)隱藏在大量數(shù)據(jù)背后的信息。然而,隱藏在這些數(shù)據(jù)之后的信息才是更重要的。

高校是國家人才培養(yǎng)的基地,而圖書館是高校師生獲取知識(shí)的最集中、最豐富的場所。圖書館的藏書布局對(duì)讀者、學(xué)者有著很重要的指導(dǎo)意義。合理的館藏布局不僅能方便讀者獲取所需的書籍,并且能推薦、指導(dǎo)其找到與之相關(guān)的書籍。數(shù)據(jù)挖掘作為對(duì)數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進(jìn)行分析、分類和推測的這樣一門新技術(shù),能夠很好地解決圖書館大量數(shù)據(jù)背后的信息難題。因此,研究數(shù)據(jù)挖掘技術(shù)在圖書館管理系統(tǒng)中的應(yīng)用具有非常重要的實(shí)際意義。

二、高校圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的現(xiàn)狀、可行性和必要性

數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域,特別是在銀行、保險(xiǎn)、網(wǎng)上商城、交通和百貨等領(lǐng)域中。對(duì)工作的開展、業(yè)務(wù)的推廣和產(chǎn)品的促銷等方面都起到很大的推進(jìn)作用。因此,數(shù)據(jù)挖掘技術(shù)在很多領(lǐng)域內(nèi)的應(yīng)用也給圖書館的服務(wù)帶來了啟發(fā)。高校圖書館的讀者具有年齡段相同、專業(yè)領(lǐng)域多樣、數(shù)量多和研究方向不同等特點(diǎn),這就要求圖書館能夠提供給讀者個(gè)性化、人性化的服務(wù)。在國外,圖書館的個(gè)性化服務(wù)開展得比較好。其中美國康耐爾大學(xué)的“我的圖書館”(My Library,圖書館的個(gè)性化服務(wù)系統(tǒng))最具特色。另外,新西蘭克萊斯特徹奇教育學(xué)院的“我的圖書館”,美國華盛頓大學(xué)圖書館的“我的門戶”和加利福尼亞大學(xué)洛杉磯分院的“我的學(xué)院”等都是比較出名的國外圖書館個(gè)性化服務(wù)系統(tǒng)。在國內(nèi),陸續(xù)有高校圖書館開始推廣圖書館個(gè)性化服務(wù)系統(tǒng),比如華中科大圖書館的Mylibrary@HUST,它提供了期刊訂閱,網(wǎng)頁信息訂閱和多數(shù)據(jù)庫統(tǒng)一檢索等服務(wù)。我館使用金盤圖書館管理系統(tǒng)已有十余年,擁有大量的書目數(shù)據(jù)和流通數(shù)據(jù),具備了數(shù)據(jù)分析環(huán)境。筆者在圖書館負(fù)責(zé)金盤圖書館管理系統(tǒng)的數(shù)據(jù)庫維護(hù)工作,可以對(duì)所需要的書目、流通等數(shù)據(jù)進(jìn)行數(shù)據(jù)采集。高校圖書館若能夠提供給讀者個(gè)性化的服務(wù),將會(huì)大大地促進(jìn)圖書館的發(fā)展,使更多的讀者喜歡圖書館,愿意到圖書館來享受知識(shí)的熏陶。特別是如果我校能在新校區(qū)建立的新圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù),分析出讀者的借閱習(xí)慣和圖書的關(guān)聯(lián),就能夠安排合理的館藏布局。這將方便讀者借閱,對(duì)新館的布局起到很好的指導(dǎo)意義。

三、數(shù)據(jù)挖掘的概念及相關(guān)技術(shù)

(一)概念

數(shù)據(jù)挖掘(DM,Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在的有用信息和知識(shí)的過程。還有很多和這一術(shù)語相近的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)(KDD),進(jìn)行數(shù)據(jù)分析、知識(shí)抽取、模式分析、數(shù)據(jù)考古、數(shù)據(jù)采集、信息收割、商業(yè)智能、數(shù)據(jù)融合,以及決策支持等[1]。

(二)相關(guān)技術(shù)

本文應(yīng)用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類分析來對(duì)圖書館的數(shù)據(jù)進(jìn)行分析。

1.關(guān)聯(lián)分析

關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項(xiàng)集的頻繁模式。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)[2]。也就是說某兩個(gè)或多個(gè)變量的組合頻繁出現(xiàn),就可以說這個(gè)組合是一種關(guān)聯(lián)規(guī)則。

2.聚類

聚類是一種特殊的分類,與分類分析法不同的是,聚類分析是在預(yù)先不知道欲劃定類的情況下,根據(jù)信息相似度原則進(jìn)行信息集聚的一種方法。聚類的目的是根據(jù)最大化類間的相似性、最小化類間的相似性這一原則合理地劃分?jǐn)?shù)據(jù)集合,并用顯式或隱式的方法描述不同的類別[2]。

3.支持度和置信度

支持度(Support)和置信度(Confidence):關(guān)聯(lián)規(guī)則表示為:X=>Y 的蘊(yùn)涵式,這里 X?I,Y?I,并且 X∩Y=?。D 中的規(guī)則 X=>Y 是由支持度(support)和置信度(confidence)這兩個(gè)數(shù)值來約束。支持度是事務(wù)D中包含X∪Y的百分比,即概率,置信度是事務(wù)D中包含X的事務(wù)同時(shí)也包含Y的百分比,即條件概率。具體描述是:

最小支持度與最小置信度:在進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),要求用戶預(yù)先設(shè)定支持度和置信度閾值,即在挖掘過程中只產(chǎn)生滿足這兩個(gè)閾值要求的關(guān)聯(lián)規(guī)則,對(duì)于這樣的支持度和置信度通常分別稱為最小支持度(min_supp)和最小置信度(min_conf)。在事務(wù)數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則的任務(wù),就是在其中找出所有滿足用戶或?qū)<抑付ㄗ钚≈С侄群妥钚≈眯哦鹊膹?qiáng)關(guān)聯(lián)規(guī)則[3]。

四、圖書館業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析和聚類分析

(一)借閱圖書類別間的關(guān)聯(lián)分析

科技的發(fā)展使得學(xué)科間的聯(lián)系越來越密切。讀者在學(xué)習(xí)專業(yè)知識(shí)的過程中,經(jīng)常要對(duì)一些相關(guān)知識(shí)進(jìn)行了解、學(xué)習(xí),這些相關(guān)知識(shí)可能屬于同一領(lǐng)域中的不同學(xué)科,也可能屬于完全不同的領(lǐng)域。通過對(duì)大量的讀者借閱圖書行為進(jìn)行分析,能夠找出圖書類別之間的某些聯(lián)系。這樣既可以指導(dǎo)讀者學(xué)習(xí)相關(guān)知識(shí),更好地掌握、鞏固專業(yè)知識(shí),又能夠合理地布局館藏,以提高圖書館的服務(wù)水平和圖書借閱率。

在對(duì)借閱圖書類別進(jìn)行關(guān)聯(lián)分析中,筆者運(yùn)用了數(shù)據(jù)挖掘分析工具對(duì)我校2008級(jí)學(xué)生3年的借閱數(shù)據(jù)進(jìn)行分析。本次分析得出的結(jié)果是文學(xué)大類間的關(guān)聯(lián)度比較高,比如I2中國文學(xué)類和I3各國文學(xué)類的支持度達(dá)到4.3%,置信度達(dá)到46.6%。在這一次關(guān)聯(lián)分析結(jié)果中,唯一的大類間的關(guān)聯(lián)就是 H3(常用外國語類)和O1(數(shù)學(xué)類),支持度為7.3%,置信度為37.7%。關(guān)聯(lián)分析得出這樣的結(jié)果,應(yīng)該考慮英語和數(shù)學(xué)都是大學(xué)的基礎(chǔ)課程和考研的必考課程,學(xué)生在準(zhǔn)備考試的時(shí)候會(huì)同時(shí)借閱這兩類圖書。根據(jù)這樣的分析結(jié)果,可以把它應(yīng)用到圖書館館藏布局上。通常圖書館都是按圖書類別來排架,同學(xué)在借閱基礎(chǔ)課程的書或考試科目的書時(shí),要分別到不同類別的書架中查找,有時(shí)可能要跑幾個(gè)書庫才能借齊所需的書。通過這樣的分析,我們可以將各類考試書籍和基礎(chǔ)課程的圖書放在一起,方便讀者借閱。

(二)讀者專業(yè)與其所借閱圖書類別的關(guān)聯(lián)分析

讀者的閱讀習(xí)慣和喜好是比較固定的,某專業(yè)的讀者可能偏好于借閱某一類型的圖書。對(duì)讀者的專業(yè)與其所借閱的圖書類別進(jìn)行關(guān)聯(lián)分析,可以掌握某專業(yè)讀者的讀書興趣,在必要時(shí)可以向讀者推薦他們所需的專業(yè)圖書或感興趣的圖書。這樣就減少了讀者查找所需圖書的時(shí)間,提高圖書館對(duì)讀者服務(wù)的質(zhì)量。

通過對(duì)專業(yè)和圖書分類的關(guān)聯(lián)進(jìn)行分析,得到的結(jié)果為我校法學(xué)專業(yè)的學(xué)生所借的圖書與D9(法律類)有關(guān)聯(lián),其置信度達(dá)到了63.867%。從這可看出法學(xué)專業(yè)的學(xué)生對(duì)于自身的專業(yè)書籍很感興趣。這樣的結(jié)果分析可以應(yīng)用到讀者個(gè)性化服務(wù)中,讀者到圖書館借閱的圖書通常與自己的專業(yè)有關(guān)系,因此,圖書館的工作人員可以根據(jù)讀者的專業(yè)向他們推薦書籍,或者針對(duì)不同專業(yè)的讀者分別開展專業(yè)類書籍的圖書推廣活動(dòng)。

(三)讀者借閱活躍程度的聚類分析

在大學(xué)讀書期間,有的讀者經(jīng)常到圖書館借閱圖書,而有的讀者可能到辦理離校手續(xù)時(shí)才第一次來圖書館。通過讀者的借書數(shù)量對(duì)讀者進(jìn)行聚類分析,可將讀者分為三類:活躍型讀者、一般型讀者、不活躍型讀者。通過這樣的方式對(duì)讀者進(jìn)行分類以后,圖書館可以根據(jù)實(shí)際情況來提高活躍型讀者的借書冊(cè)數(shù),更好地推進(jìn)他們讀書的積極性,對(duì)于一般型讀者和不活躍型讀者,圖書館的工作人員應(yīng)該加強(qiáng)與他們的聯(lián)系和溝通,引導(dǎo)他們來圖書館借書。

圖1顯示出2008級(jí)本科生借書活躍程度劃分結(jié)果。在讀者借閱信息相關(guān)欄目中,我們可以看到有一些讀者在入校3年中累計(jì)借閱的圖書200多本,每個(gè)月差不多要借閱 7冊(cè)的圖書。這樣的借閱行為是非常頻繁、借閱量非常大的。我校圖書館目前設(shè)定每位本科生每次最多的借書冊(cè)數(shù)是6冊(cè),對(duì)于圖1中張海燕同學(xué)這類熱愛讀書的讀者,每次借 6冊(cè)圖書的數(shù)量是不夠的。根據(jù)聚類結(jié)果的劃分,圖書館可以統(tǒng)一增加活躍類讀者的借書冊(cè)數(shù),以滿足該類型讀者的需要。而對(duì)于不活躍型讀者,圖書館利用推送技術(shù)(如Email、短信息等)主動(dòng)發(fā)送讀者感興趣的信息,可增加這部分讀者到館借閱的機(jī)率。

圖1 2008級(jí)本科生借書活躍程度劃分結(jié)果

(四)圖書借閱活躍程度的聚類分析

圖書館里的藏書共計(jì)上百萬冊(cè),有的圖書借閱率很高,往往供不應(yīng)求,書還沒有歸還,就被讀者預(yù)約,而有的圖書也許上了書架,就沒有被人借閱過。對(duì)圖書借閱活躍程度進(jìn)行聚類分析,能使工作人員掌握熱門圖書的類別,加大圖書的購買種類和冊(cè)數(shù),減少冷門圖書的購買。這樣合理規(guī)劃,能最大限度地使用有限的購書經(jīng)費(fèi)。

圖2、圖3分別顯示出熱門圖書、冷門圖書類別的借閱次數(shù)。對(duì)我館所有的館藏圖書進(jìn)行聚類分析得出的結(jié)果是 I2(中國文學(xué))、H3(常用外國語)、I1(世界文學(xué))和I3(各國文學(xué))都是熱門類型的圖書,如圖2所示。而H0(語言學(xué))、O3(力學(xué))、TG(金屬學(xué)與金屬工藝)、D0(政治理論)等類別的圖書幾乎沒有人借閱過,如圖 3所示。將分析結(jié)果應(yīng)用到圖書采購上,采購人員應(yīng)加大對(duì)I2(中國文學(xué))、H3(常用外國語)、I1(世界文學(xué))和I3(各國文學(xué))圖書的購買種類和冊(cè)數(shù),減少H0(語言學(xué))、O3(力學(xué))、TG(金屬學(xué)與金屬工藝)和 D0(政治理論)等類別冷門圖書的購買。經(jīng)過這樣的合理規(guī)劃,能最大限度地使用有限的購書經(jīng)費(fèi)。在館藏布局上,對(duì)于冷門圖書,可以將他們放置在基藏書庫,節(jié)省圖書館書庫的空間。而熱門圖書放置在讀者進(jìn)出的位置,方便讀者取閱。

圖2 熱門圖書類別的借閱次數(shù)

圖3 冷門圖書類別的借閱次數(shù)

五、總結(jié)與結(jié)論

通過對(duì)讀者數(shù)據(jù)、書目數(shù)據(jù)和借閱數(shù)據(jù)的挖掘分析,總結(jié)歸納,使之應(yīng)用到圖書館的讀者服務(wù)、圖書采購和館藏布局3個(gè)方面。對(duì)讀者個(gè)性化服務(wù),采取的措施主要是:根據(jù)讀者的專業(yè)推薦書籍,對(duì)各專業(yè)讀者開展專業(yè)書籍的推廣活動(dòng),增加活躍型讀者的借書冊(cè)數(shù),加強(qiáng)與不活躍型讀者的聯(lián)系,來提高他們的借書興趣。在圖書采購方面,可以增加熱門圖書的購買冊(cè)數(shù),增加熱門圖書類型購買的種類,加大對(duì)活躍類型專業(yè)書籍的購買,減少冷門類型圖書的購買。在館藏布局方面,考試類和基礎(chǔ)課程的圖書擺放在一起,熱門書籍放置在方便讀者取閱的地方,冷門書籍收藏到基藏書庫,這樣可以節(jié)省書庫的空間。

[1]邵峰晶,等.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.

[2]蘇新寧.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003.

[3]王正宇.?dāng)?shù)據(jù)挖掘在讀者偏好研究中的應(yīng)用[D].上海交通大學(xué),2010.

猜你喜歡
借書置信度類別
圖圖借書
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
借書去
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
借書
快樂語文(2018年12期)2018-06-15 09:11:10
圖圖借書
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
广西| 汕尾市| 杨浦区| 汨罗市| 平和县| 绩溪县| 宁蒗| 齐河县| 华池县| 绵竹市| 鄂托克前旗| 浪卡子县| 景东| 弋阳县| 华池县| 临汾市| 吴江市| 平邑县| 庆云县| 长岛县| 星子县| 任丘市| 庆城县| 淮阳县| 德化县| 固原市| 班戈县| 铅山县| 宁强县| 莒南县| 灵丘县| 饶平县| 车险| 临朐县| 桃园市| 冷水江市| 大兴区| 朝阳县| 林口县| 新绛县| 壶关县|