国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于FP—Growth算法的高校圖書館數(shù)據(jù)分析與對策研究

2018-10-29 11:09林曉霞劉敏楊曉東
軟件導(dǎo)刊 2018年8期
關(guān)鍵詞:置信度關(guān)聯(lián)規(guī)則

林曉霞 劉敏 楊曉東

摘要:高校圖書館數(shù)據(jù)日益增加,為了更好地利用海量圖書館數(shù)據(jù),加強(qiáng)圖書館自身建設(shè)、滿足讀者需求,基于山東科技大學(xué)圖書館數(shù)據(jù),利用FP-Growth算法進(jìn)行學(xué)科間關(guān)聯(lián)分析、借閱圖書分布分析、借閱量分析及圖書流通量分析,并提出相應(yīng)對策。結(jié)果表明,基于FP-Growth算法對圖書館數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,可以及時(shí)發(fā)現(xiàn)隱藏的規(guī)則和信息,為圖書館建設(shè)提供決策支持,提高圖書利用率,更好地滿足讀者需求。

關(guān)鍵詞:

關(guān)聯(lián)規(guī)則;FP-Growth算法;高校圖書館;流通量

DOIDOI:10.11907/rjdk.181994

中圖分類號:TP391

文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:1672-7800(2018)008-0198-04

英文摘要Abstract:With the increasing number of data in university libraries, in order to make better use of the huge data to strengthen the library construction and meet the needs of readers. Based on multi-dimensional data of Shandong University of Science and Technology library, this paper uses the FP-Growth algorithm to conduct the association analysisbetween the disciplines, borrowing book distribution analysis, borrowing volume analysis and book circulation analysis, and proposes corresponding countermeasures. The results show that the correlation analysis of library data can discover existing rules and information in time, provide decision support for library construction, increase the utilization rate of books and better meet readers' needs.

英文關(guān)鍵詞Key Words:association rules;FP-Growth algorithm;university library;liquidity

0 引言

隨著信息化的高速發(fā)展,高校圖書館資源日益增多,讀者需求不斷提高。目前,國內(nèi)外高校圖書館為了加強(qiáng)自身建設(shè),更好地滿足讀者需求、輔助教學(xué)科研,采用關(guān)聯(lián)規(guī)則技術(shù)對圖書館數(shù)據(jù)進(jìn)行分析。關(guān)聯(lián)分析技術(shù)能夠反映讀者需求及目前圖書館存在的問題,從海量數(shù)據(jù)中挖掘隱含的規(guī)則和信息[1-4]。

國外較早把關(guān)聯(lián)分析技術(shù)應(yīng)用于圖書館數(shù)據(jù)分析。如庫伯[5]對加州大學(xué)數(shù)字圖書館使用記錄進(jìn)行分析,掌握了讀者行為差異;Kovacevic 等[6]對讀者搜索歷史進(jìn)行分析,提出高校圖書館個(gè)性化推薦服務(wù)。Ahmad[7]通過對圖書館事務(wù)日志數(shù)據(jù)分析,挖掘了影響讀者行為的因素。國內(nèi)2004年以來開始將關(guān)聯(lián)分析應(yīng)用于高校圖書館如徐淑琴[8]在對圖書館數(shù)據(jù)分析的基礎(chǔ)上,明確了讀者閱讀傾向,并提出了相應(yīng)的采購策略;侯蕾[9]通過對山東大學(xué)醫(yī)學(xué)圖書館圖書借閱數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,掌握了讀者閱讀趨向,提高了讀者服務(wù)質(zhì)量;李宏運(yùn)[10]基于FP-Growth算法對棗莊學(xué)院圖書館管理系統(tǒng)進(jìn)行分析,提出了優(yōu)化館藏的建議。以上研究雖然一定程度上改善了圖書館建設(shè),但目前還沒有較全面的研究。

本文將關(guān)聯(lián)規(guī)則技術(shù)與高校圖書館建設(shè)工作結(jié)合,運(yùn)用FP-Growth算法從多維角度分析圖書館數(shù)據(jù),通過發(fā)現(xiàn)學(xué)科間的規(guī)則、圖書分布分析、借閱量分析、流通量分析等,為圖書館工作人員提供決策建議,更好地發(fā)揮高校圖書館在高校中的作用,滿足讀者需求。

1 FP-Growth算法

FP-Growth算法是一種關(guān)聯(lián)規(guī)則算法[11-14],2000年由Han等學(xué)者提出,與其它關(guān)聯(lián)分析算法相比,該算法具有多種優(yōu)點(diǎn),目前被廣泛地運(yùn)用于多個(gè)領(lǐng)域。

1.1 相關(guān)概念

頻繁項(xiàng)集:如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,則稱該項(xiàng)集是頻繁項(xiàng)集[16-17]。項(xiàng)目個(gè)數(shù)為k,則該項(xiàng)集為k-項(xiàng)集。

關(guān)聯(lián)規(guī)則由支持度和置信度共同約束,支持度和置信度越高,關(guān)聯(lián)規(guī)則越強(qiáng)。

1.2 算法步驟

FP-Growth算法主要有兩個(gè)步驟:

(1)構(gòu)造頻繁模式樹(Frequency Pattern-Tree, FP-Tree),掃描數(shù)據(jù)庫D,計(jì)算每一項(xiàng)支持度。如果該項(xiàng)支持度大于設(shè)定的最小支持度,則把該項(xiàng)作為頻繁項(xiàng)保留在數(shù)據(jù)庫中,并且按支持度大小順序排列,再分別讀取每一條事務(wù)并映射到 FP-tree的路徑上,如此重復(fù),直到數(shù)據(jù)庫中的每條事務(wù)都在FP-Tree上形成完整路徑,F(xiàn)P-Tree即構(gòu)造完成。為了方便遍歷FP-Tree,創(chuàng)建項(xiàng)頭表。

(2)挖掘FP-Tree中所有頻繁項(xiàng)集。該操作是算法核心。在挖掘FP-tree 時(shí),按照葉子結(jié)點(diǎn)到根結(jié)點(diǎn)的順序搜索FP-tree,并且依次為結(jié)點(diǎn)創(chuàng)建條件模式基,根據(jù)創(chuàng)建的條件模式基構(gòu)建條件模式樹,挖掘頻繁模式,進(jìn)而得到頻繁項(xiàng)集。

FP-Growth算法步驟如圖1所示。

1.3 FP-Growth算法優(yōu)點(diǎn)

(1)與其它關(guān)聯(lián)規(guī)則技術(shù)相比,F(xiàn)P-Growth算法通過FP-tree 數(shù)據(jù)結(jié)構(gòu)對原始數(shù)據(jù)進(jìn)行壓縮,只需掃描原始數(shù)據(jù)庫兩遍,運(yùn)行效率較高。

(2)不需要產(chǎn)生候選集,減少了產(chǎn)生和測試候選集需要的時(shí)間。

(3)FP-Growth算法性能比較穩(wěn)定,即使最小支持度降低,所需時(shí)間也不會發(fā)生突變性增加,而且該算法對于不同長度的規(guī)則有很好的適應(yīng)性。

(4)與其它關(guān)聯(lián)規(guī)則算法相比,F(xiàn)P-Growth算法在硬件的開銷小于其它的算法。

本文根據(jù)具體情況設(shè)定支持度和置信度,得到滿足最小支持度和最小置信度的規(guī)則,即得到的定性定量信息對圖書館建設(shè)工作給予一定的數(shù)據(jù)支持,使高校圖書館加強(qiáng)自身建設(shè),更好地服務(wù)于高校教學(xué)科研工作和讀者。

2 基于FP-Growth算法的高校圖書館數(shù)據(jù)分析及對策

本文選取山東科技大學(xué)圖書館的借閱數(shù)據(jù),將數(shù)據(jù)范圍尺度定位于7 197 名學(xué)生的借閱記錄,數(shù)據(jù)時(shí)間跨度為2012年9月-2017 年7月,共100 986條借閱記錄,涉及283 568本圖書。校圖書館數(shù)據(jù)包括讀者信息表、借閱記錄表、圖書信息表,本文基于讀者維、圖書維、借閱維3個(gè)維度挖掘隱含的規(guī)則和信息。

中圖分類法是我國圖書館普遍采用的分類法[18-20],共5個(gè)基本部類、22個(gè)大類,每大類分別用一個(gè)大寫字母表示,根據(jù)圖書不同屬性,每大類下又分成若干類。本文只保留分類號的第一位,進(jìn)行22類圖書中存在的隱含關(guān)系的關(guān)聯(lián)分析。

將讀者信息表、借閱記錄表、圖書信息表進(jìn)行處理。讀者信息表的專業(yè)和學(xué)院信息對關(guān)聯(lián)分析非常重要,因此對單位進(jìn)行空值檢測,填充空缺值。剔除借閱記錄表中對分析無用、冗余的數(shù)據(jù),刪除異常值,簡化數(shù)據(jù)表以提高運(yùn)算速度。同時(shí)檢測圖書信息表中的中圖分類號,填充空缺值。根據(jù)需要,將各表進(jìn)行數(shù)據(jù)集成,再從多方面對山東科技大學(xué)圖書館數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。

2.1 學(xué)科關(guān)聯(lián)分析

關(guān)聯(lián)分析需要設(shè)置最小支持度和最小置信度,經(jīng)反復(fù)測試,設(shè)置最小支持度為30%,最小置信度為80%,獲得圖書間的關(guān)聯(lián)規(guī)則,部分規(guī)則如表1所示。

從表1可以看出,各圖書類之間有隱含的關(guān)聯(lián)關(guān)系,如在置信度最高的一條規(guī)則中:[A,H]→[G]的支持度為67.8%,借閱A(馬克思主義)與H(語言)的同時(shí)還借閱G(文化)類圖書,置信度為95.5%,即A(馬克思主義)與H(語言)、G(文化)三類學(xué)科中存在很強(qiáng)的關(guān)聯(lián)關(guān)系。[T]→[G]的支持度為14.1%,即借閱T(工業(yè))的讀者還會借閱G(文化),說明該類學(xué)科間也存在關(guān)聯(lián)關(guān)系。

教研部門可據(jù)此找到學(xué)科下一步發(fā)展方向。同時(shí),圖書館管理人員可以把關(guān)聯(lián)性強(qiáng)的圖書放在同一區(qū)域或同一書架上,既方便圖書館工作人員對圖書進(jìn)行管理,又可方便讀者借閱。

2.2 被借閱圖書分布分析

對借閱記錄數(shù)據(jù)表進(jìn)行關(guān)聯(lián)分析,統(tǒng)計(jì)各類圖書被借閱次數(shù),關(guān)聯(lián)分析結(jié)果如圖2所示。

由圖2可以看出,T類書籍借閱最多,借閱次數(shù)高達(dá)25 367次,其次是I類、F類,此三類是讀者頻繁借閱的圖書種類。最少借閱的是V類、U類、S類,被借閱次數(shù)非常少??梢园l(fā)現(xiàn)目前高校圖書館存在圖書借閱嚴(yán)重不勻的問題。學(xué)生借書具有專業(yè)性,基本上以借閱專業(yè)類圖書為主,所以圖書借閱種類與本校區(qū)專業(yè)也有一定關(guān)系,本校區(qū)有信息系、經(jīng)管系、文法系,因此T類、I類、F類圖書借閱較多。

在圖書采購時(shí),圖書館應(yīng)與本校專業(yè)相結(jié)合,綜合各專業(yè)教學(xué)計(jì)劃,精準(zhǔn)定位預(yù)購置的圖書,加大T、I、F三類圖書采購比重。除了本專業(yè)課程必備書籍外,學(xué)生還借閱大量和考試相關(guān)的資料,比如計(jì)算機(jī)等級考試、四六級英語考試、會計(jì)考試、司法考試等,因此圖書館還可適當(dāng)增加此類資料的采購。

2.3 借閱量分析

借閱量能夠反映圖書館的作用,對山東科技大學(xué)2013-2016年的圖書借閱量進(jìn)行統(tǒng)計(jì)分析,分析結(jié)果如圖3所示。

根據(jù)分析結(jié)果可以看出, 2013年借閱量達(dá)到24 758冊,2014年借閱量為22 754冊,2015年為19 083冊,2016年的借閱量僅14 441冊,2016年紙質(zhì)圖書的借閱量只有2013年的58%,圖書借閱量呈逐年下降趨勢。

為提高圖書館紙質(zhì)文獻(xiàn)借閱率和讀者閱讀興趣,高校圖書館應(yīng)積極采取措施,改善服務(wù)水平,提升讀者滿意度,增強(qiáng)讀者到館借閱文獻(xiàn)的意愿,改善借閱量逐年下降的現(xiàn)狀。

2.4 圖書流通量分析

圖書館館藏中存在很多未被借閱的圖書,造成嚴(yán)重資源浪費(fèi)。未被借閱圖書比例如圖4所示。

由圖4可以發(fā)現(xiàn)很多圖書未被借閱,其中,T、F、I類未被借閱的書最多,資源浪費(fèi)非常嚴(yán)重。由于技術(shù)更新?lián)Q代較快,入藏圖書由于陳舊過時(shí)或利用率低等原因失去了使用價(jià)值。比如,T類圖書技術(shù)更新?lián)Q代很快,圖書很容易過時(shí),導(dǎo)致該類圖書利用率極低,所以該類圖書資源浪費(fèi)最嚴(yán)重。

圖書館要與時(shí)俱進(jìn),及時(shí)補(bǔ)充新書、更新圖書、及時(shí)剔除老、舊、殘及過時(shí)書籍。相對于文科類圖書,如I(文學(xué))類,往往具有很大的收藏價(jià)值,不易過時(shí),可以在館藏中加以保留。

3 結(jié)語

本文以讀者借閱記錄、圖書信息、讀者信息等多維數(shù)據(jù)為基礎(chǔ),利用FP-Growth算法發(fā)現(xiàn)隱含的關(guān)聯(lián)規(guī)則,找出目前圖書館存在的隱含問題,并提出相應(yīng)對策,對加強(qiáng)建設(shè)圖書館,滿足讀者需求具有重要意義。但在圖書挖掘時(shí),只精確到一級類目,沒有細(xì)分圖書分類,在后續(xù)的研究工作中將進(jìn)一步提高挖掘精度,更精確地為高校圖書館分析隱含的的問題,提出更切實(shí)可行的建議。

參考文獻(xiàn):

[1] 崔妍,包志強(qiáng).關(guān)聯(lián)規(guī)則挖掘綜述[J].計(jì)算機(jī)應(yīng)用研究,2016,33(2):330-334.

[2] 張璽.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與改進(jìn)[D].北京:北京郵電大學(xué), 2015.

[3] 陳淑英,徐劍英,劉玉魏,等.關(guān)聯(lián)規(guī)則應(yīng)用下的高校圖書館圖書推薦服務(wù)[J].圖書館論壇,2018,38(2):97-102.

[4] SAHOO J, KUMAR DAS A, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):5754-5778.

[5] COOPER M D. Usage patterns of a web-based library catalog[J]. Journal of the American Society for Information Science and Technology, 2001,52(2):137-148.

[6] KOVACEVIC A. Using data mining to improve digital library services[J]. Electronic Library, 2010,28(6):829-843.

[7] AHMAD P, BROGAN M.The E-book power user in academic and research libraries: deep log analysis and user customisation[J]. Australian Academic & Research Libraries, 2014,45(1):35-47.

[8] 徐淑琴.基于讀者閱讀傾向的高校中文圖書利用統(tǒng)計(jì)與分析——以寧夏師范學(xué)院圖書館為例[J].圖書館理論與實(shí)踐,2014(10):26-28.

[9] 侯蕾.基于借閱數(shù)據(jù)分析的讀者閱讀傾向及服務(wù)對策[J].圖書館學(xué)刊,2012,34(12):90-92.

[10] 李宏運(yùn).關(guān)聯(lián)規(guī)則挖掘在圖書館管理中的應(yīng)用[D].上海:華東師范大學(xué),2009.

[11] ZENG Y ,YIN S Q,LIU J Y,Research of improved FP-growth algorithm in association rules mining[J]. Scientific Programming, 2015,3:9-16.

[12] 婁書青.并行FP-growth關(guān)聯(lián)規(guī)則算法研究[D].長沙:電子科技大學(xué),2016.

[13] 厙向陽,張玲.基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(1):109-112.

[14] WANG C H,LI Z,YU X. Using fuzzy FP-Growth for mining association rules[C].2017 International Conference on Organizational Innovation, 2017:1-5.

[15] 雷雪麗.FP-growth數(shù)據(jù)挖掘算法的研究[D].西安:西安理工大學(xué),2016.

[16] 姜云龍. 基于數(shù)據(jù)挖掘的高校大學(xué)生讀者閱讀趨向研究[D].長春:東北師范大學(xué),2016.

[17] 章志剛,吉根林.一種基于FP-Growth的頻繁項(xiàng)目集并行挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):103-106.

[18] 孫毅芳.基于數(shù)據(jù)挖掘的圖書館推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].濟(jì)南:山東大學(xué),2017.

[19] 石雨晴.基于中圖-專業(yè)分類映射的高校圖書館圖書推薦方法的研究與實(shí)現(xiàn)[D].沈陽:遼寧大學(xué),2017.

[20] 夏興通.我國圖書營銷分類法行業(yè)標(biāo)準(zhǔn)的編制與實(shí)施研究[D].武漢:武漢大學(xué),2010.

(責(zé)任編輯:江 艷)

猜你喜歡
置信度關(guān)聯(lián)規(guī)則
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
數(shù)獨(dú)的規(guī)則和演變
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
奇趣搭配
讓規(guī)則不規(guī)則
智趣
TPP反腐敗規(guī)則對我國的啟示
置信度條件下軸承壽命的可靠度分析
吉木萨尔县| 饶阳县| 保靖县| 德清县| 涞水县| 正阳县| 股票| 邳州市| 江口县| 达拉特旗| 永兴县| 龙陵县| 白河县| 永德县| 西安市| 六盘水市| 大新县| 沂源县| 古交市| 黄陵县| 西平县| 同江市| 达孜县| 杨浦区| 曲阳县| 盐源县| 兴城市| 崇州市| 遂川县| 安岳县| 明水县| 鄱阳县| 衡东县| 陕西省| 论坛| 苏尼特左旗| 岑溪市| 封丘县| 阿拉善左旗| 庄河市| 仁怀市|