盛銓
摘 要 在探討如何創(chuàng)建大數(shù)據(jù)環(huán)境下的智慧圖書館,感知學生閱讀與學習需求,使之成為高職教育重要的組成部分的基礎上,論文設計了一種能夠用以收集、分析、處理和可視化呈現(xiàn)多種來源數(shù)據(jù)的大數(shù)據(jù)系統(tǒng),以及專門適用于高職院校的智慧圖書館智能推薦系統(tǒng)。該系統(tǒng)能夠較好地滿足高職學生需求,為其搜尋和推薦個性化的內容資源,促進數(shù)據(jù)驅動決策理念在圖書館服務與高職教育中的應用。
關鍵詞 高職院校圖書館 高職教育 大數(shù)據(jù) 推薦系統(tǒng) 智慧圖書館
分類號 G258
DOI 10.16810/j.cnki.1672-514X.2019.08.010
Abstract This paper explores how to create a smart library in a big data environment, and make the smart library an important part of higher vocational education by sensing the reading and learning needs of students. Then it designs a big data system that can collect, analyze, process, and visualize data from multiple sources, as well as an intelligent recommendation system for smart library that is specifically designed for higher vocational colleges. The research results show that the intelligent recommendation system can better meet the needs of higher vocational students, search and recommend personalized content resources for them, and promote the application of data-driven decision-making concepts in library services and higher vocational education.
Keywords Higher vocational college library. Higher vocational education. Big data. Recommendation system. Smart library.
0 引言
智慧圖書館所倡導的智慧化理念始于2008年11月IBM總裁兼首席執(zhí)行官Samuel J. Palmisano提出的“智慧地球”概念[1]?!爸腔鄣厍颉敝荚趯⒁劳袛?shù)字化與網絡化的智能技術應用于所有物品,以便對這些物品進行感知、度量、互聯(lián)和深入分析,為社會提供高度智能化的服務,最終推動社會經濟走向新的發(fā)展歷程。而智慧圖書館則將物聯(lián)網、云計算技術及其設備引入到圖書館,以建設能夠進行智慧化管理、個性化智能推薦、實現(xiàn)知識有效共享與精準感知讀者需求的圖書館。其中,智慧化推送是智慧圖書館的核心功能之一,主要目標在于通過對讀者需求、收益及其滿意度的感知與預測,為讀者提供高精準度、智慧化的資源與服務。國內有些高職院校也積極進行了智慧圖書館建設,在運用信息采集、處理與分析數(shù)據(jù)等技術方面提升了服務能力,但在感知學生閱讀與學習需求方面還有待進一步深入研究,使大數(shù)據(jù)技術在處理海量信息、多樣類型、高價值、快速處理方面成為高職院校建設智慧圖書館的重要保障,以便能夠為讀者提供高質量的智能推薦服務。
綜觀國內研究,目前對智慧圖書館及其智慧服務的研究以理論研究為主,而較少以特定的實踐需求對智能推薦服務進行具體系統(tǒng)設計與實證研究。因此本文擬在大數(shù)據(jù)環(huán)境下以高職院校智慧圖書館智能推薦服務及其在高職教育中的具體應用作為研究問題,探討如何整合高職院校圖書館內外的多個來源大數(shù)據(jù),構建大數(shù)據(jù)環(huán)境下智慧圖書館智能推薦系統(tǒng)模型,根據(jù)學生興趣推薦圖書館資源,以實現(xiàn)智慧圖書館智能推薦服務與高職教育的結合。
1 大數(shù)據(jù)環(huán)境下智慧圖書館與智能服務研究
近年來,學術界針對智慧圖書館與智能服務進行了大量研究。陳衛(wèi)靜將大數(shù)據(jù)環(huán)境下智慧圖書館的智慧分析歸為三種類型,分別是基于用戶行為數(shù)據(jù)、科研數(shù)據(jù)與業(yè)務數(shù)據(jù)的智慧分析[2]。祝森生認為,大數(shù)據(jù)時代智慧圖書館著重應當解決的問題是如何有效滿足用戶與社會發(fā)展需求,確保其互聯(lián)、高效與便利[3]。陳臣從讀者的智慧閱讀需求出發(fā),探討了圖書館智慧服務體系的構建及其各服務層的功能,認為該體系能夠較好地根據(jù)讀者需求開展智慧化定制服務及個性化智慧閱讀服務[4]。馬曉亭提出了基于大數(shù)據(jù)的圖書館個性化智慧服務質量保證策略,用以解決圖書館在開展個性化智慧服務過程中存在的問題[5]。李欣改進了強關聯(lián)規(guī)則算法,并將其應用到圖書借閱和查詢數(shù)據(jù)分析之中,以提高智慧圖書館個性化推送服務的效率[6]。陳臣以大數(shù)據(jù)時代用戶行為數(shù)據(jù)分析為基礎,提出了圖書館個性化智慧服務模式[7]。柳益君提出了基于大數(shù)據(jù)挖掘和Hadoop平臺的圖書館智慧服務模型,并探討了該模型在知識推薦服務與微知識自動問答服務中的應用[8]。洪亮等構建了大數(shù)據(jù)驅動的圖書館智慧信息服務體系及其發(fā)展策略[9]。宋維維等通過對Spark和HadoopMapReduce兩種大數(shù)據(jù)處理技術進行比較,提出了基于Spark大數(shù)據(jù)處理技術的圖書館智慧服務框架、服務流程及其應用實踐[10]。
2 大數(shù)據(jù)環(huán)境下高職院校智慧圖書館與智能服務目標
在大數(shù)據(jù)環(huán)境下,高職院校智慧圖書館智能推薦服務所要達到的目標在于精準識別和滿足學生興趣需求的同時,能夠提高圖書館的資源使用率和服務效率,實現(xiàn)圖書館與高職教育的結合。這也是本文所要研究的目的。
智慧圖書館的主要目的是通過集成各個數(shù)據(jù)源的數(shù)據(jù)信息,構建精確和有效的推薦系統(tǒng),為讀者提供個性化推薦服務。數(shù)據(jù)來源包括高職院校信息門戶系統(tǒng)、高職院校教學管理平臺、社交媒體網絡、個人圖書館和圖書館物聯(lián)網等主要模塊,如圖1中所示。在推薦系統(tǒng)中,各類數(shù)據(jù)源之間的交互以全新的方式進行呈現(xiàn),且不同數(shù)據(jù)源在整合之后的可訪問性與互操作性也將得到極大提升。
4.2 智慧圖書館數(shù)據(jù)集
智慧圖書館連接、組合以下來源的數(shù)據(jù):教學管理平臺上學生學習周期內選定的課程及其在線課程開放平臺論壇中的交流信息;學生在教務信息管理系統(tǒng)中選課偏好及其相關的教材與教輔圖書信息;從社交媒體網絡收集的學生相關信息(綁定智慧圖書館相關平臺的學生社交媒體賬號);高職院校圖書館OPAC系統(tǒng)服務器日志文件,包含讀者屬性特征及借閱信息,以及讀者的圖書查詢、薦購等日志信息;從圖書館物聯(lián)網傳感器收集的圖書位置及在館和使用信息;讀者通過“我的圖書館”鏈接到第三方電子圖書數(shù)據(jù)庫(如超星電子書等)的電子書搜索、閱讀及下載日志信息。
通過連接上述各類數(shù)據(jù)源,即可得到相應的數(shù)據(jù)集。我們選取某高職院校的教學活動作為研究數(shù)據(jù),數(shù)據(jù)集包含120個課程、5個學習課程和約1750名學生信息。根據(jù)其所選修的課程和可借閱的圖書,每個學生在當前學年從圖書館數(shù)據(jù)庫中下載的電子圖書大約為3~10種圖書,總計共有1000萬多條記錄。圖書館數(shù)據(jù)集包含80 571個用戶和2955冊圖書。圖書薦購系統(tǒng)包含約3900個圖書薦購信息文件、450個用戶和1495條有效的數(shù)據(jù)記錄。該校要求每個學生都通過教學管理平臺進行選課活動,以了解學生在本學年所選擇的課程,每年度的課程數(shù)量介于10到12門課程之間。
4.3 智能推薦系統(tǒng)流程
對各種來源的數(shù)據(jù)集,我們將通過大數(shù)據(jù)處理系統(tǒng)進行加載、集成到HCatalog中,進行收集、處理和分析,以及對最終內容進行實現(xiàn)和可視化呈現(xiàn),即基于讀者的興趣為其提供個性化的內容推薦。用戶每次訪問教務信息系統(tǒng)平臺時,Hadoop系統(tǒng)都將分析以下內容:(1)用戶所使用(查詢、借閱和下載等) 的圖書屬性信息;(2)教學管理平臺中本學年選課數(shù)據(jù)信息;(3)OPAC系統(tǒng)中讀者的圖書借閱、薦購歷史和讀者個人屬性等信息;(4)對多個數(shù)據(jù)的操作日志信息。
系統(tǒng)在對現(xiàn)有數(shù)據(jù)進行處理后,將根據(jù)讀者的興趣需求,為其提供以下建議:一是在高職院校圖書館中已入藏相關圖書的情況下,系統(tǒng)會根據(jù)圖書的ID在讀者指定的借閱期限內為其預約該圖書;二是將讀者感興趣的圖書信息發(fā)送給圖書館的采編部門和圖書薦購系統(tǒng)。具體流程示意見圖2 。
我們在實施中所選的開源軟件平臺是Apache HadoopHortonworks。Apache Hadoop是一種被廣泛采用的,也是最成熟的大數(shù)據(jù)軟件平臺之一,支持分布式數(shù)據(jù)密集型應用程序和MapReduce計算范例,允許并行處理大量異構數(shù)據(jù)。MapReduce和Hadoop被認為是最有效的大數(shù)據(jù)管理框架[11]。
在系統(tǒng)中,數(shù)據(jù)存儲在提供可擴展和容錯存儲的HDFS中,HDFS檢測并補償集群錯誤,將傳入的文件拆分為塊,并將它們冗余地存儲在集群上。文件被分塊(每塊的大小為64MB或128MB)復制在多個節(jié)點上,因而具有較大的容錯性,若其中一個節(jié)點丟失,并不會破壞文件以及對數(shù)據(jù)讀取性能產生影響。此系統(tǒng)模型中的HDFS通過持續(xù)監(jiān)視集群中的節(jié)點及其管理的塊,用以確保數(shù)據(jù)的可用性。各個塊都受到檢查和控制,在以塊進行讀取后,確定正確性(記錄值是否正確)。MapReduce提供了并行計算功能和在集群中可共享的大型數(shù)據(jù)集,使得主節(jié)點能夠將任務分配給子節(jié)點,再收集計算結果。
5 智慧圖書館智能推薦系統(tǒng)模型的實現(xiàn)
圖3顯示了創(chuàng)建大數(shù)據(jù)智慧圖書館所需的重要模塊及其Hadoop技術堆棧。系統(tǒng)中的MapReduce編程由Hive模塊執(zhí)行,該模塊允許在大型數(shù)據(jù)集上執(zhí)行查詢命令,并提供數(shù)據(jù)結構投影機制。該層的突出特征是能夠借助于并行化的結構,管理系統(tǒng)中的大數(shù)據(jù)集,將現(xiàn)有的數(shù)據(jù)集已加載到HCatalog中,以便在系統(tǒng)管理層上展開進一步處理,再將數(shù)據(jù)分發(fā)和傳輸?shù)紿Base模塊,從而進行搜索、下載和分析。
對智慧圖書館數(shù)據(jù)執(zhí)行的查詢主要目的是顯示在給定時間段內借閱特定圖書的讀者,并準備數(shù)據(jù)集以供進一步處理,其程序如下:
SELECT debit.person_id,book.title.
COUNT(debit.person_id) OVER (PARTITION BY debit.person_id ORDER BY debit.person_id ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
FROM debit JOIN book ON(debit.book_id 1/4 book.row)
WHERE debit.taking_date>“2017-01-01”AND debit.return_date<“2017-06-14”
執(zhí)行程序主要根據(jù)以下6個步驟搜索和選擇最合適的項目:
步驟1:執(zhí)行查詢結果顯示書名和在指定日期范圍內借閱次數(shù)最多的讀者ID;
步驟2:Ambari模塊執(zhí)行系統(tǒng)中的監(jiān)控和管理模塊,該模塊可以安裝、管理和監(jiān)控集群中的Hadoop服務。該集成模塊的主要任務是協(xié)調分布式應用程序、同步和集中集群中的服務,并協(xié)調和監(jiān)控相互獨立的Hadoop作業(yè)流程;
步驟3:系統(tǒng)內外部來源(高職院校及其圖書館、高職院校OPAC系統(tǒng)和教務信息管理平臺)讀者ID鏈接到電子郵件帳戶;
步驟4:讀者在我的圖書館中,可以通過使用他們的個人帳號下載電子書,每位讀者當前學年下載的電子書大致介于3到10冊之間;
步驟5:每當讀者對我的圖書館及圖書薦購系統(tǒng)進行任何新的訪問時,系統(tǒng)都會分析該讀者的查詢、借閱、下載和薦購歷史,以及讀者的個人屬性和個性化偏好,生成推薦列表和感興趣的內容。系統(tǒng)會根據(jù)這些信息,對相關圖書與之進行相似性排序與比對,再形成基于相似性的圖書推薦列表;
步驟6:在讀者新登錄教學管理平臺時,大數(shù)據(jù)推薦系統(tǒng)將對多個來源的數(shù)據(jù)進行處理以生成推薦信息,其算法基于不同數(shù)據(jù)來源的單獨系統(tǒng)中所有項目計算相似性,以確定哪些項目最適合讀者,計算項目之間相似性的代碼如下:
HCatalog 1/4 union(ProductCatalog1, ProductCatalog2, ProductCatalog3, ProductCatalog4 [...])。
其中,ProductCatalog1是實體館的圖書數(shù)據(jù);
ProductCatalog2是學校教學管理平臺數(shù)據(jù);ProductCatalog3是在線薦購系統(tǒng)的數(shù)據(jù);ProductCatalog4是“我的圖書館”服務器的日志數(shù)據(jù)。所選取的數(shù)據(jù)項目有:圖書館借閱數(shù)據(jù)項目、電子圖書下載數(shù)據(jù)項目、圖書薦購系統(tǒng)的薦購信息、讀者的個人偏好及行為信息。根據(jù)現(xiàn)有數(shù)據(jù),系統(tǒng)將列出大數(shù)據(jù)處理系統(tǒng)為根據(jù)讀者ID為其推薦的3冊圖書,讀者可以進行以下選擇:在高職院校圖書館中保留推薦的圖書,或者由圖書館采編部門從合作書商直接購買推薦的圖書。
6 智慧圖書館智能推薦系統(tǒng)評估
評估所選取的樣本是2016—2017學年冬季學期某專業(yè)大二的220名學生。
系統(tǒng)的評估首先通過系統(tǒng)大數(shù)據(jù)進行分析,確定Hadoop系統(tǒng)中最受歡迎的圖書,以便發(fā)現(xiàn)這些圖書的借閱頻次是否比去年同期有所增加。大數(shù)據(jù)分析用于確定以下內容:評估系統(tǒng)最常向用戶推薦哪些書籍;2016年和2017年從高職院校圖書館借閱推薦圖書的次數(shù)分別是多少。分析的目的是評估基于Hadoop的推薦系統(tǒng)是否有助于改善提升圖書館服務水平的潛力,以及增加讀者對系統(tǒng)的使用和信任。其次通過在線調查問卷來評估已實施的原型系統(tǒng),以確定基于多數(shù)據(jù)來源的Hadoop推薦是否比高職院校在線薦購系統(tǒng)更適合讀者。所設計的問卷被整合到學校的教務信息系統(tǒng)中,以確定基于Hadoop的多數(shù)據(jù)源推薦是否更適合讀者(基于他們的印象)。問卷包括十個問題,每個問題均有多個選擇或真?zhèn)未鸢?,其中兩個重要問題以五點李克特量表進行設問。
大數(shù)據(jù)分析結果顯示,在原型系統(tǒng)測試期間,從基于Hadoop的系統(tǒng)上被推薦得最多的圖書列表中借閱的圖書總量增加了269.5%。
問卷調查結果顯示,在參與在線調查問卷的學生中,有40%的學生未曾借閱、下載或薦購任何圖書。在沒有圖書使用信息情況下,系統(tǒng)無法確定讀者的偏好,因此無法創(chuàng)建用戶模型進行圖書推薦,因而這些學生在最終的研究對象中被剔除。其他學生選擇從圖書館數(shù)字圖書館下載電子書,在圖書薦購系統(tǒng)中薦購相關圖書,或從高職院校圖書館借閱推薦的圖書,符合調查評估的要求。我們通過問卷調查發(fā)現(xiàn),有24.6%的學生認為基于Hadoop的多數(shù)據(jù)源推薦完全足夠,平均得分為3.38,標準差為1.25,而有21.1%的學生認為圖書館傳統(tǒng)的圖書推薦服務完全足夠,平均成績?yōu)?.17,標準差為1.28。顯然學生們認為大數(shù)據(jù)系統(tǒng)的推薦略微優(yōu)于圖書館以往的圖書推薦服務。
參考文獻:
張之滄,閭國年.“智慧地球”概念解析[J].自然辯證法研究,2015(11):117-122.
陳衛(wèi)靜.智慧圖書館在大數(shù)據(jù)環(huán)境下的智慧分析[J].圖書情報工作,2015(2):49-52.
祝森生.大數(shù)據(jù)時代關于智慧圖書館的幾個研究問題探討[J].圖書與情報,2013(5):126-128.
陳臣.基于大數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的智慧圖書館構建[J].現(xiàn)代情報,2017,37(8):85-91.
馬曉亭.大數(shù)據(jù)時代圖書館個性化智慧服務QOS保障研究[J].現(xiàn)代情報,2014,34(12):69-73.
李欣.強關聯(lián)規(guī)則挖掘在智慧圖書館個性化推送服務中的應用研究[J].情報科學,2018,36(4):95-99.
陳臣.大數(shù)據(jù)時代一種基于用戶行為分析的圖書館個性化智慧服務模式[J].圖書館理論與實踐,2015(2):96-99.
柳益君,何勝,熊太純,等.大數(shù)據(jù)挖掘視角下的圖書館智慧服務:模型、技術和服務[J].現(xiàn)代情報,2017,37(11):81-86.
洪亮,周莉娜,陳瓏綺.大數(shù)據(jù)驅動的圖書館智慧信息服務體系構建研究[J].圖書與情報, 2018(2): 8-15.
宋維維,夏紹模,李贊.基于SPARK大數(shù)據(jù)處理平臺的圖書館智慧服務探索與實踐[J].情報科學,2018,36(6):45-49.
KHAN S, LIU X, SHAKIL K A, et al. A survey on scholarly data: from big data perspective[J].Information Processing & Management,2017,53(4):923-944.