楊永權(quán)
關(guān)鍵詞:大數(shù)據(jù);讀者決策采購;高校圖書館
摘?要:文章介紹了多種圖書采購模式的特點(diǎn),分析了大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)在讀者決策采購中的應(yīng)用情況,探討了如何利用大數(shù)據(jù)思維構(gòu)建新的讀者決策采購模型,以期為高校圖書館創(chuàng)新資源采購模式提供理論參考。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2019)02-0085-04
隨著互聯(lián)網(wǎng)技術(shù)在各個(gè)行業(yè)的深入滲透,大數(shù)據(jù)和云計(jì)算技術(shù)改變了人們的生活方式,推動(dòng)了社會(huì)的變革。高校圖書館作為文獻(xiàn)信息中心,面臨著館藏資源利用率低、經(jīng)費(fèi)逐年下降、讀者參與薦購熱情低等問題。在這種情況下,如何快速轉(zhuǎn)變服務(wù)模式、提升有限經(jīng)費(fèi)的利用率、優(yōu)化傳統(tǒng)的購書流程,已經(jīng)成為高校圖書館亟須解決的問題。讀者決策采購(PDA)作為一種新型的圖書采購模式,能有效優(yōu)化高校圖書館的購書制度和流程,提高高校圖書館購書經(jīng)費(fèi)的利用率,滿足讀者的實(shí)際需求,在歐美等國家的高校圖書館得到了廣泛運(yùn)用,并取得了一定成效。
1?圖書采購模式
相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,2017年我國出版的新版圖書多達(dá)255,106種,因此,如何選購合適的圖書已經(jīng)成了高校圖書館亟須解決的難題。筆者根據(jù)大部分高校圖書館的做法,提出了以下幾種圖書采購方式:①依靠采訪編目部工作人員的經(jīng)驗(yàn)采購圖書。采訪編目部工作人員按照學(xué)校的專業(yè)設(shè)置、館藏情況及長(zhǎng)期從事該項(xiàng)工作的經(jīng)驗(yàn),進(jìn)行有計(jì)劃的圖書采購。但是,由于該采購方式受個(gè)人經(jīng)驗(yàn)的限制,具有一定的主觀性。②組織現(xiàn)場(chǎng)選購圖書。高校圖書館按照書商提供的書目,組織部分館員、教師和學(xué)生參加大型圖書展會(huì)或到購書中心進(jìn)行現(xiàn)場(chǎng)選購圖書,控制不同學(xué)科圖書的比例。該采購方式能夠優(yōu)化館藏結(jié)構(gòu),滿足師生讀者的閱讀需求,受到了他們的歡迎。但是,現(xiàn)場(chǎng)選書會(huì)產(chǎn)生交通等費(fèi)用開支,進(jìn)而提高采購成本。③網(wǎng)絡(luò)推薦采購圖書。讀者可通過e-mail、QQ、微信及OPAC自帶的圖書推薦系統(tǒng)等網(wǎng)絡(luò)推薦方式進(jìn)行圖書推薦,高校圖書館根據(jù)讀者推薦的圖書進(jìn)行采購,滿足讀者的個(gè)性化需求。雖然該采購方式受到讀者的歡迎,但是所推薦的圖書可能在教學(xué)輔助方面的針對(duì)性不強(qiáng)。
由于高校圖書館工作人員沒有及時(shí)將圖書采購情況反饋給薦購人,上述圖書采購方式不能很好地激發(fā)讀者的參與熱情。此外,由于缺乏科學(xué)的評(píng)判標(biāo)準(zhǔn),是否進(jìn)行購買推薦的圖書館由采訪人員決定,人為因素起到了決定性作用。
2?PDA采購模式
讀者決策采購(Patron Driven Acquisitions,簡(jiǎn)稱PDA),又稱需求驅(qū)動(dòng)采購(Demand-Driven Acquisitions,簡(jiǎn)稱DDA),是指圖書館基于讀者對(duì)某一本書的實(shí)際閱讀或?yàn)g覽情況(如讀者的點(diǎn)擊次數(shù)、閱讀停留時(shí)間等),預(yù)設(shè)一定的參數(shù),當(dāng)達(dá)到相應(yīng)條件(如點(diǎn)擊人數(shù)超過10次、圖書單價(jià)低于200元等)時(shí),自動(dòng)觸發(fā)購買某一文獻(xiàn)指令的一種資源采購模式。
2.1?PDA的歷史
PDA起源于20世紀(jì)60年代美國的圖書綱目購書計(jì)劃,主要指圖書館與書商在選書和加工方面的協(xié)調(diào)互動(dòng)[1]。我國學(xué)者將國外產(chǎn)生PDA的原因歸結(jié)為兩個(gè)方面:一是美國經(jīng)濟(jì)不景氣,購書經(jīng)費(fèi)被大幅度壓縮,藏書與讀者的實(shí)際需求相脫節(jié),導(dǎo)致文獻(xiàn)利用率低下。二是隨著信息技術(shù)的發(fā)展,人們的閱讀行為發(fā)生了改變,電子閱讀逐步成為時(shí)代潮流,圖書館需要與出版商進(jìn)行業(yè)務(wù)系統(tǒng)對(duì)接。PDA是館際互借的衍生物,美國巴克內(nèi)爾大學(xué)圖書館在1990年開始實(shí)施PDA項(xiàng)目。由于館際互借的成本較高及借閱時(shí)間所限,該校圖書館嘗試將PDA用于館際互借,只要是達(dá)到一定的請(qǐng)求次數(shù)或符合館藏建設(shè)標(biāo)準(zhǔn)的圖書,圖書館將考慮購買這些圖書。因此,PDA從最初只是為滿足館際互借需求的一項(xiàng)拓展服務(wù),到后來逐漸演化為館藏資源建設(shè)的一種模式[2]。
2.2?PDA的工作流程
根據(jù)不同的使用環(huán)境,PDA的工作流程可能會(huì)有所不同,但是其基本原理是以讀者的閱讀行為(如點(diǎn)擊瀏覽量、推薦量及試讀次數(shù)等)為觸發(fā)條件的,系統(tǒng)會(huì)自動(dòng)判斷是否達(dá)到相應(yīng)的參數(shù)閾值,從而觸發(fā)購買或借閱行為的發(fā)生。其中,觸發(fā)類型可以細(xì)分為圖書館聯(lián)機(jī)目錄(OPAC)觸發(fā)型、館際互借觸發(fā)型和網(wǎng)絡(luò)書店觸發(fā)型。筆者以O(shè)PAC觸發(fā)型為例,構(gòu)建了紙質(zhì)圖書PDA的工作流程圖。
首先,高校圖書館根據(jù)館藏原則擬訂紙質(zhì)或電子圖書的書目,要求出版商提供符合預(yù)設(shè)文檔圖書的MARC數(shù)據(jù)。其次,圖書館將書商提供的符合標(biāo)準(zhǔn)的MARC數(shù)據(jù)導(dǎo)入書目管理系統(tǒng)中,并與原有館藏MRAC進(jìn)行匹配[3],篩選冗余數(shù)據(jù)。讀者通過OPAC檢索書目信息,如果圖書館藏有所需的圖書,系統(tǒng)就自動(dòng)彈出書目信息;如果圖書館沒有收藏所需的圖書,系統(tǒng)就會(huì)自動(dòng)鏈接書商的服務(wù)器,彈出相關(guān)資源的信息。最后,當(dāng)點(diǎn)擊瀏覽量或請(qǐng)求文獻(xiàn)次數(shù)達(dá)到設(shè)定的閾值時(shí),系統(tǒng)就會(huì)觸發(fā)購買命令或試讀電子圖書[4]。根據(jù)高校圖書館的文獻(xiàn)資源建設(shè)標(biāo)準(zhǔn)及圖書供貨原則,圖書的觸發(fā)機(jī)制可能會(huì)有所不同,如圖書的價(jià)格、種類、出版年限及是否符合學(xué)校的專業(yè)建設(shè)要求等。如果達(dá)到一定的條件,讀者就可以獲取所需圖書的電子版,但僅能瀏覽所需圖書紙質(zhì)版的簡(jiǎn)介和大綱。
在這種模式下,讀者能發(fā)出采購指令,在不知情的情況下參與薦購,高校圖書館也不需要再向讀者進(jìn)行人工推薦或宣傳。有些書商還提供先試用后購買的服務(wù),與圖書館的OPAC進(jìn)行對(duì)接,當(dāng)圖書館沒有相關(guān)圖書時(shí),讀者可點(diǎn)擊書商提供的鏈接直接閱讀,當(dāng)點(diǎn)擊的次數(shù)、瀏覽時(shí)間達(dá)到圖書館預(yù)設(shè)的指標(biāo)后,系統(tǒng)將自動(dòng)觸發(fā)向書商租用或購買該書的行為。另外,PDA系統(tǒng)具有相對(duì)健全的查詢功能,可以及時(shí)提供購買情況和跟蹤信息,激發(fā)讀者參與薦購的熱情,PDA系統(tǒng)還可以不斷優(yōu)化參數(shù)和標(biāo)準(zhǔn),在很大程度上減少工作人員的主觀預(yù)測(cè),進(jìn)而滿足讀者的個(gè)性化需求。
3?基于大數(shù)據(jù)的讀者決策采購模型研究
3.1?大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的概念
大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有5V特點(diǎn),即大量(Volume)、高速(Velocity)、多樣(Variety)、低價(jià)值密度(Value)和真實(shí)性(Veracity)[5]。數(shù)據(jù)挖掘技術(shù)是一種可以將隱藏在大量數(shù)據(jù)信息中的有用信息以規(guī)則、概念、規(guī)律和模式等形式提取出來的技術(shù)。大數(shù)據(jù)時(shí)代,高校圖書館經(jīng)過多年的信息化建設(shè),已經(jīng)累積了大量的業(yè)務(wù)數(shù)據(jù)。高校圖書館應(yīng)對(duì)累積的大數(shù)據(jù)進(jìn)行整理,分析文獻(xiàn)的利用情況,挖掘有價(jià)值的信息,如學(xué)生的閱讀興趣、圖書的借閱率等,進(jìn)而為管理人員或圖書采購人員提供科學(xué)依據(jù),避免人為主觀因素的影響,為館藏資源建設(shè)提供更加科學(xué)、準(zhǔn)確、全面的分析與預(yù)測(cè)。因此,以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的圖書館服務(wù)模式正逐步改變?nèi)藗兊墓芾砝砟?,傳統(tǒng)的人工服務(wù)模式受到了嚴(yán)峻的挑戰(zhàn)。
3.2?圖書館大數(shù)據(jù)的來源
數(shù)據(jù)表示形式可分為結(jié)構(gòu)化數(shù)據(jù)(用二維表結(jié)構(gòu)表達(dá)實(shí)現(xiàn)的數(shù)據(jù)形式,通常存儲(chǔ)在關(guān)系型數(shù)據(jù)庫和面向?qū)ο髷?shù)據(jù)庫中)、非結(jié)構(gòu)化數(shù)據(jù)(如視頻、圖片、圖像和聲音等)和半結(jié)構(gòu)化數(shù)據(jù)(介于結(jié)構(gòu)化和非結(jié)構(gòu)化之間,如郵件、報(bào)表和HTML等)。高校圖書館經(jīng)過多年的信息化建設(shè),其大數(shù)據(jù)的主要來源有以下兩種。
3.2.1?結(jié)構(gòu)化數(shù)據(jù)的來源。①讀者利用館藏資源的記錄。流通系統(tǒng)能自動(dòng)記錄讀者的借閱信息,如讀者的個(gè)人信息、借閱歷史和借還時(shí)間。②讀者利用館藏電子資源的歷史記錄。圖書館一般都會(huì)購買或自建學(xué)術(shù)數(shù)據(jù)庫、特色資源數(shù)據(jù)庫、電子期刊、數(shù)字報(bào)刊和電子圖書等數(shù)據(jù)庫,這些資源的類型多樣、數(shù)據(jù)量大、增長(zhǎng)速度快,它們都是圖書館大數(shù)據(jù)的重要來源。讀者下載或查看這些電子資源的信息能被系統(tǒng)詳細(xì)記錄,這些信息大多屬于結(jié)構(gòu)化數(shù)據(jù),它們的結(jié)構(gòu)相對(duì)單一。
3.2.2?非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的來源。網(wǎng)絡(luò)時(shí)代,讀者在通過智能手機(jī)、平板電腦等設(shè)備獲取圖書館資源的過程中,必然會(huì)留下相應(yīng)的痕跡,進(jìn)而產(chǎn)生大量非結(jié)構(gòu)化數(shù)據(jù),如讀者的訪問時(shí)間、訪問位置、訪問習(xí)慣、檢索歷史和登錄方式等。高校圖書館在資源建設(shè)過程中不僅要重視結(jié)構(gòu)化數(shù)據(jù),還要特別重視非結(jié)構(gòu)化數(shù)據(jù),可以利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行整理收集、挖掘和分析,獲取讀者的興趣偏好,滿足讀者的個(gè)性化和多樣化需求。
3.3?運(yùn)用大數(shù)據(jù)提升圖書采購效果
PDA模式雖然已經(jīng)取得了良好的效果,但是也存在一些不足,如經(jīng)PDA推薦購買的圖書是否符合館藏體系,讀者是否存在濫用選書權(quán)利的現(xiàn)象,經(jīng)費(fèi)使用是否合理等。有學(xué)者指出,通過PDA購買的圖書只有30%是有購買價(jià)值的,高校圖書館不能單純購買讀者喜歡的圖書,否則容易造成館藏圖書結(jié)構(gòu)的不平衡。因此,為了避免類似問題的發(fā)生,圖書館需要利用數(shù)據(jù)挖掘技術(shù)對(duì)讀者的閱讀偏好、閱讀行為和館藏資源的利用情況等數(shù)據(jù)進(jìn)行收集與分析,預(yù)測(cè)讀者的偏好規(guī)律,進(jìn)而設(shè)置科學(xué)的PDA參數(shù),使PDA決策與館藏規(guī)劃方向一致,避免讀者的即時(shí)性與盲目性選書造成文獻(xiàn)流通量低下,同時(shí)還可以完善館藏特色資源建設(shè)。
3.4?系統(tǒng)模型的構(gòu)建
筆者結(jié)合數(shù)據(jù)挖掘的流程,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建知識(shí)庫的流程。構(gòu)建知識(shí)庫的流程包括數(shù)據(jù)源采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫形成、數(shù)據(jù)挖掘算法和形成知識(shí)庫等步驟。
3.4.1?數(shù)據(jù)源采集。基本數(shù)據(jù)源采集是形成數(shù)據(jù)倉庫并進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ),可采集的數(shù)據(jù)包括館藏書目信息、讀者個(gè)人信息、流通借閱信息、讀者的檢索日志及其他半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。
3.4.2?數(shù)據(jù)預(yù)處理。數(shù)據(jù)清洗是檢測(cè)和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)域和知識(shí)背景下的白噪聲,分為有監(jiān)督清洗和無監(jiān)督清洗兩類。數(shù)據(jù)集成是對(duì)不同來源、格式、性質(zhì)的數(shù)據(jù)進(jìn)行有機(jī)集中,刪除冗余數(shù)據(jù)。數(shù)據(jù)變換是在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),要求數(shù)據(jù)必須滿足一定的條件,找到數(shù)據(jù)的不變式。數(shù)據(jù)規(guī)約是將圖書館數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行合并或壓縮,減少數(shù)據(jù)量,但規(guī)約后的數(shù)據(jù)仍保持原始數(shù)據(jù)的完整性,有助于提高數(shù)據(jù)挖掘的性能和效率。
3.4.3?數(shù)據(jù)倉庫形成。圖書館通過對(duì)基本數(shù)據(jù)的預(yù)處理,將大量異構(gòu)、無序和冗余的數(shù)據(jù)整合為具有一定主題、相對(duì)穩(wěn)定、易于分析挖掘的標(biāo)準(zhǔn)化數(shù)據(jù)。
3.4.4?數(shù)據(jù)挖掘過程。高校圖書館應(yīng)以構(gòu)建的數(shù)據(jù)倉庫為基礎(chǔ),從讀者的基礎(chǔ)信息、閱讀興趣、館藏利用等維度進(jìn)行挖掘,主要包括以下幾個(gè)方面:一是根據(jù)借閱歷史記錄表對(duì)每類圖書的借閱頻率和借閱量及讀者的檢索情況等進(jìn)行分析,獲取用戶對(duì)每類圖書的實(shí)際需求。二是分析每類圖書的續(xù)借情況及歸還時(shí)間。三是根據(jù)讀者信息記錄表對(duì)讀者的基本情況進(jìn)行分析,如讀者的專業(yè)、讀者的文化程度等。四是根據(jù)檢索歷史記錄表分析讀者對(duì)每類圖書的檢索情況。五是以年或季度為時(shí)間單位統(tǒng)計(jì)各類圖書的購買情況及館藏結(jié)構(gòu)變化情況,分析讀者對(duì)各類圖書的需求情況。六是運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)讀者的閱讀興趣進(jìn)行挖掘[6]。圖書館可采用多種數(shù)據(jù)挖掘算法進(jìn)行挖掘,如:基于借閱數(shù)據(jù)運(yùn)用關(guān)聯(lián)規(guī)則算法,基于讀者興趣運(yùn)用協(xié)同過濾挖掘法,基于不同的讀者群體運(yùn)用聚類挖掘法及預(yù)測(cè)挖掘法等。
3.4.5?形成知識(shí)庫。圖書館應(yīng)將數(shù)據(jù)挖掘得出的規(guī)則置于知識(shí)庫中,使它們?cè)诟倪M(jìn)后的PDA模型中起到智能推薦的作用。
3.5?改進(jìn)后PDA推薦模型
在原有PDA基礎(chǔ)上,圖書館引入經(jīng)過數(shù)據(jù)挖掘后的知識(shí)庫,重新構(gòu)建了PDA工作流程(見圖2):一是圖書館根據(jù)學(xué)校的專業(yè)設(shè)置、經(jīng)費(fèi)預(yù)算和館藏原則等情況,制定一系列采購標(biāo)準(zhǔn),如圖書的單價(jià)、種類及出版日期等,形成科學(xué)、合理的采購制度。二是書商提供MARC記錄,并與圖書館現(xiàn)有的館藏?cái)?shù)據(jù)進(jìn)行匹配,刪除冗余數(shù)據(jù),進(jìn)而與圖書館OPAC進(jìn)行有效對(duì)接。三是讀者登錄圖書館OPAC系統(tǒng)檢索文獻(xiàn),當(dāng)圖書館沒有需要的文獻(xiàn)時(shí),可選擇書商提供的檢索入口進(jìn)行檢索。四是PDA系統(tǒng)根據(jù)讀者的借閱歷史和檢索記錄,計(jì)算出讀者的閱讀興趣,向他們推薦感興趣的資源,由讀者決定是否薦購;當(dāng)讀者發(fā)出采購請(qǐng)求時(shí),PDA系統(tǒng)能自動(dòng)檢測(cè)推薦資源是否符合要求,在某種程度上盡量減少無意義薦購行為的發(fā)生。五是當(dāng)以上薦購信息滿足預(yù)設(shè)條件時(shí),可觸發(fā)購買命令的執(zhí)行,采編人員下單完成。
由工作流程圖可以看出,新的PDA系統(tǒng)加入了數(shù)據(jù)挖掘的功能,能獲取讀者的興趣偏好,判斷是否符合采購條件,進(jìn)而減少讀者的無意義薦購。新的PDA系統(tǒng)也能根據(jù)讀者的閱讀興趣向讀者推薦資源,提升讀者的使用體驗(yàn)。新的PDA系統(tǒng)還可根據(jù)實(shí)際反饋情況對(duì)設(shè)置的參數(shù)進(jìn)行調(diào)整,逐步提高讀者薦購系統(tǒng)的推薦效果。
4?結(jié)語
與傳統(tǒng)的圖書采購模式相比,PDA采購模式以讀者需求為驅(qū)動(dòng),能有效提升圖書利用率。因此,高校圖書館在看到PDA所帶來的效果的同時(shí),還應(yīng)該綜合考慮館藏特色及館藏多樣性,充分發(fā)揮傳統(tǒng)采購模式和PDA采購模式的優(yōu)勢(shì),從而使館藏資源建設(shè)更加科學(xué)化、合理化和特色化。
參考文獻(xiàn):
[1] 賈麗君.基于PDA的圖書資源采購云平臺(tái)構(gòu)建分析[J].圖書情報(bào)工作,2016(4):67-72.
[2] 唐吉深.我國讀者決策采購(PDA)研究述評(píng)[J].圖書館學(xué)研究,2015(2):22-28.
[3] 胡小菁.PDA:讀者決策采購[J].中國圖書館學(xué)報(bào),2011(2):50.
[4] 王芙蓉.大數(shù)據(jù)環(huán)境下基于讀者決策的圖書館文獻(xiàn)資源采購模型研究[J].圖書館學(xué)研究,2017(12):54-59.
[5]大數(shù)據(jù)[EB/OL].[2018-12-06].http://www.czs.gov.cn/tjj/tjzs/content_610979.html.
[6] 宋宇.基于數(shù)據(jù)挖掘的圖書采購模型研究[J].圖書館學(xué)研究,2014(17):53-55.
(編校:孫新梅)