王仁武 張文慧
摘 要:[目的/意義]學(xué)術(shù)用戶畫像是對(duì)用戶訪問(wèn)使用學(xué)術(shù)資源行為的較全面的刻畫。本文嘗試構(gòu)建圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽和研究興趣標(biāo)簽,來(lái)準(zhǔn)確定位學(xué)術(shù)用戶的信息需求,以便推薦合適的學(xué)術(shù)資源。[方法/過(guò)程]具體方法是全面獲取用戶的訪問(wèn)日志并進(jìn)行清洗處理,然后構(gòu)建從學(xué)術(shù)用戶信息行為出發(fā)的用戶畫像標(biāo)簽體系,進(jìn)一步研究構(gòu)建了基于研究興趣關(guān)聯(lián)的信息資源推薦服務(wù)。[結(jié)果/結(jié)論]本研究有助于提高用戶信息獲取效率,提高圖書館學(xué)術(shù)資源推薦服務(wù)的質(zhì)量,并為結(jié)合其它資源全面構(gòu)建圖書館學(xué)術(shù)用戶畫像提供一定的借鑒。
關(guān)鍵詞:用戶畫像;學(xué)術(shù)用戶;信息行為;研究興趣;標(biāo)簽體系
DOI:10.3969/j.issn.1008-0821.2019.09.006
〔中圖分類號(hào)〕G252.0 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)09-0054-10
Abstract:[Purpose/Significance]The academic user portrait is a more comprehensive characterization of the user's access to the library's academic resources.This paper attempted to construct information behavior and interest labeling for academic user portraits in libraries so that they can accurately locate the information needs of academic users and recommend appropriate academic resources.[Method/Process]Firstly,we fully accessed the user's access log and carried out the cleaning process.Then,we constructed a library academic user portrait tagging system based on the information behavior of academic users.Finally,we studied the information resource recommendation service based on user research interest.[Result/Conclusion]This study helped to improve the efficiency of user information acquisition and the quality of library academic resources recommendation services.It also provided some reference for the comprehensive construction of library academic user portraits in combination with other resources.
Key words:user portrait;academic user;information behavior;interests;labeling system
數(shù)據(jù)時(shí)代,信息和知識(shí)在經(jīng)濟(jì)與社會(huì)發(fā)展中發(fā)揮越來(lái)越重要的作用,有效獲取和利用信息資源成為信息時(shí)代個(gè)人、企業(yè)和國(guó)家發(fā)展最為重要的體現(xiàn)和保障。網(wǎng)絡(luò)信息已經(jīng)滲透到我們生活與學(xué)習(xí)的各個(gè)方面。根據(jù)美國(guó)科學(xué)基金會(huì)統(tǒng)計(jì),學(xué)術(shù)人員在進(jìn)行學(xué)術(shù)活動(dòng)的過(guò)程中花費(fèi)在資料收集上的時(shí)間占全部科研時(shí)間的51%[1],如果能夠提高學(xué)術(shù)人員的信息獲取能力,就能縮短資料的收集時(shí)間,提高科研效率,將有限的時(shí)間和精力用于創(chuàng)造性的研究中。
絕大多數(shù)的學(xué)術(shù)人員是來(lái)自高?;蚩蒲性核匝芯繛槁殬I(yè)的人員[2],對(duì)于他們而言,圖書館作為學(xué)術(shù)信息聚集的主要場(chǎng)所,是學(xué)術(shù)人員進(jìn)行資料收集的首選。我們把這一部分在圖書館進(jìn)行學(xué)術(shù)信息收集的學(xué)術(shù)人員稱之為圖書館學(xué)術(shù)用戶。因此,縮短學(xué)術(shù)人員資料的收集時(shí)間,提高學(xué)術(shù)人員的科研效率的關(guān)鍵就是提高圖書館學(xué)術(shù)用戶的信息收集獲取效率。為此,我們嘗試通過(guò)構(gòu)建圖書館學(xué)術(shù)用戶畫像來(lái)對(duì)這一部分用戶進(jìn)行精準(zhǔn)描述和定位,從而確定用戶的學(xué)術(shù)信息需求。
盡管已有用戶畫像的研究主要是基于用戶訪問(wèn)日志構(gòu)建的,但是由于學(xué)術(shù)用戶從事學(xué)術(shù)活動(dòng)的特殊性,不同于電商的消費(fèi)用戶,只能從網(wǎng)絡(luò)注冊(cè)、訪問(wèn)和消費(fèi)數(shù)據(jù)中獲得用戶畫像的信息。如要更準(zhǔn)確地構(gòu)建學(xué)術(shù)用戶畫像,最好能結(jié)合諸如用戶學(xué)術(shù)活動(dòng)等數(shù)據(jù),所以本文沒(méi)有直接稱作“學(xué)術(shù)用戶畫像的構(gòu)建與應(yīng)用”。本文用戶畫像的構(gòu)建研究的數(shù)據(jù)來(lái)源主要也是學(xué)術(shù)用戶訪問(wèn)圖書館學(xué)術(shù)資源的用戶日志,同時(shí)結(jié)合了用戶的專業(yè)身份信息,其它例如用戶的真實(shí)學(xué)術(shù)背景與學(xué)術(shù)活動(dòng)等信息則難以考慮。所以本文的研究主題定位在構(gòu)建學(xué)術(shù)用戶畫像的重要標(biāo)簽方面,主要是用戶的信息行為標(biāo)簽與研究興趣標(biāo)簽;全面的用戶畫像地構(gòu)建與應(yīng)用有待于進(jìn)一步的研究工作。
1 用戶畫像的相關(guān)研究
用戶畫像早期應(yīng)用于產(chǎn)品設(shè)計(jì)、市場(chǎng)營(yíng)銷領(lǐng)域。通過(guò)用戶調(diào)研、問(wèn)卷訪談等方法挖掘用戶訴求,勾畫目標(biāo)用戶畫像,使產(chǎn)品設(shè)計(jì)不脫離用戶和市場(chǎng)需求,進(jìn)而幫助企業(yè)實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)和市場(chǎng)營(yíng)銷。隨著大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù)的出現(xiàn),為用戶畫像研究帶來(lái)新的生機(jī)。在大數(shù)據(jù)環(huán)境下,研究者們通過(guò)數(shù)據(jù)挖掘、數(shù)據(jù)分析方法,從海量用戶行為數(shù)據(jù)中分析用戶基本屬性、社會(huì)屬性、行為習(xí)慣、興趣愛(ài)好等信息,提煉用戶個(gè)性化標(biāo)簽,進(jìn)而構(gòu)建更為精準(zhǔn)的用戶畫像。同時(shí),用戶畫像的應(yīng)用領(lǐng)域和應(yīng)用場(chǎng)景也不斷擴(kuò)展延伸,應(yīng)用領(lǐng)域從電子商務(wù)、社交網(wǎng)絡(luò)到圖書館服務(wù),應(yīng)用場(chǎng)景包括精準(zhǔn)營(yíng)銷、個(gè)性化推薦服務(wù)、異常行為檢測(cè)等。
用戶畫像在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域的研究與應(yīng)用已相對(duì)成熟,研究包括精準(zhǔn)營(yíng)銷、品牌建設(shè)、智能推薦、模型構(gòu)建、算法設(shè)計(jì)等方面。在精準(zhǔn)營(yíng)銷方面,劉海等[3]從營(yíng)銷的角度,以“用戶畫像”數(shù)據(jù)庫(kù)為基礎(chǔ),構(gòu)建精準(zhǔn)營(yíng)銷細(xì)分模型,重構(gòu)消費(fèi)者需求、準(zhǔn)確定位消費(fèi)群體,幫助企業(yè)實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。曾鴻等[4]采集分析微博相關(guān)數(shù)據(jù),構(gòu)建用戶畫像模型,全面掌握目標(biāo)客戶群體行為特征,為企業(yè)準(zhǔn)確制定營(yíng)銷方案、進(jìn)行品牌建設(shè)開(kāi)拓新思路。在智能推送方面,汪強(qiáng)兵等[5]分析用戶使用文獻(xiàn)閱讀系統(tǒng)時(shí)的手勢(shì)行為數(shù)據(jù)和對(duì)應(yīng)內(nèi)容,挖掘用戶閱讀興趣,構(gòu)建用戶畫像,從而進(jìn)行個(gè)性化信息推送。
在用戶畫像構(gòu)建方法方面,李冰等[6]探索一種基于大數(shù)據(jù)技術(shù)和K-means聚類算法的卷煙零售用戶特征畫像,進(jìn)而實(shí)現(xiàn)對(duì)零售用戶訂貨的智能推薦。姜建武等[7]通過(guò)構(gòu)建行為—主題—詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫像的信息本體提取方法,構(gòu)建用戶畫像,實(shí)現(xiàn)信息智能推送。此外,用戶畫像還被用于網(wǎng)絡(luò)安全、異常行為檢測(cè)中。朱佳俊等[8]采集行為數(shù)據(jù)構(gòu)建用戶畫像,并通過(guò)機(jī)器學(xué)習(xí)方法提取用戶行為特征,建立檢測(cè)模型,快速準(zhǔn)確地檢查出異常客戶。
近年來(lái),用戶畫像的應(yīng)用研究逐漸被引入圖書館領(lǐng)域,相比于國(guó)內(nèi)圖書館界引入用戶畫像時(shí)間短、研究淺的特點(diǎn),國(guó)外對(duì)圖書館用戶畫像研究已較為完善。國(guó)外圖書館用戶畫像研究主要從組成要素、模型構(gòu)建、應(yīng)用場(chǎng)景以及服務(wù)升級(jí)等4個(gè)方面展開(kāi)。Leung W T等[9]基于搜索引擎日志數(shù)據(jù),結(jié)合用戶畫像分析用戶正面和負(fù)面的興趣偏好,提出個(gè)性化查詢聚類方法。Shirude S B等[10]構(gòu)建用戶畫像,并通過(guò)歐幾里得距離,曼哈頓距離,閔可夫斯基距離,余弦距離等方法測(cè)量用戶畫像和圖書內(nèi)容之間的相似性,有助于圖書館推薦系統(tǒng)的開(kāi)發(fā)。Sharma D等[11]將內(nèi)容學(xué)習(xí)和協(xié)作學(xué)習(xí)相結(jié)合,構(gòu)建混合推薦系統(tǒng),基于用戶畫像和關(guān)聯(lián)用戶的相似度進(jìn)行推薦,為在線數(shù)字圖書館門戶提供完美的推薦順序。
國(guó)內(nèi)關(guān)于圖書館用戶畫像的研究主要應(yīng)用于圖書館服務(wù)內(nèi)容的創(chuàng)新和服務(wù)水平的提高,包括精準(zhǔn)服務(wù)、個(gè)性化服務(wù)、知識(shí)服務(wù)等。王慶等[12]構(gòu)建圖書館用戶畫像模型,設(shè)計(jì)了從單用戶和多用戶角度分別推薦館藏資源的模式,實(shí)現(xiàn)面向用戶的圖書館資源精準(zhǔn)推薦服務(wù)。王順箐[13]以讀者需求為核心,在數(shù)據(jù)采集的基礎(chǔ)上整合用戶畫像,構(gòu)建智慧閱讀推薦系統(tǒng),提高閱讀推廣的成功率。張鈞[14]基于讀者用戶畫像,構(gòu)建圖書館知識(shí)發(fā)現(xiàn)服務(wù)模型,實(shí)現(xiàn)圖書館服務(wù)的個(gè)性化、精準(zhǔn)化,提升圖書館知識(shí)服務(wù)體驗(yàn)。胡媛等[15]基于用戶畫像構(gòu)建數(shù)字圖書館知識(shí)社區(qū)關(guān)聯(lián)模型,建立綜合服務(wù)能力評(píng)價(jià)指標(biāo)體系,為數(shù)字圖書館社區(qū)用戶描述提供參考。韓梅花等[16]通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建用戶抑郁情感詞典,分析微博文本,計(jì)算抑郁情感指數(shù),獲得用戶畫像,智能推送閱讀治療資源,輔助抑郁癥治療。
綜上所述,圖書館用戶畫像已經(jīng)得到部分學(xué)者的關(guān)注,但是大多數(shù)文獻(xiàn)并沒(méi)有對(duì)圖書館用戶畫像進(jìn)行進(jìn)一步地細(xì)分。因此從畫像的標(biāo)簽中體現(xiàn)出來(lái)的用戶特征寬泛,沒(méi)有針對(duì)性。尤其是高校圖書館作為用戶進(jìn)行學(xué)術(shù)信息搜尋的主要場(chǎng)所,更加需要了解用戶學(xué)術(shù)信息的獲取行為與興趣愛(ài)好,從而更好地開(kāi)展學(xué)術(shù)資源推薦服務(wù)。本文希望在學(xué)術(shù)用戶畫像的一些重要標(biāo)簽構(gòu)建與應(yīng)用方面作些嘗試。
本文余下部分的結(jié)構(gòu)安排:第2部分介紹圖書館學(xué)術(shù)用戶的日志數(shù)據(jù)處理方法;第3部分介紹學(xué)術(shù)用戶畫像及其信息行為與研究興趣標(biāo)簽構(gòu)建;第4部分介紹用戶畫像的一個(gè)應(yīng)用場(chǎng)景,即基于學(xué)術(shù)用戶畫像關(guān)聯(lián)的學(xué)術(shù)資源推薦服務(wù);第5部分給出總結(jié)與展望。
2 圖書館用戶Web日志采集與處理
2.1 Web日志數(shù)據(jù)采集
1)數(shù)據(jù)來(lái)源。本文所涉及的用戶信息行為日志數(shù)據(jù)是依托于所在大學(xué)網(wǎng)絡(luò)中心與圖書館共同建設(shè)的Polyinfo圖書館電子資源分析優(yōu)化云系統(tǒng)中記錄的網(wǎng)內(nèi)用戶訪問(wèn)的網(wǎng)絡(luò)數(shù)據(jù)。由于大學(xué)用戶訪問(wèn)網(wǎng)絡(luò)資源數(shù)據(jù)量巨大,一般只能保存60天的數(shù)據(jù)。Polyinfo系統(tǒng)建設(shè)的目的就是從海量的用戶訪問(wèn)各類資源日志數(shù)據(jù)中抽取教師學(xué)生訪問(wèn)圖書館電子資源的日志數(shù)據(jù),以便長(zhǎng)期保存,以供進(jìn)一步分析利用。
2)采集方法。本文研究通過(guò)Python語(yǔ)言編寫爬蟲程序直接從Polyinfo系統(tǒng)中抓取用戶訪問(wèn)圖書館電子資源的日志數(shù)據(jù)。同時(shí)我們通過(guò)提交日志數(shù)據(jù)中每條記錄的IP地址和訪問(wèn)時(shí)間向?qū)W校用戶服務(wù)器請(qǐng)求用戶信息,根據(jù)訪問(wèn)時(shí)間和用戶IP字段從圖書館服務(wù)器接口獲取訪問(wèn)日志的用戶基本信息。盡管大學(xué)的用戶信息(教師和學(xué)生)是已知的,但考慮到用戶隱私保護(hù),學(xué)校信息管理部門只能提供脫敏的數(shù)據(jù),不會(huì)泄露用戶的真實(shí)身份。
3)數(shù)據(jù)樣本。部分日志數(shù)據(jù)以及根據(jù)日志數(shù)據(jù)請(qǐng)求獲取的部分用戶信息如圖1所示,圖1(a)是日志信息示例,圖1(b)是用戶信息示例。表1和表2分別是對(duì)日志數(shù)據(jù)和用戶數(shù)據(jù)字段內(nèi)容、實(shí)例的詳細(xì)說(shuō)明。
用戶日志數(shù)據(jù)中包含了11個(gè)字段,但是請(qǐng)求方向Direction、請(qǐng)求方式Action等字段并不是本文研究重點(diǎn);另外,用戶訪問(wèn)資源的平臺(tái)名稱Platform、網(wǎng)站名稱Website以及網(wǎng)站描述字段Domain內(nèi)容存在重疊,因此在數(shù)據(jù)處理時(shí)需要將這些無(wú)用或重復(fù)字段予以刪除。用戶信息數(shù)據(jù)包含8個(gè)字段,分別是用戶標(biāo)識(shí)User_id、性別Gender、年級(jí)Year、專業(yè)Major、學(xué)院Department、學(xué)歷Position、上/下線時(shí)間Add_time/drop_time。為了保護(hù)用戶的隱私對(duì)用戶標(biāo)識(shí)進(jìn)行了加密處理。
2.2 Web日志數(shù)據(jù)處理
1)數(shù)據(jù)標(biāo)引。數(shù)據(jù)標(biāo)引工作分為人工標(biāo)引和自動(dòng)標(biāo)引兩個(gè)階段進(jìn)行,人工標(biāo)引是對(duì)日志數(shù)據(jù)中用戶訪問(wèn)網(wǎng)址記錄的手動(dòng)標(biāo)記,執(zhí)行所有可能的用戶信息行為(檢索、瀏覽、下載等),并記錄相關(guān)網(wǎng)址及其對(duì)應(yīng)的頁(yè)面和操作,之后再對(duì)比平臺(tái)記錄的日志數(shù)據(jù)。通過(guò)數(shù)據(jù)標(biāo)引構(gòu)建“URL標(biāo)識(shí)—操作標(biāo)引詞”字典,使用Python編碼自定義數(shù)據(jù)標(biāo)引函數(shù),在日志數(shù)據(jù)中增加數(shù)據(jù)標(biāo)引屬性,對(duì)URL和Reference字段數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化標(biāo)引。
2)數(shù)據(jù)解析。數(shù)據(jù)解析可分兩個(gè)步驟進(jìn)行,第一步是分割URL網(wǎng)址,抽取路徑、路徑深度以及參數(shù)等數(shù)據(jù);第二步是從特定參數(shù)中提取用戶信息行為,包括:檢索詞、檢索數(shù)據(jù)庫(kù)、瀏覽文件名、下載文件名等。
3)研究數(shù)據(jù)。經(jīng)過(guò)數(shù)據(jù)處理之后,我們得到了以下要用來(lái)構(gòu)建用戶畫像的研究數(shù)據(jù)。圖2是完成數(shù)據(jù)處理之后要進(jìn)行研究的部分?jǐn)?shù)據(jù)。
研究數(shù)據(jù)一共包含11個(gè)字段:分別是用戶的基本信息數(shù)據(jù)(用戶ID、學(xué)院、專業(yè)、性別、學(xué)歷和年紀(jì))和信息行為數(shù)據(jù)(訪問(wèn)時(shí)間、訪問(wèn)數(shù)據(jù)庫(kù)名稱、訪問(wèn)數(shù)據(jù)庫(kù)類型、訪問(wèn)方式和訪問(wèn)內(nèi)容)。
選取的研究數(shù)據(jù)主要是信息管理與信息系統(tǒng)和圖書情報(bào)這兩個(gè)專業(yè),選取這兩個(gè)專業(yè)也是因?yàn)楹蛯W(xué)科研究相符合。同時(shí)接下來(lái)有關(guān)構(gòu)建圖書館學(xué)術(shù)用戶畫像的具體步驟和分析過(guò)程也將以這部分?jǐn)?shù)據(jù)作為示例。
3 學(xué)術(shù)用戶畫像及其信息行為與研究興趣標(biāo)簽構(gòu)建
3.1 學(xué)術(shù)用戶畫像及其重要標(biāo)簽體系
用戶畫像是從一系列數(shù)據(jù)、信息中高度概括提煉出來(lái)能體現(xiàn)用戶屬性特征,并將這些屬性特征組合起來(lái)形成的一個(gè)生動(dòng)立體的用戶模型[17]。根據(jù)用戶畫像的定義和本文的研究范圍,我們對(duì)圖書館學(xué)術(shù)用戶畫像的定義為:在數(shù)字環(huán)境下,從海量的圖書館用戶訪問(wèn)日志的行為數(shù)據(jù)中,通過(guò)分析挖掘、高度提煉出表現(xiàn)圖書館學(xué)術(shù)用戶特征的標(biāo)簽,通過(guò)標(biāo)簽組合形成實(shí)際用戶的虛擬形象。因此,圖書館學(xué)術(shù)用戶畫像是對(duì)具有特定學(xué)術(shù)信息需求的圖書館用戶的形式化的數(shù)據(jù)描述。
本文構(gòu)建圖書館學(xué)術(shù)用戶畫像的內(nèi)容如圖3所示,主要是對(duì)用戶日志中行為數(shù)據(jù)的分析來(lái)提取用戶畫像的重要標(biāo)簽。受制于數(shù)據(jù)源的限制,我們主要構(gòu)建的是圖書館學(xué)術(shù)用戶畫像中的兩大類重要標(biāo)簽,即學(xué)術(shù)用戶信息行為與學(xué)術(shù)用戶研究興趣標(biāo)簽。本文3.2、3.3兩節(jié)分別介紹這兩個(gè)標(biāo)簽的構(gòu)建過(guò)程。
圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽又可分為學(xué)術(shù)用戶的固定屬性標(biāo)簽、訪問(wèn)偏好標(biāo)簽,訪問(wèn)頻率標(biāo)簽與檢索習(xí)慣標(biāo)簽;而研究興趣標(biāo)簽主要與用戶的查詢主題有關(guān),本文界定為研究主題標(biāo)簽。其中,圖書館學(xué)術(shù)用戶的固定屬性標(biāo)簽是由圖書館學(xué)術(shù)用戶的基本信息直接得到的,盡管圖書館的用戶信息(教師和學(xué)生)是已知的,但考慮到用戶隱私保護(hù),學(xué)校信息管理部門只能提供脫敏的數(shù)據(jù),不會(huì)泄露用戶的真實(shí)身份;圖書館學(xué)術(shù)用戶的訪問(wèn)偏好標(biāo)簽,訪問(wèn)頻率標(biāo)簽和檢索習(xí)慣標(biāo)簽是通過(guò)對(duì)圖書館學(xué)術(shù)用戶訪問(wèn)日志中的和信息行為有關(guān)的數(shù)據(jù)分析得到的;最后是圖書館學(xué)術(shù)用戶的研究主題標(biāo)簽是通過(guò)對(duì)用戶訪問(wèn)日志中的檢索內(nèi)容分析得到的。
3.2 圖書館學(xué)術(shù)用戶畫像的信息行為標(biāo)簽構(gòu)建
3.2.1 構(gòu)建學(xué)術(shù)用戶訪問(wèn)偏好標(biāo)簽
學(xué)術(shù)用戶的訪問(wèn)偏好包括習(xí)慣使用的訪問(wèn)終端(使用電腦/手機(jī)、瀏覽器類型、操作系統(tǒng)類型等)、習(xí)慣使用的學(xué)術(shù)引擎(某類學(xué)術(shù)數(shù)據(jù)庫(kù)、百度學(xué)術(shù)、谷歌學(xué)術(shù)、資源發(fā)現(xiàn)系統(tǒng)等)、常用的學(xué)術(shù)數(shù)據(jù)庫(kù)、訪問(wèn)時(shí)間偏好等。根據(jù)圖書館用戶對(duì)學(xué)術(shù)信息的訪問(wèn)行為,通過(guò)統(tǒng)計(jì)學(xué)術(shù)用戶對(duì)每一種數(shù)據(jù)庫(kù)的訪問(wèn)次數(shù)和1天當(dāng)中每個(gè)時(shí)間點(diǎn)的訪問(wèn)次數(shù)來(lái)確定學(xué)術(shù)用戶對(duì)數(shù)據(jù)庫(kù)和訪問(wèn)時(shí)間的偏好選擇。圖4和圖5分別是從整體上來(lái)看數(shù)據(jù)庫(kù)種類和訪問(wèn)時(shí)間上用戶訪問(wèn)偏好的整體情況。
圖5中,淺灰色線條是工作日訪問(wèn)時(shí)間分布的總和,深灰色線條是休息日時(shí)間分布的總和,可以看出,除了數(shù)量上的減少之外,兩條線條之間走勢(shì)相同。圖書館學(xué)術(shù)數(shù)據(jù)庫(kù)會(huì)在上午10點(diǎn)、下午2點(diǎn)以及晚上8點(diǎn)左右迎來(lái)訪問(wèn)量的高峰,這也是由于圖書館學(xué)術(shù)用戶的科研時(shí)間習(xí)慣形成的。
3.2.2 構(gòu)建學(xué)術(shù)用戶檢索習(xí)慣標(biāo)簽
一般來(lái)說(shuō),用戶在訪問(wèn)圖書館的時(shí)候常用的檢索方式有普通檢索,高級(jí)檢索和專業(yè)檢索。這3種檢索方式所對(duì)應(yīng)的適用情況也不同:根據(jù)圖書館用戶在檢索中使用的檢索方式再結(jié)合檢索詞的長(zhǎng)度,可以將用戶分為任務(wù)向?qū)蜋z索用戶,研究探索型檢索用戶和技巧依賴型檢索用戶。
任務(wù)向?qū)蜋z索用戶指的是圖書館用戶在進(jìn)行學(xué)術(shù)檢索的時(shí)候,其檢索任務(wù)是否明確。當(dāng)用戶的檢索任務(wù)明確的時(shí)候,則表示用戶掌握了目標(biāo)文獻(xiàn)的外部信息,可以通過(guò)直接檢索文章的標(biāo)題來(lái)獲取所需要的信息。而當(dāng)用戶的檢索任務(wù)不明確的時(shí)候,用戶則無(wú)法使用這種,模式進(jìn)行檢索。因此,長(zhǎng)標(biāo)題和普通檢索結(jié)合的檢索模式可以在一定程度上反映用戶檢索任務(wù)導(dǎo)向性的強(qiáng)弱。
當(dāng)用戶的檢索任務(wù)不明確的時(shí)候,我們可以將其定義為研究探索型檢索。研究探索性與用戶的學(xué)術(shù)素養(yǎng)密切相關(guān),如果用戶學(xué)術(shù)素養(yǎng)高,則對(duì)檢索學(xué)科領(lǐng)域的熟悉程度,以及用戶研究任務(wù)的學(xué)術(shù)深度均較高,由于用戶需要對(duì)學(xué)科領(lǐng)域進(jìn)行較深層的回顧和分析,因此會(huì)通過(guò)大量瀏覽文獻(xiàn)的方式對(duì)領(lǐng)域內(nèi)的研究現(xiàn)狀和發(fā)展態(tài)勢(shì)進(jìn)行探索和分析。具體表現(xiàn)在使用普通檢索方式,并且輸入的多數(shù)為短字符檢索詞。同樣地,當(dāng)用戶學(xué)術(shù)素養(yǎng)不高的時(shí)候,因此無(wú)法準(zhǔn)確把握自己的檢索需求,所以會(huì)通過(guò)大量短小的檢索詞來(lái)大量的瀏覽文獻(xiàn)從而確定自己的研究主題。所以,這里我們只是將用戶定義研究探索型檢索用戶,而無(wú)法衡量研究探索能力的大小。
第三種類型就是技巧依賴型檢索用戶,技巧依賴型與用戶的信息素養(yǎng)密切相關(guān),代表了圖書館用戶對(duì)使用計(jì)算機(jī)進(jìn)行在線檢索的技巧的熟悉程度和意識(shí)強(qiáng)弱。在檢索策略上主要表現(xiàn)為用戶使用邏輯檢索或者專業(yè)檢索等高級(jí)檢索的傾向性。
圖6是某用戶在某月的檢索詞長(zhǎng)度分布圖,以檢索詞是否超過(guò)10個(gè)字作為長(zhǎng)檢索詞和短檢索詞之間的分界線,來(lái)看一下該用戶更偏向于哪種長(zhǎng)度的檢索詞。
從圖6中可以看出該用戶長(zhǎng)檢索詞的統(tǒng)計(jì)總量多余短檢索詞的總量,字?jǐn)?shù)在10個(gè)字以上的長(zhǎng)檢索詞的比重依然很大。這說(shuō)明該圖書館用戶在大部分檢索的過(guò)程中是知道自己檢索文章的標(biāo)題信息。因此該用戶判定為任務(wù)向?qū)蜋z索用戶。
3.2.3 構(gòu)建學(xué)術(shù)用戶訪問(wèn)頻率標(biāo)簽
從圖書館學(xué)術(shù)用戶產(chǎn)生學(xué)術(shù)活動(dòng)時(shí)間的不確定性來(lái)看,如果只是單純計(jì)算學(xué)術(shù)用戶訪問(wèn)的時(shí)長(zhǎng)可能會(huì)忽略掉一些產(chǎn)生突發(fā)性學(xué)術(shù)活動(dòng)的圖書館用戶。因此,我們?cè)诤饬繄D書館學(xué)術(shù)用戶的活躍度的時(shí)候,要從用戶訪問(wèn)的平均時(shí)長(zhǎng)來(lái)確定。由于,我們選擇的是用戶訪問(wèn)數(shù)據(jù)庫(kù)的數(shù)據(jù),因此用戶訪問(wèn)的平均時(shí)長(zhǎng)可用來(lái)表示圖書館學(xué)術(shù)用戶的活躍度,而不必再單另計(jì)算用戶訪問(wèn)數(shù)據(jù)庫(kù)的次數(shù)了。
基于上面的表述,我們把用戶分為持久性活躍用戶、突發(fā)性活躍用戶以及低活躍性用戶。
1)持久性活躍學(xué)術(shù)用戶:學(xué)術(shù)用戶的活動(dòng)天數(shù)呈現(xiàn)均勻分布,并且每天都能保持一定時(shí)長(zhǎng)的數(shù)據(jù)庫(kù)訪問(wèn)。
2)突發(fā)性活躍學(xué)術(shù)用戶:學(xué)術(shù)用戶的活躍天數(shù)呈現(xiàn)離散分布,同時(shí)每天的訪問(wèn)時(shí)長(zhǎng)呈現(xiàn)波峰波谷狀。
3)低活躍性學(xué)術(shù)用戶:學(xué)術(shù)用戶的活躍天數(shù)呈現(xiàn)離散或者均勻分布,但是每天的數(shù)據(jù)庫(kù)訪問(wèn)時(shí)長(zhǎng)很低。
如圖7所示,圖書館某學(xué)術(shù)用戶在某月份的數(shù)據(jù)庫(kù)訪問(wèn)的時(shí)長(zhǎng)的時(shí)間變化曲線。從圖7可以看出某用戶在那個(gè)月份的訪問(wèn)時(shí)長(zhǎng)有明顯的波峰和波谷,而且從時(shí)間分布上看,該用戶在4月當(dāng)中只有7天訪問(wèn)了數(shù)據(jù)庫(kù)。這樣的曲線分布離散且不均勻,但因?yàn)橛忻黠@的波峰,因此,判定該用戶為突發(fā)性活躍學(xué)術(shù)用戶。
3.3 圖書館學(xué)術(shù)用戶畫像的研究興趣標(biāo)簽構(gòu)建
通過(guò)觀察研究數(shù)據(jù),我們發(fā)現(xiàn)圖書館用戶在輸入檢索詞時(shí),往往是不準(zhǔn)確而且有歧義的,如果從用戶檢索詞為基礎(chǔ)來(lái)分析用戶的研究興趣,會(huì)使得分析的結(jié)果缺乏專業(yè)性和準(zhǔn)確性。因此,我們提取的是用戶下載文獻(xiàn)的關(guān)鍵詞,通過(guò)統(tǒng)計(jì)分析文獻(xiàn)的關(guān)鍵詞來(lái)確定用戶的研究興趣。在確定圖書館用戶研究興趣標(biāo)簽的過(guò)程中可以從兩個(gè)方面來(lái)對(duì)圖書館用戶的研究興趣進(jìn)行描述:分別是單主題研究興趣和多主題研究興趣。所謂的單主題研究就是,圖書館用戶在一段時(shí)間之內(nèi),最常檢索的關(guān)鍵詞,在這里我們使用高頻關(guān)鍵詞來(lái)表示圖書館用戶的單主題研究興趣。同時(shí),圖書館用戶在一段時(shí)間之內(nèi)并不一定只檢索1個(gè)主題的文獻(xiàn)。那么當(dāng)用戶有不同的研究興趣的時(shí)候,這時(shí)候我們就可以為用戶打上多主題研究興趣的標(biāo)簽。
從圖8可以看出,某用戶在檢索過(guò)程中產(chǎn)生的關(guān)鍵詞的最高頻率不到10%,甚至連6%都無(wú)法到達(dá)。因此該用戶的研究主題不能用高頻詞來(lái)衡量,用戶的研究主題類型不是單主題研究興趣。
從圖9可以看出,通過(guò)模塊化聚類算法Louvain算法對(duì)關(guān)鍵詞之間的共現(xiàn)次數(shù)進(jìn)行模塊化計(jì)算之后,用戶的研究主題呈現(xiàn)出了明顯的聚類。
圖中明顯地將用戶的檢索關(guān)鍵詞分為4大類:“用戶行為”、“信息行為”、“MBA”和“MBA教育中心”。從“MBA”研究主題中可以看出,其研究的方向偏向于MBA案例實(shí)際操作;而“MBA教育中心”則和各個(gè)高校緊密結(jié)合。從聚類的結(jié)果來(lái)看是比較符合用戶的學(xué)術(shù)認(rèn)知,因此該圖書館學(xué)術(shù)用戶我們將其判定為多主題研究用戶。
4 學(xué)術(shù)用戶畫像的應(yīng)用探索
本章將利用第三部分的兩大類標(biāo)簽構(gòu)建的學(xué)術(shù)用戶畫像來(lái)做一下應(yīng)用探索。首先構(gòu)建用戶畫像實(shí)例,然后探索使用學(xué)術(shù)用戶畫像實(shí)現(xiàn)學(xué)術(shù)資源的推薦服務(wù)。
4.1 學(xué)術(shù)用戶畫像的構(gòu)建實(shí)例
根據(jù)上文中對(duì)信息行為數(shù)據(jù)分析得到用戶標(biāo)簽再加上用戶本身的基本信息標(biāo)簽,就形成了的圖書館學(xué)術(shù)用戶畫像的標(biāo)簽體系。以某用戶為例,其最終的某圖書館學(xué)術(shù)用戶畫像如圖10所示。
同樣,我們可以為每一個(gè)學(xué)術(shù)用戶構(gòu)建類似上面的用戶畫像,可以通過(guò)用戶畫像了解每一個(gè)學(xué)術(shù)用戶的基本信息和學(xué)術(shù)興趣,而且可以在系統(tǒng)的運(yùn)行過(guò)程中不斷地完善補(bǔ)充,動(dòng)態(tài)更新。有了這些詳盡信息,學(xué)術(shù)圖書館就可以據(jù)此研究提升自身的管理和服務(wù)水平。
4.2 基于學(xué)術(shù)用戶畫像的學(xué)術(shù)資源推薦服務(wù)
常見(jiàn)的學(xué)術(shù)資源推薦服務(wù)大多基于個(gè)人的瀏覽和檢索興趣,從數(shù)據(jù)庫(kù)當(dāng)中匹配相關(guān)的信息,然后進(jìn)行推送[18];或者如同傳統(tǒng)電商常用的基于協(xié)同過(guò)濾的方法實(shí)現(xiàn)個(gè)性化推薦服務(wù)。然而此類方法推薦的資源,不一定是用戶需要的,因?yàn)閷?duì)用戶的信息與需求了解不夠全面、系統(tǒng)。所以,圖書館需要提高的是如何讓推薦的學(xué)術(shù)資源更加符合用戶的需求。用戶畫像可以在這方面發(fā)揮作用,而新一代電商個(gè)性化推薦服務(wù)的核心功能也正是用戶畫像。
使用用戶畫像進(jìn)行學(xué)術(shù)資源推薦的最直接方式,就是利用完整、全面的標(biāo)簽體系,在用戶需要的時(shí)間,根據(jù)用戶的研究興趣進(jìn)行針對(duì)性的推薦。這種服務(wù)方式,既可以在用戶畫像系統(tǒng)中實(shí)現(xiàn),即利用電子郵件的方式,將新的與其最近研究興趣有關(guān)的學(xué)術(shù)文獻(xiàn)推送給該用戶;也可在學(xué)術(shù)資源服務(wù)系統(tǒng)中實(shí)現(xiàn),即在學(xué)術(shù)資源服務(wù)系統(tǒng)中融合用戶畫像系統(tǒng),在用戶查詢學(xué)術(shù)資源時(shí),利用動(dòng)態(tài)構(gòu)建的用戶畫像獲得用戶的研究興趣,實(shí)時(shí)地為用戶推薦與該研究興趣相關(guān)的學(xué)術(shù)資源。
使用用戶畫像進(jìn)行學(xué)術(shù)資源推薦的另一種方式可以通過(guò)相同或者相似的研究主題進(jìn)行關(guān)聯(lián)。當(dāng)兩個(gè)用戶之間通過(guò)研究主題產(chǎn)生關(guān)聯(lián)的時(shí)候,我們可以通過(guò)比較用戶的訪問(wèn)頻率和檢索習(xí)慣這兩個(gè)標(biāo)簽,來(lái)進(jìn)行學(xué)術(shù)信息的傳遞,也就是說(shuō)可以將訪問(wèn)頻率高活躍的用戶,以及檢索習(xí)慣中任務(wù)向?qū)蜋z索用戶和技巧依賴型檢索用戶的檢索方式、訪問(wèn)數(shù)據(jù)庫(kù)以及下載的學(xué)術(shù)文獻(xiàn)推薦給關(guān)聯(lián)的其他學(xué)術(shù)用戶。如此一來(lái)的話,學(xué)術(shù)圖書館在向用戶推薦學(xué)術(shù)資源的時(shí)候就不僅僅是簡(jiǎn)單的匹配學(xué)術(shù)資源數(shù)據(jù)庫(kù),而是通過(guò)學(xué)術(shù)用戶畫像標(biāo)簽的比較,選擇標(biāo)簽質(zhì)量高的用戶的學(xué)術(shù)資源進(jìn)行推薦。基于推薦學(xué)術(shù)資源已經(jīng)被相關(guān)用戶利用,那么它被新的學(xué)術(shù)用戶利用的可能性也會(huì)加大。如圖11所示,是圖書館學(xué)術(shù)用戶畫像關(guān)聯(lián)推薦的應(yīng)用模型:
5 總結(jié)與展望
本文通過(guò)從高校海量的網(wǎng)絡(luò)資源訪問(wèn)日志中抽取用戶對(duì)圖書館學(xué)術(shù)資源的訪問(wèn)記錄,以及通過(guò)訪問(wèn)記錄中的IP地址與時(shí)間信息獲取經(jīng)過(guò)脫敏的學(xué)術(shù)用戶信息的深入加工與詳盡分析,詳細(xì)構(gòu)建了學(xué)術(shù)用戶的信息行為標(biāo)簽和研究興趣標(biāo)簽這兩大類標(biāo)簽體系,并探索研究將其用于用戶的學(xué)術(shù)資源推薦服務(wù)。實(shí)現(xiàn)了從第一手的用戶訪問(wèn)日志的處理到圖書館學(xué)術(shù)用戶畫像構(gòu)建及其應(yīng)用的全過(guò)程。
目前,本文研究的學(xué)術(shù)用戶的使用日志還需不斷積累,分析與應(yīng)用的角度還需擴(kuò)展,以便更好更全面地研究學(xué)術(shù)用戶畫像,方便圖書館為學(xué)術(shù)用戶提供更好的服務(wù)。
參考文獻(xiàn)
[1]文庭孝,劉曉英.基于引文分析的我國(guó)研究者信息獲取能力評(píng)價(jià)研究[J].圖書與情報(bào),2011,(6):21-25.
[2]黃傳慧,孫雨生,明均仁,等.情景化用戶偏好引導(dǎo)下用戶學(xué)術(shù)信息行為研究[J].圖書館工作與研究,2015,1(2):36-39.
[3]劉海,盧慧,阮金花,等.基于"用戶畫像"挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J].絲綢,2015,52(12):37-42.
[4]曾鴻,吳蘇倪.基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營(yíng)銷[J].現(xiàn)代經(jīng)濟(jì)信息,2016,(16):306-308.
[5]汪強(qiáng)兵,章成志.融合內(nèi)容與用戶手勢(shì)行為的用戶畫像構(gòu)建系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(2):80-86.
[6]李冰,王悅,劉永祥.大數(shù)據(jù)環(huán)境下基于K-means的用戶畫像與智能推薦的應(yīng)用[J].現(xiàn)代計(jì)算機(jī),2016,(24):11-15.
[7]姜建武,李景文,陸妍玲,等.基于用戶畫像的信息智能推送方法[J].微型機(jī)與應(yīng)用,2016,35(23):86-89.
[8]朱佳俊,陳功,施勇,等.基于用戶畫像的異常行為檢測(cè)[J].通信技術(shù),2017,50(10):2310-2315.
[9]Leung W T,Lee D L.Deriving Concept-Based User Profiles from Search Engine Logs[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(7):969-982.
[10]Shirude S B,Kolhe S R.Measuring Similarity Between User Profile and Library Book[C]//International Conference on Information Systems and Computer Networks.IEEE,2014:50-54.
[11]Sharma D,Kaur S,Diksha.Neural Network Classification for user Profile Learning Over Digital Library Recommendation Engine[J].Indian Journal of Science & Technology,2016,9(33).
[12]王慶,趙發(fā)珍.基于“用戶畫像”的圖書館資源推薦模式設(shè)計(jì)與分析[J].現(xiàn)代情報(bào),2018,38(3):105-109,137.
[13]王順箐.以用戶畫像構(gòu)建智慧閱讀推薦系統(tǒng)[J].圖書館學(xué)研究,2018,(4):92-96.
[14]張鈞.基于用戶畫像的圖書館知識(shí)發(fā)現(xiàn)服務(wù)研究[J].圖書與情報(bào),2017,(6):60-63.
[15]胡媛,毛寧.基于用戶畫像的數(shù)字圖書館知識(shí)社區(qū)用戶模型構(gòu)建[J].圖書館理論與實(shí)踐,2017,(4):82-85.
[16]韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——以抑郁癥為例[J].大學(xué)圖書館學(xué)報(bào),2017,35(6):105-110.
[17]Cooper A.The Inmates Are Running the Asylum:Why High Tech Products Drive Us Crazy and How to Restore the Sanity(2nd Edition)[M].Pearson Higher Education,2004.
[18]李默,梁永全.高校圖書館學(xué)術(shù)資源推薦策略及系統(tǒng)架構(gòu)研究[J].圖書館學(xué)研究,2015,(14):57-62.
(責(zé)任編輯:陳 媛)