曾子明 孫守強(qiáng)
摘?? 要:將用戶畫像嵌入智慧圖書館的移動(dòng)視覺搜索及推薦服務(wù)中,將解決信息過載且存在語(yǔ)義鴻溝、檢索結(jié)果不能滿足讀者的個(gè)性化需求等問題。文章述評(píng)了智慧圖書館移動(dòng)視覺搜索和用戶畫像相關(guān)研究,探索了用戶畫像在智慧圖書館移動(dòng)視覺搜索及推薦服務(wù)中的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、畫像建模和效果評(píng)估等實(shí)現(xiàn)過程,搭建了智慧圖書館個(gè)性化移動(dòng)視覺搜索及推薦服務(wù)模型,探討了模型的數(shù)據(jù)獲取、資源整合、數(shù)據(jù)處理、智慧服務(wù)等各層次功能,分析了涉及的用戶隱私保護(hù)、用戶畫像動(dòng)態(tài)變化、服務(wù)性能優(yōu)化等關(guān)鍵問題。
關(guān)鍵詞:智慧圖書館;移動(dòng)視覺搜索;用戶畫像;個(gè)性化推薦
中圖分類號(hào):G252.7?? 文獻(xiàn)標(biāo)識(shí)碼:A?? DOI:10.11968/tsyqb.1003-6938.2020066
Research on Personalized Mobile Visual Search of Smart Library Based on User Portrait
Abstract Embedding user's portrait in smart library's mobile visual search service can solve the information overload and the semantic gap problem, and meet the personal needs of the readers. The paper made a review of the related research of mobile library visual search and user portrait, explored the realization process of user portrait in data collection、data preprocessing、modeling and effect evaluation of smart library mobile visual search and recommendation service, constructed personalized mobile visual search and recommendation service model, probed different function of the model in data collection, resources integration, data processing, and smart service, and analyzed some key problems such as privacy protection, dynamic changes of the portrait, and optimization of service.
Key words smart library; mobile visual search; user portrait; personalized recommendation
大數(shù)據(jù)時(shí)代,圖書館數(shù)字資源變得異常龐大,傳統(tǒng)的知識(shí)檢索方式,難以滿足移動(dòng)網(wǎng)絡(luò)環(huán)境下用戶對(duì)知識(shí)的多元化、個(gè)性化檢索需求。相比于傳統(tǒng)數(shù)字圖書館,智慧圖書館以用戶為中心,提供精準(zhǔn)的知識(shí)搜索及個(gè)性化推薦服務(wù),從海量館藏資源中為用戶提供檢索并根據(jù)檢索信息推薦用戶感興趣的知識(shí)。移動(dòng)視覺搜索(Mobile visual search,MVS)滿足讀者的多元化、敏捷化的知識(shí)檢索需求,而推薦系統(tǒng)則為讀者提供精準(zhǔn)化、個(gè)性化知識(shí)推薦服務(wù)。兩者的結(jié)合,充分發(fā)揮智慧圖書館智慧化服務(wù)能力,增強(qiáng)用戶體驗(yàn)。
雖然不同用戶檢索相同的視覺對(duì)象,但用戶所期望檢索的結(jié)果卻是因人而異、因情而異的。通過采集用戶注冊(cè)信息、訪問日志、檢索查詢及其行為特征數(shù)據(jù)等,融合讀者情景信息,構(gòu)建精準(zhǔn)全面的用戶畫像,然后根據(jù)用戶輸入的關(guān)鍵詞、主題及用于檢索的視覺對(duì)象特征,結(jié)合用戶畫像,挖掘讀者檢索意圖并將檢索結(jié)果按其知識(shí)偏好進(jìn)行有序排列,可提高讀者的檢索效率和準(zhǔn)確性。智慧圖書館個(gè)性化推薦服務(wù),可通過記錄用戶檢索瀏覽的知識(shí)內(nèi)容、下載閱讀、添加收藏、檢索次數(shù)、閱讀時(shí)間、點(diǎn)擊量、閱讀后的評(píng)論咨詢等數(shù)據(jù),共同構(gòu)成用戶畫像的基礎(chǔ)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、分類、挖掘、融合等處理,結(jié)合推薦算法為讀者提供個(gè)性化知識(shí)推薦。當(dāng)前推薦系統(tǒng)主要包括協(xié)同過濾推薦、人口統(tǒng)計(jì)推薦、基于內(nèi)容的推薦、基于知識(shí)的推薦、基于社區(qū)的推薦和混合推薦系統(tǒng)[1]。除此之外,可采用深度學(xué)習(xí)進(jìn)行知識(shí)推薦,即通過對(duì)用戶行為特征和物品特征數(shù)據(jù)進(jìn)行迭代學(xué)習(xí),挖掘用戶與物品之間的關(guān)聯(lián),從而提高推薦的準(zhǔn)確性[2]。本文在分析智慧圖書館MVS和用戶畫像的相關(guān)研究基礎(chǔ)上,針對(duì)當(dāng)前大數(shù)據(jù)時(shí)代移動(dòng)視覺搜索存在語(yǔ)義鴻溝、呈現(xiàn)結(jié)果存在信息過載、沒有突出特點(diǎn)、未考慮用戶個(gè)性化需求等不足,構(gòu)建面向讀者的精準(zhǔn)用戶畫像,將其融入智慧圖書館個(gè)性化MVS及推薦服務(wù),并分析各環(huán)節(jié)實(shí)現(xiàn)流程,深入探討其中關(guān)鍵問題與對(duì)策,以提升智慧圖書館檢索服務(wù)質(zhì)量。
1?? 相關(guān)研究
1.1??? 智慧圖書館MVS
人工智能高速發(fā)展,圖書館知識(shí)服務(wù)已經(jīng)不是傳統(tǒng)的單一借閱模式,而是向以讀者為中心的智慧型綜合服務(wù)模式轉(zhuǎn)變。智慧圖書館以智能技術(shù)為基礎(chǔ),實(shí)現(xiàn)書書互聯(lián)、書人互聯(lián)、人人互聯(lián),以人為本,并提供智能、高效和便捷的知識(shí)服務(wù),是未來(lái)圖書館發(fā)展的新模式[3]。MVS概念是由B. Girod在第一屆移動(dòng)視覺搜索研討會(huì)上提出的。智慧圖書館MVS能夠以讀者為中心,滿足讀者多元化的知識(shí)檢索需求。國(guó)外針對(duì)MVS技術(shù)的研究起步較早,國(guó)內(nèi)相對(duì)滯后,但許多學(xué)者已積極投入相關(guān)領(lǐng)域的創(chuàng)新研究。如張興旺和李晨暉[4]探討MVS發(fā)展過程,分析數(shù)字圖書館MVS機(jī)制的內(nèi)涵、分類與架構(gòu)設(shè)計(jì),建議從移動(dòng)環(huán)境軟硬件資源局限性、用戶需求多樣性、移動(dòng)用戶體驗(yàn)質(zhì)量、互操作性、協(xié)同管理等方面建設(shè)數(shù)字圖書館MVS機(jī)制;同時(shí),根據(jù)數(shù)字圖書館MVS引擎的領(lǐng)域依賴性,通過模塊化設(shè)計(jì)思想分析其業(yè)務(wù)流程,提出一種領(lǐng)域?qū)虻?、自適應(yīng)的、可演化的數(shù)字圖書館MVS引擎[5];曾子明和秦思琪[6]分析了圖書館MVS的研究現(xiàn)狀,從讀者、知識(shí)、情境和服務(wù)等進(jìn)行需求分析,構(gòu)建智慧圖書館MVS服務(wù)模型,指出ROI定位、語(yǔ)義鴻溝和情境融合等問題,并搭建智慧圖書館MVS技術(shù)框架,為相關(guān)領(lǐng)域研究提供參考;韓璽等[7]認(rèn)為MVS服務(wù)能有效促進(jìn)圖書館各種資源開發(fā)利用,并分析圖書館MVS資源聚合的需求,結(jié)合數(shù)字資源多維度聚合和語(yǔ)義關(guān)聯(lián)等理論,構(gòu)建基于語(yǔ)義關(guān)聯(lián)的圖書館MVS資源多維度聚合模型,并闡述其實(shí)現(xiàn)流程;又將情景感知融入圖書館移動(dòng)視覺搜索服務(wù),并從數(shù)字人文和電子圖書MVS服務(wù)的應(yīng)用進(jìn)行舉例分析[8];張亭亭等[9]提出通過眾包模式獲取大規(guī)模視覺資源,該創(chuàng)新模式的提出對(duì)促進(jìn)圖書館移動(dòng)視覺資源庫(kù)的建設(shè)有重要意義。
智慧圖書館是圖書館的創(chuàng)新變革,融合科學(xué)技術(shù),結(jié)合現(xiàn)代化管理模式,無(wú)縫地融入讀者學(xué)習(xí)和生活的方方面面。隨著智能移動(dòng)設(shè)備的普及,MVS已成為讀者青睞的信息檢索方式。智慧圖書館MVS可以理解為:首先通過智能移動(dòng)終端設(shè)備獲取視覺資源(如圖片、視頻);其次,把獲取的視覺資源作為檢索對(duì)象并通過移動(dòng)互聯(lián)網(wǎng)進(jìn)行傳輸;最后,提取視覺檢索對(duì)象的特征并分析處理,將從圖書館海量資源中提取關(guān)聯(lián)匹配的知識(shí)內(nèi)容以可視化的形式呈現(xiàn)給用戶。智慧圖書館MVS豐富了讀者的知識(shí)檢索方式,使知識(shí)的獲取更加方便快捷,同時(shí)增強(qiáng)讀者對(duì)知識(shí)獲取的主動(dòng)性。目前的研究集中于對(duì)圖書館MVS服務(wù)模型的創(chuàng)新和視覺資源的組織管理,注重于檢索結(jié)果的多而全,較少涉及如何更好地感知和理解用戶檢索意圖和知識(shí)偏好,降低語(yǔ)義鴻溝,以提供個(gè)性化的MVS服務(wù),使檢索結(jié)果對(duì)不同個(gè)體都更具實(shí)際價(jià)值。
1.2??? 用戶畫像
近年來(lái)用戶畫像成為學(xué)界和業(yè)界研究的熱點(diǎn)。在學(xué)界,相對(duì)于國(guó)外,我國(guó)在用戶畫像方面的研究相對(duì)滯后。用戶畫像的提出者交互設(shè)計(jì)之父Alan Cooper[10]認(rèn)為它是對(duì)真實(shí)用戶數(shù)據(jù)的虛擬角色描述。陳添源[11]認(rèn)為用戶畫像是指在特定產(chǎn)品使用情境下,借助抽樣問卷調(diào)研或者大數(shù)據(jù)技術(shù)抽取用戶的人口統(tǒng)計(jì)屬性、行為習(xí)慣、消費(fèi)心理和社交特征等多維度數(shù)據(jù),利用數(shù)據(jù)挖掘模型構(gòu)建與用戶畫像相關(guān)的標(biāo)簽內(nèi)容,從而精準(zhǔn)描述差異化群體特征的一種分析方法;D.Travis[12]指出用戶畫像應(yīng)滿足P(Primary research,基本性)、E(Empathy,移情性)、R(Realistic,真實(shí)性)、S(Singular,獨(dú)特性)、O(Objectives,目標(biāo)性)、N(Number,數(shù)量性)、A(Applicable,應(yīng)用性)等7個(gè)基本條件;余孟杰[13]認(rèn)為用戶畫像是大數(shù)據(jù)環(huán)境下對(duì)用戶進(jìn)行標(biāo)簽化的方法;劉海鷗等[14]采用文獻(xiàn)分析方法對(duì)國(guó)內(nèi)外用戶畫像研究進(jìn)行分析,從概念界定、構(gòu)成要素、模型與方法等維度細(xì)致梳理用戶畫像最新研究成果,結(jié)合國(guó)外研究提出我國(guó)在用戶畫像研究的方向和啟示;并將用戶畫像用于圖書館[15]和旅游[16]情景化推薦服務(wù)中;何娟[17]根據(jù)個(gè)人和群體畫像,挖掘用戶閱讀偏好以推薦圖書,并通過調(diào)查問卷得到評(píng)價(jià)結(jié)果在基本滿意之上的讀者占比為86%;程全[18]討論基于用戶畫像的數(shù)字圖書館信息服務(wù)模式研究的必要性,提出了挖掘隱性語(yǔ)義模型、拓展圖書館信息服務(wù)內(nèi)容、監(jiān)控動(dòng)態(tài)知識(shí)流動(dòng)軌跡等完善路徑。
在業(yè)界,用戶畫像被應(yīng)用于搜索引擎??萍嫉倪M(jìn)步,推動(dòng)物聯(lián)網(wǎng)和網(wǎng)絡(luò)設(shè)備技術(shù)水平提升,移動(dòng)終端設(shè)備得到極速普及。大數(shù)據(jù)無(wú)處不在,如何從海量數(shù)據(jù)中獲取有用有價(jià)值信息成為重要的研究方向。搜索引擎是一種幫助人們從海量信息中獲取期望內(nèi)容的篩選工具。泛信息時(shí)代,信息量過載的問題越來(lái)越嚴(yán)重,搜索引擎提取的信息存在大量冗余而且沒有條理,需要人為的多次篩選。通過采集用戶基本信息、檢索記錄、查詢及閱讀瀏覽記錄等,構(gòu)建用戶畫像,從而提供個(gè)性化、精準(zhǔn)化搜索服務(wù)。根據(jù)輸入的檢索關(guān)鍵詞,結(jié)合用戶特征,識(shí)別、分類、關(guān)聯(lián)檢索對(duì)象,依據(jù)用戶對(duì)內(nèi)容的偏好程度進(jìn)行排序,有效解決信息過載問題,提高用戶檢索體驗(yàn)。具有代表性的是Google搜索引擎應(yīng)用。用戶畫像另一個(gè)應(yīng)用領(lǐng)域,也是主要領(lǐng)域,即推薦系統(tǒng)。根據(jù)用戶畫像和商品及內(nèi)容畫像的匹配,采用基于內(nèi)容的推薦機(jī)制,將符合用戶偏好的商品或內(nèi)容推薦給用戶。通過數(shù)據(jù)挖掘和深度學(xué)習(xí)等方式對(duì)用戶消費(fèi)行為進(jìn)行分析,找到相似的用戶群體,結(jié)合其他用戶的購(gòu)買傾向,推薦關(guān)聯(lián)商品。同時(shí),用戶畫像在電子商務(wù)產(chǎn)品設(shè)計(jì)、優(yōu)化和精準(zhǔn)營(yíng)銷等方面發(fā)揮重要作用。目前個(gè)性化閱讀比較受關(guān)注,不同的用戶在客戶端上看到的內(nèi)容是差異化的,主要根據(jù)用戶閱讀偏好進(jìn)行知識(shí)的分類推薦。構(gòu)建用戶畫像,挖掘讀者的閱讀行為習(xí)慣(如時(shí)間、方式、內(nèi)容種類等)和偏好,可提供個(gè)性化內(nèi)容推送,結(jié)合評(píng)論反饋數(shù)據(jù)進(jìn)行畫像模型與推薦算法的動(dòng)態(tài)調(diào)整,能夠最大程度上滿足用戶個(gè)性化閱讀需求。
綜上,用戶畫像可定義為在特定領(lǐng)域通過數(shù)據(jù)挖掘、大數(shù)據(jù)采集等技術(shù)獲取用戶產(chǎn)生的一系列數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析處理,實(shí)現(xiàn)用戶特征的標(biāo)簽化,是挖掘用戶興趣偏好以為高層決策提供指導(dǎo)的工具和方法。將用戶畫像嵌入智慧圖書館MVS及推薦服務(wù)中,充分挖掘讀者的知識(shí)偏好,全面感知讀者的檢索意圖,提供因人而異、因情而異的MVS。
2?? 智慧圖書館用戶畫像構(gòu)建
2.1??? 數(shù)據(jù)采集
圖書館獲取讀者數(shù)據(jù)是比較容易的,歸因于其服務(wù)對(duì)象主要是學(xué)生、教師和科研人員,目的是為讀者提供更優(yōu)質(zhì)的知識(shí)服務(wù)。圖書館可在讀者允許的情況下采集其注冊(cè)信息,如姓名、年齡、專業(yè)、研究方向、聯(lián)系方式、住址、民族等屬性特征;利用圖書館用戶管理與服務(wù)平臺(tái)、系統(tǒng)門戶網(wǎng)站或移動(dòng)智能終端設(shè)備等日志數(shù)據(jù)、后臺(tái)數(shù)據(jù)庫(kù),收集用戶檢索、閱讀、點(diǎn)擊、瀏覽、收藏、轉(zhuǎn)發(fā)等行為數(shù)據(jù);采用網(wǎng)絡(luò)爬蟲工具和日志分析技術(shù)獲取注冊(cè)用戶評(píng)論、評(píng)分?jǐn)?shù)據(jù),結(jié)合文本挖掘和情感分析,獲取用戶情感偏好;亦可借助在線問卷調(diào)查、在線訪談或遠(yuǎn)程提問等收集讀者相關(guān)數(shù)據(jù);收集日志數(shù)據(jù)中檢索閱讀記錄,獲取用戶偏好的知識(shí)領(lǐng)域(如自然科學(xué)、歷史、文學(xué)等)、知識(shí)類型(如論文、書籍、專利等)、知識(shí)形式(如文本、語(yǔ)音、視頻、圖片等);借助全球定位系統(tǒng)(GPS)、無(wú)線射頻識(shí)別技術(shù)(RFID)、監(jiān)控器、智能可穿戴設(shè)備、傳感器等采集用戶情景數(shù)據(jù),用于挖掘分析讀者在不同情景下的檢索意圖和知識(shí)偏好。
2.2??? 數(shù)據(jù)預(yù)處理
鑒于采集的原始用戶數(shù)據(jù)存在不完整、不一致、有虛假數(shù)據(jù)等情況,會(huì)影響用戶畫像構(gòu)建的準(zhǔn)確性,甚至誤導(dǎo)系統(tǒng)決策。因此,需要進(jìn)行數(shù)據(jù)清洗、集成、轉(zhuǎn)換、規(guī)約等預(yù)處理。數(shù)據(jù)清洗是將收集到的原始數(shù)據(jù)中無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)剔除,對(duì)異常數(shù)據(jù)進(jìn)行實(shí)際調(diào)查更正。對(duì)來(lái)自不同數(shù)據(jù)源的用戶數(shù)據(jù)表達(dá)形式存在不一致和異構(gòu)問題,需要進(jìn)行數(shù)據(jù)的集成,并轉(zhuǎn)換成統(tǒng)一標(biāo)準(zhǔn)進(jìn)行整理和存儲(chǔ)。通過對(duì)原始數(shù)據(jù)的預(yù)處理,為后續(xù)模型的構(gòu)建提供良好的數(shù)據(jù)基礎(chǔ),提高模型的準(zhǔn)確性和適用性。
2.3??? 畫像建模
獲取充分的用戶數(shù)據(jù)后,需對(duì)用戶特征數(shù)據(jù)進(jìn)行建模,實(shí)現(xiàn)對(duì)用戶多維特征的標(biāo)簽化,以構(gòu)建清晰的用戶畫像。標(biāo)簽是對(duì)目標(biāo)對(duì)象進(jìn)行定義的易于理解和識(shí)別的特征標(biāo)識(shí),具有語(yǔ)義化和短文本等重要特征。語(yǔ)義化使人能夠更直觀理解標(biāo)簽的具體含義,而短文本是方便計(jì)算機(jī)對(duì)標(biāo)簽進(jìn)行提取、識(shí)別、處理與分析等。標(biāo)簽化是用戶畫像的核心,通過對(duì)標(biāo)簽識(shí)別,使計(jì)算機(jī)能夠自動(dòng)完成分類統(tǒng)計(jì),并進(jìn)行標(biāo)簽的深度挖掘[19]。特征標(biāo)簽之間相互補(bǔ)充,目的是精準(zhǔn)全面反映用戶畫像。特征是對(duì)用戶數(shù)據(jù)的挖掘與凝練,從復(fù)雜數(shù)據(jù)中提取有價(jià)值信息,以直觀表示和區(qū)分獨(dú)立用戶。結(jié)合已有研究,本文從讀者維、情景維、知識(shí)維構(gòu)建用戶畫像模型(見圖1)。
用戶畫像可分為個(gè)體畫像和群體畫像。根據(jù)已有研究,構(gòu)建用戶畫像多采用統(tǒng)計(jì)、聚類分析、貝葉斯網(wǎng)絡(luò)、主題模型及神經(jīng)網(wǎng)絡(luò)等方法[20]。群體畫像是對(duì)有相似特征用戶進(jìn)行類別劃分,考慮到同一類用戶在信息檢索和知識(shí)獲取等有很高的相似性甚至重復(fù),對(duì)同類用戶提供服務(wù)能夠節(jié)約搜索和推薦過程的時(shí)間消耗,提高響應(yīng)速度和推薦的準(zhǔn)確性。群體畫像分析是在用戶畫像獲取之后,對(duì)加權(quán)的用戶標(biāo)簽屬性進(jìn)行相似度計(jì)算,形成具有不同標(biāo)簽特征的用戶群體畫像。計(jì)算相似度之前,需要?dú)w一化,即物理系統(tǒng)中的無(wú)量綱處理,常用方法是線性函數(shù)轉(zhuǎn)換。相似度計(jì)算采用歐式距離、余弦相似度、Person相關(guān)系數(shù)等度量方法,涉及到二元變量時(shí)可采用Jaccard系數(shù)計(jì)算。聚類是一種無(wú)監(jiān)督分類,即無(wú)先驗(yàn)知識(shí)可以利用。聚類算法可分為層次化聚類、劃分聚類、基于密度和網(wǎng)絡(luò)的聚類、基于神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)的聚類等[21],較為常用的有K-means、DBSCAN、神經(jīng)網(wǎng)絡(luò)等。甄選合適的算法進(jìn)行用戶畫像聚類,應(yīng)確保簇內(nèi)差異盡可能小,簇間的差異盡可能大(見圖2)。
2.4??? 畫像評(píng)估
用戶畫像建模完成,還需要評(píng)估畫像效果,判斷生成用戶標(biāo)簽的準(zhǔn)確性及是否符合讀者的實(shí)際情況。只有讀者最直接明確該標(biāo)簽是否真實(shí)準(zhǔn)確,鑒于讀者群體龐大,使用統(tǒng)計(jì)學(xué)中的抽樣調(diào)查法,對(duì)個(gè)體和群體畫像分別進(jìn)行隨機(jī)抽樣和分層抽樣,并記錄用戶確認(rèn)準(zhǔn)確且符合實(shí)際的標(biāo)簽數(shù)。通過計(jì)算樣本標(biāo)簽準(zhǔn)確率(Pi=(正確標(biāo)簽數(shù)/總標(biāo)簽數(shù)))的平均值P(即平均標(biāo)簽準(zhǔn)確率)和方差σ2衡量模型的優(yōu)劣(即P越大且σ2越小,模型越精準(zhǔn)),并為圖書館用戶數(shù)據(jù)有效性檢驗(yàn)、模型調(diào)整與優(yōu)化提供反饋。
(1)個(gè)體畫像評(píng)估
(n為隨機(jī)抽樣的樣本個(gè)數(shù))?? (1)
(2)
(2)群體畫像評(píng)估
(3)
(4)
L 表示分層的數(shù)量,N表示總體數(shù),其中 Nh、nh、Ph、σh,分別指的是第h層的樣本總數(shù)、采樣的數(shù)量、采樣得到的樣本標(biāo)簽準(zhǔn)確率均值和標(biāo)準(zhǔn)差。
3?? 基于用戶畫像的智慧圖書館個(gè)性化MVS服務(wù)
MVS作為搜索引擎在本質(zhì)上是一種幫助用戶過濾信息的手段,只能滿足用戶部分知識(shí)檢索的需求,顯示的目標(biāo)知識(shí)沒有突出特點(diǎn)且數(shù)量較多,未考慮用戶的個(gè)性化需求,難以有效應(yīng)對(duì)信息過載效應(yīng)[22];同時(shí),僅根據(jù)視覺資源的底層語(yǔ)義特征進(jìn)行知識(shí)檢索,系統(tǒng)仍然難以判斷讀者的完整且真實(shí)檢索目的,提取的知識(shí)目標(biāo)偏離用戶真實(shí)期望,即MVS存在“語(yǔ)義鴻溝”問題[23]。通過對(duì)用戶、情景和知識(shí)資源特征進(jìn)行多維度刻畫,提取用戶興趣向量,并與檢索視覺資源特征向量進(jìn)行關(guān)聯(lián)匹配。根據(jù)用戶畫像,挖掘用戶真實(shí)檢索意圖和知識(shí)偏好,縮小目標(biāo)對(duì)象的搜索范圍,并把讀者真實(shí)需求或偏好程度高的知識(shí)排在最前面;同時(shí)根據(jù)用戶的檢索行為推斷用戶可能想要獲取某一方面的知識(shí),并推薦與讀者檢索對(duì)象關(guān)聯(lián)知識(shí)。如檢索汽車圖片,根據(jù)用戶畫像,設(shè)計(jì)專業(yè)學(xué)生期望獲得汽車外觀設(shè)計(jì)知識(shí),具有制造專業(yè)特征的更關(guān)注汽車制造環(huán)節(jié),而物理學(xué)畫像用戶更傾向于汽車動(dòng)力學(xué)知識(shí)等。
智慧圖書館MVS,嵌入用戶畫像及推薦算法,實(shí)現(xiàn)檢索結(jié)果的智慧化、個(gè)性化推薦。分析不同用戶畫像,根據(jù)相似用戶的檢索內(nèi)容偏好,提供其感興趣的知識(shí)內(nèi)容;通過提取資源特征,結(jié)合用戶檢索閱讀各類知識(shí)之間的關(guān)聯(lián),推薦關(guān)聯(lián)度高的知識(shí)?;谟脩舢嬒竦闹腔蹐D書館MVS,目標(biāo)是將檢索到的大量視覺資源,按照用戶偏好篩選排序并可視化。通過MVS對(duì)象語(yǔ)義特征與資源語(yǔ)義標(biāo)簽建立的準(zhǔn)確聯(lián)系,結(jié)合用戶畫像為讀者提供個(gè)性化MVS和推薦服務(wù)。為此,構(gòu)建基于用戶畫像的智慧圖書館個(gè)性化MVS服務(wù)層次模型(見圖3)。
3.1??? 數(shù)據(jù)獲取層
數(shù)據(jù)獲取的對(duì)象包括讀者維、情景維和知識(shí)維數(shù)據(jù)。情景維數(shù)據(jù)可通過移動(dòng)智能終端設(shè)備或物聯(lián)網(wǎng)技術(shù)采集,如GPS、監(jiān)控器、RFID、圖像采集器、傳感器、可穿戴設(shè)備等獲取讀者社會(huì)、個(gè)人、設(shè)備及物理等情景信息。讀者維和知識(shí)維數(shù)據(jù)獲取是通過采集讀者的注冊(cè)信息、在線問卷調(diào)研數(shù)據(jù)、系統(tǒng)后臺(tái)數(shù)據(jù)及網(wǎng)頁(yè)日志數(shù)據(jù)。采集的原始數(shù)據(jù)存在噪聲、缺失值、類型不匹配等情況,且形式包括文本、圖像、音視頻等,需要進(jìn)行數(shù)據(jù)的加工處理,保障數(shù)據(jù)的規(guī)范化、一致性和可讀性。如注冊(cè)信息、問卷調(diào)研數(shù)據(jù)、網(wǎng)頁(yè)日志數(shù)據(jù)需判斷同一用戶身份。調(diào)查問卷不能任意投放,而是對(duì)每一個(gè)注冊(cè)用戶根據(jù)其郵箱發(fā)送調(diào)查問卷;亦可根據(jù)用戶注冊(cè)編碼、綁定手機(jī)號(hào)、個(gè)人基本信息等判斷,及借助用戶使用設(shè)備的IP地址、郵箱等分辨。獲取充分的用戶數(shù)據(jù)為構(gòu)建準(zhǔn)確全面的用戶畫像奠定基礎(chǔ),是智慧圖書館提供個(gè)性化MVS及推薦的保障。
3.2??? 資源整合層
資源整合層由文本庫(kù)、圖片庫(kù)、音/視頻庫(kù)等構(gòu)建的語(yǔ)義標(biāo)簽庫(kù)和用戶特征標(biāo)簽庫(kù)構(gòu)成。通過對(duì)知識(shí)庫(kù)建立語(yǔ)義標(biāo)簽,實(shí)現(xiàn)視覺資源檢索對(duì)象與文本、圖像、音/視頻、3D等不同形式知識(shí)的語(yǔ)義關(guān)聯(lián),這種關(guān)聯(lián)在視覺檢索過程中可能存在面向主題的資源關(guān)聯(lián)問題[23]??赏ㄟ^主題圖的方法解決該類問題,以提供準(zhǔn)確快速的信息檢索[24]。用戶畫像包含個(gè)體畫像和群體畫像,個(gè)體畫像是對(duì)個(gè)體屬性特征的刻畫,群體畫像是對(duì)某一類用戶屬性特征的描述。前者實(shí)現(xiàn)精細(xì)的用戶分析,提供個(gè)性化MVS和推薦;后者實(shí)現(xiàn)對(duì)一類用戶的知識(shí)檢索推薦,提高系統(tǒng)響應(yīng)速度和效率,優(yōu)化服務(wù)設(shè)計(jì)。而且在對(duì)同一類用戶中某一新用戶進(jìn)行推薦時(shí),可以采用同類用戶中的相關(guān)數(shù)據(jù)對(duì)新用戶缺失屬性標(biāo)簽進(jìn)行預(yù)測(cè),保障系統(tǒng)在對(duì)該用戶未知的檢索對(duì)象進(jìn)行推薦時(shí),可以提高檢索推薦的準(zhǔn)確性。通過智能化推薦和精準(zhǔn)用戶畫像,融合用戶所處情景,挖掘用戶知識(shí)檢索的真實(shí)意圖,對(duì)視覺檢索對(duì)象進(jìn)行語(yǔ)義分析,并與視覺資源語(yǔ)義標(biāo)簽關(guān)聯(lián)匹配,更好地為用戶提供其期望的知識(shí)內(nèi)容,降低MVS存在的語(yǔ)義鴻溝問題。
3.3??? 數(shù)據(jù)處理層
數(shù)據(jù)處理層主要是對(duì)視覺對(duì)象的分析和知識(shí)標(biāo)簽庫(kù)的建立,實(shí)現(xiàn)個(gè)性化MVS和推薦,并完成動(dòng)態(tài)反饋和調(diào)整,提高檢索推薦的準(zhǔn)確性,使檢索內(nèi)容更符合讀者需求。該層整合了智慧圖書館個(gè)性化MVS和推薦服務(wù)的MVS模型、用戶畫像模型、推薦模型及情景感知模型等。檢索模型提供知識(shí)檢索的工具,用戶畫像實(shí)現(xiàn)對(duì)用戶的屬性、行為和情感偏好特征的刻畫,推薦模型是對(duì)用戶感興趣的信息預(yù)測(cè)和判斷,情景感知模型是對(duì)用戶檢索閱讀過程進(jìn)行情景分析,挖掘用戶不同情景下的檢索意圖和知識(shí)偏好。通過整合相關(guān)模型,將檢索推薦的TOP-n項(xiàng)結(jié)果可視化,提高智慧圖書館MVS和推薦服務(wù)的智慧化水平。從圖書館獲取用戶數(shù)據(jù)根據(jù)畫像模型生成用戶特征標(biāo)簽,而標(biāo)簽是否準(zhǔn)確且符合實(shí)際,需用2.4公式量化評(píng)估,然后審查數(shù)據(jù)源的真實(shí)有效性和模型設(shè)計(jì)合理性。只有當(dāng)畫像模型能夠客觀描述用戶精準(zhǔn)特征時(shí),才能有效挖掘用戶檢索意圖和閱讀偏好,為MVS和檢索推薦提供基礎(chǔ)。當(dāng)然檢索結(jié)果是否符合用戶期望,亦需通過用戶調(diào)研和系統(tǒng)反饋衡量。基于用戶畫像的智慧圖書館個(gè)性化MVS流程(見圖4)。
3.4??? 智慧服務(wù)層
在智慧服務(wù)層包括個(gè)性化MVS服務(wù)、個(gè)性化推薦服務(wù)、一站式服務(wù)、情景服務(wù)和社交服務(wù)等。個(gè)性化MVS服務(wù)包含精準(zhǔn)視覺特征匹配、個(gè)性化視覺搜索、MAR(移動(dòng)增強(qiáng)現(xiàn)實(shí))和MVR(移動(dòng)虛擬現(xiàn)實(shí))等[23]。視覺特征匹配實(shí)現(xiàn)視覺檢索對(duì)象(局部或全局)特征與文本、圖像及其他類型視覺資源特征的關(guān)聯(lián)匹配;個(gè)性化搜索是結(jié)合用戶畫像,通過基于用戶標(biāo)簽的推薦算法將符合用戶檢索意圖與需求偏好的信息排在最前面,提高知識(shí)檢索的個(gè)性化水平,增強(qiáng)用戶體驗(yàn)。MAR、MVR是在移動(dòng)智能終端設(shè)備依托增強(qiáng)現(xiàn)實(shí)AR和虛擬現(xiàn)實(shí)VR技術(shù)實(shí)現(xiàn)視覺資源的動(dòng)態(tài)可視化展示。在其他服務(wù)中包含文本、語(yǔ)音檢索等其他智能檢索服務(wù)。智慧圖書館個(gè)性化推薦服務(wù)分為實(shí)時(shí)推薦、新知識(shí)推薦和關(guān)聯(lián)推薦。實(shí)時(shí)推薦是根據(jù)當(dāng)前讀者提供的視覺檢索內(nèi)容和閱讀瀏覽記錄進(jìn)行即時(shí)分析,結(jié)合用戶畫像,向讀者提供個(gè)性化知識(shí)推送。新知識(shí)推薦是指根據(jù)用戶的檢索閱讀記錄,推薦用戶可能感興趣的不同類型的熱門知識(shí)。關(guān)聯(lián)推薦是根據(jù)用戶檢索閱讀的內(nèi)容,通過關(guān)聯(lián)分析判斷符合用戶需求偏好的關(guān)聯(lián)知識(shí),從而提供推薦。一站式服務(wù)是將智慧圖書館的基本服務(wù)通過邏輯清晰和簡(jiǎn)潔的方式進(jìn)行流程化,指導(dǎo)查詢、賬戶管理、充值等基本操作,系統(tǒng)交互更加人性化,方便讀者獲取相關(guān)的知識(shí)和服務(wù)。情景服務(wù)是智慧圖書館通過物聯(lián)網(wǎng)和智能終端設(shè)備獲取讀者情景信息,并在讀者進(jìn)行視覺對(duì)象檢索時(shí),利用場(chǎng)景館或智能終端設(shè)備將目標(biāo)情景再現(xiàn),提升讀者對(duì)檢索知識(shí)的感知與理解。智慧圖書館提供社交服務(wù),人人都能參與知識(shí)的創(chuàng)造、應(yīng)用與傳播,形成高度共享的知識(shí)交流平臺(tái),亦為構(gòu)建用戶畫像積累充分的用戶原始數(shù)據(jù)。
4??? 基于用戶畫像的智慧圖書館個(gè)性化MVS關(guān)鍵問題
4.1??? 用戶隱私安全
用戶信息隱私保護(hù)是圖書館以用戶為中心提供智慧服務(wù)必須要面臨的關(guān)鍵問題。智慧圖書館為用戶提供高度開放、共享的知識(shí)服務(wù)環(huán)境,對(duì)用戶信息隱私的保護(hù)是極其重要。而且,圖書館為用戶提供智慧化、個(gè)性化的MVS和推薦服務(wù),采集大量的用戶數(shù)據(jù),其中大部分涉及用戶信息隱私。因此,智慧圖書館更要做到對(duì)用戶信息隱私的保護(hù),這不僅是對(duì)圖書館聲譽(yù)的保障,更是對(duì)用戶負(fù)責(zé)的表現(xiàn)。為保障用戶信息隱私安全,可采取如下措施:(1)采集必要的用戶數(shù)據(jù),減少無(wú)關(guān)數(shù)據(jù)的采集;(2)對(duì)涉及用戶隱私的信息,在不影響研究的情況下進(jìn)行脫敏處理;(3)對(duì)用戶隱私信息進(jìn)行數(shù)字加密處理,保障數(shù)據(jù)在傳輸和存儲(chǔ)中的安全性;(4)設(shè)置嚴(yán)格的用戶數(shù)據(jù)訪問權(quán)限,只有獲得訪問權(quán)限的對(duì)象,才能訪問用戶信息內(nèi)容;(5)對(duì)用戶數(shù)據(jù)的操作采用授權(quán)機(jī)制,只有取得管理授權(quán)才能進(jìn)行相關(guān)數(shù)據(jù)的指定操作。同時(shí),避免集中存儲(chǔ),采用分布式存儲(chǔ)保障用戶信息數(shù)據(jù)和館藏資源的存儲(chǔ)安全。
4.2??? 用戶畫像動(dòng)態(tài)變化
用戶的行為習(xí)慣和特征偏好并不是固定不變的,而是隨著時(shí)間動(dòng)態(tài)變化。智慧圖書館提供個(gè)性化MVS及推薦服務(wù),都是建立在構(gòu)建精準(zhǔn)全面的用戶畫像并挖掘用戶需求偏好的基礎(chǔ)上。但是,用戶的行為習(xí)慣和偏好都會(huì)隨著時(shí)間發(fā)生變化,使得原有的用戶畫像模型的適用性和準(zhǔn)確性受到影響。因此,如何把握用戶畫像的變化以精準(zhǔn)構(gòu)建反映用戶實(shí)際特征的畫像模型,是智慧圖書館個(gè)性化MVS及推薦服務(wù)存在的關(guān)鍵問題。如果系統(tǒng)進(jìn)行用戶數(shù)據(jù)的實(shí)時(shí)采集和模型優(yōu)化,顯然浪費(fèi)資源,影響系統(tǒng)服務(wù)效率。根據(jù)已有研究,Kim等[25]采用增量學(xué)習(xí)追蹤用戶行為偏好的轉(zhuǎn)變;吳翔宇[22]提出使用一次指數(shù)平滑模型,以時(shí)間序列為標(biāo)尺劃分用戶興趣,進(jìn)而預(yù)測(cè)用戶興趣的變化。同時(shí),可對(duì)影響用戶偏好的屬性特征進(jìn)行權(quán)重劃分,提取影響用戶偏好的主要因素,以把握用戶興趣演變的主趨勢(shì)。只需篩選合理時(shí)段獲取權(quán)重高的用戶屬性,即可跟蹤用戶興趣的變化,進(jìn)而提高用戶畫像的精準(zhǔn)度。
4.3??? 服務(wù)性能優(yōu)化
泛信息時(shí)代,圖書館視覺資源數(shù)量異常龐大,提供視覺資源的分析處理已經(jīng)占用部分系統(tǒng)性能和運(yùn)行空間,再對(duì)視覺對(duì)象特征匹配的大規(guī)模資源進(jìn)行推薦排序運(yùn)算,嚴(yán)重影響系統(tǒng)響應(yīng)效率。圖書館需要選擇高效的視覺資源特征提取和匹配模型,以及快捷的推薦算法,并根據(jù)用戶偏好提高查準(zhǔn)率或查全率。以用戶為主導(dǎo)的新時(shí)代,用戶對(duì)獲取知識(shí)服務(wù)過程更注重體驗(yàn)。智慧圖書館MVS及推薦服務(wù),必須以用戶為中心,確保檢索結(jié)果符合用戶真實(shí)期望,知識(shí)表示方式適應(yīng)用戶閱讀習(xí)慣。移動(dòng)網(wǎng)絡(luò)環(huán)境下,影響用戶體驗(yàn)的因素,主要是智能移動(dòng)設(shè)備的性能尚不足以提供高效的大數(shù)據(jù)運(yùn)算。因此,智慧圖書館可搭建基于Hadoop的云計(jì)算平臺(tái),一方面,為海量館藏資源提供分布式安全存儲(chǔ),促進(jìn)資源協(xié)同共享;另一方面,將復(fù)雜的模型算法和大數(shù)據(jù)處理通過云傳輸?shù)皆品?wù)器進(jìn)行并行計(jì)算,再將結(jié)果安全傳輸給用戶,從而提高系統(tǒng)響應(yīng)效率,創(chuàng)造極致服務(wù)體驗(yàn)。同時(shí),智慧圖書館利用云計(jì)算平臺(tái)提供無(wú)線泛在的個(gè)性化MVS和推薦服務(wù),保障用戶可以在任何時(shí)間和地點(diǎn)及時(shí)、便捷、高效地獲取相關(guān)服務(wù)。
5?? 結(jié)語(yǔ)
將用戶畫像嵌入智慧圖書館MVS和推薦服務(wù),能夠以讀者為中心,提供多元化的知識(shí)檢索方式,實(shí)現(xiàn)對(duì)讀者檢索對(duì)象的精準(zhǔn)匹配和個(gè)性化推薦,降低并緩解信息過載及語(yǔ)義鴻溝問題。通過對(duì)讀者進(jìn)行畫像建模,實(shí)現(xiàn)對(duì)讀者檢索意圖和知識(shí)偏好的精準(zhǔn)推斷,并利用系統(tǒng)交互數(shù)據(jù),動(dòng)態(tài)調(diào)整檢索推薦模型,提高檢索服務(wù)質(zhì)量。建立用戶畫像并不是一成不變的,因?yàn)橛脩舻男袨榱?xí)慣及偏好會(huì)隨著時(shí)間而演變,如何更好的協(xié)調(diào)用戶畫像模型適應(yīng)這種變化,需要深入研究。MVS作為便捷的搜索方式,實(shí)現(xiàn)對(duì)視覺對(duì)象關(guān)聯(lián)知識(shí)的快速匹配,依托用戶畫像挖掘讀者的檢索意圖及知識(shí)偏好,對(duì)檢索結(jié)果進(jìn)行可視化,有效提高智慧圖書館MVS的個(gè)性化水平。下一步將以本文提出的模型為基礎(chǔ),搭建原型系統(tǒng)進(jìn)行實(shí)證研究,并構(gòu)建評(píng)價(jià)指標(biāo)體系對(duì)用戶檢索滿意度調(diào)查分析,旨在推動(dòng)智慧圖書館高質(zhì)量發(fā)展。
參考文獻(xiàn):
[1]? Yusefi Hafshejani Z,Kaedi M,F(xiàn)atemi A.Improving sparsity and new user problems in collaborative filtering by clustering the personality factors[J].Electronic Commerce Research,2018(18):813-836.
[2]? Elkahky A,Song Y,He X.A multi-view deep learning approach for cross domain user modeling in recommendation systems[J].In International World Wide Web Conference Committee(IW3C2),F(xiàn)lorence,Italy,2015:18-22.
[3]? 王世偉.未來(lái)圖書館的新模式——智慧圖書館[J].圖書館建設(shè),2011(12):1-5.
[4]? 張興旺,李晨暉.數(shù)字圖書館移動(dòng)視覺搜索機(jī)制建設(shè)的若干關(guān)鍵問題[J].圖書情報(bào)工作,2015,59(15):42-48.
[5]? 張興旺,鄭聰.領(lǐng)域?qū)虻臄?shù)字圖書館移動(dòng)視覺搜索引擎建設(shè)研究[J].圖書與情報(bào),2016(5):40-47.
[6]? 曾子明,秦思琪.智慧圖書館移動(dòng)視覺搜索服務(wù)及其技術(shù)框架研究[J].情報(bào)資料工作,2017(4):61-67.
[7]? 韓璽,何秀美,張珗.基于語(yǔ)義關(guān)聯(lián)的圖書館移動(dòng)視覺搜索資源與服務(wù)聚合研究[J].現(xiàn)代情報(bào),2017,37(10):3-7.
[8]? 韓璽,何秀美,張珗.基于情景感知的圖書館移動(dòng)視覺搜索服務(wù)設(shè)計(jì)研究[J].圖書館學(xué)研究,2017(16):63-68.
[9]? 張亭亭,趙宇翔,朱慶華.數(shù)字圖書館移動(dòng)視覺搜索的眾包模式初探[J].情報(bào)資料工作,2016(4):11-18.
[10]? COOPER A.About Face 3.0: the essentials of interaction design[M].New York: John Wiley & Sons Inc,2007.
[11]? 陳添源.高校移動(dòng)圖書館用戶畫像構(gòu)建實(shí)證[J].圖書情報(bào)工作,2018,62(7):38-46.
[12]? Travis D.E-Commerce Usability:Tools and Techniques to Perfect the On-Line Experience[M].CRC Press,2002.
[13]? 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建?!獜木唧w到抽象[J].設(shè)計(jì)藝術(shù)研究,2014,4(6):62-64.
[14]? 劉海鷗,孫晶晶,蘇妍嫄,等.國(guó)內(nèi)外用戶畫像研究綜述[J/OL].[2019-12-20].http://kns.cnki.net/kcms/detail/11.1762.G3.20180816.1744.005.html.
[15]? 劉海鷗,黃文娜,謝姝琳.面向情境化推薦服務(wù)的圖書館用戶畫像研究[J].圖書館學(xué)研究,2018(20):62-68.
[16]? 劉海鷗,孫晶晶,蘇妍嫄,等.基于用戶畫像的旅游情境化推薦服務(wù)研究[J].情報(bào)理論與實(shí)踐,2018,41(10):87-92.
[17]? 何娟.基于用戶個(gè)人及群體畫像相結(jié)合的圖書個(gè)性化推薦應(yīng)用研究[J/OL].[2019-12-20].http://kns.cnki.net/kcms/detail/11.1762.G3.20180816.1745.009.html.
[18]? 程全.基于用戶畫像的數(shù)字圖書館信息服務(wù)模式研究[J].圖書館學(xué)刊,2018,40(4):68-71.
[19]? 牛溫佳,劉吉強(qiáng),石川.用戶網(wǎng)絡(luò)行為畫像——大數(shù)據(jù)中的用戶網(wǎng)絡(luò)行為畫像分析與內(nèi)容推薦應(yīng)用[M].北京:電子工業(yè)出版社,2016:30-32.
[20]? 單曉紅,張曉月,劉曉燕.基于在線評(píng)論的用戶畫像研究——以攜程酒店為例[J].情報(bào)理論與實(shí)踐,2018,41(4):99-104.
[21]? HAN J,KAMBER M.Data mining concepts and techniques[M].Orlando,USA: Morgan Kaufmann Publishers,2001.
[22]? 吳翔宇.基于用戶畫像的推薦技術(shù)研究[D].青島:青島科技大學(xué),2018.
[23]? 曾子明,宋揚(yáng)揚(yáng).基于SoLoMo的智慧圖書館移動(dòng)視覺搜索服務(wù)研究[J].圖書館,2017(7):92-98.
[24]? 李冠楠.基于主題圖的數(shù)字圖書館信息資源整合研究[D].武漢:華中師范大學(xué),2011.
[25]? Kim H N,Ha I,See S H,et al.Modeling and Learning User Profiles for Personalized Content Service[C].Asian Digital Libraries.Looking Back 10 Years and Forging New Frontiers,International Conference on As Asian Digital Libraries,Icadl 2007,Hanoi,Vietnam,December 10-13,2007,Proceedings.DBLP,2007:85-94.
作者簡(jiǎn)介:曾子明(1977-),男,武漢大學(xué)信息資源研究中心、武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師,研究方向:大數(shù)據(jù)資源智能化管理及應(yīng)用;孫守強(qiáng)(1995-),男,武漢大學(xué)信息管理學(xué)院碩士研究生,研究方向:智慧圖書館。
本文系國(guó)家自然科學(xué)基金項(xiàng)目“云環(huán)境下智慧圖書館移動(dòng)視覺搜索模型與實(shí)現(xiàn)研究”(項(xiàng)目編號(hào):71673203)研究成果之一。
收稿日期:2019-12-18;責(zé)任編輯:胡剛;通訊作者:孫守強(qiáng)(sun_shouqiang@163.com)