蘭 冰
(德宏職業(yè)學(xué)院圖書館,云南 德宏 678400)
用戶畫像是通過收集用戶相關(guān)信息,采用定量與定性相結(jié)合的分析方式,建構(gòu)符合用戶特點(diǎn)的標(biāo)簽化模型,以完整細(xì)致地勾勒出用戶信息全貌,進(jìn)而更好地預(yù)測(cè)用戶需求的工具。而群組用戶畫像是對(duì)個(gè)體用戶畫像進(jìn)行聚類分析,采用不同的模型、算法與技術(shù),從多個(gè)維度發(fā)現(xiàn)規(guī)模較大的用戶群體,或?qū)⑻卣黝愃频挠脩魵w為一類,從而在提供服務(wù)時(shí)可以優(yōu)先滿足核心群體的需求。群組用戶畫像的生成,方便對(duì)用戶進(jìn)行精準(zhǔn)分類,結(jié)合不同群體的特點(diǎn)選擇最為適宜的服務(wù)模式。群組用戶畫像在產(chǎn)品研發(fā)、數(shù)據(jù)挖掘、精準(zhǔn)營(yíng)銷等領(lǐng)域得到廣泛應(yīng)用,也成為圖書館為用戶提供智能化服務(wù)的必要手段。如今信息環(huán)境錯(cuò)綜復(fù)雜,用戶對(duì)高質(zhì)量信息的需求,與信息來源繁雜、數(shù)據(jù)處理繁瑣之間的矛盾日益突出,也對(duì)圖書館信息推送服務(wù)提出更高的要求[1]。圖書館基于真實(shí)積累的用戶信息數(shù)據(jù),選擇適宜的模型與算法建立用戶標(biāo)簽體系,能夠反映用戶群體在獲取圖書館服務(wù)中的行為軌跡,進(jìn)而深入挖掘用戶的潛在需求,全面提高信息推送的智能化水平。
作為大數(shù)據(jù)環(huán)境下全方位描述用戶信息的工具,用戶畫像技術(shù)被引入圖書館服務(wù)是可行的,也是充分利用大數(shù)據(jù)資源,實(shí)現(xiàn)圖書館信息服務(wù)智能化的有效方式。
大數(shù)據(jù)時(shí)代各類數(shù)據(jù)資源紛至沓來,用戶在利用圖書館過程中,也會(huì)產(chǎn)生大量的各種類型的數(shù)據(jù)資源,若對(duì)這些數(shù)據(jù)進(jìn)行深入挖掘與合理利用,將獲得巨大的價(jià)值。然而面對(duì)來源廣泛、格式多樣化的信息,很多圖書館往往感到無所適從,不知道如何對(duì)數(shù)據(jù)進(jìn)行開發(fā),甚至一度受到信息過載、知識(shí)迷航等問題的困擾。一些學(xué)者雖然提出可視化分析、網(wǎng)格分析等新技術(shù),試圖解決圖書館存在的問題,然而這些方法僅能夠獲取與用戶相關(guān)的部分信息,難以保障對(duì)用戶需求的準(zhǔn)確把握。用戶畫像技術(shù)的引入,則可以依托大量用戶真實(shí)信息建立用戶群體模型,并從中提煉出有價(jià)值的內(nèi)容,進(jìn)而實(shí)現(xiàn)以用戶為中心的智能化服務(wù)。
圖書館用戶群體來自各行各業(yè),對(duì)信息服務(wù)的需求也是多樣化的。要想滿足不同行業(yè)、不同層次用戶的需求,就需要圖書館做好用戶分組分類工作,深入分析不同群體的興趣愛好,找到這些用戶的需求點(diǎn),與信息資源進(jìn)行精準(zhǔn)化匹配,為他們提供具有針對(duì)性的服務(wù)。借助群體用戶畫像技術(shù),正好可以滿足對(duì)圖書館用戶聚類的要求,方便圖書館依托大規(guī)模用戶數(shù)據(jù),發(fā)現(xiàn)不同群體的特征與潛在需求,主動(dòng)為他們提供個(gè)性化、精準(zhǔn)化的信息,改變被動(dòng)服務(wù)的局面。構(gòu)建群組用戶畫像模型,也是圖書館建設(shè)智能信息推送系統(tǒng)的必要環(huán)節(jié),能夠依托全方位的用戶信息描述,為系統(tǒng)調(diào)取、檢索與處理信息資源提供可靠依據(jù)[2]。
用戶數(shù)量與用戶忠誠度,是衡量信息內(nèi)容提供方服務(wù)質(zhì)量的重要指標(biāo)。圖書館作為信息服務(wù)機(jī)構(gòu),要想吸引并留住核心用戶群體,就有必要深入、全面地挖掘用戶需求。群組用戶畫像作為分析用戶需求的可靠工具,能夠輔助圖書館掌握不同服務(wù)場(chǎng)景下用戶的大概率行為,通過建立用戶屬性的標(biāo)簽化體系,形成對(duì)用戶行為特點(diǎn)的分層分類分析,進(jìn)而提高對(duì)不同情境下用戶需求的分析判斷能力。作為具有向量特征的結(jié)構(gòu)化數(shù)據(jù)集,群組用戶畫像也可以反映用戶的情緒、愛好等心理特征,依托深度學(xué)習(xí)技術(shù)勾勒出可以自主演化的新用戶模型,從而發(fā)現(xiàn)用戶需求的新趨勢(shì),實(shí)現(xiàn)對(duì)用戶行為的科學(xué)引導(dǎo)。
群組用戶畫像的構(gòu)建,需要采集用戶真實(shí)數(shù)據(jù),借助機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等技術(shù),依托貝葉斯函數(shù)、決策樹、聚類算法建立動(dòng)態(tài)模型。大數(shù)據(jù)環(huán)境下圖書館獲取用戶數(shù)據(jù)的渠道增多,方便全面掌握用戶信息,如從行為數(shù)據(jù)、借閱記錄等多個(gè)維度描述用戶的屬性、偏好特征,提煉用戶的興趣標(biāo)簽,從而形成生動(dòng)具體的群組用戶畫像模型。
大數(shù)據(jù)時(shí)代用戶數(shù)據(jù)來源廣泛,大數(shù)據(jù)技術(shù)的應(yīng)用使得圖書館信息資源的互通互聯(lián)達(dá)到前所未有的高度。尤其是移動(dòng)終端的應(yīng)用,在為用戶獲取圖書館資源帶來便利的同時(shí),也為圖書館提供了多樣化、立體化的數(shù)據(jù)來源渠道[3]。要想繪制完整的群組用戶畫像,圖書館可以將用戶數(shù)據(jù)資源分為5大類,包括基礎(chǔ)信息、網(wǎng)絡(luò)行為數(shù)據(jù)、興趣偏好數(shù)據(jù)、情境數(shù)據(jù)、會(huì)話數(shù)據(jù)。其中要獲取用戶的基礎(chǔ)信息,可以直接調(diào)取圖書館服務(wù)系統(tǒng)的用戶注冊(cè)信息;通過圖書館門戶網(wǎng)站和移動(dòng)APP,可以獲得用戶的內(nèi)容收藏、主題分享等信息;通過檢索系統(tǒng)可以獲取文獻(xiàn)傳遞、在線咨詢等信息;通過智能傳感設(shè)備,可以獲取用戶周圍的天氣狀況、溫度等情境信息。
圖書館結(jié)合多方采集的用戶數(shù)據(jù),以機(jī)器學(xué)習(xí)的方式建立用戶行為模型,從中抽象出用戶屬性、特征等標(biāo)簽信息[4]。然后結(jié)合用戶需求動(dòng)態(tài)變化,采用關(guān)聯(lián)規(guī)則、回歸分析等方式,不斷修正用戶行為、心理等核心數(shù)據(jù),發(fā)現(xiàn)不同層級(jí)用戶標(biāo)簽展現(xiàn)的顯著特征,以獲得全新的用戶標(biāo)簽,讓獲取的數(shù)據(jù)與用戶特點(diǎn)更為貼近,從而獲得更加清晰的用戶畫像。鑒于用戶大數(shù)據(jù)的不斷衍生與動(dòng)態(tài)變化,用戶標(biāo)簽體系的構(gòu)建趨于復(fù)雜,采用傳統(tǒng)的單標(biāo)簽建模方式,很難保障對(duì)用戶信息的深入挖掘[5]。因此,圖書館在廣泛采集用戶數(shù)據(jù)后,還需要從多個(gè)維度對(duì)這些數(shù)據(jù)進(jìn)行分類處理,結(jié)合不同行業(yè)、不同領(lǐng)域的用戶需求,在總結(jié)概括的基礎(chǔ)上對(duì)用戶信息進(jìn)行標(biāo)注,為不同的用戶打上不同的標(biāo)簽,以方便計(jì)算機(jī)識(shí)別、理解與應(yīng)用。
圖書館在對(duì)用戶數(shù)據(jù)進(jìn)行清洗處理后,結(jié)合用戶標(biāo)簽體系進(jìn)行深入分析,發(fā)現(xiàn)不同用戶群體的特點(diǎn),然后從不同的評(píng)估維度評(píng)估用戶信息子畫像,以聚類分析的方式建立群組用戶畫像,具體流程如圖1 所示。圖書館可以將群組用戶畫像分為數(shù)據(jù)采集、標(biāo)簽映射、數(shù)據(jù)挖掘3 個(gè)層次。首先對(duì)用戶有效數(shù)據(jù)進(jìn)行組織排序,存儲(chǔ)于用戶數(shù)據(jù)庫中。然后對(duì)數(shù)據(jù)進(jìn)行集成、過濾、分類等處理,采用邏輯回歸、決策樹等算法,掌握用戶的個(gè)性化特征與群體特征,不斷完善用戶標(biāo)簽體系。最后,借助關(guān)聯(lián)分析等技術(shù)對(duì)用戶群體進(jìn)行合理分類,掌握不同類型用戶之間的復(fù)雜關(guān)系,將具有相同特征的用戶集中起來,以獲得群組用戶畫像模型。
圖1 圖書館群組用戶畫像建模
滿足用戶的個(gè)性化、智能化服務(wù)需求,是圖書館開展信息推送業(yè)務(wù)的出發(fā)點(diǎn)。圖書館在收集用戶大數(shù)據(jù)建立用戶畫像模型后,還需要通過可視化分析等方式,確定用戶群體特征與信息需求,進(jìn)而保障信息智能推送服務(wù)質(zhì)量。
在建立群組用戶畫像模型后,圖書館需要以整體可視化描述的方式,深入分析用戶群體的行為習(xí)慣與知識(shí)結(jié)構(gòu),從中挖掘有價(jià)值的信息,這是圖書館服務(wù)系統(tǒng)掌握用戶個(gè)性化需求,進(jìn)而實(shí)現(xiàn)智能化推送的必要環(huán)節(jié)。圖書館用戶群體的知識(shí)背景各異,信息需求多元化,圖書館可以從專業(yè)背景、性別、年齡等維度進(jìn)行聚類分析,形成特定用戶群的共有規(guī)律[6]。然后依據(jù)群組用戶畫像,具體分析不同群體用戶的屬性特點(diǎn),從用戶行為偏好、在線活躍度、借閱頻率等多個(gè)維度建立可視化圖表,得出不同用戶群對(duì)信息服務(wù)的需求趨勢(shì)。
圖書館實(shí)現(xiàn)智能信息推送服務(wù),是基于前述建立的群組用戶動(dòng)態(tài)畫像與可視化分析,得到對(duì)用戶需求的全方位預(yù)測(cè),進(jìn)而主動(dòng)為他們提供可靠服務(wù),基本流程如圖2所示。與移動(dòng)新聞端等信息服務(wù)平臺(tái)類似,圖書館對(duì)各類服務(wù)資源進(jìn)行統(tǒng)一描述,建立符合用戶需求的信息資源庫,對(duì)大量用戶數(shù)據(jù)進(jìn)行標(biāo)簽化處理,采用關(guān)聯(lián)分析與相似度分析法,了解用戶對(duì)類似服務(wù)產(chǎn)品的喜好,形成群體用戶的需求數(shù)據(jù)庫,并借助信息智能推薦系統(tǒng),以推薦列表的形式實(shí)現(xiàn)與用戶需求的精準(zhǔn)匹配。最后根據(jù)用戶對(duì)推送服務(wù)的反饋情況,分析他們對(duì)智能推送信息是否滿意,若不滿意需要再次進(jìn)行用戶畫像分析,為用戶匹配新的信息推送列表。
圖書館用戶需求是動(dòng)態(tài)變化的,隨著時(shí)間、情境的變化,用戶的行為數(shù)據(jù)也會(huì)隨之更新,群組用戶畫像模型也需要不斷進(jìn)行調(diào)整[7]。群組用戶畫像模型是基于各類用戶標(biāo)簽建立的,包含對(duì)用戶偏好數(shù)據(jù)的采集、過濾與分析,在依據(jù)用戶畫像標(biāo)簽進(jìn)行用戶聚類分析,結(jié)合行為偏好建立用戶群組后,還需要評(píng)價(jià)不同群體之間的差異。然后根據(jù)用戶動(dòng)態(tài)反饋及時(shí)更新群體偏好模型,實(shí)現(xiàn)對(duì)前期工作的檢驗(yàn)和修正。在分析預(yù)測(cè)用戶需求動(dòng)態(tài)時(shí),圖書館需要關(guān)注“輿論領(lǐng)袖”在群體中發(fā)揮的作用。這些用戶扮演著信息中介的角色,能夠極大地影響其他用戶的價(jià)值判斷,對(duì)于優(yōu)質(zhì)信息資源具有極強(qiáng)的分析、傳播與分享能力。因此,圖書館可以從網(wǎng)絡(luò)傳播影響力角度進(jìn)行群組用戶畫像評(píng)價(jià),找到其中的“輿論領(lǐng)袖”,借助他們了解相關(guān)用戶的反饋建議,進(jìn)而不斷優(yōu)化智能信息推送模式。
圖2 基于群組用戶畫像的圖書館信息智能推送流程
群組用戶畫像所需的數(shù)據(jù)復(fù)雜多樣,圖書館需要解決的一大難題就是在數(shù)據(jù)處理過程中,降低數(shù)據(jù)整合利用成本。為此,圖書館可以利用協(xié)同過濾、知識(shí)發(fā)現(xiàn)等技術(shù),實(shí)現(xiàn)對(duì)用戶特征信息的高效抽取,讓館員與用戶之間的溝通關(guān)聯(lián)化,以便為用戶提供更便捷的服務(wù)。
圖書館借助群組用戶畫像模型,掌握不同類型用戶的個(gè)性化需求,從而為用戶推送個(gè)性化信息。由于館藏資源類型豐富、格式多樣,采用傳統(tǒng)的信息檢索技術(shù),難以實(shí)現(xiàn)對(duì)這些信息資源迅速查詢、處理、整合與傳輸,這就需要應(yīng)用協(xié)同過濾技術(shù),提高對(duì)用戶數(shù)據(jù)的處理效率。通過對(duì)圖書館數(shù)據(jù)庫資源的統(tǒng)一描述,結(jié)合用戶畫像對(duì)相關(guān)數(shù)據(jù)進(jìn)行協(xié)同過濾,消除冗余數(shù)據(jù),獲得可以清晰展現(xiàn)用戶全貌的有價(jià)值信息,以保障信息推送的準(zhǔn)確度[8]。在這個(gè)過程中,圖書館要善于對(duì)用戶畫像進(jìn)行分析,從中提取用戶的屬性特征,在關(guān)聯(lián)聚類分析的基礎(chǔ)上,把握用戶群體的真實(shí)需求,并以協(xié)同過濾的方式調(diào)取符合用戶需求的資源,形成個(gè)性化內(nèi)容推薦數(shù)據(jù)庫。
知識(shí)發(fā)現(xiàn)是融合機(jī)器學(xué)習(xí)、人工智能等眾多學(xué)科的新型研究領(lǐng)域,具體而言,就是通過對(duì)大量異構(gòu)數(shù)據(jù)資源的處理,從中提取潛在的、隱含的、易于理解的規(guī)則,從而完善知識(shí)增值的高級(jí)處理過程。在新聞推薦、個(gè)性化檢索與智能客服等領(lǐng)域,知識(shí)發(fā)現(xiàn)均有廣泛應(yīng)用。圖書館在大數(shù)據(jù)資源處理階段,采用面向自然語言的知識(shí)發(fā)現(xiàn)技術(shù),可以實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)的自動(dòng)語義處理,提高對(duì)自然語言資源的集群、關(guān)聯(lián)、分析、預(yù)測(cè)能力。自然語言處理擁有豐富的模型,可以滿足圖片、音頻、文本等不同類型數(shù)據(jù)的處理需要,方便圖書館結(jié)合用戶畫像特點(diǎn)選擇適宜的模式,構(gòu)建不同信息資源的聚合體,發(fā)現(xiàn)其中有價(jià)值的內(nèi)容與隱含知識(shí),從而保障個(gè)性化推薦與用戶需求的有效匹配。
圖書館用戶數(shù)量龐大,需求多樣,在為他們提供推送信息過程中產(chǎn)生的數(shù)據(jù)是驚人的,這些數(shù)據(jù)占用了系統(tǒng)存儲(chǔ)空間,若不及時(shí)處理將降低系統(tǒng)運(yùn)行速度。再加上根據(jù)群組用戶畫像分析用戶需求過程中,涉及專業(yè)背景、行為偏好等眾多復(fù)雜的關(guān)系圖譜,增加了發(fā)現(xiàn)用戶需求的難度。為此,基于群組用戶畫像的信息智能推送,需要圖書館在用戶需求分析過程中,促進(jìn)不同主題資源與用戶偏好信息的匹配,以分布式文件系統(tǒng)減少冗余數(shù)據(jù)。同時(shí)采用可視化技術(shù),以標(biāo)簽云圖、知識(shí)地圖等形式,向用戶展現(xiàn)立體多維的知識(shí),減少數(shù)據(jù)存儲(chǔ)空間,提高服務(wù)系統(tǒng)響應(yīng)速度。此外,還可以為用戶提供可視化服務(wù)界面,按照用戶要求將推薦結(jié)果轉(zhuǎn)化為其希望的呈現(xiàn)形式,確保圖書館信息推送的準(zhǔn)確性與個(gè)性化。
大數(shù)據(jù)時(shí)代各種高新技術(shù)的應(yīng)用,為全方位勾勒用戶畫像提供了條件,未來用戶畫像的應(yīng)用領(lǐng)域也將不斷延伸。在倡導(dǎo)以用戶需求為中心的時(shí)代背景下,圖書館作為信息服務(wù)機(jī)構(gòu),充分借助用戶畫像發(fā)掘潛在需求,提高了信息推送的精準(zhǔn)度。盡管當(dāng)前用戶畫像技術(shù)的應(yīng)用還不完善,但融合多項(xiàng)技術(shù)的用戶畫像分析,將成為圖書館制定信息服務(wù)決策的依據(jù),也將成為圖書館的重要研究方向。