文/王顯斌
現(xiàn)階段國(guó)內(nèi)外圖書館領(lǐng)域用戶畫像研究主要以技術(shù)為主,主要包括了兩個(gè)層次,即User Persona和User Profile,使用的算法模型大致可分為3大類:
(1)基于概率主題的用戶文本建模推斷模型;
(2)基于排序的啟發(fā)式函數(shù)推斷模型;
(3)基于分類器結(jié)合特征工程的預(yù)測(cè)模型。
Gauch S等將用戶畫像描述為一組加權(quán)標(biāo)簽、概念層次結(jié)構(gòu)或語義網(wǎng)的集合,包括用戶基本素養(yǎng)、文化水平、社會(huì)背景、社交情況、工作情況、可支配時(shí)間等因素[1]。Zaugg H認(rèn)為圖書館的空間與服務(wù)的設(shè)計(jì)應(yīng)該關(guān)注用戶需求,可以借鑒營(yíng)銷領(lǐng)域和產(chǎn)品設(shè)計(jì)中用戶畫像的應(yīng)用,進(jìn)行圖書館空間與服務(wù)的設(shè)計(jì)[2]。國(guó)內(nèi)曾建勛認(rèn)為圖書館精準(zhǔn)服務(wù)需要用戶畫像,用戶畫像可以更好地認(rèn)識(shí)網(wǎng)絡(luò)中的用戶、改善網(wǎng)絡(luò)信息組織、發(fā)現(xiàn)信息傳播規(guī)律[3]。胡媛認(rèn)為數(shù)字圖書館知識(shí)社區(qū)用戶畫像可分為讀者基本信息、用戶興趣愛好、用戶活躍度三類標(biāo)簽?zāi)P停岢隽藬?shù)字圖書館知識(shí)社區(qū)綜合服務(wù)能力評(píng)價(jià)指標(biāo)體系[4]。
現(xiàn)階段國(guó)內(nèi)圖書館領(lǐng)域用戶畫像研究主要以個(gè)案研究為主,針對(duì)具體不同應(yīng)用場(chǎng)景和目標(biāo),構(gòu)建不同用戶畫像模型,針對(duì)科學(xué)數(shù)據(jù)管理場(chǎng)景的用戶畫像研究目前還非常少。本文綜合心理學(xué)、信息學(xué)等多學(xué)科知識(shí),從科學(xué)數(shù)據(jù)用戶畫像概念和內(nèi)涵分析出發(fā),構(gòu)建用戶數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的科學(xué)數(shù)據(jù)用戶畫像模型和系統(tǒng),深入探討用戶畫像在科學(xué)數(shù)據(jù)管理領(lǐng)域的應(yīng)用。
用戶畫像的目的是通過對(duì)特定行為群體特征的總結(jié)和提煉,為精準(zhǔn)化服務(wù)提供量化支撐。因此,用戶畫像對(duì)目標(biāo)用戶群體邊界的界定越明確,畫像結(jié)果越有針對(duì)性。在科學(xué)數(shù)據(jù)管理中,學(xué)術(shù)行為和學(xué)科背景對(duì)科研用戶群體邊界的界定產(chǎn)生重要影響,導(dǎo)致科研用戶群體邊界處于動(dòng)態(tài)變化中,原因有兩個(gè):
(1)科研人員跨學(xué)科研究行為越來越頻繁,所跨學(xué)科對(duì)象也處于動(dòng)態(tài)變化中;
(2)科研人員研究方向也處于變化當(dāng)中。
用戶畫像關(guān)注的是“典型用戶”而不是“平均用戶”,其結(jié)果具有明顯的區(qū)分度和針對(duì)性,可以更精準(zhǔn)地識(shí)別特定用戶的動(dòng)機(jī)及行為偏好。在科學(xué)數(shù)據(jù)管理中,科研用戶畫像有效性體現(xiàn)在對(duì)目標(biāo)用戶群體的用戶屬性特征的提煉與總結(jié)。
典型用戶畫像屬性包括靜態(tài)屬性和動(dòng)態(tài)屬性。靜態(tài)屬性是相對(duì)穩(wěn)定的用戶信息,如人口屬性、職業(yè)等;動(dòng)態(tài)屬性是用戶不斷變化的信息,如場(chǎng)景、媒介、路徑等。在科學(xué)數(shù)據(jù)管理中,科研用戶畫像解決的是知識(shí)服務(wù)的精準(zhǔn)化問題,關(guān)注的焦點(diǎn)和最后的評(píng)價(jià)不是“我是否提供了您需要的信息”,而是“是否通過我的服務(wù)解決了您的問題”。因此,科學(xué)數(shù)據(jù)用戶屬性應(yīng)突出知識(shí)的特性,可劃分為靜態(tài)屬性、動(dòng)態(tài)屬性和知識(shí)屬性。
圖1
圖2
科研人員的學(xué)科背景一般相對(duì)固定,但是隨著跨學(xué)科研究的開展和研究方向的不斷變化,科研人員往往需要具備多學(xué)科知識(shí),需要不斷了解新領(lǐng)域,補(bǔ)充新知識(shí)以支撐其研究活動(dòng)。因此,科研用戶知識(shí)屬性的核心(學(xué)科背景)相對(duì)穩(wěn)定,但其外延一直處于動(dòng)態(tài)變化中,即一種半動(dòng)態(tài)化狀態(tài)。
科學(xué)數(shù)據(jù)用戶知識(shí)屬性可分為外知識(shí)屬性和內(nèi)知識(shí)屬性兩類。外知識(shí)屬性是指外部環(huán)境作用于個(gè)體身上的各種與知識(shí)有關(guān)的元素集合,包括:學(xué)歷學(xué)位、畢業(yè)院校、學(xué)術(shù)職務(wù)、學(xué)術(shù)兼職、參加學(xué)術(shù)團(tuán)體、專業(yè)職稱、學(xué)術(shù)榮譽(yù)等。內(nèi)知識(shí)屬性是指?jìng)€(gè)體自身具有的各種與知識(shí)有關(guān)的元素集合,參照顯性知識(shí)與隱性知識(shí)的概念,可分為內(nèi)在顯性知識(shí)屬性和內(nèi)在隱性知識(shí)屬性。內(nèi)在顯性知識(shí)屬性包括:研究領(lǐng)域、學(xué)術(shù)專長(zhǎng)、著作論文、非正式成果等。內(nèi)在隱性知識(shí)屬性包括:心智水平、文化素養(yǎng)、學(xué)術(shù)思想、學(xué)術(shù)影響力等??蒲杏脩舻闹R(shí)屬性蘊(yùn)含著較多的語義信息,需要在標(biāo)簽基礎(chǔ)上引入語義表達(dá)。
不同的時(shí)間、地點(diǎn)、研究階段等知識(shí)場(chǎng)景下,用戶需求會(huì)有差異。例如:撰寫論文時(shí),會(huì)關(guān)注當(dāng)前研究熱點(diǎn);而教學(xué)時(shí),更想要梳理出該學(xué)科的知識(shí)體系。同時(shí),用戶心理狀態(tài)不同,其知識(shí)需求也存在差異。例如:剛進(jìn)入新研究領(lǐng)域時(shí),一般對(duì)研究工作持樂觀心理;隨著研究的深入,會(huì)出現(xiàn)困惑或迷茫,心理上會(huì)變得焦慮,體現(xiàn)在行為上就是大量盲目地學(xué)習(xí)和收集資料;度過失望期之后,心理上才會(huì)逐步的平穩(wěn)。這種心理和情感上的變化可以通過社會(huì)心理學(xué)進(jìn)行分析。
用戶畫像建模就是構(gòu)建用戶標(biāo)簽體系,可分為結(jié)構(gòu)化標(biāo)簽體系和非結(jié)構(gòu)化標(biāo)簽體系兩類。非結(jié)構(gòu)化標(biāo)簽體系彼此之間無層級(jí)關(guān)系,各個(gè)標(biāo)簽反應(yīng)各自的用戶興趣,不僅能夠涵蓋結(jié)構(gòu)化標(biāo)簽體系,更能細(xì)致地表達(dá)語義上的分類,如資源發(fā)現(xiàn)系統(tǒng)中的關(guān)鍵詞、學(xué)術(shù)社區(qū)中的文檔主題模型(Topic Model)等。科學(xué)數(shù)據(jù)用戶非結(jié)構(gòu)化標(biāo)簽體系可分為四個(gè)層級(jí):即事實(shí)標(biāo)簽、模型標(biāo)簽、預(yù)測(cè)標(biāo)簽和業(yè)務(wù)標(biāo)簽。每上層標(biāo)簽都由下層標(biāo)簽抽象計(jì)算組合生成,其中業(yè)務(wù)層標(biāo)簽需要人工進(jìn)行定義。如圖1所示。
用戶的靜態(tài)屬性反映著用戶的基本情況,是連接線上和線下的紐帶,定義函數(shù)表示其在一定場(chǎng)景下對(duì)標(biāo)簽的影響權(quán)重,則公式如下:
同理,可以推導(dǎo)出用戶動(dòng)態(tài)屬性在一定場(chǎng)景下對(duì)標(biāo)簽的影響權(quán)重
本文從科學(xué)數(shù)據(jù)用戶畫像內(nèi)涵出發(fā),對(duì)科學(xué)數(shù)據(jù)用戶影響因素進(jìn)行分析,最后構(gòu)建了科學(xué)數(shù)據(jù)用戶畫像模型和系統(tǒng)。其中的重難點(diǎn)有兩個(gè):
(1)多源異構(gòu)數(shù)據(jù)導(dǎo)致數(shù)據(jù)融合困難,必須設(shè)計(jì)合適的降維方法、特征選擇方法、模型融合方法;
(2)數(shù)據(jù)稀疏性較高導(dǎo)致屬性特征組合困難。這將是下一步研究的重點(diǎn)。