張勁松
(山東管理學(xué)院圖書館 濟(jì)南 250357)
大數(shù)據(jù)背景下,海量用戶文本為數(shù)據(jù)分析與知識發(fā)現(xiàn)提供了豐富的語料來源。用戶圍繞圖書、影視等網(wǎng)絡(luò)資源,進(jìn)行標(biāo)簽標(biāo)注、在線評論、社會交往等活動(dòng),逐漸形成各類在線用戶社區(qū)(Online User Community)[1]。研究如何從在線用戶社區(qū)中,識別用戶的動(dòng)態(tài)興趣特征,刻畫其情感傾向,對實(shí)現(xiàn)用戶個(gè)性化推薦,完善商品營銷策略等具有重要的研究價(jià)值。
當(dāng)前,推薦算法可分為基于用戶的協(xié)同過濾(Collaborative Filtering)[2]以及基于文本的內(nèi)容發(fā)現(xiàn)方法(Context-Based Recommendation)[3]。基于用戶的協(xié)同過濾方法通過識別用戶對興趣項(xiàng)目的評分,獲取最小近鄰偏好矩陣,并以此為基礎(chǔ)計(jì)算用戶之間、用戶與項(xiàng)目之間的相似度。如汪圳[4]等提出一種基于用戶情景感知的圖書協(xié)同過濾方法,該方法通過構(gòu)建包含用戶屬性要素特征、圖書使用行為、圖書需求場景等的多維特征矩陣,實(shí)現(xiàn)用戶圖書需求的多項(xiàng)目協(xié)同過濾推薦。胡代平[5]等將用戶借閱行為與圖書標(biāo)簽相融合,提出一種基于動(dòng)態(tài)用戶閱讀偏好的高校圖書推薦方法,該方法通過識別讀者偏好屬性,實(shí)現(xiàn)平滑時(shí)間維下偏好特征的在線計(jì)算?;谟脩舻膮f(xié)同過濾方法適合數(shù)據(jù)規(guī)模較少且特征區(qū)分度較高的圖書項(xiàng)目,缺點(diǎn)是在用戶數(shù)據(jù)稀疏時(shí)用戶標(biāo)簽屬性建模存在冷啟動(dòng)問題?;谖谋镜膬?nèi)容發(fā)現(xiàn)方法通過分析用戶的文本信息,以用戶畫像、興趣標(biāo)簽標(biāo)注等形式識別用戶的興趣特征,最終實(shí)現(xiàn)用戶與項(xiàng)目資源間的語義匹配。如李曉敏[6]等提出一種基于用戶畫像的圖書推薦方法,該方法通過抽取用戶的多維屬性特征,實(shí)現(xiàn)用戶綜合畫像,并通過相似度計(jì)算推薦相似讀者與相似圖書。張彬[7]等提出一種基于多源標(biāo)簽的興趣融合方法,該方法首先將讀者與項(xiàng)目劃分成不同的層次,并對相鄰域進(jìn)行標(biāo)簽權(quán)重計(jì)算,最終得到讀者的綜合興趣標(biāo)簽集。
隨著社交網(wǎng)絡(luò)技術(shù)的快速發(fā)展,包含大量用戶行為、興趣、主題等的用戶生成文本(User Generated Content)越來越受到關(guān)注[8-9]。面向用戶生成文本的圖書推薦發(fā)現(xiàn),能夠識別讀者的興趣熱點(diǎn),實(shí)現(xiàn)讀者與圖書間的內(nèi)在關(guān)聯(lián)挖掘,從而精準(zhǔn)定位讀者需求。基于用戶生成文本的推薦方法與基于文本的內(nèi)容發(fā)現(xiàn)方法相類似,不同之處在于,前者突出與用戶評論相關(guān)的文本感知與情感描述,通過概率計(jì)算、主題分析等方法,刻畫讀者的內(nèi)在圖書需求。如顏端武[10]提出面向知識服務(wù)的推薦方法,該方法以用戶生成文本為數(shù)據(jù)來源,通過挖掘用戶的興趣特征,建立用戶興趣方法,再從興趣資源建模的角度,構(gòu)建基于領(lǐng)域本體的圖書可視化平臺,最終利用文本相似性刻畫用戶與資源間的關(guān)聯(lián)關(guān)系。武雅利[11]基于情感詞典提出面向用戶生成內(nèi)容的個(gè)性化情感分析方法,該方法通過定量分析用戶對文本的情感值,實(shí)現(xiàn)了用戶對商品資源的有效推薦。此外,考慮到用戶生成文本的文法隨意、結(jié)構(gòu)不規(guī)范等特點(diǎn),其質(zhì)量會影響對用戶的興趣偏好識別以及標(biāo)簽標(biāo)注,因而也有學(xué)者針對面向推薦的用戶生成文本質(zhì)量進(jìn)行研究,如鐘將等提出一種基于主題特征格的用戶生成文本質(zhì)量評估方法[12],該方法通過定義文本質(zhì)量評估函數(shù),基于主題模型構(gòu)建商品分類體系,最終以概念格的形式生成具有強(qiáng)關(guān)聯(lián)關(guān)系的評論特征格。多數(shù)基于用戶生成文本的圖書推薦方法無法有效融合讀者的情感特征與圖書資源的主題特征,缺乏對用戶間聚類關(guān)系的概念級多粒度表示能力。
針對以上問題,本文通過挖掘用戶標(biāo)簽隱藏的主題依賴關(guān)系,將模糊關(guān)聯(lián)規(guī)則引入圖書標(biāo)簽挖掘方法中,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識別方法,該方法首先通過識別用戶書評文本的主題特征,建立圖書標(biāo)簽特征矩陣,實(shí)現(xiàn)圖書的主題聚類。其次,通過計(jì)算不同用戶間的主題相似度,獲取候選用戶集,再利用文本情感分析,得到用戶對標(biāo)簽的情感評分,并以此為基礎(chǔ),建立標(biāo)簽?zāi):问奖尘?。最后,基于?biāo)簽?zāi):拍罡?,定義模糊關(guān)聯(lián)規(guī)則,利用隸屬度置信閾值、隸屬度期望等參數(shù)刻畫圖書標(biāo)簽間的模糊依賴關(guān)系,獲取圖書資源間的蘊(yùn)含依賴關(guān)系,最終實(shí)現(xiàn)圖書標(biāo)簽關(guān)聯(lián)規(guī)則識別。
RFAR方法首先將用戶對圖書的評論數(shù)據(jù)作為目標(biāo)數(shù)據(jù)集,經(jīng)過預(yù)處理等操作后,通過識別圖書標(biāo)簽的主題特征,建立圖書-主題分布矩陣;其次,通過計(jì)算不同用戶的圖書標(biāo)簽特征矩陣的余弦相似度,構(gòu)建目標(biāo)用戶對象集,同時(shí)采用基于情感詞典的文本情感分析,計(jì)算用戶對不同標(biāo)簽屬性的情感評分,據(jù)此建立用戶對象與標(biāo)簽屬性間的模糊關(guān)系映射,得到標(biāo)簽?zāi):问奖尘?;最后,依?jù)模糊概念格生成算法,構(gòu)建標(biāo)簽?zāi):拍罡瘢⒔Y(jié)合定義的模糊關(guān)聯(lián)規(guī)則,從模糊概念層面挖掘主題特征間的模糊依賴關(guān)系。
1.1研究框架本研究框架如圖1所示。
圖1 研究框架
標(biāo)簽?zāi):问奖尘皩⒂脩魳?biāo)注的標(biāo)簽集表示成一組內(nèi)涵模糊屬性集,便于從標(biāo)簽的文本信息中獲取用戶對圖書的情感傾向,從而實(shí)現(xiàn)基于情感分析的多粒度關(guān)聯(lián)分析。
定義2 (標(biāo)簽?zāi):拍?:對標(biāo)簽?zāi):问奖尘癒f=(O,A,I)上的二元組(U,V),對任意子集U∈O,V∈A,均存在公式(1)、公式(2)映射關(guān)系,則稱該二元組是滿足隸屬度置信閾值λ下的一組標(biāo)簽?zāi):拍?,記為Cf(U,V)。
(1)
(2)
通過調(diào)節(jié)隸屬度置信閾值λ,能夠調(diào)整標(biāo)簽?zāi):拍钪袑ο蟮臄?shù)量,根據(jù)需要構(gòu)建具有實(shí)際意義的內(nèi)涵模糊概念,從而將對象與屬性間的模糊二元關(guān)系轉(zhuǎn)化成標(biāo)簽?zāi):拍畹牧6缺硎尽?/p>
(3)
1.3標(biāo)簽主題建模RFAR方法主要針對在線圖書社區(qū)的用戶文檔進(jìn)行主題建模,多數(shù)用戶通常是以書評的形式發(fā)表包含創(chuàng)作、學(xué)術(shù)以及情感評價(jià)等短文本。本文通過分詞、去停用詞等文本清洗操作后,采集到的有效用戶評論文本的平均長度為120。但由于LDA主題模型通常不適合挖掘短文本數(shù)據(jù)[13],同時(shí)無法有效解決高頻無效詞對主題概率分布的影響,因此,首先引入TF-IDF算法獲取文本特征詞的統(tǒng)計(jì)信息,提高文檔主題分析的可解釋性,然后采用BTM(Biterm Topic Model)短文本主題模型實(shí)現(xiàn)主題聚類,改善數(shù)據(jù)稀疏文檔的主題識別能力。
1.3.1 圖書標(biāo)簽提取 TF-IDF(Term Frequency-Inverse Document Frequency)算法是一種計(jì)算文本詞頻的統(tǒng)計(jì)方法,可用于評估語料庫中具體詞匯在所有文檔中的重要程度[14]。因此,本文基于TF-IDF計(jì)算文檔評估短語的詞頻特征,具體計(jì)算過程如下:首先統(tǒng)計(jì)文本中每個(gè)詞匯的出現(xiàn)頻率(TF值),同時(shí)計(jì)算相應(yīng)詞匯的逆向文檔詞頻(IDF值),再通過計(jì)算TF與IDF的乘積,得到文檔詞匯的TF-IDF詞頻。其計(jì)算方法如公式(4)所示。
(4)
1.3.2 BTM主題聚類 BTM主題模型是一種面向短文本的主題學(xué)習(xí)模型[15],該模型基于離散詞共現(xiàn)的基本思想,將文檔表示成若干話題的概率集合,將話題表示成若干詞匯的概率集合,并通過構(gòu)建“文檔-主題-詞匯”的三層Bayes概率模型,實(shí)現(xiàn)文本的主題聚類。
本文將BTM主題模型的文檔視為圖書標(biāo)簽集合,文檔詞匯視為用戶標(biāo)簽,識別標(biāo)簽的主題信息,具體計(jì)算流程如下:
1.4標(biāo)簽情感挖掘
1.4.1 主題相似度計(jì)算 以用戶-主題概率矩陣為基礎(chǔ),計(jì)算不同用戶間的主題相關(guān)性。采用余弦相似度計(jì)算用戶間的主題相似距離,得到候選目標(biāo)用戶集U(u1,u2,…,un),計(jì)算如公式(5)所示。
(5)
式(5)中,pmj與pnj分別表示用戶u1,u2對主題的標(biāo)注概率;m,n分別表示用戶u1,u2標(biāo)注的主題數(shù);r=max(m,n)。
1.4.2 文本情感分析 用戶通過描述型、情感型書評表達(dá)與原創(chuàng)作者在情感上的共鳴或差異,從而顯露出對不同標(biāo)簽的情感傾向[18]。挖掘用戶間的相似情感,能夠最大限度地還原用戶對不同標(biāo)簽主題的情感評價(jià),從而在標(biāo)簽主題聚類的基礎(chǔ)上,增加對標(biāo)簽情感的程度刻畫。本文基于WordNet情感字典[19]識別隱含在用戶標(biāo)簽中的正負(fù)情感傾向,并將其量化成用戶對標(biāo)簽屬性的情感評分,實(shí)現(xiàn)用戶與標(biāo)簽間的模糊關(guān)系映射。具體實(shí)現(xiàn)過程如下:首先從用戶文本中抽取標(biāo)簽及其評論文本,分別建立標(biāo)簽-評論文本矩陣,再從評論文本中抽取情感詞,計(jì)算用戶對標(biāo)簽的情感值,計(jì)算如公式(6)所示。
(6)
式(6)中,|D|表示用戶文本中標(biāo)簽數(shù)量;d表示D中所含的標(biāo)簽;sd(u)表示文本d中用戶的情感值,計(jì)算如公式(7)所示。
(7)
式(7)中,m,n分別表示情感字典中正、負(fù)情感詞數(shù);pwi,nwj分別表示情感字典中的正、負(fù)情感詞;SimPos(w,pwi),SimNeg(w,nwj)分別表示正、負(fù)情感相似度。
1.4.3 標(biāo)簽?zāi):问奖尘皹?gòu)建 通過識別用戶對標(biāo)簽的情感傾向,經(jīng)過歸一化處理后,得到用戶-標(biāo)簽情感評分矩陣,以此作為用戶與標(biāo)注標(biāo)簽間的模糊關(guān)系,從而構(gòu)建標(biāo)簽?zāi):问奖尘?,具體流程描述如下:a.對于給定的用戶ui,帶入公式(4)計(jì)算主題相似度,得到目標(biāo)用戶對象集U(u1,u2,…,un);b.遍歷用戶對象集,從用戶-標(biāo)簽矩陣Mu,l(i,j)中選取標(biāo)簽l的TF-IDF詞頻排名靠前的top-n,并分別將其映射到屬性集A(a1,a2,…,am);c.抽取包含標(biāo)簽l的四元組<句子,屬性,情感詞,情感評分>,其中情感評分由公式(5)和公式(6)計(jì)算得到;d.整合用戶關(guān)于標(biāo)簽l的所有句子評價(jià)信息,得到用戶對標(biāo)簽屬性的綜合情感評分,并以此作為用戶u關(guān)于標(biāo)簽l的模糊關(guān)系值。重復(fù)上述步驟,最終實(shí)現(xiàn)標(biāo)簽?zāi):问奖尘暗臉?gòu)建。
1.5模糊關(guān)聯(lián)規(guī)則分析基于模糊概念格的關(guān)聯(lián)規(guī)則分析,通過將模糊概念的內(nèi)涵屬性映射到模糊關(guān)系集中,挖掘滿足支持度和置信度的頻繁項(xiàng)集,從而發(fā)現(xiàn)概念節(jié)點(diǎn)之間的強(qiáng)關(guān)聯(lián)關(guān)系,并通過調(diào)整支持度與可信度閾值參數(shù),從模糊依賴關(guān)系角度強(qiáng)化了標(biāo)簽?zāi):拍畹牧6刃畔ⅰ楸阌谧R別模糊關(guān)聯(lián)規(guī)則,參考文獻(xiàn)[20]在模糊概念的數(shù)據(jù)結(jié)構(gòu)中添加屬性的統(tǒng)計(jì)特征,利用概念節(jié)點(diǎn)間的偏序關(guān)系,實(shí)現(xiàn)頻繁項(xiàng)集的動(dòng)態(tài)提取。相關(guān)定義如下:
通過構(gòu)造標(biāo)簽統(tǒng)計(jì)模糊概念,并基于定義5提取頻繁概念節(jié)點(diǎn)及其偏序關(guān)系,構(gòu)造滿足模糊依賴關(guān)系的模糊關(guān)聯(lián)規(guī)則格[22]。本文首先更新標(biāo)簽?zāi):拍睿砑佑脩魧?biāo)簽的隸屬度,構(gòu)建標(biāo)簽?zāi):拍罡?;再從格結(jié)構(gòu)約束中,提取模糊關(guān)聯(lián)規(guī)則。限于篇幅,關(guān)于模糊概念格的構(gòu)造過程,可參見文獻(xiàn)[23]。模糊關(guān)聯(lián)規(guī)則的提取過程算法如下:
Input:(FC(Kf),≤),隸屬度置信閾值λ,隸屬度期望閾值δ,隸屬度方差閾值ω,支持度閾值ψ,置信度閾值ζ。Output:頻繁概念節(jié)點(diǎn)集F,模糊關(guān)聯(lián)規(guī)則集AR,二元概念組BR,支持度Sup(R),可信度Con(R)。GetFC(Kf) from (FC(Kf),≤) //抽取標(biāo)簽?zāi):拍罴?For i=1 toN // ComputeE(Vi), σ(Vi) UpdateC'i=(Ui,Vi,E(Vi),σ(Vi),parent,children) //更新模糊概念節(jié)點(diǎn) AddC'i to FC'(Kf) For j=1 toM IfE(Vi)>δ and σ(Vi)<ω For eachC'i≥C'j?Vi?VjSup(R)=E(Vj) //計(jì)算支持度Con(R)=Normalized(σ(Vj)) //計(jì)算可信度F=F∪C'i Endfor IfC'i.parent or C'i.children∈ F BR= BR∪{C'i.parent∪C'i.children} //遍歷頻繁概念節(jié)點(diǎn)父類與子類節(jié)點(diǎn)信息 Endif Endif Endfor If λ≤C'1.μv1u1≤C'2.μv2u2 //利用置信閾值抽取模糊概念Choose R:V1?V2-V1 from BR //提取模糊關(guān)聯(lián)規(guī)則 IfSupR >ψ and ConR >ζ //調(diào)整閾值,得到強(qiáng)關(guān)聯(lián)規(guī)則 GetAR= AR ∪{R, Sup(R), Con(R)} Endif EndifEndfor
2.1實(shí)驗(yàn)來源實(shí)驗(yàn)數(shù)據(jù)來源于知乎讀書會社區(qū),選取2021年3月10日-5月10日內(nèi)評論數(shù)排名靠前的1 000本圖書,涵蓋讀者46 732人,有效書評文本數(shù)123 062份。首先使用中科院的ICTCLAS軟件對書評文本進(jìn)行分詞,得到(用戶,詞匯)矩陣,再基于TF-IDF模型計(jì)算用戶文檔詞的詞頻數(shù)值,選取用戶文本中的高頻詞作為圖書的標(biāo)簽集,建立(用戶,標(biāo)簽)關(guān)系矩陣,其中矩陣元素表示用戶標(biāo)簽的tf-idf值,表1是部分用戶標(biāo)簽的tf-idf值。
表1 用戶-標(biāo)簽的tf-idf值(部分)
2.2實(shí)驗(yàn)結(jié)果
2.2.1 標(biāo)簽主題建模 將用戶的標(biāo)簽矩陣作為子文檔集,對標(biāo)簽進(jìn)行編碼表示。使用Pathon編寫程序進(jìn)行BTM模型訓(xùn)練。其中,文檔在不同主題數(shù)下的困惑度,如圖2所示。由圖2可知,在主題數(shù)K=40時(shí),困惑度取到最小值(0.934),此時(shí)方法性能最佳,因此設(shè)置主題數(shù)為40,經(jīng)過1000次抽樣迭代后得到不同用戶的標(biāo)簽-主題概率矩陣,如表2所示。將用戶-標(biāo)簽矩陣與標(biāo)簽-主題概率矩陣進(jìn)行內(nèi)積計(jì)算,構(gòu)建用戶-主題概率矩陣,如表3所示。
圖2 不同主題數(shù)下的困惑度取值
表2 用戶的標(biāo)簽-主題概率矩陣(部分)
表3 用戶-主題概率矩陣(部分)
2.2.2 標(biāo)簽情感挖掘 通過分析用戶在主題上的相關(guān)性,得到其在不同主題上的相似度距離。RFAR方法采用余弦相似度計(jì)算用戶間的主題相似度。以用戶“彼得潘飛俠”為例,得到與其存在主題相似性的候選目標(biāo)用戶集。相似度較高的Top10用戶如表4所示。
表4 “彼得潘飛俠”的主題相似用戶
通過計(jì)算用戶間的主題相似性,構(gòu)建用戶對象集合?;谇楦凶值渥R別標(biāo)簽所屬文本的情感詞,分析隱含在用戶標(biāo)簽中的情感傾向,利用公式(6)和公式(7)計(jì)算用戶對標(biāo)簽屬性的情感評分,并以此作為標(biāo)簽?zāi):问奖尘爸袑ο笈c屬性間的模糊關(guān)系。然后依據(jù)1.4.3節(jié)的描述過程,構(gòu)建標(biāo)簽?zāi):问奖尘?,結(jié)果如表5所示,表中數(shù)值表示用戶對標(biāo)簽的情感評分,其中負(fù)值表示用戶對該標(biāo)簽具有負(fù)向情感。
表5 標(biāo)簽?zāi):问奖尘?部分)
2.2.3 參數(shù)分析 本文通過融合讀者標(biāo)簽的主題特征與情感評分,建立標(biāo)簽?zāi):拍罡?,誘導(dǎo)出圖書標(biāo)簽的模糊關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)圖書標(biāo)簽的語義發(fā)現(xiàn)。參數(shù)閾值對標(biāo)簽關(guān)聯(lián)規(guī)則的影響,分析如下:
a.隸屬度置信閾值通過調(diào)整滿足用戶對象與標(biāo)簽屬性的概念數(shù),達(dá)到影響標(biāo)簽?zāi):拍钌梢?guī)模的目的。為了得到具有實(shí)際意義的標(biāo)簽?zāi):拍?,?shí)驗(yàn)選取不同的隸屬度置信閾值λ,觀測實(shí)際獲取的標(biāo)簽?zāi):拍顢?shù),結(jié)果如圖3所示。由圖3可知,伴隨著λ取值的逐漸增大,獲得的有效標(biāo)簽?zāi):拍顢?shù)逐漸減少。在λ取值0.32時(shí),標(biāo)簽?zāi):拍顢?shù)取到均值865。
圖3 隸屬度置信閾值對標(biāo)簽?zāi):拍畹挠绊?/p>
b.隸屬度期望表示標(biāo)簽統(tǒng)計(jì)模糊概念所含有的平均屬性數(shù),體現(xiàn)了概念本身的屬性模糊度。通過調(diào)整閾值δ,能夠控制標(biāo)簽統(tǒng)計(jì)模糊概念所含的屬性規(guī)模。在λ=0.32時(shí),通過計(jì)算每個(gè)概念的內(nèi)涵標(biāo)簽屬性數(shù),取其均值0.36作為隸屬度期望閾值δ的取值。隸屬度方差則反映了用戶對象對標(biāo)簽屬性的情感評價(jià)偏離程度。閾值ω設(shè)置為所有標(biāo)簽統(tǒng)計(jì)模糊概念中隸屬度方差的均值,取值0.0126。
c.通過調(diào)整支持度閾值與置信度閾值,能夠控制模糊關(guān)聯(lián)規(guī)則的數(shù)量。RFAR方法按照步長0.2分別對ψ,ζ賦值,提取到的關(guān)聯(lián)規(guī)則數(shù)如表6所示。分析表6可知,當(dāng)ψ=0.4,ζ=0.8時(shí),獲得的關(guān)聯(lián)規(guī)則數(shù)最接近平均值。
表6 支持度與置信度閾值對生成關(guān)聯(lián)規(guī)則數(shù)的影響
2.2.4 模糊關(guān)聯(lián)規(guī)則挖掘 首先采用Godin[24]漸進(jìn)式算法,基于標(biāo)簽?zāi):问奖尘皹?gòu)造模糊概念格(λ=0.32)。然后依據(jù)定義3計(jì)算模糊概念屬性的統(tǒng)計(jì)特征,并將結(jié)果加入候選頻繁概念節(jié)點(diǎn)集,將標(biāo)簽?zāi):拍罡褶D(zhuǎn)換成標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格,結(jié)果如圖4所示。統(tǒng)計(jì)模糊概念信息如表7所示。
圖4中的標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格共包括26個(gè)統(tǒng)計(jì)模糊概念節(jié)點(diǎn),依據(jù)模糊概念節(jié)點(diǎn)間的上下位關(guān)系,可以分成7個(gè)層級。節(jié)點(diǎn)所在層級越高,其包含的對象就越多,內(nèi)涵模糊屬性則越少,如表7中節(jié)點(diǎn)2-節(jié)點(diǎn)4,含有5個(gè)對象,1個(gè)屬性。隨著層級的不斷增加,節(jié)點(diǎn)所含的對象逐漸較少,最終縮減成僅含有一個(gè)對象的概念節(jié)點(diǎn),如圖4中灰色節(jié)點(diǎn)表示僅含有1個(gè)用戶的統(tǒng)計(jì)模糊概念節(jié)點(diǎn)。針對此類節(jié)點(diǎn)展開分析,能夠?qū)崿F(xiàn)用戶的個(gè)性化閱讀興趣分析。
圖4 標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格
表7 統(tǒng)計(jì)模糊概念信息
此外,分析表7可知,統(tǒng)計(jì)模糊概念的隸屬度期望并未隨著節(jié)點(diǎn)所含屬性的增加而增加,而是呈現(xiàn)出數(shù)值波動(dòng)的變化特點(diǎn),此結(jié)論表明標(biāo)簽的平均模糊程度不僅取決于其概念節(jié)點(diǎn)所含的屬性個(gè)數(shù),還與讀者對其的情感評價(jià)有關(guān)。另一方面,數(shù)值較大的隸屬度方差主要集中在標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格的較低層級(L4,L5),體現(xiàn)出讀者對標(biāo)簽的評價(jià)偏差較大。
采用定義5的方法標(biāo)記頻繁概念節(jié)點(diǎn)及其偏序關(guān)系,分別計(jì)算其支持度與可信度;再從格結(jié)構(gòu)中檢索出滿足參數(shù)閾值的統(tǒng)計(jì)模糊概念及其父子關(guān)系節(jié)點(diǎn),提取模糊關(guān)聯(lián)規(guī)則。依據(jù)2.2.3節(jié)的閾值參數(shù)設(shè)置方法,由表7生成的部分模糊關(guān)聯(lián)規(guī)則如表8所示,為便于說明,將表7中標(biāo)簽屬性還原成具體的標(biāo)簽內(nèi)容。
表8 模糊關(guān)聯(lián)規(guī)則
2.2.5 圖書標(biāo)簽推薦 a.基于模糊概念的用戶發(fā)現(xiàn)。由于標(biāo)簽?zāi):P(guān)聯(lián)規(guī)則格中,模糊概念體現(xiàn)了外延對象與內(nèi)涵屬性間的模糊伽羅瓦連接,所以在一定程度上,表達(dá)了不同用戶群對圖書標(biāo)簽的情感評價(jià)程度。如表7中的概念15,體現(xiàn)了用戶u3,u6對標(biāo)簽l4,l5,l6的情感評價(jià)程度。
此外,在滿足閾值的條件下,模糊概念格的概念節(jié)點(diǎn)之間具有偏序關(guān)系,層級越高,其聚類的用戶對象越少,相應(yīng)地標(biāo)簽屬性的數(shù)量則越多,反之亦然。利用模糊概念格的上述特性,可以從兩個(gè)方面進(jìn)行用戶或標(biāo)簽推薦:一方面,若想推薦與用戶u1具有類似興趣的用戶群,可以先定位到僅含有對象u1的概念節(jié)點(diǎn)(編號24),再向上檢索其父類節(jié)點(diǎn)(編號16,17,20)及其感興趣的標(biāo)簽屬性(l1,l3,l4,l5,l6),實(shí)現(xiàn)“以書會友,以文化人”的朋友圈推薦。另一方面,通過查詢模糊概念格中層級較高的概念節(jié)點(diǎn),如檢索僅含有l(wèi)1標(biāo)簽的概念節(jié)點(diǎn)(編號4),通過關(guān)聯(lián)與其相關(guān)的圖書信息,可以實(shí)現(xiàn)滿足用戶多樣化需求的圖書推薦。
b.基于模糊關(guān)聯(lián)規(guī)則的標(biāo)簽發(fā)現(xiàn)。由于模糊關(guān)聯(lián)規(guī)則格是在標(biāo)簽主題聚類的基礎(chǔ)上,增加用戶對標(biāo)簽情感的程度刻畫。由此生成的模糊關(guān)聯(lián)規(guī)則不僅僅能夠反映標(biāo)簽間的主題相關(guān)度,更能夠體現(xiàn)用戶對不同標(biāo)簽的情感關(guān)聯(lián)度,從而在標(biāo)簽的情感維度上建立起可以量化的關(guān)聯(lián)關(guān)系,如規(guī)則1反映出在置信度為0.95811,支持度為0.51342時(shí),批判類作品與包含力量,啟示及思考內(nèi)容的作品間的模糊關(guān)聯(lián)關(guān)系。
另外,考慮到用戶生成文本的語言特點(diǎn),大量的用戶評價(jià)是以信息缺省的方式存在,利用模糊關(guān)聯(lián)規(guī)則能夠?qū)崿F(xiàn)一定程度的知識推理,從而實(shí)現(xiàn)非完備形式背景的知識填充。如用戶“就是希望”發(fā)表的評論:“挺喜歡看當(dāng)代題材的,但有時(shí)往往讀起來比較傷感”。此時(shí)基于規(guī)則8,可知該用戶也可能不喜歡情節(jié)類與批判類的書籍,從而有選擇性地推薦其感興趣的圖書資源。
本文通過識別用戶生成文本的主題特征與情感特征,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識別方法,該方法通過計(jì)算不同用戶間的主題相似度,實(shí)現(xiàn)用戶間興趣的主題聚類,再利用文本情感分析,建立用戶對標(biāo)簽的情感模糊關(guān)系映射?;跇?biāo)簽?zāi):问奖尘埃瑯?gòu)建標(biāo)簽?zāi):拍罡?。最后將?biāo)簽屬性的統(tǒng)計(jì)特征引入模糊關(guān)聯(lián)規(guī)則的定義中,量化標(biāo)簽間的蘊(yùn)含依賴關(guān)系,實(shí)現(xiàn)多粒度的模糊關(guān)聯(lián)規(guī)則識別。未來的研究可以將文本主題識別與粗糙概念格[25]、三支概念格[26]等理論相結(jié)合,提升方法在模糊知識建模上的魯棒性。