張東雷,林友芳,萬(wàn)懷宇,馬語(yǔ)丹,陸金梁
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
作為一種集成化的信息與知識(shí)傳播和共享服務(wù)平臺(tái),在線技術(shù)社區(qū)為用戶提供了技術(shù)交流、咨詢和共享空間,深受技術(shù)愛(ài)好者和從業(yè)者的青睞。用戶可以在社區(qū)發(fā)表博客或帖子來(lái)記錄或分享自己對(duì)某一問(wèn)題的經(jīng)驗(yàn)或看法,可以瀏覽或收藏自己感興趣的內(nèi)容,可以針對(duì)自己的疑問(wèn)提出咨詢,也可以參與相關(guān)話題的討論。例如,全球最大的中文IT技術(shù)社區(qū)CSDN,擁有數(shù)千萬(wàn)用戶,每天產(chǎn)生大量的博客和帖子,以及瀏覽、頂踩、評(píng)論、收藏等行為。準(zhǔn)確地了解和掌握每個(gè)用戶的技能和興趣,對(duì)用戶進(jìn)行準(zhǔn)確的畫(huà)像,對(duì)技術(shù)社區(qū)的運(yùn)營(yíng)者來(lái)說(shuō)十分重要,有助于他們?yōu)橛脩籼峁┚珳?zhǔn)推薦和個(gè)性化服務(wù),從而增加用戶的黏性和社區(qū)的活躍度。例如,社區(qū)可以根據(jù)用戶的興趣為其推薦內(nèi)容、好友、活動(dòng)信息、技術(shù)專家等,也可以根據(jù)用戶的技能為其推薦合適的工作機(jī)會(huì)。然而,社區(qū)中通常只有少部分用戶提供了自定義的技能標(biāo)簽或興趣標(biāo)簽,而且標(biāo)簽的可信度也存疑。因此,如何基于用戶產(chǎn)生的內(nèi)容和行為信息,準(zhǔn)確地發(fā)現(xiàn)用戶的技能和興趣,就顯得尤為必要。
以用戶技能(或興趣)建模為目的的文本挖掘近年來(lái)受到了研究者的廣泛關(guān)注[1-3],涌現(xiàn)出了大量的相關(guān)模型,這些模型大致可以分為有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督的用戶技能/興趣建模。有監(jiān)督和半監(jiān)督的建模方法[4-5]需要利用訓(xùn)練語(yǔ)料來(lái)訓(xùn)練生成文本分類器,進(jìn)而對(duì)用戶進(jìn)行分類,一般具有較高的準(zhǔn)確率,然而獲取訓(xùn)練樣本的昂貴代價(jià)極大地限制了此類方法的可應(yīng)用性。因此以LDA[6]、AT[7]、CAT[8]和ACT[9]等話題模型為代表的無(wú)監(jiān)督用戶技能/興趣建模方法近年來(lái)受到更多的關(guān)注。但是,當(dāng)前這些模型主要考慮從用戶發(fā)表的文章來(lái)對(duì)其技能或興趣進(jìn)行建模,沒(méi)有將用戶的技能和興趣區(qū)別開(kāi)來(lái),因此還不能更準(zhǔn)確地同時(shí)捕獲用戶的技能和興趣。
事實(shí)上,社區(qū)用戶既是社區(qū)內(nèi)容的生產(chǎn)者,又是消費(fèi)者。生產(chǎn)者是指用戶以作者身份發(fā)表內(nèi)容,主要體現(xiàn)了用戶的技能;消費(fèi)者是指用戶以讀者身份去閱讀、頂踩、評(píng)論和收藏各種內(nèi)容,主要體現(xiàn)了用戶的興趣。通常情況下,用戶的技能比較集中,而用戶的興趣則相對(duì)寬泛。基于這一假設(shè),本文提出了一種作者—讀者—話題(author-reader-topic, ART)模型,來(lái)同時(shí)對(duì)用戶的技能和興趣進(jìn)行建模。該模型在經(jīng)典的LDA模型基礎(chǔ)上增加了作者和讀者信息,在建模文檔生成過(guò)程中,同步建模作者的話題分布和讀者的話題分布。該模型可以捕獲文檔的作者和讀者之間的關(guān)聯(lián)關(guān)系,因而能夠進(jìn)一步提升話題的聚集效果,從而產(chǎn)生更準(zhǔn)確的作者話題分布和讀者話題分布。
我們采用吉布斯采樣的方法對(duì)ART模型進(jìn)行推導(dǎo)和求解,通過(guò)不斷地采樣語(yǔ)料庫(kù)中每個(gè)詞的主題指派和讀者指派來(lái)近似推斷語(yǔ)料庫(kù)中主題、詞和讀者的聯(lián)合分布。吉布斯采樣收斂后,我們就可以根據(jù)語(yǔ)料庫(kù)中每個(gè)詞的采樣結(jié)果來(lái)估計(jì)出作者話題分布和讀者話題分布。
我們從CSDN技術(shù)社區(qū)采集了一個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并跟已有的用戶技能/興趣發(fā)現(xiàn)方法進(jìn)行了對(duì)比和分析。實(shí)驗(yàn)結(jié)果表明,本文提出的ART模型能夠更有效地發(fā)現(xiàn)用戶的技能和興趣,明顯優(yōu)于現(xiàn)有的各種話題模型。
本文的主要貢獻(xiàn)包括以下兩點(diǎn):
(1) 將在線技術(shù)社區(qū)用戶的技能和興趣區(qū)別開(kāi)來(lái),并根據(jù)用戶作為內(nèi)容的生產(chǎn)者和消費(fèi)者兩種角色,提出了一種同時(shí)對(duì)用戶技能和興趣進(jìn)行建模的話題模型。
(2) 從CSDN社區(qū)采集了一個(gè)高質(zhì)量的真實(shí)數(shù)據(jù)集,對(duì)提出的模型進(jìn)行了大量的實(shí)驗(yàn),并通過(guò)案例分析和各種評(píng)價(jià)指標(biāo)驗(yàn)證了本文提出的模型的有效性。
本文的剩余部分組織如下: 第一節(jié)簡(jiǎn)要介紹相關(guān)工作;第二節(jié)詳細(xì)描述我們提出的模型;第三節(jié)進(jìn)行實(shí)驗(yàn)對(duì)比和結(jié)果分析;最后在第四節(jié)對(duì)全文進(jìn)行總結(jié)。
以用戶技能(或興趣)建模為目的的文本挖掘近年來(lái)受到了研究者的廣泛關(guān)注[1-3],涌現(xiàn)出了大量的相關(guān)模型。早期研究者主要利用有監(jiān)督或半監(jiān)督的模型來(lái)挖掘用戶的技能或興趣,取得了較高的準(zhǔn)確率。例如,He等人[5]通過(guò)形式概念分析技術(shù)從正例文檔中建立用戶興趣模型,并采用形式化的概念來(lái)代表用戶感興趣的話題。Yang等人[4]考慮到Twitter用戶發(fā)表微博的周期性模式,提出了利用時(shí)間序列把用戶微博進(jìn)行歸類,將微博內(nèi)容轉(zhuǎn)化為時(shí)間序列特征,采用時(shí)間序列的分類方法對(duì)Twitter用戶的興趣進(jìn)行分類,和傳統(tǒng)的基于文本特征對(duì)用戶興趣進(jìn)行分類的方法相比,取得了較高的分類準(zhǔn)確率。 然而,有監(jiān)督和半監(jiān)督的建模方法需要大量的標(biāo)注語(yǔ)料來(lái)訓(xùn)練分類器,雖然具有較高的準(zhǔn)確率,但是獲取訓(xùn)練樣本的昂貴代價(jià)極大地限制了此類方法的可應(yīng)用性。
以話題模型為代表的無(wú)監(jiān)督方法避免了獲取訓(xùn)練樣本的昂貴代價(jià),因此在文本挖掘領(lǐng)域得到廣泛的研究和使用。LDA(latent dirichlet allocation)模型[6]是最經(jīng)典的話題模型之一,由Blei等人于2003年提出,它采用了“詞袋”假設(shè),即忽略一篇文檔的詞序、語(yǔ)法和句法,僅僅將其看作是一個(gè)詞集合。LDA是一種層次式的貝葉斯模型,其核心思想是將文檔看作隱話題的分布,而將每個(gè)隱話題看作詞的分布。由于LDA具有良好的數(shù)學(xué)基礎(chǔ)和靈活的可拓展性,目前國(guó)內(nèi)外已有大量的研究者基于LDA及其拓展模型來(lái)對(duì)用戶技能或興趣進(jìn)行建模。Weng等人[10]將每個(gè)用戶發(fā)表的tweets融合起來(lái),并使用LDA來(lái)發(fā)現(xiàn)用戶感興趣的話題。Rosen-Zvi等人[7]提出了作者—話題(author-topic,AT)模型,將文檔的作者信息加入話題的建模過(guò)程中,同時(shí)對(duì)作者和話題進(jìn)行建模,實(shí)驗(yàn)表明加入作者先驗(yàn)信息可以增強(qiáng)話題的聚集效果,從而有效地計(jì)算作者感興趣的話題分布。Hong等人[11]將AT模型應(yīng)用到Twitter上,結(jié)果表明作者信息的加入有助于對(duì)Twitter用戶的興趣話題進(jìn)行建模。Xu等人[12]認(rèn)為用戶發(fā)表的tweets并不都能體現(xiàn)用戶的興趣,通過(guò)在AT模型中引入一個(gè)隱變量來(lái)指示一篇tweet是否和用戶的興趣相關(guān),據(jù)此提出的twitter-user模型在發(fā)現(xiàn)用戶興趣上要優(yōu)于AT模型。Li等人[13]提出用戶—話題(user-topic,UT)模型對(duì)微博中的用戶興趣進(jìn)行建模,按照微博生成機(jī)制的不同將用戶的興趣分為原創(chuàng)興趣和轉(zhuǎn)發(fā)興趣,分別對(duì)應(yīng)用戶的原創(chuàng)博文和轉(zhuǎn)發(fā)博文,實(shí)驗(yàn)表明該模型發(fā)現(xiàn)的用戶興趣涵蓋的范圍更全面、更準(zhǔn)確。Tu等人[8]在AT模型的基礎(chǔ)上增加論文的引用作者信息,提出了引用—作者—主題(citation-author-topic,CAT) 模型,來(lái)更好地刻畫(huà)作者的技能分布,從而服務(wù)于專家發(fā)現(xiàn)。Tang等人[9]在AT模型的基礎(chǔ)上增加了出版地信息,提出了作者—會(huì)議—主題(author-conference-topic, ACT)模型,來(lái)更好地對(duì)學(xué)術(shù)領(lǐng)域中的作者、話題和出版地進(jìn)行建模,進(jìn)而用于學(xué)術(shù)領(lǐng)域?qū)<野l(fā)現(xiàn),取得了比其他話題模型更好的效果。
上述模型在分析用戶技能(或興趣)方面仍然存在一些不足之處。這些模型都是從內(nèi)容生產(chǎn)者的角度考慮了用戶發(fā)表或者轉(zhuǎn)發(fā)的文檔,而沒(méi)有站在內(nèi)容消費(fèi)者的角度考慮用戶閱讀、評(píng)論或收藏的文檔。事實(shí)上,用戶生產(chǎn)的內(nèi)容更多地反映了用戶的技能,而用戶消費(fèi)的內(nèi)容更多地反映了用戶的興趣。通常情況下,用戶的技能比較集中,而用戶的興趣則相對(duì)比較分散。因此,本文綜合考慮文檔的作者信息和讀者信息,提出了一種新穎的作者—讀者—話題(ART)模型來(lái)同時(shí)對(duì)在線技術(shù)社區(qū)用戶的技能和興趣進(jìn)行建模。
本節(jié)首先簡(jiǎn)單介紹兩個(gè)關(guān)于用戶技能/興趣建模的基礎(chǔ)模型LDA模型和AT模型,然后將詳細(xì)描述本文提出的作者—讀者—話題(ART)模型,并對(duì)模型進(jìn)行推導(dǎo)。表1列出了本文主要使用的符號(hào)及其含義說(shuō)明。
表1 相關(guān)符號(hào)說(shuō)明
2.1.1 LDA模型
LDA模型[6]是一種層次式的貝葉斯概率模型,包含詞、話題和文檔三層結(jié)構(gòu),語(yǔ)料庫(kù)中的每篇文檔被建模為隱話題的多項(xiàng)式分布,每個(gè)話題又被建模為詞的多項(xiàng)式分布,每篇文檔中的每個(gè)詞都是通過(guò)“以一定概率選擇了某個(gè)話題,并從這個(gè)話題中以一定概率選擇某個(gè)詞”這樣一個(gè)過(guò)程得到。LDA模型的盤(pán)式表示如圖1所示。為了生成一篇文檔,首先根據(jù)文檔的話題分布采樣生成一個(gè)話題,然后根據(jù)該話題的詞分布采樣生成一個(gè)詞。重復(fù)上述過(guò)程直到文檔中所有詞均已生成。由于LDA模型中存在隱變量,直接求解模型參數(shù)非常困難,因此LDA模型的推導(dǎo)一般采用變分法或吉布斯采樣進(jìn)行近似推斷[6,14]。
采用LDA進(jìn)行用戶技能或興趣發(fā)現(xiàn)時(shí),在模型中不考慮文檔的用戶信息,而是在求解模型得出每篇文檔的話題分布之后,對(duì)每個(gè)用戶對(duì)應(yīng)的全部文檔的話題分布求平均,形成用戶的話題分布,進(jìn)而根據(jù)用戶—話題分布和話題—詞分布生成用戶的技能表示或興趣表示。
圖1 LDA模型的盤(pán)式表示
2.1.2 作者—話題模型
作者—話題(author-topic,AT)模型[7]是對(duì)LDA模型的一種拓展變形,是一種較新穎的話題模型,它包含詞、話題、文檔和作者四層結(jié)構(gòu),在建模過(guò)程中加入了文檔的作者信息。該模型假設(shè)語(yǔ)料庫(kù)中的每個(gè)作者都對(duì)應(yīng)一個(gè)隱話題的多項(xiàng)式分布,每個(gè)話題都對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布。AT模型與LDA模型的不同之處在于它用作者—話題分布替換了文檔—話題分布,并且每個(gè)詞對(duì)應(yīng)兩個(gè)隱變量,即話題和作者。AT模型的盤(pán)式表示如圖2所示,其文檔生成過(guò)程與LDA的區(qū)別在于,它首先從文檔的作者集合中隨機(jī)選擇一個(gè)作者,然后根據(jù)該作者的話題分布采樣生成一個(gè)話題,最后再根據(jù)該話題的詞分布采樣生成一個(gè)詞。重復(fù)上述過(guò)程直到文檔中所有詞均已生成。同樣,AT模型的推導(dǎo)通常也采用變分法或吉布斯采樣進(jìn)行近似推斷。
圖2 AT模型的盤(pán)式表示
AT模型由于在建模過(guò)程中加入了作者信息,通常一個(gè)作者的話題分布是比較穩(wěn)定的,因此有助于增強(qiáng)話題的聚集效果。得益于作者信息的加入,相比LDA模型,AT模型能夠更準(zhǔn)確地發(fā)現(xiàn)用戶的技能分布。AT模型雖然引入了文檔的作者信息,但沒(méi)有考慮文檔的讀者信息對(duì)話題的聚集效果,以及進(jìn)一步的提升作用。此外,用戶分別作為作者和讀者時(shí),其話題分布也是不一樣的。作為作者時(shí)對(duì)應(yīng)的是其技能的話題分布,作為讀者時(shí)則對(duì)應(yīng)其興趣的話題分布。因此,本文進(jìn)一步提出了作者—讀者—話題模型,對(duì)用戶的技能和興趣分別進(jìn)行建模。
2.2 作者—讀者—話題模型
2.2.1 模型描述
在技術(shù)社區(qū)中,用戶經(jīng)常將自己的技術(shù)知識(shí)和經(jīng)驗(yàn)以博客或者帖子的形式發(fā)表出來(lái),供其他用戶學(xué)習(xí)、參考或討論,此時(shí)用戶作為生產(chǎn)者所發(fā)表的內(nèi)容通常體現(xiàn)了他們所具有的技能。另一方面,用戶也經(jīng)常搜索、瀏覽、評(píng)論、頂踩、收藏自己感興趣的內(nèi)容,此時(shí)用戶作為消費(fèi)者所關(guān)注的內(nèi)容則體現(xiàn)了他們所擁有的興趣愛(ài)好。一般情況下,用戶的技能比較集中于少量的一個(gè)或幾個(gè)話題,而用戶的興趣則可能相對(duì)比較廣泛地分布于多個(gè)話題?;谶@一事實(shí),我們提出將用戶的技能話題分布和興趣話題分布區(qū)別對(duì)待,分別使用生產(chǎn)者(作者)和消費(fèi)者(讀者)的身份來(lái)發(fā)現(xiàn)用戶的技能和興趣。我們以LDA模型為基礎(chǔ),同時(shí)加入文檔的作者和讀者信息,形成作者—讀者—話題(author-reader-topic,ART)模型。ART模型將用戶作為作者和讀者的兩種身份信息加入到話題的建模過(guò)程中,不僅可以進(jìn)一步增強(qiáng)話題的聚集效果,還可以同步分別建模用戶的技能和興趣。該模型的直觀含義是: 文檔的作者決定了文檔的話題,而文檔的話題決定了詞的生成并且吸引對(duì)該話題感興趣的用戶對(duì)該文檔進(jìn)行閱讀。
與AT模型類似,ART模型仍然是一種層次式的貝葉斯概率模型,它包含詞、話題、文檔、作者和讀者五層結(jié)構(gòu),其盤(pán)式表示如圖3所示。在ART模型中,每篇文檔d對(duì)應(yīng)一個(gè)作者ad和多個(gè)讀者rd,每個(gè)作者a對(duì)應(yīng)的話題的多項(xiàng)式分布為θa,每個(gè)話題t對(duì)應(yīng)的詞的多項(xiàng)式分布為φt以及讀者的多項(xiàng)式分布為φt。該模型的文檔生成過(guò)程的形式化描述見(jiàn)算法1: 首先,根據(jù)Dirichlet超參數(shù)分別采樣作者—話題分布θ、話題—詞分布φ以及話題—讀者分布φ,其分別服從Dirichlet分布Dir(α)、Dir(β)和Dir(η);然后,對(duì)于每篇文檔中的每個(gè)詞,根據(jù)文檔對(duì)應(yīng)作者的作者—話題分布θ采樣生成一個(gè)話題z,z服從多項(xiàng)式分布Mul(θ);接下來(lái),基于生成的話題z分別獨(dú)立地從話題—詞分布φ和話題—讀者分布φ中采樣生成一個(gè)詞w和一個(gè)讀者x,w和x分別服從多項(xiàng)式分布Mul(φ)和Mul(φ)。
圖3 ART模型的盤(pán)式表示
算法1 ART模型的文檔生成過(guò)程for each author a∈Ado //draw a distribution over topics θa~Dir(α)end forforeach topic t∈T do //draw a distribution over words ?t~Dir(β) //draw a distribution over readers φt~Dir(η) end forforeach document d∈[1,D] and its author ad do foreach word n∈[1,Nd] do assign a topic zdn~Mul(θad); draw a word w~Mul(?zdn); draw a reader x~Mul(φzdn); end forend for
給定超參數(shù)α,β,η以及文檔d的作者ad和讀者rd,語(yǔ)料庫(kù)的生成概率如式(1)所示。
P(θ,φ,φ,z,w,x|α,β,η,a,r)=
(1)
2.2.2 模型推導(dǎo)
我們采用吉布斯采樣方法來(lái)近似推導(dǎo)ART模型。吉布斯采樣是一種高效的MCMC(Markov Chain Monte Carlo)采樣方法,它通過(guò)迭代采樣方式對(duì)復(fù)雜的概率分布進(jìn)行推斷。為了得到參數(shù)θ、φ和φ,需要計(jì)算詞wdn的話題指派和讀者指派的條件分布p(zdn,xdn|z-dn,x-dn,w,ad,rd,α,β,η),其中,z-dn和x-dn分別指除文檔d中第n個(gè)詞以外的其他所有詞的話題指派和讀者指派(符號(hào)-dn表示排除當(dāng)前詞wdn)。為了簡(jiǎn)化公式的描述,我們引入Δ函數(shù)(the Dirichlet delta function)[15],對(duì)于含有V維的Dirichlet先驗(yàn)參數(shù)δ,Δ函數(shù)定義,如式(2)所示。
(2)
其中,Γ(·)是伽瑪函數(shù)。
基于圖3中概率圖模型的獨(dú)立性假設(shè),給定超參數(shù),則話題、讀者和詞的聯(lián)合分布可形式化推導(dǎo),如式(3)所示。
(3)
(4)
吉布斯采樣收斂后,我們就可以根據(jù)采樣的結(jié)果估計(jì)作者—話題分布θ,話題—詞分布φ以及話題—讀者分布φ,分別如式(5)~(7)所示。
ART模型的吉布斯采樣方法的詳細(xì)推導(dǎo)見(jiàn)附錄。我們使用吉布斯采樣進(jìn)行參數(shù)估計(jì)的算法流程詳見(jiàn)算法2。
算法2 ART模型的參數(shù)估計(jì)initialize the reader and topic assignments randomly for all tokens;//Gibbs sampling over burn-in period and sampling periodwhile not finished do for all documents d∈[1,D]do for all words n∈[1,Nd] in document ddo draw xdn and zdn from Eq. (4); update nzdnad,nad,nwdnzdn,nzdn,nxdnzdn; end for end for //check convergence and read out parameters if converged and L sampling iterations since last read out then //the different parameters read outs are averaged read out parameter set θ according to Eq. (5); read out parameter set ? according to Eq. (6); read out parameter set φ according to Eq. (7); end ifend while
本節(jié)將詳細(xì)介紹基于CSDN技術(shù)社區(qū)數(shù)據(jù)集的實(shí)驗(yàn)過(guò)程及結(jié)果分析,將本文提出的ART模型與經(jīng)典的LDA模型、在技能發(fā)現(xiàn)方面表現(xiàn)最好的AT模型以及衍生的讀者—話題(RT)模型三種基準(zhǔn)方法進(jìn)行了對(duì)比,驗(yàn)證了ART模型在用戶技能和興趣發(fā)現(xiàn)方面的優(yōu)勢(shì)。
本文使用的數(shù)據(jù)集來(lái)自全球最大的中文IT技術(shù)社區(qū)CSDN。我們從CSDN采集了2015年01月至2016年7月之間部分活躍用戶產(chǎn)生的內(nèi)容和行為記錄,其中用戶產(chǎn)生的內(nèi)容包含用戶在該時(shí)間段內(nèi)發(fā)表的所有博客,以及用戶的自定義技能標(biāo)簽和興趣標(biāo)簽;用戶行為記錄包括在該時(shí)間段內(nèi)用戶對(duì)博客的瀏覽、頂踩、評(píng)論和收藏行為的日志記錄。其中,用戶自定義技能標(biāo)簽和興趣標(biāo)簽用來(lái)評(píng)估本文提出的技能與興趣發(fā)現(xiàn)方法的效果,用戶瀏覽、頂踩、評(píng)論和收藏過(guò)的文檔均視為該用戶讀過(guò)的文檔。值得注意的是,所有涉及用戶個(gè)人隱私的信息,均不包含在采集的數(shù)據(jù)集之中。
數(shù)據(jù)集共包含與4 357位用戶相關(guān)的27 880篇博客文檔,其中部分用戶既是作者又是讀者。我們對(duì)所有文檔進(jìn)行了必要的預(yù)處理,包括去除文檔中的HTML標(biāo)記、程序代碼塊以及URL鏈接,然后采用NLPIR分詞工具[16]進(jìn)行分詞,并在分詞過(guò)程中使用了清華大學(xué)開(kāi)放IT詞庫(kù)[17],最后去除停用詞并去除TF-IDF值較低的詞。處理后的數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)信息
我們?cè)趯?shí)驗(yàn)過(guò)程中采用三種基準(zhǔn)方法與本文提出的ART模型進(jìn)行對(duì)比。除了經(jīng)典的LDA模型和當(dāng)前在技能發(fā)現(xiàn)方面表現(xiàn)最好的AT模型,我們還基于AT模型和ART模型衍生出一種讀者—話題(reader-topic,RT)模型,用來(lái)單獨(dú)對(duì)用戶的興趣進(jìn)行建模。RT模型的盤(pán)式表示如圖4所示,它和ART模型的區(qū)別在于沒(méi)有將文檔的作者信息加入到模型中,只保留了讀者信息,因此只用來(lái)建模用戶興趣。RT模型的文檔生成過(guò)程和ART模型類似,首先,根據(jù)Dirichlet超參數(shù)分別采樣文檔—話題分布θ、話題—詞分布φ以及話題—讀者分布φ,其分別服從Dirichlet分布Dir(α)、Dir(β)和Dir(η);然后,對(duì)于每篇文檔中的每個(gè)詞,從文檔—話題分布θ中采樣生成一個(gè)話題z,z服從多項(xiàng)式分布Mul(θ),進(jìn)而基于生成的話題z分別獨(dú)立地從話題—詞分布φ和話題—讀者分布φ中采樣生成一個(gè)詞w和一個(gè)讀者x,w和x分別服從Mul(φ)和Mul(φ)分布。RT模型的文檔生成過(guò)程以及吉布斯采樣的推導(dǎo)過(guò)程和ART模型類似,本文在此不再贅述。
圖4 RT模型的盤(pán)式表示
在實(shí)驗(yàn)過(guò)程中,為了對(duì)四種模型進(jìn)行相互比較,我們對(duì)四種模型的話題數(shù)目及其他超參數(shù)進(jìn)行了相同的設(shè)置。對(duì)于話題數(shù)目,我們根據(jù)數(shù)據(jù) 集 的 話 題分布情況經(jīng)驗(yàn)性地設(shè)置話題數(shù)T=100;對(duì)于其他超參數(shù),我們嘗試了不同的超參數(shù)設(shè)置,發(fā)現(xiàn)模型效果并沒(méi)有受到超參數(shù)的較大影響,因此根據(jù)文獻(xiàn)[14],我們將超參數(shù)設(shè)置為固定值:α=50/T、β=0.01、η=0.1。在模型訓(xùn)練過(guò)程中,我們發(fā)現(xiàn)模型迭代1 500次左右就基本達(dá)到收斂狀態(tài),為了統(tǒng)一標(biāo)準(zhǔn)并確保所有模型都能達(dá)到收斂,我們對(duì)四種模型均設(shè)置迭代次數(shù)為2 000次。
ART模型迭代收斂后,可以利用式(6)來(lái)提取整個(gè)數(shù)據(jù)集的話題。我們首先從100個(gè)話題中篩選出10個(gè)話題,并盡量讓這些話題覆蓋不同的技術(shù)領(lǐng)域,然后列出每個(gè)話題的前10個(gè)詞,如表3所示。通過(guò)分析每個(gè)話題下代表性詞匯的含義,給出了每個(gè)話題的語(yǔ)義。我們發(fā)現(xiàn),ART模型聚集出來(lái)的話題比較容易理解,每個(gè)話題下的大部分詞匯在語(yǔ)義上都與話題有較強(qiáng)的相關(guān)性。
表3 數(shù)據(jù)集話題聚集結(jié)果
通過(guò)式(6)我們可以得到每個(gè)話題的詞分布φ,通過(guò)式(5)和(7)可以分別得到每個(gè)作者的話題分布θ和每個(gè)讀者的話題分布φ,然后通過(guò)整合作者—話題分布和話題—詞分布來(lái)計(jì)算用戶的技能詞,通過(guò)整合讀者—話題分布和話題—詞分布來(lái)計(jì)算用戶的興趣詞,形式化公式分別如式(8)和式(9)所示。計(jì)算用戶技能詞和興趣詞的核心思想在于計(jì)算作者(或讀者)、話題和詞的聯(lián)合分布的積分,式(8)中Ωaw表示作者a在技能詞w上的相關(guān)度,式(9)中Ηrw表示讀者r在興趣詞w上的相關(guān)度。
通過(guò)式(8)~(9)我們可以計(jì)算每個(gè)作者對(duì)詞匯集V中每個(gè)詞的技能相關(guān)度以及每個(gè)讀者對(duì)詞匯集V中每個(gè)詞的興趣相關(guān)度,從而得到和每個(gè)用戶相關(guān)度比較高的技能詞和興趣詞。表4和表5分別列出了四個(gè)代表性用戶的前十個(gè)技能詞和前十個(gè)興趣詞,這四個(gè)用戶的自定義技能標(biāo)簽和興趣標(biāo)簽如表6所示。
表4 各種模型發(fā)現(xiàn)的用戶技能詞
表5 各種模型發(fā)現(xiàn)的用戶興趣詞
續(xù)表
表6 用戶自定義技能和興趣標(biāo)簽
將表4和表5的結(jié)果分別與用戶自定義技能標(biāo)簽和興趣標(biāo)簽進(jìn)行比較,我們發(fā)現(xiàn)ART模型發(fā)現(xiàn)的技能詞和興趣詞與用戶的自定義標(biāo)簽相關(guān)度較高。例如,user1的自定義技能和興趣標(biāo)簽體現(xiàn)在“大數(shù)據(jù)”領(lǐng)域,而ART發(fā)現(xiàn)的諸如“hadoop”“hive”“spark”等詞與此的相關(guān)度較高;user2的自定義技能和興趣標(biāo)簽體現(xiàn)在“數(shù)據(jù)庫(kù)”和“操作系統(tǒng)”領(lǐng)域,而ART發(fā)現(xiàn)的諸如“oracle”“mysql”“進(jìn)程”“命令”等詞與此相關(guān)度較高;user3的自定義技能和興趣標(biāo)簽體現(xiàn)在“移動(dòng)開(kāi)發(fā)”和“游戲開(kāi)發(fā)”領(lǐng)域,而ART發(fā)現(xiàn)的諸如“android”“游戲”等詞與此相關(guān)度較高;user4的自定義技能和興趣標(biāo)簽體現(xiàn)在“web開(kāi)發(fā)”領(lǐng)域,而ART發(fā)現(xiàn)的諸如“javascript”“html”等詞與此相關(guān)度較高。
將表4和表5中ART模型發(fā)現(xiàn)的用戶技能和興趣之間進(jìn)行比較,我們發(fā)現(xiàn)用戶的技能和興趣相似度很高,但用戶的技能更加專一,用戶的興趣則相對(duì)廣泛。例如,user1的技能和興趣都體現(xiàn)在“大數(shù)據(jù)”領(lǐng)域,但user1還對(duì)“系統(tǒng)運(yùn)維”比較感興趣;user3的技能和興趣都體現(xiàn)在“游戲開(kāi)發(fā)”“移動(dòng)開(kāi)發(fā)”領(lǐng)域,但user3還對(duì)“數(shù)據(jù)庫(kù)”比較感興趣;user4的技能和興趣都體現(xiàn)在“web開(kāi)發(fā)”領(lǐng)域,但user4還對(duì)“設(shè)計(jì)模式”比較感興趣。為了進(jìn)一步分析用戶技能分布和興趣分布之間的差異,我們分別計(jì)算作者技能分布熵(簡(jiǎn)稱技能熵)和讀者興趣分布熵(簡(jiǎn)稱興趣熵),如式(10)~(11)所示。
我們計(jì)算了701個(gè)既是作者又是讀者的用戶的技能熵和興趣熵,并進(jìn)行了相關(guān)統(tǒng)計(jì),結(jié)果如表7所示。從表中可以看出,興趣熵的平均值要高于技能熵,這進(jìn)一步表明了用戶技能的專一性和用戶興趣的廣泛性。
表7 技能熵與興趣熵統(tǒng)計(jì)值比較
表4和表5分別列出了LDA、AT和RT三種基準(zhǔn)方法提取的用戶技能詞和興趣詞結(jié)果,從表中可以看出,在用戶技能發(fā)現(xiàn)方面,相比于其他三個(gè)模型,ART模型發(fā)現(xiàn)的技能詞與用戶自定義技能標(biāo)簽相關(guān)度更高,而且相關(guān)度高的詞排序更加靠前;同樣,在用戶興趣發(fā)現(xiàn)方面,ART模型也要優(yōu)于其他三個(gè)模型。為了定量評(píng)價(jià)四種模型在發(fā)現(xiàn)用戶技能和興趣方面的優(yōu)劣,我們將四種模型發(fā)現(xiàn)的技能詞和興趣詞分別和用戶自定義技能標(biāo)簽和興趣標(biāo)簽求交集,計(jì)算技能發(fā)現(xiàn)和興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率,如式(12)~(15)所示:
具體地,我們分別計(jì)算出各種模型發(fā)現(xiàn)的每個(gè)用戶的前K(K=5,10,20,50,100)個(gè)技能詞和興趣詞,與該用戶自定義技能標(biāo)簽和興趣標(biāo)簽求交集,計(jì)算每個(gè)用戶技能發(fā)現(xiàn)和興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率,然后對(duì)所有用戶求平均。四種模型技能發(fā)現(xiàn)的準(zhǔn)確率和召回率如表8和表9所示,興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率如表10和表11所示。從表中可以看出,在技能發(fā)現(xiàn)方面,ART要顯著優(yōu)于AT模型,AT模型要優(yōu)于RT模型,LDA模型效果最差;在興趣發(fā)現(xiàn)方面,ART要顯著優(yōu)于RT模型,RT模型要優(yōu)于AT模型,同樣LDA模型效果最差。需要說(shuō)明的是,準(zhǔn)確率和召回率整體不高的原因,一方面是因?yàn)橛脩糇远x的技能標(biāo)簽和興趣標(biāo)簽通常更抽象,而模型發(fā)現(xiàn)的技能詞和興趣詞通常更具體;另一方面,用戶自定義標(biāo)簽也存在更新不及時(shí)等問(wèn)題,因此兩者的交集偏少,從而導(dǎo)致準(zhǔn)確率和召回率偏低,但這并不會(huì)影響其作為模型評(píng)價(jià)標(biāo)準(zhǔn)的客觀性和公正性。
表8 四種模型技能發(fā)現(xiàn)的準(zhǔn)確率比較 單位: %
表9 四種模型技能發(fā)現(xiàn)的召回率比較 單位: %
表10 四種模型興趣發(fā)現(xiàn)的準(zhǔn)確率比較 單位: %
表11 四種模型興趣發(fā)現(xiàn)的召回率比較 單位: %
以上實(shí)驗(yàn)結(jié)果證明,隨著作者信息和讀者信息的加入,ART模型提高了話題聚集效果,能夠更準(zhǔn)確地同時(shí)對(duì)用戶的技能和興趣進(jìn)行建模,顯著優(yōu)于其他現(xiàn)有的技能或興趣發(fā)現(xiàn)方法。
本文提出了一個(gè)新穎的作者—讀者—話題(ART)模型來(lái)同步發(fā)現(xiàn)在線技術(shù)社區(qū)中用戶的技能和興趣。該模型能夠有效地將文檔的作者信息和讀者信息關(guān)聯(lián)起來(lái),提升話題聚集效果,產(chǎn)生更準(zhǔn)確的作者技能話題分布和讀者興趣話題分布。
在CSDN社區(qū)的真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的ART模型能夠有效地發(fā)現(xiàn)用戶的技能和興趣,提取的用戶技能詞和興趣詞比其他現(xiàn)有的技能或興趣挖掘方法更準(zhǔn)確。與此同時(shí),我們也驗(yàn)證了用戶技能相對(duì)集中、用戶興趣相對(duì)分散的假設(shè)。本文提出的方法可以廣泛應(yīng)用于在線社區(qū)的用戶技能與興趣挖掘,服務(wù)于社區(qū)運(yùn)營(yíng)者進(jìn)行用戶畫(huà)像,向用戶提供精準(zhǔn)推薦和個(gè)性化服務(wù)。