在線技術(shù)社區(qū)的用戶技能與興趣發(fā)現(xiàn)

2018-08-17 08:39張東雷林友芳萬(wàn)懷宇馬語(yǔ)丹陸金梁

中文信息學(xué)報(bào) 2018年7期

張東雷,林友芳,萬(wàn)懷宇,馬語(yǔ)丹,陸金梁

(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院，北京 100044)

0 引言

作為一種集成化的信息與知識(shí)傳播和共享服務(wù)平臺(tái)，在線技術(shù)社區(qū)為用戶提供了技術(shù)交流、咨詢和共享空間，深受技術(shù)愛(ài)好者和從業(yè)者的青睞。用戶可以在社區(qū)發(fā)表博客或帖子來(lái)記錄或分享自己對(duì)某一問(wèn)題的經(jīng)驗(yàn)或看法，可以瀏覽或收藏自己感興趣的內(nèi)容，可以針對(duì)自己的疑問(wèn)提出咨詢，也可以參與相關(guān)話題的討論。例如，全球最大的中文IT技術(shù)社區(qū)CSDN，擁有數(shù)千萬(wàn)用戶，每天產(chǎn)生大量的博客和帖子，以及瀏覽、頂踩、評(píng)論、收藏等行為。準(zhǔn)確地了解和掌握每個(gè)用戶的技能和興趣，對(duì)用戶進(jìn)行準(zhǔn)確的畫(huà)像，對(duì)技術(shù)社區(qū)的運(yùn)營(yíng)者來(lái)說(shuō)十分重要，有助于他們?yōu)橛脩籼峁┚珳?zhǔn)推薦和個(gè)性化服務(wù)，從而增加用戶的黏性和社區(qū)的活躍度。例如，社區(qū)可以根據(jù)用戶的興趣為其推薦內(nèi)容、好友、活動(dòng)信息、技術(shù)專家等，也可以根據(jù)用戶的技能為其推薦合適的工作機(jī)會(huì)。然而，社區(qū)中通常只有少部分用戶提供了自定義的技能標(biāo)簽或興趣標(biāo)簽，而且標(biāo)簽的可信度也存疑。因此，如何基于用戶產(chǎn)生的內(nèi)容和行為信息，準(zhǔn)確地發(fā)現(xiàn)用戶的技能和興趣，就顯得尤為必要。

以用戶技能(或興趣)建模為目的的文本挖掘近年來(lái)受到了研究者的廣泛關(guān)注[1-3]，涌現(xiàn)出了大量的相關(guān)模型，這些模型大致可以分為有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督的用戶技能/興趣建模。有監(jiān)督和半監(jiān)督的建模方法[4-5]需要利用訓(xùn)練語(yǔ)料來(lái)訓(xùn)練生成文本分類器，進(jìn)而對(duì)用戶進(jìn)行分類，一般具有較高的準(zhǔn)確率，然而獲取訓(xùn)練樣本的昂貴代價(jià)極大地限制了此類方法的可應(yīng)用性。因此以LDA[6]、AT[7]、CAT[8]和ACT[9]等話題模型為代表的無(wú)監(jiān)督用戶技能/興趣建模方法近年來(lái)受到更多的關(guān)注。但是，當(dāng)前這些模型主要考慮從用戶發(fā)表的文章來(lái)對(duì)其技能或興趣進(jìn)行建模，沒(méi)有將用戶的技能和興趣區(qū)別開(kāi)來(lái)，因此還不能更準(zhǔn)確地同時(shí)捕獲用戶的技能和興趣。

事實(shí)上，社區(qū)用戶既是社區(qū)內(nèi)容的生產(chǎn)者，又是消費(fèi)者。生產(chǎn)者是指用戶以作者身份發(fā)表內(nèi)容，主要體現(xiàn)了用戶的技能；消費(fèi)者是指用戶以讀者身份去閱讀、頂踩、評(píng)論和收藏各種內(nèi)容，主要體現(xiàn)了用戶的興趣。通常情況下，用戶的技能比較集中，而用戶的興趣則相對(duì)寬泛。基于這一假設(shè)，本文提出了一種作者—讀者—話題(author-reader-topic, ART)模型，來(lái)同時(shí)對(duì)用戶的技能和興趣進(jìn)行建模。該模型在經(jīng)典的LDA模型基礎(chǔ)上增加了作者和讀者信息，在建模文檔生成過(guò)程中，同步建模作者的話題分布和讀者的話題分布。該模型可以捕獲文檔的作者和讀者之間的關(guān)聯(lián)關(guān)系，因而能夠進(jìn)一步提升話題的聚集效果，從而產(chǎn)生更準(zhǔn)確的作者話題分布和讀者話題分布。

我們采用吉布斯采樣的方法對(duì)ART模型進(jìn)行推導(dǎo)和求解，通過(guò)不斷地采樣語(yǔ)料庫(kù)中每個(gè)詞的主題指派和讀者指派來(lái)近似推斷語(yǔ)料庫(kù)中主題、詞和讀者的聯(lián)合分布。吉布斯采樣收斂后，我們就可以根據(jù)語(yǔ)料庫(kù)中每個(gè)詞的采樣結(jié)果來(lái)估計(jì)出作者話題分布和讀者話題分布。

我們從CSDN技術(shù)社區(qū)采集了一個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，并跟已有的用戶技能/興趣發(fā)現(xiàn)方法進(jìn)行了對(duì)比和分析。實(shí)驗(yàn)結(jié)果表明，本文提出的ART模型能夠更有效地發(fā)現(xiàn)用戶的技能和興趣，明顯優(yōu)于現(xiàn)有的各種話題模型。

本文的主要貢獻(xiàn)包括以下兩點(diǎn):

(1) 將在線技術(shù)社區(qū)用戶的技能和興趣區(qū)別開(kāi)來(lái)，并根據(jù)用戶作為內(nèi)容的生產(chǎn)者和消費(fèi)者兩種角色，提出了一種同時(shí)對(duì)用戶技能和興趣進(jìn)行建模的話題模型。

(2) 從CSDN社區(qū)采集了一個(gè)高質(zhì)量的真實(shí)數(shù)據(jù)集，對(duì)提出的模型進(jìn)行了大量的實(shí)驗(yàn)，并通過(guò)案例分析和各種評(píng)價(jià)指標(biāo)驗(yàn)證了本文提出的模型的有效性。

本文的剩余部分組織如下: 第一節(jié)簡(jiǎn)要介紹相關(guān)工作；第二節(jié)詳細(xì)描述我們提出的模型；第三節(jié)進(jìn)行實(shí)驗(yàn)對(duì)比和結(jié)果分析；最后在第四節(jié)對(duì)全文進(jìn)行總結(jié)。

1 相關(guān)工作

以用戶技能(或興趣)建模為目的的文本挖掘近年來(lái)受到了研究者的廣泛關(guān)注[1-3]，涌現(xiàn)出了大量的相關(guān)模型。早期研究者主要利用有監(jiān)督或半監(jiān)督的模型來(lái)挖掘用戶的技能或興趣，取得了較高的準(zhǔn)確率。例如，He等人[5]通過(guò)形式概念分析技術(shù)從正例文檔中建立用戶興趣模型，并采用形式化的概念來(lái)代表用戶感興趣的話題。Yang等人[4]考慮到Twitter用戶發(fā)表微博的周期性模式，提出了利用時(shí)間序列把用戶微博進(jìn)行歸類，將微博內(nèi)容轉(zhuǎn)化為時(shí)間序列特征，采用時(shí)間序列的分類方法對(duì)Twitter用戶的興趣進(jìn)行分類，和傳統(tǒng)的基于文本特征對(duì)用戶興趣進(jìn)行分類的方法相比，取得了較高的分類準(zhǔn)確率。然而，有監(jiān)督和半監(jiān)督的建模方法需要大量的標(biāo)注語(yǔ)料來(lái)訓(xùn)練分類器，雖然具有較高的準(zhǔn)確率，但是獲取訓(xùn)練樣本的昂貴代價(jià)極大地限制了此類方法的可應(yīng)用性。

以話題模型為代表的無(wú)監(jiān)督方法避免了獲取訓(xùn)練樣本的昂貴代價(jià)，因此在文本挖掘領(lǐng)域得到廣泛的研究和使用。LDA(latent dirichlet allocation)模型[6]是最經(jīng)典的話題模型之一，由Blei等人于2003年提出，它采用了“詞袋”假設(shè)，即忽略一篇文檔的詞序、語(yǔ)法和句法，僅僅將其看作是一個(gè)詞集合。LDA是一種層次式的貝葉斯模型，其核心思想是將文檔看作隱話題的分布，而將每個(gè)隱話題看作詞的分布。由于LDA具有良好的數(shù)學(xué)基礎(chǔ)和靈活的可拓展性，目前國(guó)內(nèi)外已有大量的研究者基于LDA及其拓展模型來(lái)對(duì)用戶技能或興趣進(jìn)行建模。Weng等人[10]將每個(gè)用戶發(fā)表的tweets融合起來(lái)，并使用LDA來(lái)發(fā)現(xiàn)用戶感興趣的話題。Rosen-Zvi等人[7]提出了作者—話題(author-topic，AT)模型，將文檔的作者信息加入話題的建模過(guò)程中，同時(shí)對(duì)作者和話題進(jìn)行建模，實(shí)驗(yàn)表明加入作者先驗(yàn)信息可以增強(qiáng)話題的聚集效果，從而有效地計(jì)算作者感興趣的話題分布。Hong等人[11]將AT模型應(yīng)用到Twitter上，結(jié)果表明作者信息的加入有助于對(duì)Twitter用戶的興趣話題進(jìn)行建模。Xu等人[12]認(rèn)為用戶發(fā)表的tweets并不都能體現(xiàn)用戶的興趣，通過(guò)在AT模型中引入一個(gè)隱變量來(lái)指示一篇tweet是否和用戶的興趣相關(guān)，據(jù)此提出的twitter-user模型在發(fā)現(xiàn)用戶興趣上要優(yōu)于AT模型。Li等人[13]提出用戶—話題(user-topic，UT)模型對(duì)微博中的用戶興趣進(jìn)行建模，按照微博生成機(jī)制的不同將用戶的興趣分為原創(chuàng)興趣和轉(zhuǎn)發(fā)興趣，分別對(duì)應(yīng)用戶的原創(chuàng)博文和轉(zhuǎn)發(fā)博文，實(shí)驗(yàn)表明該模型發(fā)現(xiàn)的用戶興趣涵蓋的范圍更全面、更準(zhǔn)確。Tu等人[8]在AT模型的基礎(chǔ)上增加論文的引用作者信息，提出了引用—作者—主題(citation-author-topic，CAT) 模型，來(lái)更好地刻畫(huà)作者的技能分布，從而服務(wù)于專家發(fā)現(xiàn)。Tang等人[9]在AT模型的基礎(chǔ)上增加了出版地信息，提出了作者—會(huì)議—主題(author-conference-topic, ACT)模型，來(lái)更好地對(duì)學(xué)術(shù)領(lǐng)域中的作者、話題和出版地進(jìn)行建模，進(jìn)而用于學(xué)術(shù)領(lǐng)域?qū)＜野l(fā)現(xiàn)，取得了比其他話題模型更好的效果。

上述模型在分析用戶技能(或興趣)方面仍然存在一些不足之處。這些模型都是從內(nèi)容生產(chǎn)者的角度考慮了用戶發(fā)表或者轉(zhuǎn)發(fā)的文檔，而沒(méi)有站在內(nèi)容消費(fèi)者的角度考慮用戶閱讀、評(píng)論或收藏的文檔。事實(shí)上，用戶生產(chǎn)的內(nèi)容更多地反映了用戶的技能，而用戶消費(fèi)的內(nèi)容更多地反映了用戶的興趣。通常情況下，用戶的技能比較集中，而用戶的興趣則相對(duì)比較分散。因此，本文綜合考慮文檔的作者信息和讀者信息，提出了一種新穎的作者—讀者—話題(ART)模型來(lái)同時(shí)對(duì)在線技術(shù)社區(qū)用戶的技能和興趣進(jìn)行建模。

2 用戶技能及興趣發(fā)現(xiàn)

本節(jié)首先簡(jiǎn)單介紹兩個(gè)關(guān)于用戶技能/興趣建模的基礎(chǔ)模型LDA模型和AT模型，然后將詳細(xì)描述本文提出的作者—讀者—話題(ART)模型，并對(duì)模型進(jìn)行推導(dǎo)。表1列出了本文主要使用的符號(hào)及其含義說(shuō)明。

表1 相關(guān)符號(hào)說(shuō)明

2.1 基礎(chǔ)模型

2.1.1 LDA模型

LDA模型[6]是一種層次式的貝葉斯概率模型，包含詞、話題和文檔三層結(jié)構(gòu)，語(yǔ)料庫(kù)中的每篇文檔被建模為隱話題的多項(xiàng)式分布，每個(gè)話題又被建模為詞的多項(xiàng)式分布，每篇文檔中的每個(gè)詞都是通過(guò)“以一定概率選擇了某個(gè)話題，并從這個(gè)話題中以一定概率選擇某個(gè)詞”這樣一個(gè)過(guò)程得到。LDA模型的盤(pán)式表示如圖1所示。為了生成一篇文檔，首先根據(jù)文檔的話題分布采樣生成一個(gè)話題，然后根據(jù)該話題的詞分布采樣生成一個(gè)詞。重復(fù)上述過(guò)程直到文檔中所有詞均已生成。由于LDA模型中存在隱變量，直接求解模型參數(shù)非常困難，因此LDA模型的推導(dǎo)一般采用變分法或吉布斯采樣進(jìn)行近似推斷[6,14]。

采用LDA進(jìn)行用戶技能或興趣發(fā)現(xiàn)時(shí)，在模型中不考慮文檔的用戶信息，而是在求解模型得出每篇文檔的話題分布之后，對(duì)每個(gè)用戶對(duì)應(yīng)的全部文檔的話題分布求平均，形成用戶的話題分布，進(jìn)而根據(jù)用戶—話題分布和話題—詞分布生成用戶的技能表示或興趣表示。

圖1 LDA模型的盤(pán)式表示

2.1.2 作者—話題模型

作者—話題(author-topic，AT)模型[7]是對(duì)LDA模型的一種拓展變形，是一種較新穎的話題模型，它包含詞、話題、文檔和作者四層結(jié)構(gòu)，在建模過(guò)程中加入了文檔的作者信息。該模型假設(shè)語(yǔ)料庫(kù)中的每個(gè)作者都對(duì)應(yīng)一個(gè)隱話題的多項(xiàng)式分布，每個(gè)話題都對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布。AT模型與LDA模型的不同之處在于它用作者—話題分布替換了文檔—話題分布，并且每個(gè)詞對(duì)應(yīng)兩個(gè)隱變量，即話題和作者。AT模型的盤(pán)式表示如圖2所示，其文檔生成過(guò)程與LDA的區(qū)別在于，它首先從文檔的作者集合中隨機(jī)選擇一個(gè)作者，然后根據(jù)該作者的話題分布采樣生成一個(gè)話題，最后再根據(jù)該話題的詞分布采樣生成一個(gè)詞。重復(fù)上述過(guò)程直到文檔中所有詞均已生成。同樣，AT模型的推導(dǎo)通常也采用變分法或吉布斯采樣進(jìn)行近似推斷。

圖2 AT模型的盤(pán)式表示

AT模型由于在建模過(guò)程中加入了作者信息，通常一個(gè)作者的話題分布是比較穩(wěn)定的，因此有助于增強(qiáng)話題的聚集效果。得益于作者信息的加入，相比LDA模型，AT模型能夠更準(zhǔn)確地發(fā)現(xiàn)用戶的技能分布。AT模型雖然引入了文檔的作者信息，但沒(méi)有考慮文檔的讀者信息對(duì)話題的聚集效果，以及進(jìn)一步的提升作用。此外，用戶分別作為作者和讀者時(shí)，其話題分布也是不一樣的。作為作者時(shí)對(duì)應(yīng)的是其技能的話題分布，作為讀者時(shí)則對(duì)應(yīng)其興趣的話題分布。因此，本文進(jìn)一步提出了作者—讀者—話題模型，對(duì)用戶的技能和興趣分別進(jìn)行建模。

2.2 作者—讀者—話題模型

2.2.1 模型描述

在技術(shù)社區(qū)中，用戶經(jīng)常將自己的技術(shù)知識(shí)和經(jīng)驗(yàn)以博客或者帖子的形式發(fā)表出來(lái)，供其他用戶學(xué)習(xí)、參考或討論，此時(shí)用戶作為生產(chǎn)者所發(fā)表的內(nèi)容通常體現(xiàn)了他們所具有的技能。另一方面，用戶也經(jīng)常搜索、瀏覽、評(píng)論、頂踩、收藏自己感興趣的內(nèi)容，此時(shí)用戶作為消費(fèi)者所關(guān)注的內(nèi)容則體現(xiàn)了他們所擁有的興趣愛(ài)好。一般情況下，用戶的技能比較集中于少量的一個(gè)或幾個(gè)話題，而用戶的興趣則可能相對(duì)比較廣泛地分布于多個(gè)話題?；谶@一事實(shí)，我們提出將用戶的技能話題分布和興趣話題分布區(qū)別對(duì)待，分別使用生產(chǎn)者(作者)和消費(fèi)者(讀者)的身份來(lái)發(fā)現(xiàn)用戶的技能和興趣。我們以LDA模型為基礎(chǔ)，同時(shí)加入文檔的作者和讀者信息，形成作者—讀者—話題(author-reader-topic，ART)模型。ART模型將用戶作為作者和讀者的兩種身份信息加入到話題的建模過(guò)程中，不僅可以進(jìn)一步增強(qiáng)話題的聚集效果，還可以同步分別建模用戶的技能和興趣。該模型的直觀含義是: 文檔的作者決定了文檔的話題，而文檔的話題決定了詞的生成并且吸引對(duì)該話題感興趣的用戶對(duì)該文檔進(jìn)行閱讀。

與AT模型類似，ART模型仍然是一種層次式的貝葉斯概率模型，它包含詞、話題、文檔、作者和讀者五層結(jié)構(gòu)，其盤(pán)式表示如圖3所示。在ART模型中，每篇文檔d對(duì)應(yīng)一個(gè)作者ad和多個(gè)讀者rd，每個(gè)作者a對(duì)應(yīng)的話題的多項(xiàng)式分布為θa，每個(gè)話題t對(duì)應(yīng)的詞的多項(xiàng)式分布為φt以及讀者的多項(xiàng)式分布為φt。該模型的文檔生成過(guò)程的形式化描述見(jiàn)算法1: 首先，根據(jù)Dirichlet超參數(shù)分別采樣作者—話題分布θ、話題—詞分布φ以及話題—讀者分布φ，其分別服從Dirichlet分布Dir(α)、Dir(β)和Dir(η)；然后，對(duì)于每篇文檔中的每個(gè)詞，根據(jù)文檔對(duì)應(yīng)作者的作者—話題分布θ采樣生成一個(gè)話題z，z服從多項(xiàng)式分布Mul(θ)；接下來(lái)，基于生成的話題z分別獨(dú)立地從話題—詞分布φ和話題—讀者分布φ中采樣生成一個(gè)詞w和一個(gè)讀者x，w和x分別服從多項(xiàng)式分布Mul(φ)和Mul(φ)。

圖3 ART模型的盤(pán)式表示

算法1 ART模型的文檔生成過(guò)程for each author a∈Ado //draw a distribution over topics θa～Dir(α)end forforeach topic t∈T do //draw a distribution over words ?t～Dir(β) //draw a distribution over readers φt～Dir(η) end forforeach document d∈[1,D] and its author ad do foreach word n∈[1,Nd] do assign a topic zdn～Mul(θad); draw a word w～Mul(?zdn); draw a reader x～Mul(φzdn); end forend for

給定超參數(shù)α,β,η以及文檔d的作者ad和讀者rd，語(yǔ)料庫(kù)的生成概率如式(1)所示。

P(θ,φ,φ,z,w,x|α,β,η,a,r)=

(1)

2.2.2 模型推導(dǎo)

我們采用吉布斯采樣方法來(lái)近似推導(dǎo)ART模型。吉布斯采樣是一種高效的MCMC(Markov Chain Monte Carlo)采樣方法，它通過(guò)迭代采樣方式對(duì)復(fù)雜的概率分布進(jìn)行推斷。為了得到參數(shù)θ、φ和φ，需要計(jì)算詞wdn的話題指派和讀者指派的條件分布p(zdn,xdn|z-dn,x-dn,w,ad,rd,α,β,η)，其中，z-dn和x-dn分別指除文檔d中第n個(gè)詞以外的其他所有詞的話題指派和讀者指派(符號(hào)-dn表示排除當(dāng)前詞wdn)。為了簡(jiǎn)化公式的描述，我們引入Δ函數(shù)(the Dirichlet delta function)[15]，對(duì)于含有V維的Dirichlet先驗(yàn)參數(shù)δ，Δ函數(shù)定義，如式(2)所示。

(2)

其中，Γ(·)是伽瑪函數(shù)。

基于圖3中概率圖模型的獨(dú)立性假設(shè)，給定超參數(shù)，則話題、讀者和詞的聯(lián)合分布可形式化推導(dǎo)，如式(3)所示。

(3)

(4)

吉布斯采樣收斂后，我們就可以根據(jù)采樣的結(jié)果估計(jì)作者—話題分布θ，話題—詞分布φ以及話題—讀者分布φ，分別如式(5)～(7)所示。

ART模型的吉布斯采樣方法的詳細(xì)推導(dǎo)見(jiàn)附錄。我們使用吉布斯采樣進(jìn)行參數(shù)估計(jì)的算法流程詳見(jiàn)算法2。

算法2 ART模型的參數(shù)估計(jì)initialize the reader and topic assignments randomly for all tokens;//Gibbs sampling over burn-in period and sampling periodwhile not finished do for all documents d∈[1,D]do for all words n∈[1,Nd] in document ddo draw xdn and zdn from Eq. (4); update nzdnad,nad,nwdnzdn,nzdn,nxdnzdn; end for end for //check convergence and read out parameters if converged and L sampling iterations since last read out then //the different parameters read outs are averaged read out parameter set θ according to Eq. (5); read out parameter set ? according to Eq. (6); read out parameter set φ according to Eq. (7); end ifend while

3 實(shí)驗(yàn)

本節(jié)將詳細(xì)介紹基于CSDN技術(shù)社區(qū)數(shù)據(jù)集的實(shí)驗(yàn)過(guò)程及結(jié)果分析，將本文提出的ART模型與經(jīng)典的LDA模型、在技能發(fā)現(xiàn)方面表現(xiàn)最好的AT模型以及衍生的讀者—話題(RT)模型三種基準(zhǔn)方法進(jìn)行了對(duì)比，驗(yàn)證了ART模型在用戶技能和興趣發(fā)現(xiàn)方面的優(yōu)勢(shì)。

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集來(lái)自全球最大的中文IT技術(shù)社區(qū)CSDN。我們從CSDN采集了2015年01月至2016年7月之間部分活躍用戶產(chǎn)生的內(nèi)容和行為記錄，其中用戶產(chǎn)生的內(nèi)容包含用戶在該時(shí)間段內(nèi)發(fā)表的所有博客，以及用戶的自定義技能標(biāo)簽和興趣標(biāo)簽；用戶行為記錄包括在該時(shí)間段內(nèi)用戶對(duì)博客的瀏覽、頂踩、評(píng)論和收藏行為的日志記錄。其中，用戶自定義技能標(biāo)簽和興趣標(biāo)簽用來(lái)評(píng)估本文提出的技能與興趣發(fā)現(xiàn)方法的效果，用戶瀏覽、頂踩、評(píng)論和收藏過(guò)的文檔均視為該用戶讀過(guò)的文檔。值得注意的是，所有涉及用戶個(gè)人隱私的信息，均不包含在采集的數(shù)據(jù)集之中。

數(shù)據(jù)集共包含與4 357位用戶相關(guān)的27 880篇博客文檔，其中部分用戶既是作者又是讀者。我們對(duì)所有文檔進(jìn)行了必要的預(yù)處理，包括去除文檔中的HTML標(biāo)記、程序代碼塊以及URL鏈接，然后采用NLPIR分詞工具[16]進(jìn)行分詞，并在分詞過(guò)程中使用了清華大學(xué)開(kāi)放IT詞庫(kù)[17]，最后去除停用詞并去除TF-IDF值較低的詞。處理后的數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息

3.2 基準(zhǔn)方法

我們?cè)趯?shí)驗(yàn)過(guò)程中采用三種基準(zhǔn)方法與本文提出的ART模型進(jìn)行對(duì)比。除了經(jīng)典的LDA模型和當(dāng)前在技能發(fā)現(xiàn)方面表現(xiàn)最好的AT模型，我們還基于AT模型和ART模型衍生出一種讀者—話題(reader-topic，RT)模型，用來(lái)單獨(dú)對(duì)用戶的興趣進(jìn)行建模。RT模型的盤(pán)式表示如圖4所示，它和ART模型的區(qū)別在于沒(méi)有將文檔的作者信息加入到模型中，只保留了讀者信息，因此只用來(lái)建模用戶興趣。RT模型的文檔生成過(guò)程和ART模型類似，首先，根據(jù)Dirichlet超參數(shù)分別采樣文檔—話題分布θ、話題—詞分布φ以及話題—讀者分布φ，其分別服從Dirichlet分布Dir(α)、Dir(β)和Dir(η)；然后，對(duì)于每篇文檔中的每個(gè)詞，從文檔—話題分布θ中采樣生成一個(gè)話題z，z服從多項(xiàng)式分布Mul(θ)，進(jìn)而基于生成的話題z分別獨(dú)立地從話題—詞分布φ和話題—讀者分布φ中采樣生成一個(gè)詞w和一個(gè)讀者x，w和x分別服從Mul(φ)和Mul(φ)分布。RT模型的文檔生成過(guò)程以及吉布斯采樣的推導(dǎo)過(guò)程和ART模型類似，本文在此不再贅述。

圖4 RT模型的盤(pán)式表示

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

在實(shí)驗(yàn)過(guò)程中，為了對(duì)四種模型進(jìn)行相互比較，我們對(duì)四種模型的話題數(shù)目及其他超參數(shù)進(jìn)行了相同的設(shè)置。對(duì)于話題數(shù)目，我們根據(jù)數(shù)據(jù) 集的話題分布情況經(jīng)驗(yàn)性地設(shè)置話題數(shù)T=100；對(duì)于其他超參數(shù)，我們嘗試了不同的超參數(shù)設(shè)置，發(fā)現(xiàn)模型效果并沒(méi)有受到超參數(shù)的較大影響，因此根據(jù)文獻(xiàn)[14]，我們將超參數(shù)設(shè)置為固定值:α=50/T、β=0.01、η=0.1。在模型訓(xùn)練過(guò)程中，我們發(fā)現(xiàn)模型迭代1 500次左右就基本達(dá)到收斂狀態(tài)，為了統(tǒng)一標(biāo)準(zhǔn)并確保所有模型都能達(dá)到收斂，我們對(duì)四種模型均設(shè)置迭代次數(shù)為2 000次。

3.4 話題聚集結(jié)果

ART模型迭代收斂后，可以利用式(6)來(lái)提取整個(gè)數(shù)據(jù)集的話題。我們首先從100個(gè)話題中篩選出10個(gè)話題，并盡量讓這些話題覆蓋不同的技術(shù)領(lǐng)域，然后列出每個(gè)話題的前10個(gè)詞，如表3所示。通過(guò)分析每個(gè)話題下代表性詞匯的含義，給出了每個(gè)話題的語(yǔ)義。我們發(fā)現(xiàn)，ART模型聚集出來(lái)的話題比較容易理解，每個(gè)話題下的大部分詞匯在語(yǔ)義上都與話題有較強(qiáng)的相關(guān)性。

表3 數(shù)據(jù)集話題聚集結(jié)果

3.5 用戶技能詞和興趣詞提取結(jié)果

通過(guò)式(6)我們可以得到每個(gè)話題的詞分布φ，通過(guò)式(5)和(7)可以分別得到每個(gè)作者的話題分布θ和每個(gè)讀者的話題分布φ，然后通過(guò)整合作者—話題分布和話題—詞分布來(lái)計(jì)算用戶的技能詞，通過(guò)整合讀者—話題分布和話題—詞分布來(lái)計(jì)算用戶的興趣詞，形式化公式分別如式(8)和式(9)所示。計(jì)算用戶技能詞和興趣詞的核心思想在于計(jì)算作者(或讀者)、話題和詞的聯(lián)合分布的積分，式(8)中Ωaw表示作者a在技能詞w上的相關(guān)度，式(9)中Ηrw表示讀者r在興趣詞w上的相關(guān)度。

通過(guò)式(8)～(9)我們可以計(jì)算每個(gè)作者對(duì)詞匯集V中每個(gè)詞的技能相關(guān)度以及每個(gè)讀者對(duì)詞匯集V中每個(gè)詞的興趣相關(guān)度，從而得到和每個(gè)用戶相關(guān)度比較高的技能詞和興趣詞。表4和表5分別列出了四個(gè)代表性用戶的前十個(gè)技能詞和前十個(gè)興趣詞，這四個(gè)用戶的自定義技能標(biāo)簽和興趣標(biāo)簽如表6所示。

表4 各種模型發(fā)現(xiàn)的用戶技能詞

表5 各種模型發(fā)現(xiàn)的用戶興趣詞

續(xù)表

表6 用戶自定義技能和興趣標(biāo)簽

將表4和表5的結(jié)果分別與用戶自定義技能標(biāo)簽和興趣標(biāo)簽進(jìn)行比較，我們發(fā)現(xiàn)ART模型發(fā)現(xiàn)的技能詞和興趣詞與用戶的自定義標(biāo)簽相關(guān)度較高。例如，user1的自定義技能和興趣標(biāo)簽體現(xiàn)在“大數(shù)據(jù)”領(lǐng)域，而ART發(fā)現(xiàn)的諸如“hadoop”“hive”“spark”等詞與此的相關(guān)度較高；user2的自定義技能和興趣標(biāo)簽體現(xiàn)在“數(shù)據(jù)庫(kù)”和“操作系統(tǒng)”領(lǐng)域，而ART發(fā)現(xiàn)的諸如“oracle”“mysql”“進(jìn)程”“命令”等詞與此相關(guān)度較高；user3的自定義技能和興趣標(biāo)簽體現(xiàn)在“移動(dòng)開(kāi)發(fā)”和“游戲開(kāi)發(fā)”領(lǐng)域，而ART發(fā)現(xiàn)的諸如“android”“游戲”等詞與此相關(guān)度較高；user4的自定義技能和興趣標(biāo)簽體現(xiàn)在“web開(kāi)發(fā)”領(lǐng)域，而ART發(fā)現(xiàn)的諸如“javascript”“html”等詞與此相關(guān)度較高。

將表4和表5中ART模型發(fā)現(xiàn)的用戶技能和興趣之間進(jìn)行比較，我們發(fā)現(xiàn)用戶的技能和興趣相似度很高，但用戶的技能更加專一，用戶的興趣則相對(duì)廣泛。例如，user1的技能和興趣都體現(xiàn)在“大數(shù)據(jù)”領(lǐng)域，但user1還對(duì)“系統(tǒng)運(yùn)維”比較感興趣；user3的技能和興趣都體現(xiàn)在“游戲開(kāi)發(fā)”“移動(dòng)開(kāi)發(fā)”領(lǐng)域，但user3還對(duì)“數(shù)據(jù)庫(kù)”比較感興趣；user4的技能和興趣都體現(xiàn)在“web開(kāi)發(fā)”領(lǐng)域，但user4還對(duì)“設(shè)計(jì)模式”比較感興趣。為了進(jìn)一步分析用戶技能分布和興趣分布之間的差異，我們分別計(jì)算作者技能分布熵(簡(jiǎn)稱技能熵)和讀者興趣分布熵(簡(jiǎn)稱興趣熵)，如式(10)～(11)所示。

我們計(jì)算了701個(gè)既是作者又是讀者的用戶的技能熵和興趣熵，并進(jìn)行了相關(guān)統(tǒng)計(jì)，結(jié)果如表7所示。從表中可以看出，興趣熵的平均值要高于技能熵，這進(jìn)一步表明了用戶技能的專一性和用戶興趣的廣泛性。

表7 技能熵與興趣熵統(tǒng)計(jì)值比較

表4和表5分別列出了LDA、AT和RT三種基準(zhǔn)方法提取的用戶技能詞和興趣詞結(jié)果，從表中可以看出，在用戶技能發(fā)現(xiàn)方面，相比于其他三個(gè)模型，ART模型發(fā)現(xiàn)的技能詞與用戶自定義技能標(biāo)簽相關(guān)度更高，而且相關(guān)度高的詞排序更加靠前；同樣，在用戶興趣發(fā)現(xiàn)方面，ART模型也要優(yōu)于其他三個(gè)模型。為了定量評(píng)價(jià)四種模型在發(fā)現(xiàn)用戶技能和興趣方面的優(yōu)劣，我們將四種模型發(fā)現(xiàn)的技能詞和興趣詞分別和用戶自定義技能標(biāo)簽和興趣標(biāo)簽求交集，計(jì)算技能發(fā)現(xiàn)和興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率，如式(12)～(15)所示:

具體地，我們分別計(jì)算出各種模型發(fā)現(xiàn)的每個(gè)用戶的前K(K=5,10,20,50,100)個(gè)技能詞和興趣詞，與該用戶自定義技能標(biāo)簽和興趣標(biāo)簽求交集，計(jì)算每個(gè)用戶技能發(fā)現(xiàn)和興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率，然后對(duì)所有用戶求平均。四種模型技能發(fā)現(xiàn)的準(zhǔn)確率和召回率如表8和表9所示，興趣發(fā)現(xiàn)的準(zhǔn)確率和召回率如表10和表11所示。從表中可以看出，在技能發(fā)現(xiàn)方面，ART要顯著優(yōu)于AT模型，AT模型要優(yōu)于RT模型，LDA模型效果最差；在興趣發(fā)現(xiàn)方面，ART要顯著優(yōu)于RT模型，RT模型要優(yōu)于AT模型，同樣LDA模型效果最差。需要說(shuō)明的是，準(zhǔn)確率和召回率整體不高的原因，一方面是因?yàn)橛脩糇远x的技能標(biāo)簽和興趣標(biāo)簽通常更抽象，而模型發(fā)現(xiàn)的技能詞和興趣詞通常更具體；另一方面，用戶自定義標(biāo)簽也存在更新不及時(shí)等問(wèn)題，因此兩者的交集偏少，從而導(dǎo)致準(zhǔn)確率和召回率偏低，但這并不會(huì)影響其作為模型評(píng)價(jià)標(biāo)準(zhǔn)的客觀性和公正性。

表8 四種模型技能發(fā)現(xiàn)的準(zhǔn)確率比較單位: %

表9 四種模型技能發(fā)現(xiàn)的召回率比較單位: %

表10 四種模型興趣發(fā)現(xiàn)的準(zhǔn)確率比較單位: %

表11 四種模型興趣發(fā)現(xiàn)的召回率比較單位: %

以上實(shí)驗(yàn)結(jié)果證明，隨著作者信息和讀者信息的加入，ART模型提高了話題聚集效果，能夠更準(zhǔn)確地同時(shí)對(duì)用戶的技能和興趣進(jìn)行建模，顯著優(yōu)于其他現(xiàn)有的技能或興趣發(fā)現(xiàn)方法。

4 結(jié)論

本文提出了一個(gè)新穎的作者—讀者—話題(ART)模型來(lái)同步發(fā)現(xiàn)在線技術(shù)社區(qū)中用戶的技能和興趣。該模型能夠有效地將文檔的作者信息和讀者信息關(guān)聯(lián)起來(lái)，提升話題聚集效果，產(chǎn)生更準(zhǔn)確的作者技能話題分布和讀者興趣話題分布。

在CSDN社區(qū)的真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的ART模型能夠有效地發(fā)現(xiàn)用戶的技能和興趣，提取的用戶技能詞和興趣詞比其他現(xiàn)有的技能或興趣挖掘方法更準(zhǔn)確。與此同時(shí)，我們也驗(yàn)證了用戶技能相對(duì)集中、用戶興趣相對(duì)分散的假設(shè)。本文提出的方法可以廣泛應(yīng)用于在線社區(qū)的用戶技能與興趣挖掘，服務(wù)于社區(qū)運(yùn)營(yíng)者進(jìn)行用戶畫(huà)像，向用戶提供精準(zhǔn)推薦和個(gè)性化服務(wù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡