李科霖
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
近年來,由于各類現(xiàn)代技術(shù)的迅猛發(fā)展,人們對專業(yè)知識的需求不斷增加,因此常常需要從多種不同的渠道獲取自己需要的知識來滿足學(xué)習(xí)或者工作的需求。其中,在線問答社區(qū)逐漸成為最為可靠和有效的知識來源之一[1]。
互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,見證了如Wikipedia、Quora和知乎等中英文在線問答社區(qū)的蓬勃發(fā)展。與傳統(tǒng)的專家咨詢系統(tǒng)不同,在線問答社區(qū)通常是指由用戶參與問題提問和回答的知識分享社區(qū),它的基本模式是用戶根據(jù)自己的知識需求進(jìn)行提問,通過一定的激勵或者推薦機(jī)制來發(fā)動其他具有相關(guān)領(lǐng)域知識的用戶回答問題,提供個性化的答案[2]。例如,作為最受歡迎的中文在線問答社區(qū)之一,知乎擁有千萬級別用戶,每天產(chǎn)生大量不同領(lǐng)域下的問題和答案。然而,由于問題回答者的專業(yè)水平良莠不齊,產(chǎn)生的答案質(zhì)量也往往高低不一。因此,準(zhǔn)確地發(fā)現(xiàn)問答社區(qū)中不同領(lǐng)域下具有專業(yè)知識水平和影響力的專家用戶,把提問者提出的問題及時推薦給這些專家用戶,將有助于高效而準(zhǔn)確地產(chǎn)生專業(yè)答復(fù),從而提高問答社區(qū)知識庫的知識水平,增加用戶對社區(qū)的粘度,還能為外部搜索引擎提供較高質(zhì)量的信息資源。因此,基于用戶產(chǎn)生的問答信息和點(diǎn)贊等行為信息,準(zhǔn)確地發(fā)現(xiàn)在線問答社區(qū)中的領(lǐng)域?qū)<矣脩?,就顯得尤為必要。
針對在線問答社區(qū)領(lǐng)域?qū)<野l(fā)現(xiàn)問題,本文根據(jù)答案的產(chǎn)生過程,提出一種問題-回答者-話題(Question-Answerer-Topic, QAT)模型,用來對問題-回答者對的話題分布進(jìn)行建模,以此刻畫不同用戶對領(lǐng)域內(nèi)不同話題的參與度,并基于此模型融入用戶答案的被點(diǎn)贊數(shù)目信息以衡量用戶在各話題下的專業(yè)水平,最后結(jié)合鏈接分析的方法,提出一種主題敏感的PageRank改進(jìn)模型,進(jìn)一步衡量用戶的權(quán)威度,從而得到用戶的最終專家得分并進(jìn)行排序。
本文采用Gibbs采樣的方法對QAT模型進(jìn)行推導(dǎo)和求解,通過不斷地采樣語料庫中每個詞的主題指派來近似推斷語料庫中問題-回答者對、主題和詞的聯(lián)合分布。Gibbs采樣收斂后,就可以根據(jù)語料庫中每個詞的采樣結(jié)果來估計(jì)出問題-回答者-話題分布。
本文從中文在線問答社區(qū)知乎網(wǎng)上采集了人工智能領(lǐng)域下的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的專家發(fā)現(xiàn)方法進(jìn)行對比與分析。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的專家發(fā)現(xiàn)方法,本文提出的方法能有效地識別出領(lǐng)域?qū)<矣脩簟?/p>
本文的工作主要包括以下3點(diǎn):
1)根據(jù)答案的產(chǎn)生過程,以及問題和答案之間的關(guān)聯(lián)性,提出了問題-回答者-話題模型,可有效約束問題-回答者對的話題分布,從而更準(zhǔn)確地發(fā)現(xiàn)回答者的話題分布,刻畫其領(lǐng)域話題。
2)基于問題-回答者-話題模型,融入答案點(diǎn)贊信息來計(jì)算用戶在領(lǐng)域內(nèi)各話題下的專業(yè)水平,并結(jié)合鏈接分析的方法,提出一種主題敏感的PageRank改進(jìn)模型,有效衡量用戶在各話題下的權(quán)威度,最終計(jì)算出用戶在領(lǐng)域內(nèi)不同話題下的專家得分,并進(jìn)行排序。
3)從知乎網(wǎng)采集了一個高質(zhì)量的人工智能領(lǐng)域問答數(shù)據(jù)集,并對提出的模型進(jìn)行了充分的實(shí)驗(yàn),驗(yàn)證了本文提出的方法的有效性。
在線問答社區(qū)中的專家發(fā)現(xiàn),是指發(fā)現(xiàn)社區(qū)中具有較高專業(yè)水平和影響力、能提供較多高質(zhì)量回答、值得信賴的用戶[3]。對于在線問答社區(qū)的專家發(fā)現(xiàn)問題,很多學(xué)者提出了不同的模型和方法。目前,在線問答社區(qū)的專家發(fā)現(xiàn)研究主要分為基于統(tǒng)計(jì)分析的方法、基于鏈接分析的方法和基于信息抽取的方法。
基于統(tǒng)計(jì)分析的方法主要使用一些統(tǒng)計(jì)特征,如答案的相關(guān)性、客觀性、真實(shí)性、易讀性以及問答數(shù)目比例關(guān)系等,來進(jìn)行專家排序。例如,Zhang等人[4]提出基于用戶提問和回答數(shù)目的比例關(guān)系的模型,即假定用戶提供的答案越多,問題數(shù)量越少,則他們的專業(yè)知識水平就越高,反之亦然。作者將該模型應(yīng)用于大型的在線問答社區(qū)——Java Forum,取得了良好的效果。Jeon等人[5]為每個答案生成一個特征向量,記錄答案的接受率、答案長度、問題的評價、回答者活躍度、回答者專業(yè)類別等信息來進(jìn)行評級排名。Bouguessa[6]等人將用戶獲得最佳回答者的次數(shù)作為計(jì)算用戶專家權(quán)威度的標(biāo)準(zhǔn)來進(jìn)行專家排序。總體來看,這些基于統(tǒng)計(jì)分析的方法很容易被用戶惡意作弊所欺騙,并且有些評價指標(biāo)的得分需要人工手動生成,還有一些指標(biāo)特征比較難收集,因此分析起來也較為費(fèi)時。
基于鏈接分析的方法主要包括基于PageRank[7-9]的方法和基于HITS[10-11]的方法?;赑ageRank的方法將PageRank應(yīng)用于在線問答社區(qū)的專家發(fā)現(xiàn),其核心思想是根據(jù)問答關(guān)系構(gòu)建社交網(wǎng)絡(luò),利用網(wǎng)絡(luò)迭代傳播的思想求解用戶專家權(quán)威程度得分。一個用戶的專家權(quán)威程度得分取決于該用戶幫助的用戶數(shù)量,用戶得分越多,則其專家權(quán)威程度也就越高。HITS的思想與PageRank類似,它將用戶分為Hub和Authority這2組,其中Hub組是提問的用戶集合,Authority組是回答問題的用戶集合。同樣,Hub和Authority值可以通過網(wǎng)絡(luò)迭代求解。如果只考慮用戶問答關(guān)系網(wǎng)絡(luò),而不考慮答案質(zhì)量,PageRank和HITS在專家發(fā)現(xiàn)方法中應(yīng)用廣泛。然而,據(jù)統(tǒng)計(jì)顯示,問答社區(qū)中約有1/3的問題存在明顯的不足,約有1/10的答案為低質(zhì)量答案[4]。因此,除了考慮問答關(guān)系等鏈接關(guān)系外,還應(yīng)考慮用戶產(chǎn)生內(nèi)容的質(zhì)量。
基于信息抽取的方法由于其信息覆蓋的全面性和多樣性而受到廣大學(xué)者的青睞。Liu等人[12]將專家用戶定義為在給定的問題下,回答過相似問題的用戶,然后基于查詢相似度模型[13]、關(guān)聯(lián)模型[14]和基于聚類的語言模型[15]檢索得到最有可能回答該問題的用戶。劉健等人[16]提出了基于LDA話題模型的改進(jìn)模型,在模型生成過程中抽取專家用戶。Yang等人[17]利用LDA模型抽取用戶興趣的話題分布,并結(jié)合鏈接分析的方法提出以人為中心的專家發(fā)現(xiàn)方法。
此外,也有不少學(xué)者提出混合模型來進(jìn)行專家發(fā)現(xiàn)。Wang等人[1]提出融合候選專家經(jīng)驗(yàn)、候選專家權(quán)威度和PageRank鏈接分析的方法來進(jìn)行在線知識社區(qū)候選專家排序。Kao等人[18]進(jìn)一步綜合用戶知識領(lǐng)域、用戶聲譽(yù)和鏈接分析來評選專家用戶。Yang等人[19]提出基于LDA的改進(jìn)模型,在模型中融入問題標(biāo)簽和點(diǎn)贊信息,并結(jié)合鏈接分析的方法,來衡量用戶的專家水平和興趣分布。
上述模型雖然取得了不錯的效果,但是并沒有考慮到問題和回答者產(chǎn)生的答案之間的相互約束關(guān)系,即一個用戶在回答問題之前,會先根據(jù)提問信息選擇自己擅長的問題,然后根據(jù)問題的描述來產(chǎn)生自己的答案?;谏鲜龃鸢干蛇^程,本文提出一種QAT模型,并以此為基礎(chǔ)進(jìn)一步提出一種融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法。
本章首先介紹在線問答社區(qū)領(lǐng)域?qū)<野l(fā)現(xiàn)方法的整體框架,然后詳細(xì)描述本文提出的問題-回答者-話題(QAT)模型,最后介紹基于QAT模型提出的融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法。
融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法的整體框架如圖1所示,具體流程為:
1)針對某領(lǐng)域內(nèi)的問答數(shù)據(jù),進(jìn)行信息抽取和關(guān)系抽取。信息抽取主要是抽取出由問題和問題下的回答者組成問題-回答者對qa以及問題-回答者對所對應(yīng)的答案文本信息,關(guān)系抽取主要是根據(jù)問答關(guān)系構(gòu)建問答關(guān)系網(wǎng)絡(luò)。
2)利用問題-回答者-話題(QAT)模型,計(jì)算問題-回答者對qa的話題分布。
3)在QAT模型中融入點(diǎn)贊信息,計(jì)算得到用戶在不同話題下的專業(yè)度得分。
4)結(jié)合基于主題敏感的PageRank改進(jìn)算法,得到用戶在領(lǐng)域內(nèi)不同話題下的最終專家得分。
圖1 融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法整體框架
本節(jié)將詳細(xì)介紹問題-回答者-話題(QAT)模型,并對模型進(jìn)行參數(shù)估計(jì),表1列出了本文使用的相關(guān)符號和含義說明。
表1 相關(guān)符號及說明
符號含義D答案數(shù)T話題數(shù)QA問題-回答者對數(shù)V文檔詞庫數(shù)Nd第d篇文檔的詞數(shù)α, βDirichlet超參數(shù)θ(問題-回答者對)-話題分布?話題-詞分布(qa)d第d篇答案的問題-回答者對z語料庫中的話題指派w語料庫中的詞qa語料庫中的問題-回答者對zdn第d篇答案第n個詞的話題指派wdn第d篇答案第n個詞
2.2.1 模型描述
在線問答社區(qū)中,用戶作為提問者在提問問題的時候,常常將自己的知識需求以問題標(biāo)題加問題描述的形式進(jìn)行提問,而用戶作為回答者在回答問題時,通常會結(jié)合自己所具備的相關(guān)領(lǐng)域知識和問題標(biāo)題、問題描述等信息,來產(chǎn)生自己的答案,此時用戶所產(chǎn)生的答案通常體現(xiàn)了他們在問題相關(guān)領(lǐng)域的話題類別。即問題和回答者共同決定了生成答案的話題分布。基于此,本文以LDA模型為基礎(chǔ),同時加入問題和回答者信息,提出一種問題-回答者-話題(QAT)模型。
QAT模型的直觀含義是:問題和回答者共同決定了回答者在每個問題下生成的答案的話題分布,而答案的話題決定了詞的生成。與LDA模型類似,QAT模型仍然是層次式的貝葉斯概率模型,它包含詞、話題、文檔、問題-回答者對這4層結(jié)構(gòu),其概率圖模型如圖2所示。
圖2 QAT模型盤式表示
在QAT模型中,每篇答案d對應(yīng)一個問題q和回答者a組成的問題-回答者對qa。每個qa對應(yīng)的話題的多項(xiàng)式分布為θqa,每個話題對應(yīng)詞的多項(xiàng)式分布為φt。該模型的形式化描述詳見算法1:首先,根據(jù)Dirichlet超參數(shù)分布分別采樣問題-回答者對-話題分布θ、話題-詞分布φ,其分別服從Dirichlet分布Dir(α)、Dir(β);然后,對于每篇答案中的每個詞,根據(jù)答案對應(yīng)問題-回答者對的話題分布θ采樣生成一個話題z,z服從多項(xiàng)式分布Mul(θ);最后,基于生成的話題z獨(dú)立地從話題-詞分布φ中采樣生成一個詞w,w服從多項(xiàng)式分布Mul(φ)。
算法1QAT模型的生成過程
輸入:α、β、D、T、QA
輸出:答案文本
for每個問題-回答者對qa∈QA do
根據(jù)超參數(shù)α采樣問題-回答者對的話題分布θqa~Dir(α);
end for
for每個話題z∈T do
根據(jù)超參數(shù)β采樣話題的詞分布φz~Dir(β);
end for
for每篇答案d∈[1,D]以及答案對應(yīng)的問題-回答者對qa do
for每個詞n∈[1,Nd] do
根據(jù)θqa采樣一個話題zdn~Mul(θqa);
根據(jù)φzdn采樣一個詞wdn~Mul(φzdn);
end for
end for
給定超參數(shù)α、β以及答案d對應(yīng)的問題-回答者對qa,語料庫的生成概率如公式(1)所示。
P(θ,φ,z,w|α,β,qa)
(1)
2.2.2 參數(shù)估計(jì)
Gibbs采樣是Markov鏈Monte Carlo理論(MCMC)中用來獲取一系列近似等于指定多維概率分布觀察樣本的算法,它通過迭代采樣來對高維復(fù)雜的概率分布進(jìn)行推導(dǎo)。本文采用Gibbs采樣算法來近似推導(dǎo)QAT模型。為了得到參數(shù)θ、φ,需要計(jì)算詞wdn的話題指派的條件分布p(zdn|z,qa,w,α,β),其中,z指答案d中除第n個詞外的其它所有詞的話題指派。
為了簡化公式描述,引入Δ函數(shù)來統(tǒng)一表示隱變量θ、φ,含有M維Dirichlet均勻先驗(yàn)δ的Δ函數(shù)被定義為如公式(2)所示:
ΔM(δ)=Γ(δM)/Γ(Mδ)
(2)
其中Γ(·)是伽馬函數(shù)。
基于圖2所示概率圖模型定義的條件獨(dú)立性假設(shè),給定所有超參數(shù),則話題、問題-回答者對、詞的聯(lián)合分布可以形式化為公式(3)所示:
P(z,w|α,β)=P(z|α)P(w|z,β)
(3)
P(zdn|z,qa,w,α,β)
(4)
Gibbs采樣收斂后,就可以根據(jù)采樣結(jié)果估計(jì)問題-回答者對-話題分布θ與話題-詞分布φ,分別如公式(5)和公式(6)所示。
(5)
(6)
問答社區(qū)中的點(diǎn)贊信息作為社區(qū)中瀏覽者對答案質(zhì)量的一種反饋行為,直接反映了回答者在每個問題下的專業(yè)水平,一個具備較高專業(yè)水平的回答者所產(chǎn)生的答案往往會收獲更多的點(diǎn)贊數(shù)。因此,本文考慮融入用戶在每個問題下的答案點(diǎn)贊信息來更加準(zhǔn)確地衡量用戶的專業(yè)水平。
利用回答者在每個問題下產(chǎn)生答案所收獲的點(diǎn)贊數(shù)目信息計(jì)算用戶在該問題下的答案質(zhì)量權(quán)重,計(jì)算公式如公式(7)所示。
(7)
其中v(q,a)表示回答者a在問題q下的答案質(zhì)量權(quán)重,Nq表示問題q下所有答案的數(shù)目,na表示回答者a在問題q下的答案所獲點(diǎn)贊數(shù)。
然后將回答者在每個問題下的答案質(zhì)量權(quán)重除以該用戶所有答案的質(zhì)量權(quán)重總和作為加權(quán)因子,對公式(5)得到的每個問題-回答者對qa的話題分布θ(qa)z進(jìn)行加權(quán)求和,得到回答者在不同話題下的專業(yè)水平得分,其定義如公式(8)所示。
(8)
其中EX(ui,z)表示用戶ui在話題z下的專業(yè)水平,Qi表示用戶ui回答問題總數(shù),θ(jui)z表示QAT模型推斷出的問題j和回答者ui所組成的問題-回答者對jui在話題z下分布的概率。
QAT模型是對問題-回答者信息和文本信息進(jìn)行建模的多隱變量模型,可以根據(jù)用戶的話題分布用來發(fā)現(xiàn)用戶的領(lǐng)域?qū)iL,并融入答案的點(diǎn)贊信息來計(jì)算用戶在領(lǐng)域內(nèi)話題下的專業(yè)程度。然而,用戶關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)對于領(lǐng)域話題下專家專業(yè)水平和權(quán)威度的度量同樣重要。為了得到用戶的網(wǎng)絡(luò)權(quán)威度,本文構(gòu)建問答關(guān)系網(wǎng)絡(luò)來計(jì)算其在網(wǎng)絡(luò)中的重要度。
在問答社區(qū)中,用戶i提出問題q,用戶j對此問題進(jìn)行回答,則用戶i和用戶j通過提問-回答的交互產(chǎn)生鏈接關(guān)系。用戶之間問答交互的鏈接關(guān)系可以表示為圖3所示,用戶1提出問題1,用戶2和用戶3回答問題1。通過這種問答交互抽取用戶之間關(guān)系,轉(zhuǎn)化為用戶1分別指向用戶2和用戶3的有向邊,如圖4所示。按照這種方法,構(gòu)建用戶問答關(guān)系網(wǎng)絡(luò)。
用戶問答關(guān)系網(wǎng)絡(luò)圖可以形式化為:G=(V,E),其中V={ui}表示領(lǐng)域內(nèi)所有用戶的集合,E={(eij,wij)}表示領(lǐng)域內(nèi)所有有向邊集合,eij為一條邊,表示用戶j回答了用戶i提出的問題,wij為邊eij的權(quán)重,表示用戶j回答用戶i所有問題的數(shù)目。
圖3 用戶-問題關(guān)系網(wǎng)絡(luò)圖
圖4 問答關(guān)系網(wǎng)絡(luò)圖
根據(jù)已經(jīng)建立好的用戶問答關(guān)系網(wǎng)絡(luò),可以利用隨機(jī)游走的方法,求得網(wǎng)絡(luò)中每個節(jié)點(diǎn)訪問概率的平穩(wěn)分布。在最初利用PageRank算法進(jìn)行專家發(fā)現(xiàn)時,遠(yuǎn)程跳轉(zhuǎn)時隨機(jī)跳向每個節(jié)點(diǎn)的概率都是相同的。后來Zhou等人[9]根據(jù)話題下用戶的相似度設(shè)置隨機(jī)游走跳轉(zhuǎn)概率,提出基于主題敏感PageRank算法的改進(jìn)模型。
考慮到在隨機(jī)跳轉(zhuǎn)時,往往會傾向于跳轉(zhuǎn)到專業(yè)水平較高的用戶節(jié)點(diǎn)。因此,與傳統(tǒng)的主題敏感的PageRank算法不同,本文將公式(8)計(jì)算得到的融合點(diǎn)贊信息的用戶話題專業(yè)水平值作為隨機(jī)跳轉(zhuǎn)值,提出一種融合用戶話題專業(yè)水平的主題敏感PageRank算法,求解給定話題z下,用戶的最終專家得分,其定義如公式(9)所示。
PR(ui,z)=(1-d)EX(ui,z)+
(9)
其中PR(ui,z)表示用戶ui在話題z下最終的專家得分,U(ui)為指向用戶ui的所有用戶的集合,N為用戶uj所指向用戶的集合。對于只參與提問而未回答過問題的用戶ui,本文認(rèn)為其專業(yè)水平較低,從而將其EX(ui,z)值設(shè)置為0。
本章將基于知乎網(wǎng)人工智能領(lǐng)域的真實(shí)問答數(shù)據(jù)集對提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。
本文采用的數(shù)據(jù)來自中文在線問答社區(qū)知乎網(wǎng),采集了知乎網(wǎng)人工智能領(lǐng)域下的4396個精華問題及其相關(guān)信息。每個問題的信息包括:
1)文本信息:問題標(biāo)題、問題描述以及問題下的所有答案。
2)用戶信息:問題提問者和回答者的用戶ID。
3)行為信息:每條答案的被點(diǎn)贊數(shù)目。
首先對采集的數(shù)據(jù)進(jìn)行必要的預(yù)處理,包括去除字?jǐn)?shù)答案中少于150字的短文本信息與對應(yīng)回答者,去除文本中的代碼塊、HTML標(biāo)記和URL鏈接,然后采用NLPIR分詞工具進(jìn)行分詞,在分詞的過程中去除停用詞和低頻詞,利用TF-IDF方法計(jì)算低權(quán)重詞并去除,最終得到處理后的數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)信息
項(xiàng)目數(shù)量問題數(shù)量4396答案數(shù)目56894提問者數(shù)目2368回答者數(shù)目16328去除短文本后回答者數(shù)目13331數(shù)據(jù)集詞數(shù)126976有效詞數(shù)63675
除此之外,知乎網(wǎng)也給出了人工智能領(lǐng)域下的話題劃分,包含自然語言處理、圖像識別等共20個話題,在劃分的每個話題下,知乎網(wǎng)列出了該話題下推選出的優(yōu)秀回答者列表。將這些知乎網(wǎng)劃分的話題根據(jù)關(guān)鍵字與本文方法所得到的話題做一一映射,并采集各個話題下優(yōu)秀回答者列表中的用戶ID,用本文提出的方法所得到的各個話題下的專家用戶和采集到的知乎網(wǎng)推選出的各話題下專家用戶做對比,分析驗(yàn)證實(shí)驗(yàn)結(jié)果。
為了定量評價本文提出的方法在領(lǐng)域?qū)<野l(fā)現(xiàn)方面的性能,將得到的話題與采集到的已有話題進(jìn)行映射,然后將映射后各個話題下的專家用戶與知乎網(wǎng)各個話題下推薦的專家求交集,具體地選出每個話題下得到的前10、20、50、100個用戶,計(jì)算每個話題下的命中率,最終通過計(jì)算所有話題下的平均命中率,作為實(shí)驗(yàn)的評價指標(biāo)。
為了對實(shí)驗(yàn)結(jié)果進(jìn)行對比評價,選取目前已有的效果較好的專家發(fā)現(xiàn)方法作為對比,對比方法包括:
1)PageRank。該方法由于只使用鏈接分析的方法進(jìn)行專家排序,并未包含隱話題,因此,在使用其作為基準(zhǔn)方法時,本文用它發(fā)現(xiàn)的人工智能領(lǐng)域下所有專家用戶分別與采集到的各個話題下的專家用戶做對比,然后計(jì)算平均準(zhǔn)確率。
2)HITS。該方法與PageRank方法類似,也未包含隱話題。同樣,在使用此方法作為基準(zhǔn)方法時,本文用該方法發(fā)現(xiàn)的人工智能領(lǐng)域下所有專家用戶分別與采集到的各個話題下的專家用戶做對比,然后計(jì)算平均準(zhǔn)確率。
3)InDegree(ID)。該方法[6]通過計(jì)算用戶在回答問題時獲得問題最佳回答者的次數(shù)來作為評判標(biāo)準(zhǔn)識別專家用戶。在實(shí)驗(yàn)中,將每個問題下獲贊最多的用戶標(biāo)記為問題的最佳回答者。與PageRank類似,由于該方法不會產(chǎn)生隱話題分布,本文將該方法識別出的專家用戶分別與采集到的各個話題下的專家用戶做對比,然后計(jì)算平均準(zhǔn)確率。
4)TSPR。這是Zhou等人[9]提出的綜合話題模型和鏈接分析方法的混合模型。其中,話題模型為LDA的改進(jìn)模型——用戶話題模型(User-Topic Model),該模型將每位用戶產(chǎn)生的問題和答案綜合起來當(dāng)成一篇文檔,并假設(shè)每位用戶決定了其文檔話題的生成,而話題決定了詞的生成。模型利用所有用戶產(chǎn)生的文檔集合對每位用戶的話題分布進(jìn)行建模,求解得到每位用戶的話題分布,其概率圖模型如圖5所示。圖中D表示所有用戶產(chǎn)生的文檔集合,Nd表示用戶u所產(chǎn)生文檔的詞數(shù)。該模型的生成過程是首先根據(jù)用戶u的話題分布θ隨機(jī)采樣生成一個話題z,z服從多項(xiàng)式分布Mul(θ);然后基于生成的話題z,從話題-詞分布φ中采樣生成一個詞w,w服從多項(xiàng)式分布Mul(φ)。重復(fù)上述生成過程直到文檔中所有詞均已生成。與QAT模型求解問題-回答者對的話題分布不同,用戶話題模型以用戶為中心求解每個用戶的話題分布。在結(jié)合鏈接分析時,TSPR將用戶之間的話題相似度作為影響鏈接跳轉(zhuǎn)的因子,并分別計(jì)算用戶在每個話題下的專家水平,最后對各個話題下的用戶進(jìn)行排序。
5)QAT-VOTE。本文提出的結(jié)合QAT和點(diǎn)贊行為信息計(jì)算用戶專家專業(yè)水平得分的方法。
6)QAT-VOTE-LA。本文提出的結(jié)合QAT和點(diǎn)贊行為信息計(jì)算專家用戶專業(yè)水平得分,并融合鏈接分析計(jì)算用戶最終綜合專家得分的方法。
圖5 TSPR中用戶話題模型盤式表示
在實(shí)驗(yàn)中,本文對各種方法需要的實(shí)驗(yàn)參數(shù)進(jìn)行相同的設(shè)置。對于話題數(shù)目,為了和知乎網(wǎng)已有話題數(shù)目統(tǒng)一,設(shè)置話題數(shù)目T=20。對于Dirichlet超參數(shù),根據(jù)文獻(xiàn)[20],將其設(shè)置為固定值:α=50/T、β=0.05。在模型訓(xùn)練的過程中,發(fā)現(xiàn)在迭代次數(shù)達(dá)到1500次時基本達(dá)到收斂,因此本文將迭代次數(shù)設(shè)置為2000。對于參數(shù)d,將其設(shè)置為0.85。
3.5.1 QAT模型話題聚集結(jié)果
在QAT模型迭代收斂后,通過公式(6)計(jì)算得到每個話題下的詞分布。通過人工分析每個話題下的詞義,將QAT模型產(chǎn)生的20個話題和已有知乎網(wǎng)人工智能領(lǐng)域中的話題做映射,并從20個話題中隨機(jī)選擇10個話題,列舉出每個話題下的前10個話題詞,如表3所示??梢园l(fā)現(xiàn),QAT模型聚集出來的話題之間區(qū)別較為明顯,而且每個話題的語義也較為容易理解,每個話題在語義上都與話題有較強(qiáng)的相關(guān)性。
表3 QAT話題模型話題聚集效果
3.5.2 領(lǐng)域?qū)<野l(fā)現(xiàn)結(jié)果
將本文提出的QAT-VOTE和QAT-VOTE-LA這2種方法,與4種常用的專家發(fā)現(xiàn)方法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 各種方法的專家發(fā)現(xiàn)命中率結(jié)果對比
從表4中可以看出,PageRank算法的結(jié)果要好于HITS,這是因?yàn)镠ITS算法中有權(quán)威度(Authority)和中心度(Hub)2個指標(biāo)。權(quán)威度體現(xiàn)了用戶作為回答者時的重要性,而中心度體現(xiàn)了用戶作為提問者時的重要性。這2個指標(biāo)是相互關(guān)聯(lián)耦合的,所以一些提問較多的用戶會影響作為回答者時的權(quán)威度。
InDegree算法的結(jié)果比所有方法的結(jié)果都要低,這是因?yàn)镮nDegree僅根據(jù)用戶在回答的問題中獲得最佳回答者的數(shù)量來進(jìn)行專家排序,而沒有考慮更多例如用戶話題分布情況、用戶鏈接關(guān)系情況等情形。
TSPR方法的結(jié)果優(yōu)于PageRank、HITS、InDegree和QAT-VOTE方法。這是因?yàn)镻ageRank和HITS算法僅考慮用戶之間的鏈接關(guān)系,InDegree僅考慮用戶作為最佳回答者的數(shù)量信息。QAT-VOTE方法雖然考慮了結(jié)合話題模型和點(diǎn)贊信息,但是并沒有融合鏈接分析的方法。而TSPR方法既使用LDA改進(jìn)模型對每個作者的話題分布進(jìn)行建模,又使用主題敏感PageRank改進(jìn)模型進(jìn)行用戶專家得分計(jì)算。這也在一定程度上說明了話題模型和鏈接分析相結(jié)合的方法,在在線問答社區(qū)專家發(fā)現(xiàn)研究中傾向于取得更好的結(jié)果。
本文提出的QAT-VOTE-LA方法,結(jié)果明顯好于前面幾種方法。這是因?yàn)門SPR在使用話題模型時,僅從用戶產(chǎn)生內(nèi)容的角度,對每位用戶的話題分布進(jìn)行建模,而未考慮用戶在回答問題時,問題本身也會對用戶所產(chǎn)生答案的話題分布產(chǎn)生約束。與TSPR不同,本文提出的QAT模型對問題和回答者組成的問題-回答者對的話題分布進(jìn)行建模,從而對話題有著更好的聚集效果。此外,QAT-VOTE-LA也引入了每個答案的獲贊數(shù)據(jù)計(jì)算用戶在每個話題下的專業(yè)水平,因此,在衡量用戶在各個話題下的專業(yè)水平時有著更好的效果。綜合起來,其實(shí)驗(yàn)結(jié)果相較TSPR有明顯的提升。
本文首先根據(jù)在線問答社區(qū)中答案的產(chǎn)生過程,提出了問題-回答者-話題(QAT)模型,對某一領(lǐng)域中問題-回答者對的話題分布進(jìn)行建模;然后在該模型的基礎(chǔ)上,融入每條答案的點(diǎn)贊信息,計(jì)算用戶在領(lǐng)域不同話題分布下的專業(yè)水平;最后結(jié)合鏈接分析的方法,提出一種基于主題敏感PageRank方法的改進(jìn)模型,來進(jìn)行領(lǐng)域?qū)<野l(fā)現(xiàn)。與傳統(tǒng)的問答社區(qū)專家發(fā)現(xiàn)方法相比,本文提出的方法不僅考慮了問題-回答者之間話題分布的約束關(guān)系,還將每個答案的點(diǎn)贊信息作為用戶專業(yè)水平的評判因素之一,而且還結(jié)合了鏈接分析的方法,因而可以有效地發(fā)現(xiàn)在線問答社區(qū)中的領(lǐng)域?qū)<矣脩?。本文提出的方法可以用于在線問答社區(qū)問題推薦和專家推薦等具體的應(yīng)用場景,并以此提高在線問答社區(qū)的用戶粘性。
本文提出的方法也有一定的不足之處。例如,用戶的專業(yè)水平和鏈接關(guān)系往往會隨著時間的變化而變化,本文并未將時序因素考慮在內(nèi),這是一個有待于繼續(xù)研究的問題。