国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社區(qū)問答系統(tǒng)中問題推薦機制

2015-11-26 03:00:28蔣宗禮李立新
計算機與現(xiàn)代化 2015年8期
關(guān)鍵詞:詞語社區(qū)算法

蔣宗禮,李立新

(北京工業(yè)大學(xué)計算機學(xué)院,北京 100124)

0 引言

隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們能接受、處理和利用的信息范圍越來越廣,信息量也越來越大。然而隨著可用數(shù)據(jù)資源呈爆炸式增長,大量冗余信息嚴(yán)重干擾了人們對所需信息的正確選擇和準(zhǔn)確分析,降低了信息使用效率。準(zhǔn)確、快速地獲取所需信息越來越難,所花時間也越來越多。雖然以百度、谷歌等為代表的傳統(tǒng)搜索引擎,在很大程度上為人們從海量數(shù)據(jù)中找到所需信息提供了極大便利,但難以滿足一些用戶的信息需求,這導(dǎo)致了基于社區(qū)問答模式的發(fā)展。百度知道、Yahoo!Answer、知乎等是現(xiàn)在頗受歡迎的基于搜索的互動式知識問答系統(tǒng),它們充分利用社區(qū)用戶知識來滿足廣泛的信息需求。

從目前發(fā)展形勢來看,社區(qū)問答系統(tǒng)盡管吸引了大量用戶參與,但仍有許多用戶提出的問題沒有得到答案。在已解決的問題中,也有相當(dāng)一部分答案并不能讓提問者滿意。造成這些現(xiàn)象的原因之一在于雖然有大量用戶存在,但即便是有經(jīng)驗的用戶,也很難從大量新提交的問題中找到感興趣并有能力解答的問題。用戶通常需要瀏覽問題的分類結(jié)構(gòu),從成千上萬的開放問題中找到感興趣的問題,這一耗時費力的過程打消了許多用戶參與的積極性。挖掘潛在回答問題的用戶,進(jìn)行有效合理的問題推薦,及時準(zhǔn)確地回答系統(tǒng)中用戶不斷提出的大量新問題,對社區(qū)問答系統(tǒng)的發(fā)展有著重要意義。

現(xiàn)有的問題推薦算法,大多數(shù)只以用戶興趣和權(quán)威性作為依據(jù),忽略了用戶活躍度,而這一點卻是決定該用戶成為某一問題最佳回答者的關(guān)鍵。本文通過分析用戶活躍指數(shù),并將其融入到問題推薦算法中,以改善推薦效果。

1 用戶活躍度表示方法

在社區(qū)問答系統(tǒng)問題推薦機制中,除用戶對被推薦問題的興趣之外,用戶在系統(tǒng)中的行為活躍度也影響著問題推薦的準(zhǔn)確性。一個用戶越活躍,對知識的發(fā)布和傳遞越有促進(jìn)作用,越可能愿意去回答其他用戶所提出的、自己感興趣且擅長的問題。

用戶活躍度可以定義為用戶各種行為發(fā)生的頻次之和[1-3],考慮到用戶之前活躍并不表示現(xiàn)在依然活躍,用加權(quán)和更為恰當(dāng)。把每一位用戶每天的行為看成一個數(shù)據(jù)流,本文采用一種基于衰減窗口[4]統(tǒng)計的方法來計算用戶行為活躍度。

對于最新的元素賦權(quán)值為1,然后隨著時間的向前推移,權(quán)值按照一定的比值不斷衰減。令數(shù)據(jù)流中的元素為a1,a2,…,at,其中a1是最先到達(dá)的元素,而at是最新的元素。令c 為一個很小的常數(shù),稱為衰減常數(shù)。那么,該數(shù)據(jù)流的指數(shù)衰減窗口定義為:

由定義可知,流中元素的權(quán)重值取決于距離最新元素的遠(yuǎn)近,距離時間越遠(yuǎn)則其權(quán)值越小。

社區(qū)用戶活躍度計算可分為以下步驟:

1)行為數(shù)據(jù)流統(tǒng)計。

在社區(qū)問答系統(tǒng)中,用戶參與的行為主要包括提出問題、回答問題和評價問題答案等。多個用戶會產(chǎn)生多個行為數(shù)據(jù)流,所以對每個用戶的行為數(shù)據(jù)流進(jìn)行統(tǒng)計處理后可得到用戶行為矩陣。一般將一天的24 小時分成若干段,統(tǒng)計每個用戶在各個時間段提問、回答、評價3 種行為發(fā)生的次數(shù)。表1 為把一天24 小時分為3 個時間段統(tǒng)計的結(jié)果。

表1 某用戶在某天的行為次數(shù)統(tǒng)計

2)建立用戶行為矩陣A(u)。

3)計算用戶活躍度矩陣S(u)與用戶活躍度Bt(u)。

通常情況下,行為越近,對用戶當(dāng)前的活躍度貢獻(xiàn)越大,所以行為發(fā)生的時間越晚,權(quán)值越大,反之則權(quán)值越小,可以利用衰減窗口的方法來計算系統(tǒng)中用戶的活躍度。依據(jù)某用戶u 以時間t 為參數(shù)的行為矩陣At(u),用戶u 從開始日期(t=1)到結(jié)束日期(t=n)所有的行為看作一個矩陣流A1(u),A2(u),…,At(u)。根據(jù)衰減窗口定義,給定衰減常數(shù)c,此數(shù)據(jù)流的衰減窗口為:

①用戶活躍度矩陣St(u)代表了用戶u 在社區(qū)問答系統(tǒng)中的一般活躍程度;

②用戶活躍度向量Sj(u)為St(u)第j 行元素之和,表示用戶u 從開始到結(jié)束第j 時段的行為活躍度;

③用戶活躍度Bt(u)=,表示用戶u 從開始到結(jié)束為止的活躍度。

2 融入用戶活躍度后的問題推薦

2.1 社區(qū)用戶興趣建模

準(zhǔn)確地描述和表示用戶和用戶興趣對提高問題推薦效率有著非常大的主導(dǎo)作用。潛在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[5]是文本挖掘研究中較為流行的一種基于非監(jiān)督學(xué)習(xí)技術(shù)的主題模型。

本文使用與潛在狄利克雷分布模型類似的基本思想對社區(qū)用戶興趣度進(jìn)行建模,并將每個用戶的興趣用提取的潛在主題分布表示。在基于主題的用戶興趣模型中,系統(tǒng)中每個用戶都會根據(jù)自己感興趣且擅長的主題選擇相關(guān)問題進(jìn)行回答。因此本文將每位用戶參與過的問題及答案的文本檔案視為潛在語義主題上的隨機混合,每個潛在主題表示為在詞語上的分布。用戶興趣主題模型的結(jié)構(gòu)如圖1 所示。

圖1 用戶興趣主題模型的結(jié)構(gòu)

圖1 中q 和Uq分別表示一個問題和用戶u 回答的問題集合;w 是問題q 中的詞語,z 是與問題q 相關(guān)的潛在主題;θ 表示文檔—主題分布,φ 表示主題—詞匯分布(T 所有主題集合),θ 和φ 是模型中主要的變量,都是多項式分布的參數(shù);α 和β 分別是θ 和φ的先驗分布,均為Dirichlet 分布。

用戶興趣主題模型的產(chǎn)生分為2 個隨機過程,第一個針對潛在主題詞語的產(chǎn)生;第二個對每一個用戶從問題到主題,主題再到詞語的產(chǎn)生。具體如下:

1)從狄利克雷先驗分布β 中取樣生成主題z(z∈T)的詞語分布φ;

2)從狄利克雷先驗分布α 中取樣生成某用戶u的主題分布θ;

3)從主題的多項式分布θ 中取樣生成Qu(用戶u 的歷史問答集合)中某個詞匯的主題z;

4)從詞語的多項式分布φ 中采樣生成詞語w。

通過反復(fù)迭代得到潛在主題在用戶問答檔案中的概率分布矩陣和詞語在潛在主題上的概率分布矩陣。

用戶所參與的歷史問答信息很好地反映該用戶的興趣度所在,而用戶在回答問題時更傾向于選擇自己感興趣的主題。因此,用戶對未解決問題的感興趣程度E(u,q)可以較準(zhǔn)確地表示該用戶回答此問題的可能性大小。換言之,就是通過計算用戶u 能回答問題q 的條件概率P(u|q),即:

其中w 表示詞語,V 表示所有詞語的字典集合。P(w|q)表示詞語w 和問題q 的相似度,按照公式(3)計算,代入公式(2)得公式(4)。

其中z 表示潛在語義主題,T 表示所有潛在主題集合,條件概率P(u|z)和P(z|w)可從用戶興趣模型中計算得出。

2.2 基于用戶興趣和活躍度的問題回答者推薦策略

給定用戶集U={u1,u2,…,um},問題qr∈Q={q1,q2,…,qn},計算用戶興趣和活躍度,對用戶進(jìn)行評價排序,據(jù)此推薦適當(dāng)?shù)挠脩羧セ卮鹦聠栴}qr,即:

依據(jù)R(ur,qr,t)評分大小降序生成對應(yīng)用戶列表,把未解決問題推薦給評分較高用戶。其中E(ur,qr)為用戶ur對問題qr的興趣度,Bt(ur)表示對用戶ur 活躍度的歸一化處理值。λ∈[0,1]是權(quán)重系數(shù),表示用戶活躍度對用戶綜合推薦評分的影響情況。

3 實驗與分析

3.1 實驗系統(tǒng)模型設(shè)計

本文實驗系統(tǒng)的工作流程如圖2 所示。

1)網(wǎng)頁獲取:由于目前問題推薦缺少標(biāo)準(zhǔn)的數(shù)據(jù)集,所以需從現(xiàn)有問答社區(qū)中抓取網(wǎng)頁內(nèi)容。本文選擇的是Yahoo!Answers 上的網(wǎng)頁數(shù)據(jù)。

2)網(wǎng)頁內(nèi)容抽取:網(wǎng)頁內(nèi)容抽取模塊需完成從獲取的網(wǎng)頁內(nèi)容中抽取有關(guān)問題、答案和用戶的文本信息,形成結(jié)構(gòu)化數(shù)據(jù)。

3)用戶信息提取:從網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)中抽取用戶,依據(jù)每個用戶的歷史數(shù)據(jù)生成所需的該用戶的檔案文件及行為統(tǒng)計表。

4)用戶興趣計算:將用戶檔案文件作為輸入,按照用戶興趣主題模型,發(fā)現(xiàn)用戶檔案文件中的潛在語義主題。通過模型中反復(fù)迭代計算,獲取每個用戶問答檔案文件中興趣在潛在語義主題上的分布和潛在語義主題在詞語上的概率分布。每個用戶的檔案文件以潛在語義主題上的分布來表示。

5)用戶活躍度計算:根據(jù)用戶行為統(tǒng)計表,建立對應(yīng)的用戶行為矩陣,由此計算該用戶的活躍度指數(shù)并進(jìn)行歸一化處理。

6)問題推薦:問題推薦模塊是綜合用戶興趣度、活躍度的評分結(jié)果,生成推薦用戶列表。

圖2 實驗系統(tǒng)工作流程圖

3.2 實驗數(shù)據(jù)與評價指標(biāo)

本文實驗數(shù)據(jù)來自社區(qū)問答系統(tǒng)Yahoo!Answers[6],共包含216 560 個問題和對應(yīng)的6 130 801個答案,涉及用戶171 656 個。數(shù)據(jù)集中的所有數(shù)據(jù)都進(jìn)行了去除停用詞和詞根的還原操作。首先從問答數(shù)據(jù)中獲取每位用戶各自的歷史問答數(shù)據(jù)文件,然后將問答數(shù)據(jù)按時間先后順序劃分,前80%的數(shù)據(jù)視為訓(xùn)練集,后20%的數(shù)據(jù)作為測試集。

衡量一個推薦算法的性能好壞,有多種測評方法和角度[7-8],本文采用2 種不同的評估標(biāo)準(zhǔn)來進(jìn)行實驗驗證:平均準(zhǔn)確率(Mean Average Precision,MAP)和前N 個數(shù)據(jù)的精度(記為P@N)。

3.3 實驗參數(shù)設(shè)置

用戶興趣模型共有6 個參數(shù):狄利克雷先驗分布α 和β,用戶—主題多項式分布θ,主題—詞匯多項式分布φ,潛在語義主題個數(shù)NT和模型重復(fù)迭代計算的停止條件。預(yù)先設(shè)定潛在語義主題數(shù)為100,為了簡化參數(shù)估計的步驟,采用Zhou 等人[9]在研究中的實驗設(shè)計方案,設(shè)定先驗值α=50/NT,β=0.05。對于參數(shù)α 和β,本文通過吉布斯采樣(Gibbs Sampling)方法[10]進(jìn)行估計,迭代計算的停止條件為最大迭代次數(shù)2 000。

在計算用戶活躍度時,將衰減常數(shù)c 記為0.05。

3.4 實驗結(jié)果分析

本實驗通過對加入用戶活躍度的前后結(jié)果進(jìn)行對比來驗證分析。分別令公式(5)中的λ=0.1,0.2,…,0.6 進(jìn)行計算,得出在λ=0.2 時實驗效果最佳,如圖3 所示(其中橫坐標(biāo)表示2 種推薦算法的不同評估標(biāo)準(zhǔn),縱坐標(biāo)是相應(yīng)評估標(biāo)準(zhǔn)的數(shù)值)。

圖3 實驗結(jié)果對比柱狀圖

從圖3 中可以看出,在用戶興趣模型的基礎(chǔ)上加入用戶活躍度信息后,算法的平均準(zhǔn)確率和前1、5、10 個推薦結(jié)果的準(zhǔn)確率均高于只考慮用戶興趣的推薦算法,獲得了更好的性能。由此可以證明,加入用戶活躍度因素后問題推薦算法效率有一定提高。

實驗結(jié)果表明,單方面只考慮用戶興趣的問題推薦算法是不完善的,需要綜合其他影響推薦效果的有效因素,本文為此提供了一個簡單的思路和實例。用戶活躍度的加入可以改善推薦性能,但是該算法仍然存在不足,如用戶不同行為種類對活躍度表示的影響和融入用戶興趣的計算方法。這些都是在未來的研究工作中需要進(jìn)一步改進(jìn)的。

4 結(jié)束語

用戶交互式問答社區(qū)已經(jīng)成為信息獲取和知識分享的重要媒介,而問題推薦機制則是提問者與回答者之間的紐帶,對社區(qū)問答系統(tǒng)未來的發(fā)展起著很大的促進(jìn)作用。本文利用用戶的歷史問答行為來估算用戶的興趣度和活躍度,并由此優(yōu)化問題推薦算法。實驗結(jié)果表明本文方法是有效的。

[1]康書龍.基于用戶行為及關(guān)系的社交網(wǎng)絡(luò)節(jié)點影響力評價[D].北京:北京郵電大學(xué),2011.

[2]王彪.社交網(wǎng)絡(luò)中的用戶影響力分析[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.

[3]鄧夏瑋.基于社交網(wǎng)絡(luò)的用戶行為研究[D].北京:北京交通大學(xué),2012.

[4]Cohen E,Strauss M J.Maintaining time-decaying stream aggregates[J].Journal of Algorithms,2006,59(1):19-36.

[5]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

[6]Yahoo.Yahoo!Answers[EB/OL].http://answers.yahoo.com,2015-03-01.

[7]Celma O,Herrera P.A new approach to evaluating novel recommendations[C]// Proceedings of the 2008 ACM Conference on Recommender Systems.2008:179-186.

[8]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.

[9]Zhou Ding,Bian Jiang,Zheng Shuyi,et al.Exploring social annotations for information retrieval[C]// Proceedings of the 17th International Conference on World Wide Web.2008:715-724.

[10]Griffiths T L,Steyvers M.Finding scientific topics[C]//Proceedings of the National Academy of Sciences of the United States of America.2004,101:5228-5235.

[11]張中峰,李秋丹.社區(qū)問答系統(tǒng)研究綜述[J].計算機科學(xué),2010,37(11):19-23.

[12]百度.百度知道[EB/OL].http://zhidao.baidu.com,2015-03-01.

[13]曲明成.問答社區(qū)中的問題與答案推薦機制研究與實現(xiàn)[D].杭州:浙江大學(xué),2010.

[14]Liu Yandong,Bian Jiang,Agichtein E.Predicting information seeker satisfaction in community question answering[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2004:483-490.

[15]沈聞.基于問答社區(qū)的個性化服務(wù)研究[D].揚州:揚州大學(xué),2009.

[16]趙亮,胡乃靜,張守志.個性化推薦算法設(shè)計[J].計算機研究與發(fā)展,2002,39(8):986-991.

[17]Cao Xin,Cong Gao,Cui Bin,et al.A generalized framework of exploring category information for question retrieval in community question answer archives[C]// Proceedings of the 19th International Conference on World Wide Web.2010:201-210.

猜你喜歡
詞語社區(qū)算法
容易混淆的詞語
社區(qū)大作戰(zhàn)
幼兒園(2021年6期)2021-07-28 07:42:08
找詞語
3D打印社區(qū)
基于MapReduce的改進(jìn)Eclat算法
在社區(qū)推行“互助式”治理
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
詞語欣賞
一種改進(jìn)的整周模糊度去相關(guān)算法
宜春市| 陆丰市| 湄潭县| 修文县| 高要市| 喀喇沁旗| 六枝特区| 宁阳县| 房产| 广东省| 札达县| 行唐县| 长汀县| 青神县| 潞西市| 新宾| 道真| 三江| 宜宾县| 鄢陵县| 通山县| 凯里市| 茶陵县| 汉川市| 肇源县| 德江县| 宣城市| 若羌县| 汝阳县| 成安县| 泸水县| 辽阳县| 大新县| 新乐市| 紫金县| 舟曲县| 棋牌| 衡水市| 孟村| 炉霍县| 临武县|