杜 卿 王齊軒 黃東平 蔡 毅 王 濤 閔華清(華南理工大學(xué)軟件學(xué)院,廣東廣州510006)
基于社交關(guān)系的問答系統(tǒng)及最佳回答者推薦技術(shù)*
杜 卿 王齊軒 黃東平 蔡 毅?王 濤 閔華清
(華南理工大學(xué)軟件學(xué)院,廣東廣州510006)
近年來,社區(qū)問答服務(wù)系統(tǒng)(CQA)越來越受到人們的歡迎,但隨著提問規(guī)模的膨脹,獲得回答的問題比重逐步降低,且答案質(zhì)量無法得到保障.為了提高問答系統(tǒng)中問題被解答的概率,并提升答案可信度,文中提出了基于社交關(guān)系相似度的社交問答系統(tǒng)(SQA),主動尋找與提問者社交關(guān)系緊密且能夠回答問題的用戶,并提出了針對提問者與最佳回答者的推薦方法.實驗結(jié)果表明,在主觀性強或?qū)崟r性強等問題集上,文中方法能更快地得到讓提問者滿意的答案.
問答系統(tǒng);社交關(guān)系相似度;社交網(wǎng)絡(luò)
問答系統(tǒng)是信息檢索的一種方式,它支持用自然語言回答用戶用自然語言提出的問題,相關(guān)的研究工作非常多[1-7].Guo等[2]將問題推薦給用戶,以提高用戶的參與度.Zhou等[3]利用語言模型分析用戶的歷史問答數(shù)據(jù),得到他們在不同領(lǐng)域的專業(yè)度,然后有針對性地推薦問題.Zhang等[4]通過對一個Java開發(fā)者論壇的研究,發(fā)現(xiàn)一個問題的平均回復(fù)時間是9h.Li等[5]通過研究用戶社交圈的知識覆蓋度,發(fā)現(xiàn)用戶社交圈所覆蓋的知識面并不廣,這是因為興趣相似的用戶更容易聚集.Mamykina等[6]發(fā)現(xiàn)在StackOverflow網(wǎng)站上一個軟件開發(fā)者的提問平均11min就能得到答復(fù).Li等[7]發(fā)現(xiàn)提問者和用戶在話題中的互動會影響問答過程,提出了一種基于互動增強標(biāo)簽的傳播算法來預(yù)測答案質(zhì)量.
近幾年來,以社區(qū)問答系統(tǒng)(CQA)為代表的交互式問答系統(tǒng)廣受歡迎.Yahoo!Answer、百度知道、騰訊問問等網(wǎng)站提供在線提問以及回答問題的交流平臺,為用戶解決了成千上萬的疑問.Yahoo!Answer每天會有90 000個新問題被提出.
社區(qū)問答系統(tǒng)在為用戶創(chuàng)造便利的同時,也存在著一定的局限性.首先,部分回答的答案質(zhì)量不高.由于系統(tǒng)對回答者沒有約束,有些回答者并不真正了解相關(guān)知識,他們提供的答案不一定能夠很好地解決提問者的疑惑.甚至有些網(wǎng)絡(luò)用戶單純?yōu)榱速嵢》e分而隨意回答,其答案沒有任何價值.其次,問題解答的效率不高,缺乏時效性.由于新問題不斷被提出,問題數(shù)量增長非???,而回答問題的人相對較少,一個問題被提出后,往往需要等待相當(dāng)長的時間才有人回答,還有一部分問題根本沒有人回答.因此,當(dāng)前CQA系統(tǒng)中存在兩個亟待解決的瓶頸問題:①提高答案質(zhì)量,尋找熟悉問題所屬領(lǐng)域的專業(yè)回答者;②提高問題的解答比例,提升用戶參與答題的意愿.
社會心理學(xué)的研究認(rèn)為那些與提問者有人際關(guān)系的用戶比其他人更愿意回答問題,同時提問者對認(rèn)識人的答案更有信任感.例如,Horowitz等[8]證實朋友比陌生人更愿意也更有效地解答問題. Morris等[9-10]的研究發(fā)現(xiàn),在小規(guī)模的研討中,很多參與者的問題都是被關(guān)系緊密的朋友解決的,而且友誼的緊密程度是對回答問題的一種激勵因子,每種親密程度的人群都會樂意回答問題.現(xiàn)實生活中,人們遇到問題時首先想到的是問朋友,但在大多時候,人們并不了解朋友是否熟悉問題所屬領(lǐng)域,盲目地詢問可能會浪費大量的時間和精力.因此,隨著社交網(wǎng)絡(luò)的發(fā)展,學(xué)術(shù)界和產(chǎn)業(yè)界都提出了一些將社交網(wǎng)絡(luò)應(yīng)用于問答系統(tǒng)的方法.如Nardi等[11]提出“并不是查詢你知道什么,而是查詢你認(rèn)識誰”.社交搜索引擎Aardvark會將用戶的提問遞交給用戶的延伸社交網(wǎng)絡(luò)(如Facebook、LinkedIn等)中最有可能回答這個問題的人[12].而網(wǎng)絡(luò)問答社區(qū)知乎網(wǎng)通過建立關(guān)系社區(qū)來幫助用戶找到更好的答案. Quora的用戶可以對特定的主題和專家加關(guān)注,就像在Twitter和微博中對感興趣的人物加關(guān)注一樣,之后就可以回答已關(guān)注主題下面的問題,并向已關(guān)注的專家提問.
考慮到用戶在社交網(wǎng)絡(luò)上的言論和行為可以反映用戶的關(guān)注領(lǐng)域,文中提出了基于社交關(guān)系相似度的社交問答系統(tǒng)(SQA),該系統(tǒng)基于社交網(wǎng)絡(luò)提供問答服務(wù),在提問者信任的用戶群中推薦能回答問題的最佳回答者.現(xiàn)有的社區(qū)問答系統(tǒng)中提問者對答案的信任來自于回答者在問題領(lǐng)域的權(quán)威性,屬于圖書館范型的系統(tǒng);而社交問答系統(tǒng)中用戶對答案的信任來自于其和回答者的關(guān)系親密度,屬于鄉(xiāng)村范型的系統(tǒng).結(jié)合目前的研究熱點推薦系統(tǒng)[13]和個性化檢索技術(shù)[4-5],文中還提出了一種基于提問者社交網(wǎng)絡(luò)關(guān)系的最佳回答者推薦方法.該方法首先分析提問者的社交關(guān)系,從與提問者有直接或間接社交關(guān)系的用戶中找到那些能夠回答問題的潛在回答者,然后度量潛在回答者對特定問題提供高質(zhì)量答案的可能性,推薦有意愿回答且熟悉相關(guān)領(lǐng)域的最佳回答者.
1.1系統(tǒng)形式化定義
基于社交關(guān)系的問答系統(tǒng)是一種新的個性化信息檢索方式.它能夠根據(jù)用戶提問,利用用戶的社交關(guān)系,給用戶推薦問題的最佳回答者(即最有可能有效回答提問者問題的人).
定義1基于社交關(guān)系的問答系統(tǒng)是根據(jù)用戶x的輸入問題Qx,i和潛在回答者集合p,通過函數(shù)θ(θ:Qx,i×p→p')對潛在回答者按照其回答Qx,i的適合程度進(jìn)行排序,得到最佳潛在回答者集合p'.
假設(shè)張三暑假計劃去廣州旅游.他希望用社交問答系統(tǒng)來收集一些關(guān)于廣州的信息.于是,他在微博上發(fā)布了這樣一條提問(例1):“我打算去廣州旅游,誰知道廣州有哪些好玩的景點,在哪里才能夠吃到正宗的廣州美食?”
該問題發(fā)布社交問答系統(tǒng)之后,系統(tǒng)會執(zhí)行一系列的步驟來尋找最佳的回答者.首先,系統(tǒng)對用戶提問進(jìn)行建模,生成問題向量.同時,系統(tǒng)對用戶的社交關(guān)系進(jìn)行建模,建立潛在回答者向量.最后,系統(tǒng)對問題向量和潛在回答者向量進(jìn)行相似度計算,并進(jìn)一步優(yōu)化得到最佳回答者.具體流程圖如圖1所示.
圖1 社交問答系統(tǒng)尋找回答者流程圖Fig.1Flowchart of searching respondents in social question answering system
1.2用戶提問建模
用戶提出一個問題后,系統(tǒng)得到這個問題的文本,然后對該問題進(jìn)行建模,將文本轉(zhuǎn)換成對應(yīng)的問題向量.
定義2用戶x提出一個問題i可以表示為一個問題向量Qx,i,它是由若干個“關(guān)鍵詞:權(quán)重”組成的向量:Qx,i=(ti,1:fi,1,ti,2:fi,2,…,ti,k:fi,k,…,ti,n:fi,n),其中(ti,k:fi,k)是第k個關(guān)鍵詞ti,k和該關(guān)鍵詞在問題文本中的權(quán)重fi,k.
對于中文文本,系統(tǒng)先要進(jìn)行分詞得到若干個有詞性標(biāo)注的詞,然后從中提取關(guān)鍵詞.句子中關(guān)鍵概念往往由名詞來表達(dá),因此系統(tǒng)提取名詞作為關(guān)鍵詞.
對于前面的提問,文中使用中科院ICTCLAS分詞系統(tǒng)進(jìn)行分詞,結(jié)果如下:
“我/rr打算/v去/vf廣州/ns旅游/vn,/wd誰/ry知道/v廣州/ns有/vyou哪些/ry好玩/a的/ude1景點/n,/wd在/p哪里/rys才/d能夠/v吃/v到/v正宗/b的/ude1廣州/ns美食/n?/ww”,其中“n”表示普通名詞,“ns”表示地名,“vn”表示名動詞,選取這幾種標(biāo)記的詞作為問題向量的關(guān)鍵詞:“廣州”、“旅游”、“景點”、“美食”.
得到所有關(guān)鍵詞后,系統(tǒng)采用詞頻-逆向文件頻率算法(TF-IDF)計算關(guān)鍵詞權(quán)重:
其中,TFi是關(guān)鍵詞ti的詞頻,ni是關(guān)鍵詞ti在提問中出現(xiàn)的次數(shù),是所有關(guān)鍵詞在提問中出現(xiàn)的總次數(shù),IDFi是關(guān)鍵詞ti的概率分布交叉熵,D是系統(tǒng)中所有提問的數(shù)量,Dw是出現(xiàn)關(guān)鍵詞ti的提問的數(shù)量.例1中關(guān)鍵詞的權(quán)重計算結(jié)果如表1所示.
表1 例1中關(guān)鍵詞權(quán)重計算結(jié)果1)Table 1Weight calculation results of keywords in example one
因此,張三的提問轉(zhuǎn)化為問題向量的結(jié)果:
Q=(廣州:0.0212,旅游:0.0022,景點:0.0015,美食:0.0053).
1.3潛在回答者的權(quán)重
用戶提問后,社交問答系統(tǒng)向用戶推薦既有回答問題意愿又有回答問題能力的回答者.從社會心理學(xué)的角度看,社會關(guān)系越好,用戶間的回答意愿越大,因此,文中用關(guān)系親密度來衡量用戶回答問題的意愿.
常見的社交平臺上,直接的社交關(guān)系主要有“互相關(guān)注”關(guān)系和“單向關(guān)注”關(guān)系兩種,通常,“互相關(guān)注”關(guān)系的用戶間親密度更強.文中首先將具有直接社交關(guān)系(即社交網(wǎng)絡(luò)第1層)的用戶放入潛在回答者集合,然后挖掘提問者的間接社交關(guān)系.
考慮到社交關(guān)系的傳遞性,即“朋友的朋友可以通過互相介紹也成為朋友”,文中將第1層關(guān)系中與提問者是“互相關(guān)注”的潛在回答者所擁有的其他直接社交關(guān)系的用戶,也放入潛在回答者集合中,他們是社交網(wǎng)絡(luò)上的第2層用戶,依此類推,直到挖掘到提問者的第n層中的潛在回答者.
定義3第i層社交關(guān)系中的潛在回答者集合是第i層社交關(guān)系中“互相關(guān)注”關(guān)系用戶集合和“單向關(guān)注”關(guān)系用戶集合的并集,即Ri=Mi∪Oi,Mi=(mi,1,mi,2,…,mi,s),Oi=(oi,1,oi,2,…,oi,t),其中,Ri、Mi和Oi分別是第i層社交關(guān)系中的潛在回答者集合、“互相關(guān)注”關(guān)系用戶集合和“單向關(guān)注”關(guān)系用戶集合,mi,s是第i層第s個“互相關(guān)注”用戶,oi,t是第i層第t個“單向關(guān)注”用戶.
圖2中給出了用戶張三的社交關(guān)系圖.在例1中,用戶張三提出問題后,系統(tǒng)從他的第1層社交關(guān)系開始搜索,找到是“互相關(guān)注”關(guān)系的李四和“單向關(guān)注”關(guān)系的王五、趙六作為第1層的潛在回答者,然后從第1層“互相關(guān)注”關(guān)系的李四繼續(xù)搜索,找到第2層“互相關(guān)注”的錢七,依此類推,直到第n層停止搜索.
圖2 用戶社交關(guān)系示意圖Fig.2Schematic diagram of user social relationship
不同社交關(guān)系、不同層次社交關(guān)系的潛在回答者與用戶間的親密關(guān)系是不一樣的,他們回答提問的意愿也是不一樣的.“互相關(guān)注”關(guān)系的用戶一般比“單向關(guān)注”的用戶更愿意回答提問者的問題.此外,社交關(guān)系在傳遞的過程中,關(guān)系親密度通常會衰減,即第1層關(guān)系中潛在回答者的回答意愿會比其他層次的高.因此,文中對不同關(guān)系、不同層次潛在回答者的回答意愿設(shè)置權(quán)重值,作為最終決策的依據(jù)之一.
首先,不同社交關(guān)系之間的重要性是不一樣的,文中設(shè)置“互相關(guān)注”與“單向關(guān)注”的權(quán)重比為r.其次,不同層次的社交關(guān)系的重要性也是不一樣的.文中設(shè)置相鄰層次之間的權(quán)重比為c,即其中,wmi和woi分別是第i層“互相關(guān)注”和“單向關(guān)注”關(guān)系的權(quán)重系數(shù).
在第1層社交關(guān)系中,“互相關(guān)注”關(guān)系的用戶權(quán)重為wm1,則第i層社交關(guān)系中“互相關(guān)注”關(guān)系用戶的權(quán)重系數(shù)和“單向關(guān)注”關(guān)系用戶的權(quán)重系數(shù)分別為
1.4潛在回答者建模
對于社交網(wǎng)絡(luò)上的所有用戶,文中抓取他們在社交網(wǎng)絡(luò)上的所有言論(包括原創(chuàng)、轉(zhuǎn)發(fā)、評論等)生成用戶的特征文檔;然后使用ICTCLAS分詞系統(tǒng)對特征文檔進(jìn)行分詞和詞性標(biāo)注,提取標(biāo)記詞匯中的名詞作為該文檔的關(guān)鍵詞,計算關(guān)鍵詞的TF-IDF作為權(quán)重,得到(關(guān)鍵詞:權(quán)重)對生成用戶向量.處理過程與創(chuàng)建問題向量一致.
確定潛在回答者集合之后,根據(jù)問題向量,濾掉用戶向量中無關(guān)的關(guān)鍵詞,建立一個與問題向量維度一樣的潛在回答者向量.
定義4潛在回答者向量是若干個(關(guān)鍵詞:權(quán)重)對組成的向量:
其中,x是用戶,i是用戶x的提問,j是潛在回答者. Ax,i,j是提問i的潛在回答者j組成的向量,(ti,k:fi,k)是提問i中第k個關(guān)鍵詞ti,k和該關(guān)鍵詞在潛在回答者j特征文檔中的權(quán)重fj,k.
1.5潛在回答者向量優(yōu)化
在社交網(wǎng)絡(luò)上,每個用戶通常擁有一系列個人信息標(biāo)簽,如居住地、愛好、工作等,這些標(biāo)簽往往是粗粒度(高層抽象化)信息.而微博的文本信息大多是細(xì)粒度(細(xì)致化)信息.研究發(fā)現(xiàn),粗粒度信息比細(xì)粒度信息更具代表性和概括性.例1中,假設(shè)張三的好友王五的愛好標(biāo)簽是“美食”.他在微博里可能會多次提到“魚香肉絲”、“水煮魚”等菜名,但沒出現(xiàn)“美食”這個關(guān)鍵詞,不過這并不代表王五不了解“美食”,反而他對“美食”相關(guān)問題的回答更具權(quán)威性.因此,這些標(biāo)簽可以精準(zhǔn)地反映客戶的特征,對系統(tǒng)來說是非常有用的.
系統(tǒng)只截取與用戶提問相關(guān)的信息,如果某個標(biāo)簽與提問關(guān)鍵詞匹配,那么這個潛在回答者了解相關(guān)問題的可能性非常大.因此,文中根據(jù)這些標(biāo)簽對用戶向量Q進(jìn)行增強,使其能更加具有用戶知識領(lǐng)域的特性.首先,對于已經(jīng)在用戶發(fā)表過的微博中出現(xiàn)的關(guān)鍵詞,文中使用如下公式對該標(biāo)簽/關(guān)鍵詞進(jìn)行增強:
對于沒有出現(xiàn)在用戶微博但出現(xiàn)在用戶i的標(biāo)簽集合中的關(guān)鍵詞,文中將這些詞直接添加到向量Q中,并為其指定一個的權(quán)重值,即指定ti,k的(關(guān)鍵詞:權(quán)重)為(ti,k:2).在實際使用中,1和2的取值均為0.5,這是基于實驗結(jié)果所取得的一個較好的經(jīng)驗參數(shù).
例1中,假設(shè)張三的朋友李四居住在廣州,這表示李四是張三問題的潛在回答者,因為住在廣州比住在其他地方的人更有可能知道廣州的哪些景點值得去.因此,李四這個潛在回答者的權(quán)重應(yīng)被增強.
1.6潛在回答者與問題的匹配度
創(chuàng)建問題向量Q及所有潛在回答者向量A之后,計算每個潛在回答者與該問題的相關(guān)度,以此衡量潛在回答者提供高質(zhì)量答案的能力.文中利用兩個向量間的余弦相似度來計算相關(guān)度.問題向量Qx,i和潛在回答者向量Ax,i,j的相似度為
其中,qx,i,t和ax,i,j,t分別是第t個關(guān)鍵詞在問題向量和潛在回答者向量中的權(quán)重.
然后根據(jù)潛在回答者和提問者的親密度權(quán)重對相關(guān)度進(jìn)行調(diào)整,得到最終的相關(guān)度:
其中,wi,j是對于問題i潛在回答者j的權(quán)重.
最后,根據(jù)潛在回答者和提問的相關(guān)度從高到低對潛在回答者進(jìn)行排序,得到最終的潛在回答者的排序結(jié)果Si,根據(jù)應(yīng)用需求從中提取前k個潛在回答者作為最佳回答者推薦給用戶.例1中,系統(tǒng)推薦的回答者大多是在社交網(wǎng)絡(luò)上討論過“旅游”、“廣州”、“美食”和“景點”的人,或者是住在廣州的人.
2.1問題分類
文中對用于實驗的問題進(jìn)行分類,并測試系統(tǒng)對不同類型問題的適用性.文中按照問題的性質(zhì)進(jìn)行分類:
(1)特定領(lǐng)域?qū)I(yè)知識.對特定領(lǐng)域的知識要求高,一般需要有該領(lǐng)域相關(guān)背景的人才能夠回答.如問題“快速排序算法的復(fù)雜度是多少?”.
(2)實時性強.用戶急切需要知道答案,等待時間不能太長.如問題“上火引起的牙疼怎么快速止痛?”.
(3)主觀性強.帶有很強的主觀性,不同的人可能有不同的回答.如問題“魚香肉絲好吃嗎?”.
(4)經(jīng)驗性強.知識性不強但需要有相關(guān)的經(jīng)驗.如問題“去廣州玩三天,怎么安排行程比較合理?”.
但把某一問題歸到某一類是不精確的,因為有的問題可能同時具備多個性質(zhì).因此,系統(tǒng)先對收集到的提問進(jìn)行類別標(biāo)記,然后分析每個類別問題的適用性.表2給出了幾個提問的分類標(biāo)記.
表2 提問分類標(biāo)記示例Table 2Question classification tag example
2.2實驗設(shè)置
實驗在新浪微博(weibo.com)上進(jìn)行測試.百度知道是目前國內(nèi)用戶量最多的問答平臺,文中從百度知道問答分享平臺收集了60條提問,涵蓋4種類型的多個知識領(lǐng)域,包括已經(jīng)得到回答的和未被回答過的問題.在這些提問中,有78.33%的問題已經(jīng)在微博上被提問過,即用戶以微博的形式求助好友來回答.有的問題甚至被很多用戶以不同形式多次提問,如“佳能700D與尼康D5200哪個好?”,而21.67%的未曾在微博上被提問過的問題大多是特定領(lǐng)域?qū)I(yè)知識的問題,如“快速排序法的平均時間復(fù)雜度是多少?”.
對于提問的方式,文中采用由提問用戶發(fā)表微博的方式進(jìn)行提問.首先,用戶在系統(tǒng)上提出問題后,將自動發(fā)表一條內(nèi)容為該問題的微博,然后根據(jù)系統(tǒng)所推薦的回答者列表,采用社交網(wǎng)絡(luò)中的“@(提醒)”功能或者是“私信(站內(nèi)短消息)”功能提醒回答者回答該問題.
實驗統(tǒng)計問題得到回答的概率P1和答案滿意度(即有效答案)的概率P2,用于評估文中算法的實用性.其中,
ki是為第i個問題推薦的最佳回答者個數(shù),ci是最佳回答者中回答了提問的個數(shù)(最佳回答者沒回答的情況包括最佳回答者拒絕回答或6h內(nèi)沒回復(fù)的提問信息),ti是第i個問題得到的答案個數(shù),ui是有價值答案的個數(shù).答案是否有價值,文中請了解相關(guān)問題的專家進(jìn)行評估.設(shè)置最佳回答者個數(shù)k為1、3、5,用戶社交關(guān)系搜索層數(shù)n=2,“互相關(guān)注”關(guān)系與“單向關(guān)注”關(guān)系的權(quán)重比r為2,相鄰層次之間的權(quán)重比c為2.
2.3結(jié)果分析
實驗首先分4個步驟進(jìn)行:①在百度知道上收集相關(guān)問題;②利用文中算法為每個問題找到有社交關(guān)系的k個最佳回答者;③聯(lián)系最佳回答者,請他們來回答這些提問;④統(tǒng)計最佳回答者的反饋時間和答案質(zhì)量.最佳回答者數(shù)量k分別取1、2、3、4、5時,問題被回答的概率分別為37.5%、54.2%、59.4%、68.8%、70.4%,即問題得到回答的概率隨著最佳回答者數(shù)量的增加而增加;當(dāng)k=5時,問題被回答的概率最高,有超過70%的咨詢都得到了答案.故在下面的實驗中,最佳回答者個數(shù)取為5.
實驗分兩組進(jìn)行,一組利用文中的推薦算法尋找k位最佳回答者,另一組隨機(jī)抽取提問者的k位好友作為最佳回答者,k取不同值時,問題得到回答的概率如圖3所示.從圖中可以看出,利用文中推薦算法能夠得到更高的回答概率,而隨機(jī)抽取法的問題被回答的概率相對較低,這是因為隨機(jī)抽取的回答者大部分不了解提問者的問題,特別是涉及到專業(yè)知識的問題;提問沒有針對性,從而導(dǎo)致問題的低回答概率.
圖3 采用不同方法時問題被回答的概率對比Fig.3Comparison of answered probabilities of questions among different methods
不同類型問題被回答的概率對比如圖4所示.從圖中可以看出,在社交問答系統(tǒng)中不同類型的問題得到回答的概率比較高,且大部分的回答者都是第1層社交關(guān)系的“互相關(guān)注”關(guān)系用戶.因為第1層“互相關(guān)注”關(guān)系用戶很多是與提問者相互認(rèn)識,會比較樂意回答問題.相對地,其他關(guān)系的用戶回答問題的意愿低些,而且很多單向關(guān)注的人可能是名人、明星或機(jī)構(gòu),他們即使知道問題的答案,也基本上不可能回答用戶的問題.還有一部分是非活躍用戶,他們沒及時發(fā)現(xiàn)用戶發(fā)給他們的提問,因此也沒有在設(shè)定的時限內(nèi)回答.
圖4 不同類型問題被回答的概率Fig.4Answered probabilities of different types of questions
圖5對比了不同問答系統(tǒng)的答案滿意度.相對于百度知道,社交問答系統(tǒng)具有更高的滿意度.其中,社交問答系統(tǒng)在主觀性強、經(jīng)驗性強的問題上表現(xiàn)出更高的適應(yīng)性.
對于主觀性強的問題,不同人看待不同回答可能有著不同的結(jié)論.因為相對于陌生人,有一定社交關(guān)系的人的回答更容易讓人信服,而且社交網(wǎng)絡(luò)上互相關(guān)注的人,大多是與用戶興趣愛好相似的人,對主觀性問題的看法也容易一致.因此,社交問答系統(tǒng)對于這類問題具有更高的適用性.
圖5 不同類型問題的答案滿意度Fig.5Answer satisfaction of different types of questions
相反地,社交問答系統(tǒng)在特定知識領(lǐng)域的問題上效果比百度知道差.原因如下:有社交關(guān)系的人,往往是社會背景、教育程度類似的人,知識面比較相近.用戶不懂的問題,他的社交圈朋友不了解的可能性也非常大.如主修計算機(jī)的張三讀到兩行詩很感興趣,他發(fā)表這樣一個提問:“‘人生若只如初見,何事秋風(fēng)悲畫扇?'是哪位詩人寫的?”,而他關(guān)注的人可能大都是類似行業(yè)、興趣的朋友,那么這個問題能夠被回答的概率就比較低.而百度知道具有非常高的瀏覽量,且用戶來自不同的教育背景,能夠回答提問的概率相對較高.
文中將回答時間分為幾種不同的類型.向最佳回答者發(fā)出提問后,最佳回答者能夠在5 min內(nèi)回答的,標(biāo)記為“快速”;需要經(jīng)過短時間思考(30 min內(nèi))才能夠回答的,標(biāo)記為“短時間”;需要較長時間思考(超過30 min)才能夠回答的,標(biāo)記為“長時間”.
圖6 不同類型問題在各時間段內(nèi)得到回答的概率Fig.6Probabilities of being answered of different types of questions in various periods
從圖6可以看出,社交問答系統(tǒng)在回答時間上具有優(yōu)越性,大部分的提問都能夠在較短時間內(nèi)(“快速”和“短時間”)被回答.特別是對時效性強、主觀性強的問題,系統(tǒng)具有較好的適用性.而在百度知道上,大部分的問題都需要等待較長時間才有回復(fù).特別是隨著問題數(shù)量的激增,有的問題沒有人作答.文中提出的方法能很好地解決這個問題,能夠讓用戶在較短時間內(nèi)得到滿意的答案.
針對社交網(wǎng)站與問答咨詢系統(tǒng)的結(jié)合問題,文中提出了一種基于用戶社交網(wǎng)絡(luò)關(guān)系的最佳問題回答者推薦方法.通過社交問答系統(tǒng),可以從那些與用戶有直接社交關(guān)系或有間接社交關(guān)系的人中找到一些了解與提問相關(guān)、能夠回答用戶所提問題的人.實驗結(jié)果表明,這種方法能夠很好地為用戶找到有意愿回答且熟悉相關(guān)領(lǐng)域的合適回答者.
[1]AdamicLA,ZhangJ,BakshyE,et al.Ackerman knowledge sharing and yahoo answers:everyone knows somthing[C]//Proceedings of the 17th International Conference on World Wide Web.New York:ACM,2008:665-674.
[2]Guo J,Xu S,Bao S,et al.Tapping on the potential of Q&A community by recommending answer providers[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management.New York:ACM,2008:921-930.
[3]Zhou Y,Cong G,Cui B,et al.Routing questions to the right users in online communities[C]//Proceedings of the 2009 IEEE International Conference on Data Engineering.Washington D C:IEEE,2009:700-711.
[4]Zhang J,Ackerman M S,Adamic L,et al.Qume:a mechanism to support expertise finding in online help-seeking communities[C]//Proceedings of the 20th Annual ACM symposium on User Interface Software and Technology. New York:ACM,2007:111-114.
[5]LiZ,ShenH,GrantJE.Collectiveintelligence in the online social network of yahoo!answers and its implications[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management.New York: ACM,2012:455-464.
[6]Mamykina L,Manoim B,Mittal M,et al.Design lessons from the fastest Q&A site in the west[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2011:2857-2866.
[7]Li B,Jin T,Lyu M R,et al.Analyzing and predicting question quality in community question answering services[C]//Proceedings of the 21st International Conference Companion on World Wide Web.New York:ACM,2012:775-782.
[8]Horowitz D,Kamvar S D.The anatomy of a large-scale social search engine[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:431-440.
[9]Morris M R,Teevan J,Panovich K.A comparison of information seeking using search engines and social networks[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washingdon D C:AAAI,2010:23-26.
[10]White R W,Richardson M,Liu Y.Effects of community size and contact rate in synchronous social Q&A[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.Vancouver:ACM,2011:2837-2846.
[11]Nardi B A,Whittaker S,Schwarz H.It's not what you know it's who you know[J].First Monday,2000,5(5):455-489.
[12]Nichols J,Kang J H.Asking questions of targeted strangers on social networks[C]//Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work.New York:ACM,2012:999-1002.
[13]Cai Y,Leung H F,Li Q,et al.Typical-based collaborative filtering recommendation[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(3):766-779.
[14]Xie H R,Li Q,Cai Y.Community-aware resource profiling for personalized search in folksonomy[J].Journal of Computer Science and Technology,2012,27(3):599-610.
[15]Cai Y,Li Q.Personalized search by tag-based user profile and resource profile in collorative tagging system[C]//Proceedings of International Conference on Information and Konwledge Management.Shanghai:ACM,2010:969-978.
Question Answering System Based on Social Relationship and Recommendation of the Best Answerer
Du QingWang Qi-xuanHuang Dong-pingCai YiWang TaoMin Hua-qing
(School of Software Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China)
In recent years,community question answering(CQA)system has become more and more popular. However,with the expansion of question scale,the proportion of questions that have been answered reduces gradually,and the quality of answers cannot be guaranteed.In order to increase the answering probability of the questions in questioning and answering(Q&A)system and enhance the credibility of answers,a social question answering system on the basis of social relationship similarity is proposed,and a method is presented to find suitable respondents who are willing to answer and are familiar with related fields.Moreover,a recommendation method of the best answer and the best respondents is given.Experimental results show that,on subjectivity or real-time problem sets,the proposed method helps obtain satisfactory answers faster in comparison with traditional Q&A systems.
question answering system;social relationship similarity;social networking
s:Supported by the National Natural Science Foundation of China(61300137)and the Guangdong Natural Science Foundation(S2013010013836)
TP311
10.3969/j.issn.1000-565X.2015.01.021
1000-565X(2015)01-0132-08
2014-01-06
國家自然科學(xué)基金資助項目(61300137);廣東省自然科學(xué)基金資助項目(S2013010013836);華南理工大學(xué)中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(2012ZM0077)
杜卿(1980-),女,博士,講師,主要從事人工智能、信息檢索研究.E-mail:duqing@scut.edu.cn
?通信作者:蔡毅(1980-),男,博士,副教授,主要從事數(shù)據(jù)挖掘領(lǐng)域、信息檢索研究.E-mail:ycai@scut.edu.cn
華南理工大學(xué)學(xué)報(自然科學(xué)版)2015年1期