朱利,岳愛珍
(西安交通大學(xué)軟件學(xué)院, 710049, 西安)
健康問題和醫(yī)生匹配機(jī)制的研究
朱利,岳愛珍
(西安交通大學(xué)軟件學(xué)院, 710049, 西安)
針對醫(yī)療社區(qū)問答系統(tǒng)中的健康問題,提出了一種新的問題回答者推薦機(jī)制,以提高問題解決的效率。該機(jī)制引入了醫(yī)生回答問題的態(tài)度,將問題-醫(yī)生的專業(yè)匹配程度和醫(yī)生回答問題的態(tài)度關(guān)聯(lián)起來一同考慮;使用概率超圖和查詢似然語言模型對問題-醫(yī)生的專業(yè)匹配進(jìn)行建模,利用歷史數(shù)據(jù)對醫(yī)生的態(tài)度進(jìn)行建模;使用回歸模型對問題-醫(yī)生的專業(yè)匹配和態(tài)度進(jìn)行自適應(yīng)權(quán)衡。進(jìn)行了大量基于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)對所提出的機(jī)制進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明:與常用的方法相比,本文所提出的機(jī)制準(zhǔn)確度能提高30%;很大程度上提高了問題解決的效率。
醫(yī)療社區(qū)問答系統(tǒng);問題推薦;概率超圖;態(tài)度建模
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,醫(yī)療社區(qū)問答系統(tǒng)作為一種健康知識(shí)交流和分享的有效平臺(tái)開始出現(xiàn),例如HealthTap、HaoDF和39健康網(wǎng)等。醫(yī)療社區(qū)問答系統(tǒng)不僅允許咨詢者免費(fèi)咨詢健康問題,而且鼓勵(lì)醫(yī)生提供可靠的答案,同時(shí)也為健康咨詢者提供相似問題的檢索。
醫(yī)療社區(qū)問答系統(tǒng)中,問題的增長速度通常比醫(yī)生的增長速度快得多。一方面,健康咨詢者不得不長時(shí)間等待醫(yī)生的回答,等待數(shù)小時(shí)甚至數(shù)天;另一方面,醫(yī)生往往會(huì)淹沒在海量的問題中。因此,健康咨詢者和醫(yī)生之間存在一個(gè)日漸變寬的鴻溝,急需一個(gè)高效的“問題-醫(yī)生”映射機(jī)制來彌補(bǔ)這個(gè)鴻溝。
已有的問題回答者推薦研究可以分為兩類:全局專家發(fā)現(xiàn)方法和主題級專家發(fā)現(xiàn)方法。前者是在特定論壇使用來自帖子和回復(fù)的鏈接來衡量專家的權(quán)威度[1]。例如Bouguessa等提出使用入度(最優(yōu)答案數(shù)目)來找專家[2];基于鏈接的HITS算法比入度算法性能要高[3]。除了HITS算法外,另外一個(gè)基于鏈接的PageRank算法在社交媒體中也取得了很大的成功[4]。全局專家發(fā)現(xiàn)方法只能找到特定論壇的專家,沒有考慮問題內(nèi)容和專家的專業(yè)是否匹配;主題級的專家發(fā)現(xiàn)方法則在更細(xì)粒度上考慮了問題敏感的專業(yè)匹配問題。Zhou等在文獻(xiàn)[5]中提出了基于專業(yè)的在線論壇問題推薦。Li等在文獻(xiàn)[6]中深入研究了分類敏感的語言模型。除了專業(yè)估算外,在文獻(xiàn)[7]中提出了考慮專家是否在線問題的基于語言模型的框架。主題級專家發(fā)現(xiàn)方法雖然可以根據(jù)問題的內(nèi)容找到相應(yīng)領(lǐng)域的專家,但不能獲取專業(yè)能力與問題的匹配程度。更重要的是,目前尚未發(fā)現(xiàn)考慮專家態(tài)度問題的研究。為此,我們提出了一種針對醫(yī)療社區(qū)問答系統(tǒng)中醫(yī)生推薦的機(jī)制QDM(question-doctor mapping),同時(shí)考慮了問題和醫(yī)生的專業(yè)匹配以及醫(yī)生的態(tài)度,能夠準(zhǔn)確地解決“健康問題醫(yī)生”之間的映射問題,提高了問題解答的效率。機(jī)制主要由3部分組成:①問題和醫(yī)生的專業(yè)匹配建模;②醫(yī)生的態(tài)度建模;③問題-醫(yī)生的專業(yè)匹配和醫(yī)生態(tài)度的自適應(yīng)權(quán)衡。其中,①用來表示醫(yī)生對問題的專業(yè)程度,②用來表示醫(yī)生回答問題的態(tài)度。對于不同的問題,對醫(yī)生的專業(yè)和態(tài)度有不同的傾向。因此,③用來自適應(yīng)地權(quán)衡問題-醫(yī)生專業(yè)匹配和醫(yī)生態(tài)度的重要性。
使用D={d1,d2,d3,…,dn}表示n個(gè)醫(yī)生集合,di表示一個(gè)醫(yī)生。每個(gè)醫(yī)生的信息包括兩部分:醫(yī)生的信息簡介和醫(yī)生回答過的問題答案對。簡介部分包括醫(yī)生的教育背景、出版物、獎(jiǎng)勵(lì)以及來自其他醫(yī)生和健康咨詢者的投票等信息。問題答案對包括問題、答案、和答案相關(guān)的標(biāo)簽以及其他醫(yī)生對答案的贊同情況。我們將醫(yī)生回答過的問題答案對看作其積累的經(jīng)驗(yàn)。
使用E(di,q)表示醫(yī)生di對問題q的專業(yè)程度。受文檔主題生成模型(latent dirichlet allocation, LDA)的啟發(fā),我們認(rèn)為每個(gè)醫(yī)生的專業(yè)知識(shí)是綜合的,呈現(xiàn)加權(quán)分布特征。每種專業(yè)被解釋為可以使用相同專業(yè)知識(shí)回答的問題集合。因此,可以得到醫(yī)生和所給問題的相關(guān)程度為
(1)
式中:p(εj|di)表示醫(yī)生di在專業(yè)εj上的專業(yè)程度,即醫(yī)生-專業(yè)分布,而p(q|εj)表示問題q需要專業(yè)εj解決的概率,即專業(yè)-問題分布。
1.1 醫(yī)生-專業(yè)分布
通過對HealthTap上的3 000多個(gè)醫(yī)生的簡介進(jìn)行分析,發(fā)現(xiàn)每個(gè)醫(yī)生平均有3.4個(gè)專業(yè)技能。因此,p(εj|di)的計(jì)算就可以看作是在醫(yī)生集合D上的模糊專業(yè)聚類。不像傳統(tǒng)的硬聚類,每個(gè)醫(yī)生只屬于一個(gè)集合。在這里,醫(yī)生可根據(jù)相應(yīng)概率p(εj|di)屬于多個(gè)集合。
目前存在多種計(jì)算p(εj|di)的聚類技術(shù),例如K均值、LDA和基于簡單圖[8]的聚類,可是這些方法都存在一些約束。首先,這些方法通常假設(shè)所感興趣的物體之間的關(guān)系成對存在。在我們研究的工作中,醫(yī)生之間的關(guān)系比成對關(guān)系更復(fù)雜,如果簡單地將這種復(fù)雜關(guān)系轉(zhuǎn)換成成對關(guān)系將會(huì)導(dǎo)致我們想要了解的信息丟失。其次,它們不能處理異構(gòu)信息。在醫(yī)療社區(qū)問答系統(tǒng)中,醫(yī)生通常同時(shí)擁有幾種關(guān)系,例如醫(yī)生間的社交關(guān)聯(lián)、相似的簡介和經(jīng)驗(yàn)等。為了解決這些問題,我們構(gòu)建概率超圖,然后在超圖上進(jìn)行模糊劃分。超圖允許超邊連接兩個(gè)及以上的頂點(diǎn)。同時(shí),不同類型的超邊可以表示不同的異構(gòu)關(guān)系。
超圖(V,E,W)由頂點(diǎn)集合V、超邊集合E和超邊的權(quán)重集合W組成。每條超邊e連接兩個(gè)或兩個(gè)以上的頂點(diǎn),且e都分配一個(gè)權(quán)值w(e)。在所研究的問題中,醫(yī)生集合D中的n個(gè)醫(yī)生被看作n個(gè)頂點(diǎn)。根據(jù)醫(yī)生的信息,可以構(gòu)建3種類型的超邊。對于第一種類型的超邊,每個(gè)醫(yī)生作為一個(gè)頂點(diǎn),該醫(yī)生和與他簡介相似度最高的k個(gè)醫(yī)生組成一條超邊。這種構(gòu)建超邊的方式在文獻(xiàn)[9]中第1次被采用。第1種類型的超邊集合定義為E1。第2種類型的超邊是基于醫(yī)生積累的經(jīng)驗(yàn)。對于每個(gè)醫(yī)生,將他回答過的所有問題答案對合并成一個(gè)文檔,使用這個(gè)文檔來表示該醫(yī)生積累的經(jīng)驗(yàn)。將具有相同積累經(jīng)驗(yàn)的醫(yī)生構(gòu)建成一條超邊,這種超邊集合定義為E2。第3種類型的超邊利用了醫(yī)生之間的社交關(guān)系。對于超圖中的每個(gè)醫(yī)生,將該醫(yī)生和與他回答過相同問題的醫(yī)生組成一條超邊,這種超邊集合定義為E3。
概率超圖G可以被表示為|V|×|E|的關(guān)聯(lián)矩陣H,H中的元素為
(2)
式中:p(di,ej)是超邊ej連接頂點(diǎn)di的概率。p(di,ej)的定義為
(3)
式中:dej是超邊ej連接的醫(yī)生;S(di,dej)是醫(yī)生di和醫(yī)生dej簡介(第1類超邊)或積累的經(jīng)驗(yàn)(第2類超邊)的相似度。
超邊的權(quán)重大小表示超邊中的頂點(diǎn)屬于同一組的可能程度。對于一條超邊,它的權(quán)重定義為
(4)
式中:di∈ej表示超邊ej連接頂點(diǎn)di。
對于每條超邊,它的度定義和權(quán)重相同
(5)
根據(jù)H的定義,頂點(diǎn)di的度為
(6)
在本文中,利用了一種高效且實(shí)現(xiàn)簡單的算法[10]來劃分超圖,但是與算法中的超圖不同,我們構(gòu)建的超圖是一個(gè)概率模型。在構(gòu)建的超圖上定義了正則項(xiàng)
(7)
式中:矩陣f∈RD包含了每個(gè)醫(yī)生和想要學(xué)習(xí)的、潛在的專業(yè)類別相關(guān)概率。通過定義,可得
(8)
式中:I是單位矩陣。定義Δ=I-Θ,Δ是一個(gè)半正定矩陣,即超圖的拉普拉斯算子[10]。Ω(f)可被重新寫為
(9)
1.2 專業(yè)-問題分布
p(q|εj)=p(q|qεj)
(10)
(11)
根據(jù)Jelinek-Mercer平滑法得
P(w|qεj)=(1-α)P(w|qεj)+αP(w|C)
(12)
(13)
(14)
式中:C是所有的問題集合;α是一個(gè)調(diào)整平滑權(quán)重的加權(quán)系數(shù);f(w,qεj)表示項(xiàng)w在專業(yè)εj的問題集合qεj中出現(xiàn)的頻率;f(w,C)表示項(xiàng)w在所有問題集合C中出現(xiàn)的頻率。根據(jù)經(jīng)驗(yàn)值,設(shè)置α=0.8。至此,可以得到每個(gè)醫(yī)生和給定問題的專業(yè)相關(guān)程度E(di,q)。
除了問題和醫(yī)生的專業(yè)匹配外,根據(jù)文獻(xiàn)[12]中的研究,我們假設(shè)問題答案的質(zhì)量也取決于醫(yī)生的態(tài)度。根據(jù)醫(yī)療問題回答系統(tǒng)中的可用信息,本文從積極性、責(zé)任感和聲譽(yù)3個(gè)不同的角度對醫(yī)生的態(tài)度進(jìn)行建模。這些都需要使用歷史數(shù)據(jù)進(jìn)行估算,它們的乘積表示醫(yī)生的態(tài)度。
積極性可用來測量問題出現(xiàn)時(shí)醫(yī)生的積極程度。積極性的定義為
(15)
式中:Nf(di)表示醫(yī)生di是第1個(gè)問題回答者的問題數(shù)目;Na(di)表示醫(yī)生di回答的問題數(shù)目;A(di)表示醫(yī)生di回答問題的積極性,A(di)越大,醫(yī)生di回答問題的時(shí)間就越短。
責(zé)任感用來測量醫(yī)生對給定問題回答的滿意程度,它直接反映在答案質(zhì)量上。我們認(rèn)為如果一個(gè)醫(yī)生di回答了問題q,則di有相應(yīng)的專業(yè)能力解決q。同時(shí),如果提供的答案被其他醫(yī)生選為最優(yōu)答案,我們認(rèn)為醫(yī)生di對該答案有責(zé)任。di的責(zé)任感的估算為
(16)
式中:Nb(di)表示醫(yī)生di提供的答案被選為最優(yōu)答案的數(shù)目。
醫(yī)生的聲譽(yù)是指其他醫(yī)生和健康咨詢者對這個(gè)醫(yī)生的看法或想法。本文使用取值范圍在0~1之間的Sigmoid函數(shù)來估算名聲。
(17)
式中:Np(di)和Ns(di)分別表示支持醫(yī)生di的醫(yī)生和健康咨詢者的數(shù)目。
對于一個(gè)新的用自然語言描述的問題q,我們的目標(biāo)是從D中選擇出一些匹配的醫(yī)生,并且將q推薦給這些醫(yī)生。匹配分?jǐn)?shù)為
S(di,q)=(1-λ)E(di,q)+λA(di)
(18)
式中:E(di,q)是問題和醫(yī)生的專業(yè)匹配模型,表示從專業(yè)的角度考慮醫(yī)生di可以回答問題q的可能性。A(di)是態(tài)度模型,可以從歷史行為中推測出來。另外,λ是一個(gè)自適應(yīng)的參數(shù),用來平衡專業(yè)和態(tài)度的影響。
根據(jù)觀察,不同的問題對專業(yè)和態(tài)度有不同的傾向。對于簡單問題,入門級醫(yī)生就可以回答。這種問題答案的質(zhì)量主要由醫(yī)生的態(tài)度決定而不是醫(yī)生的專業(yè)知識(shí)。對于高難度問題,需要根據(jù)病人癥狀找出發(fā)病的原因以及告訴病人應(yīng)該如何做,此時(shí)醫(yī)生的專業(yè)知識(shí)對于給出高質(zhì)量回答起到了主要作用。因此可以得出結(jié)論,參數(shù)λ是一個(gè)關(guān)于給定問題的自適應(yīng)函數(shù),它平衡專業(yè)和態(tài)度對答案質(zhì)量的重要性。當(dāng)λ=1時(shí),給定的問題將被推薦給態(tài)度最好的醫(yī)生,而他們的專業(yè)能力將被忽視。相反,如果λ=0,將不考慮醫(yī)生的態(tài)度問題。
將λ的自適應(yīng)估計(jì)任務(wù)看作監(jiān)督回歸問題,其目標(biāo)是根據(jù)類似訓(xùn)練問題的有效權(quán)重,為每個(gè)新的問題預(yù)測一個(gè)合適的權(quán)重。對于訓(xùn)練集中的每個(gè)問題,首先使用固定的λ來估算問題推薦的性能。λ的最優(yōu)值通過在[0,1]之間使用固定步長得到。利用這些最優(yōu)值作為真實(shí)值來訓(xùn)練回歸模型。在實(shí)驗(yàn)中,使用了線性回歸、保序回歸和pace回歸等不同的回歸模型。
4.1 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中使用了從HealthTap上收集的3 123個(gè)醫(yī)生的簡歷。每個(gè)醫(yī)生的簡歷包括醫(yī)生的簡介和該醫(yī)生以前回答過的問題答案對。表1展示了我們統(tǒng)計(jì)的實(shí)驗(yàn)數(shù)據(jù)。
表1 收集到的數(shù)據(jù)的統(tǒng)計(jì)
本文使用了基于LDA的主題級別的數(shù)據(jù)表示。對于一個(gè)數(shù)據(jù)集,LDA按照語義將內(nèi)部相關(guān)聯(lián)的健康概念分配到一個(gè)潛在的組,它可以按照主題描述健康數(shù)據(jù)的底層語義結(jié)構(gòu)。每個(gè)潛在組被視為一維特征。特征空間維度通過困惑度(perplexity)[10]得到。困惑度是一種計(jì)算統(tǒng)計(jì)模型,設(shè)為
(19)
式中:li表示di的詞數(shù)。困惑度的值越小表示所用的LDA模型越好。我們將醫(yī)生的簡歷分為兩部分,80%的數(shù)據(jù)用來訓(xùn)練LDA模型,20%用來評估性能。LDA建模和困惑度矩陣通過Stanford建模工具集來實(shí)現(xiàn)。當(dāng)潛在組的組數(shù)變化時(shí),困惑度取值如圖1所示。由圖1可知,當(dāng)潛在組數(shù)為110時(shí),困惑度最低。因此,對于給定的一個(gè)醫(yī)生或者問題,它可以表示成110個(gè)語義主題級別特征的混合。
圖1 困惑度隨專業(yè)類別數(shù)變化曲線
對于隨后的主觀評價(jià),我們邀請了3個(gè)來自不同背景的自愿者并進(jìn)行了訓(xùn)練。在3個(gè)志愿者中采用多數(shù)表決方案來解決有分歧的問題。對于那些有兩類選票數(shù)相同的情況,通過討論來獲得最后的決定。
4.2 問題推薦性能比較
對于專家推薦問題,準(zhǔn)確度是最重要的性能指標(biāo)。因此,采用了客觀評估和主觀評估兩種指標(biāo)從不同的方面獲取準(zhǔn)確度。從數(shù)據(jù)集中隨機(jī)選擇了1000個(gè)問題作為測試樣本。對于客觀評估,采用了平均的H@K[13]。如果真正回答該問題的醫(yī)生排在前K位,則認(rèn)為H@K=1,否則H@K=0。這種評估方法的優(yōu)點(diǎn)是使用了真實(shí)數(shù)據(jù)且不需要構(gòu)建其他的真實(shí)值??墒沁@種評估方法可能受這種場景的影響,醫(yī)生di回復(fù)了問題q,盡管醫(yī)生dj有能力回答問題q,但由于未知的原因沒有回答問題。盡管本文提出的機(jī)制很可能將dj排在一個(gè)高的位置,但是H@K卻忽略了。因此,H@K不能全面公平地評估本文提出的推薦機(jī)制。
作為對H@K的補(bǔ)充,采用了主觀的指標(biāo)S@K,來測量在推薦的K個(gè)醫(yī)生中能找到一個(gè)匹配的醫(yī)生回答問題的概率,即如果推薦的前K個(gè)醫(yī)生中有能力回答該問題,則S@K=1,否則S@K=0。不同于主觀評估,此時(shí)的真實(shí)值需要志愿者手動(dòng)構(gòu)建。他們需要查看醫(yī)生的簡介和歷史數(shù)據(jù),如果認(rèn)為某個(gè)醫(yī)生有能力并且有可能回答這個(gè)問題,將標(biāo)記該醫(yī)生有能力回答該問題,否則標(biāo)記不能回答該問題。本文中使用Kappa分析[14]來評估志愿者間的一致性。Kappa的值在0~1之間,值越大,一致性越高。Kappa值大于0.7表示一致性很強(qiáng)。在本文的工作中,采用了在線的Kappa計(jì)算工具。表2展現(xiàn)了分析結(jié)果,結(jié)果證明它能標(biāo)記志愿者之間的一致性。
表2 使用Kappa方法的志愿者之間的一致性評估
我們將本文提出的問題推薦機(jī)制與最新技術(shù)進(jìn)行了比較。為了確保公平,它們將同時(shí)考慮或不考慮態(tài)度問題。
K均值為醫(yī)生-專業(yè)相關(guān)程度使用K均值估算的機(jī)制。LDA為醫(yī)生-專業(yè)相關(guān)程度使用LDA估算的機(jī)制。
由于K均值的結(jié)果是離散的,只能得到一個(gè)醫(yī)生是否屬于某個(gè)專業(yè)類別,而得不到該醫(yī)生屬于某個(gè)專業(yè)類別的概率。為了得到醫(yī)生屬于某個(gè)專業(yè)類別的概率,本文使用下式計(jì)算
(20)
式中:半徑參數(shù)σ是所有醫(yī)生對之間的歐氏距離的均值,cj是專業(yè)類別εj的中心。
圖2和圖4分別列出了使用H@K和S@K來評估推薦性能的對比結(jié)果。當(dāng)引入醫(yī)生的態(tài)度時(shí),結(jié)果在圖3和圖5中給出。由圖可見,本文方法的性能明顯高于其他方法。綜合分析這4個(gè)圖可以看出,考慮醫(yī)生態(tài)度時(shí)的性能要高于不考慮醫(yī)生態(tài)度時(shí)的性能,這證明了醫(yī)生的態(tài)度確實(shí)影響答案的質(zhì)量。另一方面,實(shí)驗(yàn)結(jié)果也證明使用自適應(yīng)的λ來平衡專業(yè)匹配和態(tài)度的影響比使用固定λ的要優(yōu)越。
圖2 不考慮醫(yī)生態(tài)度時(shí)使用H@K評估的性能比較
圖3 考慮醫(yī)生態(tài)度時(shí)使用H@K評估的性能比較
圖4 不考慮醫(yī)生態(tài)度時(shí)使用S@K評估的性能比較
圖5 考慮醫(yī)生態(tài)度時(shí)使用S@K評估的性能比較
4.3 專業(yè)和態(tài)度權(quán)衡
從數(shù)據(jù)集中隨機(jī)選擇了1000個(gè)問題。對于每個(gè)問題,使用固定步長0.05在[0,1]之間找到了最優(yōu)性能。為了節(jié)省時(shí)間,性能通過H@K測量。這些問題分為兩部分,80%用來訓(xùn)練,20%用來測試。我們采用了4種回歸模型,它們的性能比較見表3??梢钥闯?pace回歸模型取得了最好的性能。對于一個(gè)新問題,它的自適應(yīng)參數(shù)λ是可預(yù)測的,這個(gè)值影響到問題需要對醫(yī)生的專業(yè)更關(guān)注還是對態(tài)度更關(guān)注。
表3 使用平均絕對誤差回歸模型的性能比較
本文研究的醫(yī)療社區(qū)中的問題推薦方法包含3個(gè)主要步驟:①對醫(yī)生和問題的專業(yè)匹配度進(jìn)行建模;②從積極性、責(zé)任感和名聲3個(gè)角度對醫(yī)生的態(tài)度進(jìn)行建模;③根據(jù)問題的內(nèi)容自適應(yīng)地權(quán)衡問題和醫(yī)生的專業(yè)匹配和醫(yī)生態(tài)度的影響。實(shí)驗(yàn)證明,本文提出的“健康問題-醫(yī)生”推薦機(jī)制具有很高的準(zhǔn)確度和問題回答效率,可實(shí)際應(yīng)用于網(wǎng)上醫(yī)療社區(qū)中,能夠彌補(bǔ)目前這個(gè)應(yīng)用方面的空白。
由于目前很難獲得中文的問題集,本文的方法和實(shí)驗(yàn)都是針對英文問題集的。后面我們將通過技術(shù)方法收集中文數(shù)據(jù)集,來驗(yàn)證本文提出機(jī)制的通用性,并嘗試將該機(jī)制應(yīng)用到其他領(lǐng)域。
[1] JURCZYK P, AGICHTEIN E. Discovering authorities in question answer communities by using link analysis [C]∥Proceedings of the 16th ACM Conference on Information and Knowledge Management. New York, USA: ACM, 2007: 919-922.
[2] MOHAMED B, BENOIT D, WANG Shengrui. Identifying authoritative actors in question-answering forums: the case of yahoo! answers [C]∥Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2008: 866-874.
[3] KLEINBERG J M. Authoritative sources in a hyperlinked environment [J]. Journal of the ACM, 1999, 46(5): 604-632.
[4] ZHOU Guangyou, LAI Siwei, LIU Kang, et al. Topic-sensitive probabilistic model for expert finding in question answer communities [C]∥Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2012: 1662-1666.
[5] ZHOU Yanhong, CONG Gao, CUI Bin, et al. Routing questions to the right users in online communities [C]∥Proceedings of the 25th IEEE International Conference on Data Engineering. Piscataway, NJ, USA: IEEE, 2009: 700-711.
[6] LI Baichuan, KING I, LYU M R. Question routing in community question answering: putting category in its place [C]∥Proceedings of the 20th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2011: 2041-2044.
[7] LI Baichuan, KING I. Routing questions to appropriate answerers in community question answering services [C]∥Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2010: 2041-2044.
[8] 蘇金樹, 張博鋒, 徐昕. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展 [J]. 軟件學(xué)報(bào), 2006, 17(9): 1848-1859. SU Jinshu, ZHANG Bofeng, XU Xin. Advances in machine learning based text categorization [J]. Journal of Software, 2006, 17(9): 1848-1859.
[9] HUANG Yuchi, LIU Qingshan, ZHANG Shaoting, et al. Image retrieval via probabilistic hypergraph ranking [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 3376-3383.
[10]HUANG Yuchi, LIU Qingshan, LV Fengjun, et al. Unsupervised image categorization by hypergraph partition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(6): 1266-1273.
[11]ZHAI Chengxiang, LAFFERTY J. A study of smoothing methods for language models applied to information retrieval [J]. ACM Transactions on Information Systems, 2004, 22(2): 179-214.
[12]GUAGNANO G A, STERN P C, DIETZ T. Influences on attitude-behavior relationships [J]. Journal of Environment and Behavior, 1995, 27(5): 699-718.
[13]XUAN Huiming, YANG Yujiu, PENG Chen. An expert finding model based on topic clustering and link analysis in CQA website [J]. Journal of Network and Information Security, 2013, 4(2): 165-176.
[14]WARRENS M J. Inequalities between multi-rater kappas [J]. Advances in Data Analysis and Classification, 2010, 4(4): 271-286.
[15]NIE Liqiang, YAN Shuicheng, WANG Meng, et al. Harvesting visual concepts for image search with complex queries [C]∥Proceedings of the ACM International Conference on Multimedia. New York, USA: ACM, 2012: 59-68.
(編輯 武紅江)
RoutingHealth-OrientedQuestionstoAppropriateDoctors
ZHU Li,YUE Aizhen
(School of Software Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
A novel mechanism connecting health seekers to appropriate doctors is proposed to improve the efficiency of question resolving in community-based health service systems. Attitudes of doctors answering questions are introduced in the mechanism, and both the professional matching degree between doctors and questions and the doctor’s attitudes are associated and considered at the same time. The probabilistic hypergraph and the query likelihood language model are used to model the professional matching degree, and a doctor’s attitude is modeled from his historical data. Meanwhile, a regression model is used to trade off between the professional matching degree and the doctor’s attitude. Extensive experimental results on several real-world datasets show that the matching precision of the proposed mechanism increases by about 30%, and the efficiency of resolving problems is greatly improved.
community-based health service system; question routing; probabilistic hypergraph; attitude modeling
2014-5-20。
朱利(1968—),男,副教授。
國家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃資助項(xiàng)目(2012CB327902HZ)。
時(shí)間:2014-10-31
10.7652/xjtuxb201412009
TP181
:A
:0253-987X(2014)12-0057-06
網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20141031.1643.017.html