苗 富 張朋柱
(上海交通大學 安泰經(jīng)濟與管理學院,上海 200030)
如何提供更好的知識獲取服務一直是信息時代致力解決的問題。信息方式的獲取經(jīng)歷了以雅虎門戶網(wǎng)站為代表的被動式信息服務,再到搜索引擎,最后到用戶產(chǎn)生內(nèi)容模式的問答社區(qū)。在線問答社區(qū)也經(jīng)歷了初期以簡單的用戶激勵機制為運作模式發(fā)展到以社區(qū)建設、用戶關系、內(nèi)容運營為基礎模式。前者典型的就是Yahoo!Answers、百度知道,后者如知乎。在醫(yī)療資源緊張、互聯(lián)網(wǎng)醫(yī)療發(fā)展迅猛的背景下,醫(yī)學垂直領域問答社區(qū)如尋醫(yī)問藥網(wǎng)、好大夫在線等應運而生。這些問答社區(qū)在一定程度上解決了醫(yī)療資源緊張、醫(yī)患信息不對稱的問題,幫助回答人們?nèi)粘I钪杏龅降牧闼榛慕】滇t(yī)療問題。但是,目前互聯(lián)網(wǎng)醫(yī)療模式也遇到了一些問題。由于醫(yī)療知識的特殊性和相關的利益糾葛,問答社區(qū)中醫(yī)生的回答有時未必完全可信,有時對于同一個醫(yī)學問題,不同的醫(yī)生可能也會給出完全相反的意見,從而讓信息搜尋者感到無所適從。
為此,我們考慮從醫(yī)生的回答以及其回答所處特定環(huán)境角度出發(fā),研究醫(yī)生回答的可靠性。一般對問答社區(qū)回答質量控制的研究,致力于研究什么樣的問題是被用戶認可的高質量問答,以此來提供社區(qū)改進的意見建議,從而增加社區(qū)的用戶黏性。不同的是,醫(yī)生的可靠性建模會研究評價醫(yī)生的回答是否符合客觀事實。為此,我們基于尋醫(yī)問藥網(wǎng)中關于疾病與中藥的問答語料庫,并以權威中藥處方庫為可靠性標準,測度問答相關的多方面特征,采取分類學習的框架,對回答的可靠性進行評估研究。為不失一般性,本文以食材與疾病之間的營養(yǎng)關系為主要目標,原因是中藥食材與疾病的營養(yǎng)關系相對簡單,易于理解區(qū)分,另外判斷其正確與否也相對容易。
我們的研究可以幫助完善健康醫(yī)療社區(qū)的醫(yī)生管理評估機制,為信息搜尋者評估信息是否符合事實提供參考,還可以幫助用醫(yī)療健康領域知識圖譜技術解決知識層面的可信性問題。
目前,網(wǎng)絡社區(qū)問答的質量評估研究主要集中在評價因素研究和自動化評價中。其中,自動化評價主要是構造相關的評價特征,再將其轉化為機器學習問題。大規(guī)模的在線社區(qū)問答主要依賴自動化評價,是目前主要的研究方向。
國外的自動化研究相對較早,這些研究主要是針對如Yahoo!Answers這樣的一般性社區(qū),其目標是評估問答被用戶采納的可能性。不同的是特征集和模型的不同,比如豐富的特征,包括結構特征、文本特征、社區(qū)特征并使用了分類框架來綜合這些特征以區(qū)分問答社區(qū)中信息質量的高度。國內(nèi)的自動化評價研究也主要針對百度知道這樣的社區(qū),比如[1]提出了針對百度問答的質量評價檢測算法,來自動化區(qū)分問答是否是一個高質量問答,在基于經(jīng)典的文本特征和鏈接特征之外,作者針對百度問答的特點,提出了時序特征、基于問題粒度的特征和基于百度知道社區(qū)的用戶特征,同樣研究了百度問答的質量檢測。在特征選擇上,提出了內(nèi)容覆蓋次數(shù)、類別距離等文本特征,以及是否被采納、投票數(shù)、提問者的評論、回答者的屬性等非文本特征。不同的是,其認為百度問答的最佳回復往往是不可靠的,并且許多問答并沒有最佳回復的標記。因此,直接把提問者選擇的最佳答案作為高質量問答是不妥的,因此其對每一條答案進行人工標注,將回答按照質量標準分為高質量、低質量、中質量。
但是,目前自動化評價研究仍然存在一系列的問題。其一,研究的目標主要集中在問答的用戶滿意情況上,并不是定位在回答者提供的知識是否符合客觀事實;其二,目前的質量評估缺少領域聚焦;其三,缺乏統(tǒng)計的比較體系,沒有對提出的因素進行不同社區(qū)的對比研究。
問答數(shù)據(jù)主要由問題字段、提問者的基本特征,以及醫(yī)生回答的字段組成。問題字段包括提問內(nèi)容和提問時間,提問者的個人信息包括年齡,性別和姓名,回答者字段包括醫(yī)生的姓名、專長、職位、主要鏈接、問答時間與回答的文本內(nèi)容。同一個問題可能會有多條的回答。醫(yī)生數(shù)據(jù)主要包括醫(yī)生的姓名、所在醫(yī)院、??疲约霸谏鐓^(qū)中的活動統(tǒng)計指標。問答數(shù)據(jù)的樣本如下:
“{"link":"http://club.xywy.com/question/20160215/46525745.htm","question":{"gender":"女","age":"49","time":"2014-06-23 06:39:05","name":"會員38315670","text":"醫(yī)生你好我叫劉輝女今年49歲,我有冠心病有時前后心疼,近幾天又發(fā)血糖有點高空腹7.3,我想吃點阿膠補血顆粒,補氣血能行嗎?"},"keyword":"阿膠 冠心?。ⅲnswers":[{"text":"問題分析。你好,冠心病是由于心臟血管動脈硬化,導致血管狹窄引起的供血不足,這和貧血是兩回事,需要積極治療預防心肌梗塞。意見建議阿膠是治療貧血的,對冠心病沒有 作 用。","doc Link":"http://club.xywy.com/doc_card/20885174","name":"劉祥禮","time":"2014-06-23 07:27:39"}]}”
萬方中醫(yī)知識庫中包含了大量的中醫(yī)醫(yī)院臨床診斷常見疾病的中藥處方。如關于治療“喉炎”的某條中藥處方“射干12g,桔梗9g,甘草9g,元參12g,木蝴蝶15g,桑葉12g,芥穗9g,白芥子9g,川貝母12g,炒杏仁12g,僵蠶9g,蒼耳子9g”。這些中醫(yī)處方數(shù)據(jù)都是經(jīng)過嚴格驗證的中藥處方,并有相應的論文來源和實際病例。因此,我們使用該數(shù)據(jù)作為判斷疾病與中藥營養(yǎng)關系的標準。
一般來說,食材和疾病的營養(yǎng)關系可以分為某食材對疾病的恢復有積極的作用、消極的作用、沒有影響。當然,也有可能一個同時包含疾病和食材的句子并沒有明確指出兩者之間的營養(yǎng)關系。具體的四種關系的定義如下:(1)食材對于疾病的恢復有積極作用;(2)食材對于疾病的恢復有消極作用;(3)食材對于疾病的恢復起到中性作用或者取決具體的情況(4)并未提及食材與疾病之間的關系。表1是標注的語料庫樣本。
表1 語料標注數(shù)據(jù)樣本——桂圓與常見疾病的營養(yǎng)關系
在實際的標注過程中,我們組織7位項目人員獨立地按照統(tǒng)一標注協(xié)議進行獨立標注。為了嚴格控制標注的質量,我們進行標注的一致性檢查,即對于每一條問答,采取2人獨立標注,只有該問答被不同的標注人獨立標注而不出現(xiàn)沖突的時候,才認為是合格的標注。其中,平均的人工標注的一致率為67%,說明語料理解存在相當大的歧義。這主要是由于醫(yī)學社區(qū)問答中語言表達的復雜性、模糊性和條件性導致的。表2展示的是在計算一致率的時候排除“未提及”類型時的情況,可以看到整體的一致性提高到84%,說明了分歧比較大的地方主要集中在“未提及”類型的判斷上面。
表2 去除“未提及”類型以后標注人員的標注情況
回答的可靠性自動化評估,和一般的問答質量自動化評估有許多的相似之處。相同的是都是建立評估特征因素、構建預測目標,再將其轉化為機器學習分類問題。
不同之處在于:(1)本文研究的是回答中包含的觀點的可靠性即是否和權威的知識認知一致,而一般的研究主要研究什么樣的回答被用戶采納。因此,模型需要注重選擇合適的指標y度量回答的可靠性;(2)本文研究的是健康醫(yī)療領域的社區(qū)問答,而之前的研究大多集中在一般性問答社區(qū)的不同子模塊,我們注意到健康醫(yī)療領域社區(qū)較一般回答社區(qū)具有明顯的異質性;(3)由于研究目標和健康醫(yī)療社區(qū)獨特的環(huán)境,需要發(fā)現(xiàn)具有領域適用性的可靠性評估因素。
圖1 評估模型示意圖
我們對比醫(yī)生對于疾病與中藥食材的判斷與中藥現(xiàn)有的處方觀點是否一致,如果一致那么就認為該條問答與權威認知是一致的,反之亦然。
定義LB=1表示醫(yī)生判斷食材對于疾病的影響判斷是積極的,否則LB=0。LN=1表示食材對于疾病的積極影響由權威的處方庫得到佐證,否則LN=0.我們考慮了三種類型的目標變量:
TF表示醫(yī)生判斷中藥對疾病的影響是積極的,但是卻未得到中醫(yī)處方的佐證,該指標主要考查醫(yī)生的回答是否在我們已知的知識體系之中。
FT表示醫(yī)生判斷中藥對疾病的影響是消極的,但是卻得到了中醫(yī)處方的佐證,該指標主要考查醫(yī)生的判斷不能直接違反常規(guī)認知。
TFFT=TF*FT
其中,TFFT是FT且TF,即要求該醫(yī)生不能犯“TF”的錯誤,也不能犯“FT”的錯誤。
圖2 評估目標變量構建示意圖
回答可靠性的評估因素的選擇是評估框架中重要的一環(huán)。與一般的社區(qū)回答質量評估研究不同,醫(yī)療社區(qū)的回答呈現(xiàn)出如下的特點:其一,在線健康問答社區(qū),提問與回答是單向的,有患者和醫(yī)生兩種不同的角色。這種社區(qū)知識不對稱的角色模式與一般社區(qū)中用戶之間平等提問回答有很大的不同。其二,由于知識的不對稱,提問者(患者)對回答者(醫(yī)生)的回答很少質疑,另外醫(yī)生之間也不會相互質疑。其三,在可靠性評估研究中,需要側重知識的正確性,而非回答是否被提問者采納。我們認為問答是否被提問者采納和問答知識的正確性有差異也有聯(lián)系。因此,針對健康問答社區(qū)回答可靠性評價具有鮮明的特點。
為此研究從問答的文本(T),回答者的個人信息與社區(qū)互動指標(U),回答時間特征(Seq),實體特征(E),話題特征(TP)五個維度出發(fā)構建評估體系。其中,T、U、Seq是傳統(tǒng)以用戶滿意度為目標的質量評估研究提出的特征,TP、E是新構建的特征。
3.2.1 傳統(tǒng)特征
文本的特征(T)。醫(yī)生的回答文本是評價問答質量的一個重要方面。參考了[1],我們構造了回答的文本長度T1,回答文本長度和問題長度比值T2,醫(yī)生回答文本熵T3三個指標去度量文本特征。
醫(yī)生特征與社區(qū)互動特征(U)。社會化媒體的一個重要的特點在于用戶參與編輯發(fā)布內(nèi)容。在健康醫(yī)療問答社區(qū)中,醫(yī)生的個人信息包括醫(yī)生所收到的感謝數(shù)占總回答比例為U1、醫(yī)生的回答被評為最佳回復的數(shù)量為U2、醫(yī)生的總回答量為U3。前兩個指標都可以用來衡量醫(yī)生回答的用戶認可度,U3反映的是醫(yī)生平臺的參與度。
時間特征(Seq)。一般來說,問答社區(qū)都會紀錄每一條回答的時間。評估了時間特征在回答質量評估中的作用,其認為后面的回答會參考前面回答的內(nèi)容,從而提供更加全面準確的回答。因此,在健康社區(qū)醫(yī)生回答的準確性方面,我們也利用了時間的特征,包括同一條問題下面回答所處的時間順序Seq1、回答與提問時間差Seq2。
3.2.2 實體特征(E)
由于本研究關注的是中藥與疾病的營養(yǎng)學關系,因此每一條問答中都會存在對應的中藥材與疾病實體詞語。我們用中藥材、疾病詞語在百度搜索中的返回數(shù)量來作為衡量該條知識的大眾化程度的代理變量E1。如果中藥材、疾病詞語在百度搜索中返回數(shù)量比較少,那么說明關于中藥材、疾病知識的討論相對比較冷門,因此對于它們的營養(yǎng)學知識也相對比較難以認知,因此存在較大的錯誤判斷的可能。另外參考[6,15],我們采用醫(yī)生回答文本內(nèi)容與以百度搜索前10條搜索返回文本的Kullback-Leibler偏離E2來衡量醫(yī)生回答的相對準確性,E2是一種文本信息距離的度量,
其中,P、Q分別表示醫(yī)生回答文本和百度搜索前10條搜索返回文本的詞頻分布向量。
3.2.3 話題特征(TP)
一般的問答社區(qū)都會采取一些文本分類的技術來組織相關的問題,從而形成一簇相似的話題。在評估回答的質量時,將回答的信息納入同一話題之中,將會提供額外的有用的鑒別信息。與一般社區(qū)不同的是,健康社區(qū)中并沒有按照疾病和中藥為標準進行分類組織,因此我們需要自動化地將問答組織成話題。
由于問答文本在采集時是按照中藥和疾病為關鍵詞采集的,因此我們以問答中所涉及的中藥、疾病大類為分類標準,將所討論內(nèi)容相關的問答劃為同一類話題。
其中,包括話題包含問答數(shù)TP1,該回答的文本長度在同一話題之下所有回答平均長度的比值TP2,以及問題回答文本長度比與該話題之下平均值的比值TP3。
其中,T1topic為同一類話題之下所有回答的T1統(tǒng)計量的平均值,TP2和TP3的計算方式類似。
本實驗從尋醫(yī)問藥網(wǎng)上以常見疾病和中藥為關鍵詞,采取搜索引擎通過爬蟲采集了3500個問答對。然后,將其分為7組,所有的7名標注人員獨立標注兩次,在去除“未提及”和“中性”類型和觀點不一致的情況之下,最終樣本量僅為1324條。
表3 語料中涉及的疾病和中藥的數(shù)據(jù)比例(top6)
表4給出了負樣本比例,可以看出犯FT錯誤的比例為12%,犯TF類型的錯誤約為29%。語料中出現(xiàn)的錯誤類型大多為TF類型錯誤。另外,從表4中可以看出,F(xiàn)T、TF與LB、IN變量的相關性都比較高,這是由于這兩個變量在定義上依賴LB與IN的邏輯關系。為了降低與LB、IN的相關性,我們定義了TFFT指標,這個指標包括了TF錯誤和FT錯誤。TFFT得到的正負樣本比例基本上是平衡的,而且和LB、IN指標的相關性也比較低。
表4 目標變量與決策變量基礎統(tǒng)計量
表5 目標變量相關性表
為了評估不同特征因素的重要性,使用邏輯回歸檢測因素的重要性。從表6中可以看出不同特征的重要性。
可以發(fā)現(xiàn),傳統(tǒng)特征中醫(yī)生和社區(qū)互動特征U出了U1,其他均不顯著。值得關注的是U1顯著、U2不顯著,原因可能是雖然這兩個指標都可以反映用戶的認可度,但是在健康社區(qū)中含義卻不同。病人感謝在操作方式上更加昂貴,而評為最佳回復則更多出于禮貌。同時,文本特征中除了U3,其他在健康社區(qū)可靠性評估中也不顯著。時間特征均不顯著,說明回答相對順序不會影響可靠性,這是和一般的質量評估研究最大的不同。一般的社區(qū)中問題專業(yè)性不強,后面的回答會補充前面的回答,因而獲得用戶更高的認可度,但是在健康社區(qū)的可靠性方面,上面的邏輯并不成立。
對于實體特征E,在FT和TFFT方面都是顯著正向的,這說明當醫(yī)生判斷的知識相對常見時,判斷的可靠性會顯著增加。針對于TF、E特征卻是反向的,主要是因為當知識相對常見時,犯TF類錯誤即醫(yī)生判斷為積極但卻未得到權威知識庫的佐證。我們認為這可能與醫(yī)學知識周期長導致權威知識庫的更新慢,而健康社區(qū)這類社交媒體相關的知識卻更新快,從而導致了TF錯誤的增加,所以關系是反向的。
對于話題特征TP,我們發(fā)現(xiàn)其在FT和TFFT方面是比較顯著的,關系方向也是正向的。這說明當問答中的文本內(nèi)容相比同類話題豐富時,其更加可靠。另外,可以看到文本特征T并不顯著,說明了在比較文本特征時,需要在話題內(nèi)進行比較。
表6 特征變量t值表
為了考察傳統(tǒng)特征和領域特征對模型的影響,采取前向搜索的方式來不斷加入特征集。線性分類器模型預測TF、FT、TFFT、傳統(tǒng)特征{T+Seq+U}的AUC分別為0.55、0.52、0.55,這僅僅比隨機猜測0.5好一點。在加入E+TP特征以后,AUC分別提升到0.61、0.67、0.54,說明了傳統(tǒng)的特征在健康社區(qū)的可靠性評估方面效果并不突出。這說明了不同的研究領域特征的適用性也不同。另外,可以看到除了TFFT指標,新提出的特征的效果表現(xiàn)都是顯著的。
圖3 新舊特征的效果對比
參考[1-3]研究,我們使用邏輯回歸(LR)、支持向量機(SVM)和梯度提升樹(GBDT)強分類模型作為機器學習分類模型。其中,模型的超參數(shù)都是經(jīng)過交叉驗證最優(yōu)化的結果,其中邏輯回歸中C=1;支持向量機的超參數(shù)設置如下gamma=1/n,其中n=13為特征因素數(shù)量C=1,采取高斯核函數(shù);梯度提升樹中決策樹模型數(shù)為200,最大深度為5;采取ROC-AUC作為模型的評價標準。為了消除樣本類不平衡對模型的影響,我們采取重復采樣的方式使得不同類的樣本量達到1∶1。為了評估模型的穩(wěn)定性,我們利用[14]提出的方法,采取5層交叉驗證來評估模型的穩(wěn)定性。表7內(nèi)的數(shù)據(jù)分別是交叉驗證數(shù)據(jù)集上模型AUC的均值和方差。
在分類器的選擇上,以線性分類器LR為比較基準,從表7可以看到非線性模型整體上要比基準模型表現(xiàn)好。在非線性模型中,GBDT模型整體上要優(yōu)于SVM模型,這說明在問答可靠性評估系統(tǒng)中,特征的組合加權也是影響系統(tǒng)性能的因素之一。
表7 LR、SVM和GBDT評估模型的AUC
目前的質量評估研究缺少領域聚焦,以用戶滿意度為目標,并且缺乏特征在不同社區(qū)的適用性分析。我們結合醫(yī)生的判斷和權威知識庫,建立FT、FT、TFFT指標來評價醫(yī)生回答的質量,并比較考查了一般社區(qū)問答質量的評估因素,發(fā)現(xiàn)這些特征并不完全適合健康領域的可靠性評估。為此,根據(jù)健康管理社區(qū)的特點提出了實體特征和話題特征,實證發(fā)現(xiàn)這些特征可以顯著提高模型的表現(xiàn),并且探討了這些特征表現(xiàn)具有差異性的原因。另外,在學習模型上,我們發(fā)現(xiàn)非線性模型中GBDT模型整體上要優(yōu)于SVM模型、邏輯回歸模型。
相比于以用戶滿意度為目標的質量評估,健康領域的問答質量評估具有獨特的性質和更高的難度。目前為止,系統(tǒng)的評估能力整體上還有待提高。另外,我們發(fā)現(xiàn)目前的因素特征在甄別TFFT類型錯誤方面還明顯不足,需要發(fā)現(xiàn)更加有效的因素特征。