国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)健康社區(qū)信息需求特征測(cè)度
——基于時(shí)間和主題視角的實(shí)證分析*

2016-10-19 06:51:25李重陽(yáng)翟?shī)檴?/span>鄭路
數(shù)字圖書館論壇 2016年9期
關(guān)鍵詞:測(cè)度癌癥社區(qū)

李重陽(yáng),翟?shī)檴?,鄭?/p>

(華中師范大學(xué)信息管理學(xué)院,武漢 430079)

網(wǎng)絡(luò)健康社區(qū)信息需求特征測(cè)度
——基于時(shí)間和主題視角的實(shí)證分析*

李重陽(yáng),翟?shī)檴?,鄭?/p>

(華中師范大學(xué)信息管理學(xué)院,武漢 430079)

以在線問(wèn)答社區(qū)中癌癥信息為例,對(duì)其信息需求從時(shí)間和主題兩個(gè)角度進(jìn)行綜合測(cè)度。對(duì)不同時(shí)間的數(shù)據(jù)進(jìn)行分組,采用LDA主題挖掘法來(lái)確定相關(guān)編碼規(guī)則,探求在線問(wèn)答社區(qū)中用戶信息需求特征,發(fā)現(xiàn)用戶對(duì)癌癥信息的需求主要集中在若干個(gè)主題,并且對(duì)各主題的關(guān)注度隨時(shí)間呈現(xiàn)出一定的變化趨勢(shì)。進(jìn)一步探究在線問(wèn)答社區(qū)健康信息服務(wù)存在的問(wèn)題,為促使各網(wǎng)絡(luò)健康社區(qū)信息服務(wù)水平的提高提供參考和指導(dǎo)。

在線問(wèn)答社區(qū);信息需求;特征測(cè)度;癌癥

1 引言

隨著“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),互聯(lián)網(wǎng)與各領(lǐng)域的融合發(fā)展已經(jīng)成為不可阻擋的潮流。2015年7月,我國(guó)政府正式公布《國(guó)務(wù)院關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的指導(dǎo)意見(jiàn)》(以下簡(jiǎn)稱《意見(jiàn)》)[1],針對(duì)醫(yī)療健康領(lǐng)域,《意見(jiàn)》提出要推廣在線醫(yī)療衛(wèi)生新模式、促進(jìn)智慧健康養(yǎng)老產(chǎn)業(yè)發(fā)展,充分利用互聯(lián)網(wǎng)、大數(shù)據(jù)等手段建立醫(yī)療網(wǎng)絡(luò)信息平臺(tái)。互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)越來(lái)越成為人們獲取健康信息的重要途徑。根據(jù)2013年皮尤研究中心發(fā)布的調(diào)查報(bào)告顯示,35%的美國(guó)成年人在通過(guò)網(wǎng)絡(luò)為自己或他人查詢健康信息[2]。相對(duì)于專業(yè)醫(yī)學(xué)人士,普通用戶由于自身醫(yī)療知識(shí)有限,更趨向通過(guò)健康社區(qū)獲取健康保健知識(shí)、疾病治療經(jīng)驗(yàn)等。因此,對(duì)網(wǎng)絡(luò)健康社區(qū)信息進(jìn)行研究,發(fā)現(xiàn)用戶信息需求,可以更好地促進(jìn)網(wǎng)絡(luò)健康社區(qū)的運(yùn)轉(zhuǎn)和信息服務(wù)。用戶對(duì)哪些主題的網(wǎng)絡(luò)健康信息感興趣,用戶的信息需求隨時(shí)間的變化呈現(xiàn)出怎樣的趨勢(shì),這就需要對(duì)網(wǎng)絡(luò)健康社區(qū)信息需求特征進(jìn)行測(cè)度。本文以在線問(wèn)答社區(qū)中癌癥信息為例,借助Latent Dirichlet Allocation(LDA)獲取其主題范圍,并據(jù)此建立基于內(nèi)容主題的編碼規(guī)則,通過(guò)對(duì)不同時(shí)間段的信息進(jìn)行主題分布探測(cè)、編碼分類、關(guān)鍵詞提取和對(duì)比分析,實(shí)現(xiàn)對(duì)用戶信息需求特征的測(cè)度,探索和預(yù)測(cè)網(wǎng)絡(luò)健康社區(qū)信息需求的特征和變化趨勢(shì),幫助其更好地組織信息資源,增強(qiáng)用戶獲取健康信息的效率。

2 相關(guān)研究

2.1網(wǎng)絡(luò)健康信息研究現(xiàn)狀

消費(fèi)者健康信息(Consumer Health Information)指與大眾、病患及其家屬的有關(guān)健康和醫(yī)學(xué)信息[3]。網(wǎng)絡(luò)健康信息在用戶健康服務(wù)方面發(fā)揮巨大作用,其研究主要集中在網(wǎng)絡(luò)健康信息需求、網(wǎng)絡(luò)健康信息搜尋行為和網(wǎng)絡(luò)健康信息質(zhì)量評(píng)估等方面。

在網(wǎng)絡(luò)健康信息需求方面,主要側(cè)重對(duì)不同類型用戶的健康信息需求內(nèi)容、特點(diǎn)的研究。如劉亞君等將用戶群體分為一般用戶和特殊用戶來(lái)探討國(guó)外不同類型用戶健康信息需求特點(diǎn)[4];Valero-Aguilera等發(fā)現(xiàn)乳腺癌和泌尿系統(tǒng)癌癥患者都希望了解不接受治療的后果方面的信息[5]。在網(wǎng)絡(luò)健康信息搜尋行為方面,主要集中在搜尋行為的影響因素研究。施亦龍等提出健康信息搜尋行為受性別、種族、學(xué)歷、收入等因素影響[6];王錳將影響健康信息搜尋行為的因素分為人口學(xué)特征、社會(huì)支持、網(wǎng)絡(luò)支持和信息需求的滿足等五方面[7];Yi等[8]和Mesch等[9]發(fā)現(xiàn)文化差異對(duì)使用互聯(lián)網(wǎng)訪問(wèn)醫(yī)療信息的動(dòng)機(jī)影響。網(wǎng)絡(luò)健康信息種類繁多,來(lái)源廣泛,因而其質(zhì)量評(píng)估也是重要的研究方向。國(guó)內(nèi)目前還沒(méi)有成熟完整的醫(yī)療健康信息評(píng)價(jià)系統(tǒng),而在20世紀(jì)90年代,國(guó)外就有商業(yè)機(jī)構(gòu)、非營(yíng)利性組織、圖書館和個(gè)人等對(duì)網(wǎng)絡(luò)健康信息質(zhì)量問(wèn)題進(jìn)行研究[10],并且存在很多評(píng)價(jià)系統(tǒng),如DISCERN系統(tǒng)等[11];在評(píng)價(jià)機(jī)制方面,評(píng)價(jià)者可以是用戶、第三方認(rèn)證平臺(tái)或者學(xué)科信息門戶;在評(píng)價(jià)維度方面,主要涉及信息內(nèi)容、網(wǎng)站結(jié)構(gòu)和網(wǎng)站服務(wù)等方面[12]。

2.2網(wǎng)絡(luò)健康社區(qū)信息需求研究進(jìn)展

目前,互聯(lián)網(wǎng)醫(yī)療健康信息服務(wù)平臺(tái)數(shù)量巨大、種類繁多,其中既有面向?qū)I(yè)人士的醫(yī)療健康網(wǎng)站,也有面向普通大眾的門戶網(wǎng)站。隨著Web 2.0技術(shù)的發(fā)展,網(wǎng)絡(luò)健康社區(qū)憑借其注重交互的特性,迅速成為廣大用戶搜尋相關(guān)信息的重要平臺(tái)。目前與健康主題相關(guān)的內(nèi)容主要集中在以專家問(wèn)答、健康博客和病友論壇等文本信息為交流互動(dòng)方式的網(wǎng)絡(luò)健康社區(qū)平臺(tái)上,其參與者包括普通民眾、病患人群、病患家屬、專業(yè)醫(yī)師等各種類型的用戶[13]。對(duì)網(wǎng)絡(luò)健康社區(qū)信息需求的研究有助于了解用戶需求,提升網(wǎng)絡(luò)健康社區(qū)服務(wù)水平。例如,金碧漪等以Yahoo!Answers和Diabetic Connect為數(shù)據(jù)來(lái)源,借助統(tǒng)計(jì)分析發(fā)現(xiàn)網(wǎng)絡(luò)健康社區(qū)中有關(guān)糖尿病的信息主題分布特征,并對(duì)在線健康信息服務(wù)提出建議[14];Sun等以Yahoo!Answers中有關(guān)飲食失調(diào)的問(wèn)題為例,通過(guò)詞頻、詞性、情感分析等,總結(jié)出相關(guān)主題[15];Arden等選取400條涉及英國(guó)國(guó)家衛(wèi)生醫(yī)療質(zhì)量標(biāo)準(zhǔn)署發(fā)布的關(guān)于孕中體質(zhì)量控制指導(dǎo)文件的論壇帖子為研究對(duì)象,發(fā)現(xiàn)孕中體質(zhì)量受到很多因素的影響[16];Valero-Aguilera等發(fā)現(xiàn)83%患乳腺癌的女性對(duì)治愈率、存活率以及疾病對(duì)外形的影響等方面的信息感興趣[5]。

網(wǎng)絡(luò)健康信息數(shù)量巨大,網(wǎng)絡(luò)健康社區(qū)形式多樣,關(guān)于用戶信息需求特征的測(cè)度研究也較多,但在測(cè)度對(duì)象、測(cè)度視角和測(cè)度方法上仍有研究空間。在測(cè)度對(duì)象方面,多是以專門的醫(yī)療網(wǎng)站、醫(yī)學(xué)論壇、醫(yī)療社區(qū)、專家問(wèn)答平臺(tái)等為對(duì)象,這類網(wǎng)絡(luò)健康社區(qū)涵蓋主題多、信息內(nèi)容質(zhì)量高、數(shù)據(jù)訪問(wèn)量大,是多數(shù)研究的數(shù)據(jù)來(lái)源;在大眾化在線問(wèn)答社區(qū)方面,以Yahoo!Answers為研究對(duì)象的居多,針對(duì)國(guó)內(nèi)在線問(wèn)答社區(qū),探測(cè)用戶健康信息需求的則很少;在測(cè)度視角上,多針對(duì)某一具體領(lǐng)域,而以時(shí)間為視角探討信息需求主題變化的研究較少;在測(cè)度方法上,多是基于統(tǒng)計(jì)分析的方法(如人工標(biāo)注和詞頻統(tǒng)計(jì)等)總結(jié)用戶信息需求特征。近年來(lái),主題模型LDA被應(yīng)用于科技文獻(xiàn)主題發(fā)現(xiàn)[17]、微博主題及用戶推薦[18]、話題追蹤[19]等領(lǐng)域,也被應(yīng)用于醫(yī)學(xué)領(lǐng)域,如利用LDA和LSA(Latent Semantic Analysis)為醫(yī)學(xué)文本和影像建立分析模型[20];根據(jù)醫(yī)學(xué)主題詞在文獻(xiàn)中的重要程度,采用LDA對(duì)不同時(shí)間窗的主題進(jìn)行抽取,計(jì)算主題間的關(guān)聯(lián)度等[21],但是將LDA應(yīng)用于在線問(wèn)答社區(qū)健康信息主題測(cè)度的研究則較少。

3 網(wǎng)絡(luò)健康社區(qū)信息需求特征測(cè)度研究方案

基于上述內(nèi)容,本文通過(guò)對(duì)測(cè)度對(duì)象、測(cè)度視角和測(cè)度方法的改進(jìn)進(jìn)行研究,并繪制基于時(shí)間和主題視角的特征測(cè)度流程示意圖(見(jiàn)圖1)。

(1)測(cè)度對(duì)象:以中國(guó)最大的在線問(wèn)答社區(qū)“百度知道”為對(duì)象。在線問(wèn)答社區(qū)基于User Generated Content模式建立,是一種供用戶提問(wèn)和回答的知識(shí)分享網(wǎng)站[22],其中的信息已經(jīng)成為普通大眾日常生活、工作的重要參考依據(jù)。在線問(wèn)答社區(qū)健康信息是網(wǎng)絡(luò)社區(qū)健康信息的重要組成部分。與專業(yè)醫(yī)學(xué)網(wǎng)站、醫(yī)學(xué)論壇等相比,在線問(wèn)答社區(qū)有用戶來(lái)源范圍廣、層次多的特點(diǎn),以此為研究對(duì)象更能了解普通大眾的信息需求主題特征;問(wèn)題針對(duì)性強(qiáng),問(wèn)答多是一對(duì)一或一對(duì)多,有助于了解用戶個(gè)性化信息需求;涵蓋領(lǐng)域多,涉及生活、教育、學(xué)習(xí)等眾多領(lǐng)域,可全方位、多角度地了解用戶信息需求。

(2)測(cè)度視角:從時(shí)間和主題兩個(gè)角度進(jìn)行。將數(shù)據(jù)按照不同時(shí)間段進(jìn)行分組,并采用LDA方法確定主題編碼規(guī)則。

(3)測(cè)度方法:結(jié)合LDA主題識(shí)別和人工標(biāo)注等手段確定編碼規(guī)則,通過(guò)分析不同時(shí)間段信息需求的主題分布來(lái)探索其變化趨勢(shì)。

圖1 基于時(shí)間和主題視角的特征測(cè)度流程示意圖

3.1數(shù)據(jù)采集與篩選

百度知道是全球最大的中文互動(dòng)式知識(shí)問(wèn)答分享平臺(tái)。2015年9月,百度知道宣布在其平臺(tái)上解決的問(wèn)題量已突破4億個(gè),成為廣大網(wǎng)民的生活伙伴[23]。其涉及問(wèn)題包括經(jīng)濟(jì)金融、法律法規(guī)、科學(xué)教育等15類,其中和醫(yī)療健康信息有關(guān)的3類(心理分析、健康生活、醫(yī)療衛(wèi)生)。與本文研究主題最相關(guān)的是醫(yī)療衛(wèi)生類,包括皮膚科、兒科、外科、內(nèi)科等。根據(jù)WHO發(fā)布的《全球癌癥報(bào)告2014》,全球癌癥病例將呈現(xiàn)迅猛增長(zhǎng)態(tài)勢(shì),由2012年的1 400萬(wàn)人,預(yù)計(jì)至2035年將達(dá)到2 400萬(wàn)人[24],由此可見(jiàn),癌癥已經(jīng)成為威脅人們健康生活的主要病癥之一。

為保證數(shù)據(jù)有較好的比對(duì)性,本文選取醫(yī)療衛(wèi)生類中的問(wèn)答記錄作為數(shù)據(jù)來(lái)源。在百度知道“醫(yī)療衛(wèi)生”欄目,以“癌癥”為關(guān)鍵詞進(jìn)行檢索,利用八爪魚(yú)數(shù)據(jù)采集工具對(duì)檢索的問(wèn)答記錄結(jié)果進(jìn)行抓取,并輔以人工判讀剔除無(wú)效檢索結(jié)果,截至2015年12月31日,共獲取1 500條問(wèn)答記錄。

3.2文本預(yù)處理

在線問(wèn)答社區(qū)的問(wèn)答記錄來(lái)自網(wǎng)絡(luò)用戶,由于用戶知識(shí)水平和專業(yè)背景各異,以及使用詞匯的極大不確定性,因此數(shù)據(jù)質(zhì)量參差不齊,需要對(duì)其進(jìn)行文本預(yù)處理。本文利用NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,保留與主題分析相關(guān)的高頻詞。

3.3編碼規(guī)則

采用數(shù)據(jù)編碼方法可將眾多數(shù)據(jù)劃分到對(duì)應(yīng)具體類目中,從而使數(shù)據(jù)有序化,因此常被用于社會(huì)化問(wèn)答平臺(tái)的問(wèn)題分析[25]。傳統(tǒng)網(wǎng)絡(luò)健康社區(qū)的數(shù)據(jù)編碼規(guī)則多采用人工方法確定,研究者結(jié)合已有主題詞表,根據(jù)采集數(shù)據(jù)的實(shí)際情況不斷調(diào)整編碼規(guī)則,最終形成主題劃分策略。這種方法簡(jiǎn)單實(shí)用,但人為影響因素大,易出現(xiàn)分類不客觀的情況?;诖?,本文采用LDA和人工結(jié)合的方式確定主題編碼規(guī)則。

LDA是由Blei等提出的主題發(fā)現(xiàn)模型[26],其在概率潛在分析模型(Probabilistic Latent Semantic Analysis,PLSA)的基礎(chǔ)上增加Dirichlet先驗(yàn)分布[27]。LDA是一個(gè)三層貝葉斯概率模型,包含文檔、主題和詞項(xiàng)三層結(jié)構(gòu),可用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛在主題信息。為更好地解釋LDA基本原理,本文對(duì)一些符號(hào)定義說(shuō)明(見(jiàn)表1)。

表1 符號(hào)定義說(shuō)明

將每條問(wèn)答記錄作為一個(gè)單獨(dú)文檔,對(duì)三層貝葉斯概率模型而言,一篇文檔的生成過(guò)程包括(1)選擇N,N—Dir(β),N表示文檔長(zhǎng)度;(2)抽取θm,θm—Dir(ɑ),θm是文檔在主題上的分布;(3)For n = 1 to N;(4)選擇zmn—Multinomial(θm);(5)抽取單詞Wmn—Multinomial(φzmn)。

最終得到若干主題及主題下對(duì)應(yīng)的關(guān)鍵詞,整體主題挖掘效果見(jiàn)圖2。

圖2 主題挖掘效果圖

利用LDA模型對(duì)文檔集合進(jìn)行訓(xùn)練得到相關(guān)參數(shù),包括Topic以及每個(gè)Topic具體對(duì)應(yīng)的主題詞和概率。對(duì)于某一篇文檔,假設(shè)其主題—詞分布不變,借助已有模型,可以探測(cè)其文檔—主題分布,并把其中概率最大的Topic作為該文檔的主題,以此作為文檔歸類的依據(jù)。因?yàn)樵诰€問(wèn)答社區(qū)中的信息涉及醫(yī)學(xué)領(lǐng)域知識(shí),單純依靠LDA分類不能保證完全準(zhǔn)確,因此需結(jié)合其他信息,如PubMed、ACS(American Cancer Society)和中國(guó)抗癌協(xié)會(huì)等相關(guān)文獻(xiàn),并最終形成癌癥信息主題劃分策略,見(jiàn)表2。

表2 癌癥主題分類策略

續(xù)表

從表2可見(jiàn),用戶的信息需求主要集中在基礎(chǔ)病理知識(shí)、預(yù)防、診斷、治療及其他等方面。這些信息需求主題與癌癥疾病的特點(diǎn)密不可分,由于癌癥逐漸成為常見(jiàn)病、多發(fā)病,死亡率極高,發(fā)病初期不易被察覺(jué),因而用戶對(duì)病因、癥狀等基礎(chǔ)病理知識(shí)方面的信息需求尤為迫切,也占據(jù)較大比重。癌癥發(fā)病與環(huán)境有較大關(guān)系,隨著健康意識(shí)的提高,用戶對(duì)疾病預(yù)防方面的信息需求逐漸增多。此外,不同類型人群信息需求的內(nèi)容不同,未患癌用戶較多關(guān)注疾病預(yù)防、診斷檢查方面信息;已患病用戶和其家屬,多關(guān)注藥物手術(shù)治療以及日常生活注意事項(xiàng)等信息;部分用戶關(guān)注社會(huì)救助,如商業(yè)保險(xiǎn)、抗癌協(xié)會(huì)等信息。癌癥對(duì)患者心理產(chǎn)生巨大影響,使其出現(xiàn)焦慮、恐懼、抑郁等不良情緒,患者及其家屬十分關(guān)注心理健康輔導(dǎo)、情感安撫方面的信息。對(duì)教育研究方面信息有需求的用戶,基本不是病患或其家屬,多屬于學(xué)生或教育研究者。

4 網(wǎng)絡(luò)健康社區(qū)信息需求特征測(cè)度結(jié)果分析

本文根據(jù)實(shí)際采集情況將數(shù)據(jù)按照時(shí)間維度分為3組。首先,對(duì)數(shù)據(jù)進(jìn)行整體描述;其次,分別對(duì)3組數(shù)據(jù)進(jìn)行文本預(yù)處理和主題編碼;最后,對(duì)3組數(shù)據(jù)信息需求內(nèi)容進(jìn)行特征測(cè)度,探測(cè)用戶信息需求主題分布和變化,并預(yù)測(cè)其發(fā)展趨勢(shì)。

4.1數(shù)據(jù)整體情況描述

為保證不同分組有足夠數(shù)據(jù)量,也為比較不同時(shí)間段信息需求的主題變化,根據(jù)不同時(shí)間的數(shù)據(jù)采集量和采集總量,將數(shù)據(jù)分為2005—2009年、2010—2012年、2013—2015年,數(shù)據(jù)量總體呈逐年上升趨勢(shì)(2015年采集量較少),這和實(shí)際發(fā)展情況相符。每個(gè)時(shí)間段為一組,保證每組約500條問(wèn)答記錄,具體情況見(jiàn)表3。

表3 數(shù)據(jù)整體情況描述

首先,對(duì)3組數(shù)據(jù)分別進(jìn)行文本預(yù)處理,將每組所有記錄合并為一個(gè)文檔,經(jīng)過(guò)引入停用詞表、去除無(wú)意義詞、分詞等操作,探測(cè)其中關(guān)鍵詞,具體結(jié)果見(jiàn)表4。

因?yàn)閿?shù)據(jù)采集以用戶提問(wèn)中包含“癌癥”為依據(jù),因此“癌癥”“腫瘤”等關(guān)鍵詞頻次較高。權(quán)重主要由詞頻TF、倒轉(zhuǎn)文檔頻率TDF及關(guān)鍵詞出現(xiàn)位置3個(gè)指標(biāo)綜合決定。

4.2信息需求主題分布特征

從表5可見(jiàn),不同時(shí)間段用戶信息需求內(nèi)容主題分析包括兩方面。一是主題分類分析,即根據(jù)編碼規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類處理,形成各自類目數(shù)據(jù),每組都對(duì)應(yīng)若干子類目文檔。二是關(guān)鍵詞提取,首先,對(duì)各組文檔進(jìn)行處理,將每個(gè)目錄下所有詞出現(xiàn)總頻次和所有詞數(shù)目的商作為選取關(guān)鍵詞的閾值,保留高于閾值的詞;其次,借助LDA訓(xùn)練模型,得到相應(yīng)主題對(duì)應(yīng)的高頻詞;最終,確定各類目關(guān)鍵詞,并進(jìn)行主題分析。

表4 分組數(shù)據(jù)高頻關(guān)鍵詞部分情況

在實(shí)際操作中,不能將LDA方法作為文檔歸類的唯一手段,因?yàn)椴糠謫?wèn)題可能涉及若干類目,如出現(xiàn)某一個(gè)問(wèn)答記錄屬于兩個(gè)主題情況,針對(duì)此類問(wèn)題,要以實(shí)際解答的內(nèi)容為依據(jù),將其歸入較符合的主題類目。此外,同一關(guān)鍵詞也會(huì)被歸入不同的類目,例如食物類關(guān)鍵詞,當(dāng)用戶詢問(wèn)“哪些食物可以預(yù)防癌癥”時(shí),則應(yīng)將其歸入疾病預(yù)防類目;當(dāng)用戶詢問(wèn)“癌癥患者是否可以食用某類食物”時(shí),應(yīng)將其歸入治療類目。此外,由于某些關(guān)于癥狀的問(wèn)答記錄無(wú)法判斷用戶的真實(shí)意圖是簡(jiǎn)單咨詢癌癥的基礎(chǔ)知識(shí),還是通過(guò)詢問(wèn)判斷是否得病,不能簡(jiǎn)單將這類問(wèn)題歸入“基礎(chǔ)病理知識(shí)”類,也不能歸入“診斷、檢查”類,因此將“癥狀”作為一個(gè)單獨(dú)子類目。

表5 主題編碼結(jié)果

4.3信息需求主題分布變化

4.3.1用戶信息需求主題整體分布特征

對(duì)不同分組數(shù)據(jù)進(jìn)行編碼和主題分析后,發(fā)現(xiàn)3組數(shù)據(jù)主題分布基本集中在基礎(chǔ)病理知識(shí)、疾病預(yù)防、診斷檢查、治療和其他(社會(huì)保障、情感生活和教育研究)方面,并呈現(xiàn)較一致的分布狀態(tài)。其中基礎(chǔ)病理知識(shí)、疾病預(yù)防以及診斷、治療這三方面是用戶較為關(guān)心的,相關(guān)問(wèn)答記錄數(shù)也較多,占有較大的比重。以2010—2012年數(shù)據(jù)為例,可以看出各主題分布的大致情況,見(jiàn)圖3。

圖3 2010—2012年各主題分布情況

國(guó)外關(guān)于在線問(wèn)答社區(qū)癌癥信息需求的研究多以Yahoo!Answers為研究對(duì)象[28]。在線問(wèn)答社區(qū)中用戶對(duì)癌癥的信息需求可分為醫(yī)學(xué)類和非醫(yī)學(xué)類,醫(yī)學(xué)類用戶較為關(guān)注治療方面信息,非醫(yī)學(xué)類,關(guān)于醫(yī)院或醫(yī)生的建議是用戶經(jīng)常討論的話題;在具體類型癌癥中,乳腺癌是用戶關(guān)注最多的病癥,其次是宮頸癌和肝癌[29];此外,其他學(xué)者發(fā)現(xiàn)患者和醫(yī)療保健人員更關(guān)注預(yù)防和診斷類信息[30]。由此可見(jiàn),國(guó)內(nèi)外用戶在網(wǎng)絡(luò)健康社區(qū)信息需求主題存在細(xì)微差別。

4.3.2信息需求主題分布變化趨勢(shì)

用戶對(duì)健康信息的需求也呈現(xiàn)出一些變化,見(jiàn)圖4。

圖4 3組數(shù)據(jù)主題分布情況

(1)用戶對(duì)基礎(chǔ)病理知識(shí)的需求雖然仍占比較大,但總體呈現(xiàn)下降趨勢(shì)。這與癌癥疾病自身特點(diǎn)緊密相關(guān),用戶較為關(guān)心諸如“癌癥和腫瘤的關(guān)系”“癌癥病因”“致死機(jī)理”等基礎(chǔ)性問(wèn)題。隨著健康意識(shí)和知識(shí)的增強(qiáng),人們?cè)絹?lái)越關(guān)注癌癥信息,對(duì)其了解也越來(lái)越深入,因而對(duì)基礎(chǔ)病理知識(shí)方面的信息需求呈現(xiàn)下降趨勢(shì)。

(2)關(guān)于癌癥預(yù)防和治療方面的信息需求呈現(xiàn)上升趨勢(shì)。特別是癌癥預(yù)防中,經(jīng)過(guò)分析具體的文本信息,發(fā)現(xiàn)關(guān)于健康生活習(xí)慣及抗癌食品等討論居多。從有關(guān)癌癥癥狀問(wèn)題中已逐漸可以判斷用戶意圖是單純知識(shí)普及還是進(jìn)行自我診斷,說(shuō)明用戶對(duì)待癌癥的態(tài)度有所轉(zhuǎn)變。

(3)關(guān)于用戶對(duì)其他方面的信息需求,如癌癥的社會(huì)救助、癌癥對(duì)患者以及家庭、社會(huì)的影響等,在2013年前沒(méi)有明顯變化,從2013年之后則得到較多關(guān)注。

4.3.3在線問(wèn)答社區(qū)存在問(wèn)題

在線問(wèn)答社區(qū)健康信息存在一些問(wèn)題。(1)無(wú)法確定用戶的真實(shí)意圖。比如“胃癌的癥狀是長(zhǎng)時(shí)間的反復(fù)胃痛嗎?”和“我這幾個(gè)月一直胃痛,是胃癌嗎?”兩個(gè)問(wèn)題,后者可以判斷出用戶在進(jìn)行簡(jiǎn)單自我診斷,而前者無(wú)法判斷用戶是簡(jiǎn)單詢問(wèn)還是主動(dòng)自我診斷,在實(shí)際歸類時(shí)可能會(huì)出現(xiàn)偏差。(2)信息質(zhì)量參差不齊。由于用戶自身知識(shí)背景和素質(zhì)等存在較大差異,因此提問(wèn)、回答的質(zhì)量差別較大。在實(shí)際操作中,相互參考答案現(xiàn)象比較嚴(yán)重,甚至出現(xiàn)答非所問(wèn)的情況,給編碼工作和文本處理帶來(lái)困難,同時(shí)也影響在線問(wèn)答社區(qū)的健康信息服務(wù)水平。(3)類目不夠細(xì)化。根據(jù)專業(yè)醫(yī)學(xué)主題詞表和相關(guān)網(wǎng)站等資料,癌癥種類涉及幾十種,年齡、性別、地區(qū)等均是癌癥相關(guān)影響因素。但在線問(wèn)答社區(qū)對(duì)相關(guān)信息的類目劃分不夠具體,不利于用戶個(gè)性化信息的獲取。

5 總結(jié)

分析在線問(wèn)答社區(qū)中健康信息需求主題分布特征和變化趨勢(shì),探討其中的現(xiàn)象、原因和存在問(wèn)題,可以對(duì)在線問(wèn)答社區(qū)健康信息服務(wù)提供三點(diǎn)啟示。

(1)對(duì)在線問(wèn)答社區(qū)健康平臺(tái)服務(wù)者而言,要明確用戶感興趣的健康主題以及各主題的差異程度。用戶對(duì)不同種類、不同主題的健康信息需求不同,例如,糖尿病是慢性疾病,其治療多依靠病人在日常生活的自我調(diào)理,因而用戶較為關(guān)注日常管理[31];而癌癥的形成多與遺傳或者環(huán)境因素相關(guān),良好的生活習(xí)慣會(huì)降低患癌的可能性,因此用戶對(duì)于預(yù)防方面的信息有較大需求。

(2)細(xì)化類目,提供更加個(gè)性化的信息服務(wù)。在線問(wèn)答社區(qū)能夠給廣大用戶提供健康指導(dǎo),但其信息處在內(nèi)容量大且雜亂無(wú)章的狀態(tài)。在線問(wèn)答社區(qū)應(yīng)提高專業(yè)水準(zhǔn),針對(duì)不同領(lǐng)域的健康信息進(jìn)行主題挖掘分析,對(duì)用戶創(chuàng)造的信息進(jìn)行管理,為其創(chuàng)建科學(xué)、專業(yè)、更加細(xì)化的類目體系,引導(dǎo)用戶發(fā)現(xiàn)自身真正需要的信息,并以主題為依據(jù)進(jìn)行分類導(dǎo)航,不同主題側(cè)重程度根據(jù)用戶關(guān)注程度進(jìn)行區(qū)分,以此設(shè)置導(dǎo)航節(jié)點(diǎn)和更加人性化的服務(wù)界面,從而提高在線問(wèn)答社區(qū)健康信息的服務(wù)質(zhì)量。

(3)增強(qiáng)用戶對(duì)健康信息的管理。除在線問(wèn)答社區(qū)管理人員對(duì)信息加強(qiáng)管理外,還應(yīng)允許用戶添加社會(huì)化標(biāo)簽,引導(dǎo)用戶對(duì)自身健康信息進(jìn)行歸類。社會(huì)化標(biāo)簽作為用戶直接產(chǎn)生的數(shù)據(jù),可以直接反映用戶需求及其變化,為在線問(wèn)答社區(qū)更好的信息服務(wù)提供依據(jù)。

當(dāng)然,本文存在諸多不足之處,接下來(lái)進(jìn)行更深入的研究。

(1)為保證數(shù)據(jù)有較好的比對(duì)性,使3組數(shù)據(jù)量相同,同時(shí)導(dǎo)致各組間界限不明顯,因而用戶需求變化雖呈現(xiàn)一定趨勢(shì),但不甚明顯。接下來(lái)在測(cè)度體系中要擴(kuò)大數(shù)據(jù)量,應(yīng)包含各類型網(wǎng)絡(luò)健康社區(qū)和信息,還要細(xì)化研究粒度,保證其科學(xué)性。在分類操作中,采用LDA進(jìn)行數(shù)據(jù)訓(xùn)練提高科學(xué)性,但要結(jié)合人工判斷,思考如何結(jié)合在線問(wèn)答社區(qū)信息特點(diǎn)對(duì)LDA模型進(jìn)行改造,從而提高模型效率和準(zhǔn)確度。

(2)在研究中發(fā)現(xiàn),單純根據(jù)用戶問(wèn)答記錄不能完全判斷用戶的意圖和情感狀態(tài),后續(xù)研究應(yīng)該綜合各種因素,探究用戶真實(shí)需求和情感傾向,包括對(duì)不同群體的需求特征以及需求的影響因素等方面的研究。

(3)在線問(wèn)答社區(qū)中的信息多是用戶自發(fā)組織形成,其質(zhì)量參差不齊,因而健康信息質(zhì)量評(píng)估也是重要研究方面。

[1] 國(guó)務(wù)院發(fā)布醫(yī)療健康領(lǐng)域“互聯(lián)網(wǎng)+”行動(dòng)指導(dǎo)意見(jiàn)(附全文)[EB/OL].(2015-07-06)[2016-01-12].http://news.hc3i.cn/art/201507/33839.htm.

[2] FOX S,DUGGAN M.Health Online 2013[EB/OL].[2016-01-12].http:// www.pewinternet.org/2013/01/15/health-online-2013/.

[3] MLA,CAPHIS.The librarian's role in the provision of consumer health information and patient education[EB/OL].[2016-01-20].http://www.ncbi. nlm.nih.gov/pmc/articles/PMC299415/pdf/mlab00375-0088.pdf.

[4] 劉亞君,蘭小筠.國(guó)外網(wǎng)絡(luò)健康信息用戶研究進(jìn)展及啟示[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2011(7):38-41.

[5] VALERO-AGUILERA B,BERMúDEZ-TAMAYO C,JIMéNEZPERNETT J, et al.Information needs and internet use in urological and breast cancer patients[J].Supportive Care in Cancer Official Journal of the Multinational Association of Supportive Care in Cancer,2014,22(2):545-552.

[6] 施亦龍,許鑫.在線健康信息搜尋研究進(jìn)展及其啟示[J].圖書情報(bào)工作,2013(24):123-131.

[7] 王錳.美國(guó)網(wǎng)絡(luò)健康信息用戶獲取行為的影響因素研究[J].信息資源管理學(xué)報(bào),2013(3):47-58.

[8] YI Y J,STVILIA B,MON L. Cultural influences on seeking quality health information: an exploratory study of the Korean community[J]. Library & Information Science Research, 2012,34(1):45-51.

[9] MESCH G,MANO R,TSAMIR J.Minority status and health information search: a test of the social diversification hypothesis[J]. Social Science & Medicine, 2012,75(5):854-858.

[10] 魏萌萌,馬敬東,夏晨曦.國(guó)內(nèi)外網(wǎng)絡(luò)健康信息質(zhì)量評(píng)估工作研究綜述[J].中國(guó)衛(wèi)生事業(yè)管理,2012(7):551-553.

[11] Discern.Quality criteria for online consumer health information on treatment choices[EB/OL].[2016-01-30].http://www.discern.org.uk/ hoti.php.

[12] 孫麗,曹錦丹.國(guó)外網(wǎng)絡(luò)健康信息質(zhì)量評(píng)價(jià)系統(tǒng)的應(yīng)用現(xiàn)狀及啟示[J].醫(yī)學(xué)與社會(huì),2011(7):15-17.

[13] 呂英杰.網(wǎng)絡(luò)健康社區(qū)中的文本挖掘方法研究[D].上海:上海交通大學(xué),2013.

[14] 金碧漪,許鑫.網(wǎng)絡(luò)健康社區(qū)中的主題特征研究[J].圖書情報(bào)工作,2015(12):100-105.

[15] SUN O J,HE D,WEI J,et al.Linguistic characteristics of eating disorder questions on Yahoo! Answers content, style, and emotion[J].Proceedings of the American Society for Information Science & Technology,2013,50(1):1-10.

[16] ARDEN M A,DUXBURY A M,SOLTANI H.Responses to gestational weight management guidance: a thematic analysis of comments made by women in online parenting forums[J].Bmc Pregnancy & Childbirth,2014,14(1):1-12.

[17] 王平.基于層次概率主題模型的科技文獻(xiàn)主題發(fā)現(xiàn)及演化[J].圖書情報(bào)工作, 2014,58(22):70-77.

[18] 邸亮,杜永萍.LDA模型在微博用戶推薦中的應(yīng)用[J].計(jì)算機(jī)工程,2014,40(5):1-6,11.

[19] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計(jì)算機(jī)學(xué),2011(S1):136-139,152.

[20] 李博.基于LDA和LSA的醫(yī)學(xué)文本和影像分析模型及應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué), 2012.

[21] 安新穎.基于LDA的醫(yī)學(xué)新主題監(jiān)測(cè)模型研究[C]//中華醫(yī)學(xué)會(huì)第十八次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議.中華醫(yī)學(xué)會(huì)第十八次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文集.成都:中華醫(yī)學(xué)會(huì),2012.

[22] SHAH C,OH J S,OH S.Exploring characteristics and effects of user participation in online social Q & A sites[J/OL].First Monday,2008,13(9)[2016-01-13].https://www.researchgate.net/publication/ 220167918_Exploring_Characteristics_and_Effects_of_User_Participation_ in_Online_Social_QA_Sites. DOI:10.5210/fm.v13i9.2182 ? Source: DBLP.

[23] 中國(guó)新聞網(wǎng).百度知道已解決問(wèn)題量破4億 解決13億人困惑[EB/OL].(2015-09-21)[2016-01-30].http://www.chinanews.com/it/2015/09-21/7536004. shtml.

[24]世界衛(wèi)生組織(WHO)發(fā)表《全球癌癥報(bào)告2014》[EB/OL].[2016-01-30]. http://web2.fimmu.com/yxy/new/news/show/?id=476.

[25] ZHAGN J, ZHAO Y. A user term visualization analysis based on a social question and answer log[J].Information Processing & Management An International Journal, 2013,49(5):1019-1048.

[26] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3): 993-1022.

[27] HOFMANN T.Probabilistic latent semantic analysis[C]//Proceedings of the 15th conference on uncertainty in artificial intelligence.San Francisco:Morgan Kaufmann Publishers,1999:289-296.

[28] SANGHEE O, Zhang Y, Min S P. Cancer information seeking in Social Q & A: identifying health-related topics in cancer questions on Yahoo!Answers [J/ OL].Informating Research,2016 [2016-08-30].http://www.researchgate.net/ publication/305465646_Cancer_Information_Seeking_in_Social_QA_I dentifying_Health-Related_Topics_in_Cancer_Questions_on_YahooAnswers.

[29] PARK H, MIN S P.Cancer information-seeking behaviors and information needs among Korean Americans in the online community[J]. Journal of Community Health,2014,39(2):213-220.

[30] CHO J, NOH H I, HA M H, et al. What kind of cancer information do Internet users need?[J].Supportive Care in Cancer,2011,19(9):1465-1469.

[31] 金碧漪,許鑫.社會(huì)化問(wèn)答社區(qū)中糖尿病健康信息的需求分析[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2014,(12):37-42.

李重陽(yáng),女,1991年生,情報(bào)學(xué)碩士。

翟?shī)檴櫍?986年生,副教授,E-mail: Zhais@mail.ccnu.edu.cn。

鄭路,男,1990年生,情報(bào)學(xué)博士。

Measurement of Information Demand Characteristics in Online Health Community: an Empirical Analysis Based on Time and Theme Perspective

LI ChongYang, ZHAI ShanShan, ZHENG Lu
(School of Information Management, Central China Normal University, Wuhan 430079, China)

Taking cancer as an example, this paper measures the features of information demand in online Q&A platform from the perspectives of time and theme. It gets the features of information demand by the methods of dividing the data into different groups and coding based on LDA.The results show that the need for cancer information is mainly focused on some topics and changing over time.This paper also analyses the problems of online Q&A platform. All these finds are benefit to improve online health information service.

Online Q & A Platform; Information Demand; Characteristics Measurement; Cancer

G203;R730

10.3772/j.issn.1673-2286.2016.9.006

2016-08-31)

* 本研究得到教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于用戶興趣挖掘的電子政務(wù)門戶知識(shí)整合研究”(編號(hào):13YJC870029)資助。

猜你喜歡
測(cè)度癌癥社區(qū)
三個(gè)數(shù)字集生成的自相似測(cè)度的乘積譜
R1上莫朗測(cè)度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
社區(qū)大作戰(zhàn)
幼兒園(2021年6期)2021-07-28 07:42:08
非等熵Chaplygin氣體測(cè)度值解存在性
Cookie-Cutter集上的Gibbs測(cè)度
留意10種癌癥的蛛絲馬跡
3D打印社區(qū)
在社區(qū)推行“互助式”治理
癌癥“偏愛(ài)”那些人?
海峽姐妹(2018年7期)2018-07-27 02:30:36
對(duì)癌癥要恩威并施
特別健康(2018年4期)2018-07-03 00:38:08
高邮市| 金塔县| 剑川县| 北流市| 元朗区| 图木舒克市| 南汇区| 巍山| 丹寨县| 竹溪县| 宜君县| 文昌市| 北宁市| 吐鲁番市| 勐海县| 白银市| 呼伦贝尔市| 兴海县| 西城区| 会东县| 常德市| 陈巴尔虎旗| 深泽县| 榆中县| 重庆市| 乌拉特前旗| 芒康县| 祁门县| 隆子县| 新野县| 灵台县| 阳高县| 万盛区| 德令哈市| 芜湖县| 包头市| 亚东县| 湟源县| 黄大仙区| 景泰县| 沐川县|