趙艷斌 張朋柱
文章編號:1005-9679(2022)03-0119-07
摘要:對健康知識抽取關(guān)鍵信息并進(jìn)行有效分類,是提高用戶檢索和使用相關(guān)防控知識效率的關(guān)鍵。首先,搜集得到的大量有效的心內(nèi)健康知識,進(jìn)行了有效的數(shù)據(jù)預(yù)處理和人工標(biāo)注。其次,基于Word2Vec的skip_gram訓(xùn)練模型搭建了文本詞向量。接著,根據(jù)知識分類的詞性、句法的特點(diǎn),利用句法分析將抽取出來的關(guān)鍵內(nèi)容進(jìn)行了有效分類。實(shí)驗(yàn)結(jié)果顯示該方法在健康知識分類上有效,分類的精確率能夠達(dá)到80%以上,能夠很好地實(shí)現(xiàn)對健康知識的三分類。該分類方法為用戶使用健康知識提供了指引,也為探討知識質(zhì)量和研究方向提供了有效的分類統(tǒng)計(jì)基礎(chǔ)。
關(guān)鍵詞:文本分類;Word2Vec;句法分析;健康防控知識;用戶應(yīng)用
中圖分類號:TP301
文獻(xiàn)標(biāo)志碼:A
Researchoncardiovascularhealthknowledgeclassificationbasedonword2vecandsyntacticanalysis
ZHAOYanbinZHANGPengzhu
(AntalCollegeEconomicsManagement,ShanghaiJiaoTongUniversity,Shanghai200030,China)
Abstract:Howtoextractkeyinformationfromhealthknowledgeandclassifyiteffectivelyisthekeytoimprovetheefficiencyofusers'retrievalanduseofrelevantpreventionandcontrolknowledge.Firstly,alargenumberofeffectiveknowledgeaboutthehealthofheartdiseaseiscollected,andcarriedoutdatapreprocessingandmanualannotation.Secondly,thewordembeddingsisconstructedbasedonword2vec'sskipgramtrainingmodel.Then,accordingtothecharacteristicsofpartofwordandsyntaxofknowledgeclassification,thekeycontentextractediseffectivelyclassifiedbysyntacticanalysis.Theexperimentalresultsshowthatthismethodiseffectiveintheclassificationofhealthknowledge,theaccuracyrateofclassificationcanreachmorethan80%.Itcanperfectlyachievethethreeclassificationofhealthknowledge.Thisclassificationmethodnotonlyprovidesguidanceforuserstousehealthknowledge,butalsoprovidesaneffectivestatisticalbasisforknowledgequalityandresearchdirection.
Keywords:textclassification;Word2Vec;syntacticanalysis;healthknowledge;applicationguidelines
近年來,我國心血管病致死率率不斷攀升,至2018年現(xiàn)有患者2.9億人,心血管疾病高居死亡原因首位。不正確的生活、飲食習(xí)慣是導(dǎo)致心血管疾病的主要原因,而傳播健康知識是改變患者健康行為的基礎(chǔ),因此需要相關(guān)的心內(nèi)防控科學(xué)知識方案來引導(dǎo)人們。
對于健康知識的用戶即患者、醫(yī)生和相關(guān)保健預(yù)防的人群來說,健康網(wǎng)站上的信息紛繁復(fù)雜,評價(jià)標(biāo)準(zhǔn)不一。用戶想對疾病進(jìn)行防控時(shí),卻不知如何篩選最相關(guān)的知識、判斷該方案是否具有可操作性以及如何實(shí)施。此外,對于相關(guān)研究人員來說,如何評判健康網(wǎng)站也是一個(gè)重要的問題,需要對健康網(wǎng)站上的知識信息進(jìn)行評判。出于對用戶需求的滿足,對健康知識進(jìn)行分類,并作為網(wǎng)站評判的標(biāo)準(zhǔn),是十分有必要的。
文本分類是按照預(yù)先設(shè)定的規(guī)則將文本智能化切分、定類的分類方法。目前,針對中文文本的分類研究已取得一些成果,主要的分類方法有KNN最近鄰分類、樸素貝葉斯分類、SVM支持向量機(jī)等。但是由于中文的句法結(jié)構(gòu)復(fù)雜等特征,這些不考慮具體語法、語義的機(jī)器學(xué)習(xí)方法很難達(dá)到較高的準(zhǔn)確率。為了彌補(bǔ)這些不足,逐漸又結(jié)合句法語義分析進(jìn)行分類,Katz等人把文本用(主謂賓)三元組表示。
由于目前對健康知識分類的文獻(xiàn)不多,本文針對性地提出了一種根據(jù)Word2Vec構(gòu)建詞向量抽取關(guān)鍵詞句并依據(jù)句法分析進(jìn)行分類的方法,分類的準(zhǔn)確率達(dá)到80%~90%。本文將防控知識分類,清晰了方案知識的可操作性、整理知識之間的關(guān)系,為用戶應(yīng)用提供了基礎(chǔ)。
1文獻(xiàn)綜述
自2000年以來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,健康網(wǎng)站為用戶提供了大量相關(guān)的健康知識。目前如健康網(wǎng)站39健康網(wǎng)、中華康網(wǎng)、尋醫(yī)問藥網(wǎng),均是中國優(yōu)質(zhì)醫(yī)療保健信息與在線健康服務(wù)平臺。在對健康網(wǎng)站用戶調(diào)查中,有70%左右的用戶認(rèn)為在網(wǎng)上獲取健康信息比較方便,對健康、防病、營養(yǎng)知識的需求均占20%以上,但是對網(wǎng)站上信息的不滿意率達(dá)41.03%,集中在健康網(wǎng)站的信息分類、可操性和有效性方面。
國內(nèi)外對健康信息、健康網(wǎng)站研究的文獻(xiàn),大致可以分為對健康信息的質(zhì)量/可使用性、傳播性、對用戶的影響和對在線健康網(wǎng)站評價(jià)等方向。對健康信息傳播性、用戶行為已有不少文獻(xiàn)做了研討,如探究健康用戶關(guān)系網(wǎng)絡(luò)動(dòng)態(tài)演化、用戶回帖行為影響機(jī)制等。
對于健康社區(qū)/網(wǎng)站而言,健康知識的質(zhì)量和可信性會影響到用戶采納及服務(wù)體驗(yàn)。自20世紀(jì)末,國內(nèi)外逐步對健康網(wǎng)站信息服務(wù)質(zhì)量評價(jià)建立了多種評價(jià)方法和評價(jià)標(biāo)準(zhǔn)。Wilson提出了五種評價(jià)標(biāo)準(zhǔn),在其用戶評價(jià)標(biāo)準(zhǔn)指南中,NetScoring共包括49個(gè)健康評鑒指標(biāo),可分為健康信息的可信度、內(nèi)容等八大類。
而對健康信息本身質(zhì)量評價(jià)/可使用性研究的文獻(xiàn)缺少相應(yīng)可靠的評斷方法。這就導(dǎo)致用戶在閱讀健康信息時(shí)無法判斷該信息是否完備、可操作,加上冗余重復(fù)的知識,很容易導(dǎo)致用戶不知道如何采用,大大降低了健康知識的實(shí)用性。此外,很多標(biāo)的如食鹽、雞蛋黃等都有明顯的食用范圍,一些食材還有特有的操作方法。這些問題的存在,都會造成實(shí)用性大打折扣。
2相關(guān)工作
2.1Word2Vec詞向量方法
Hinton1986年提出了用神經(jīng)網(wǎng)絡(luò)進(jìn)行分布式表征。2003年,Bengio提出了一個(gè)三層神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練語言模型的同時(shí)得到了詞向量基本模型neuralnetworklanguagemodel(NNLM)。Word2Vec是Mikolov提出的一種神經(jīng)網(wǎng)絡(luò)語言模型,有CBOW和Skip_gram訓(xùn)練模式。CBOW訓(xùn)練模型是由該預(yù)測的特征詞的上下文詞向量輸入來輸出得到該特征詞的詞向量,數(shù)學(xué)表達(dá)式為
P(Wt|∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k))。Wt為目標(biāo)詞匯,通過上下文k大小窗口的詞預(yù)測其出現(xiàn)的概率,結(jié)構(gòu)如圖1所示。
Skip_gram是給定當(dāng)前詞的詞向量來預(yù)測對應(yīng)上下文的詞向量,數(shù)學(xué)表達(dá)式為
P(∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k)|Wt),結(jié)構(gòu)如圖2所示。
兩個(gè)訓(xùn)練模型中,Skip_gram模型訓(xùn)練時(shí)間較長、精度更高,所以本文采用此模型,窗口k為5。
2.2句法分析
句法分析中句法結(jié)構(gòu)(主謂賓定狀補(bǔ))和依存結(jié)構(gòu)(遞進(jìn)、轉(zhuǎn)折、從屬等)是目前研究最廣泛的兩類文法體系。句法分析確定語句中的“主謂賓定狀補(bǔ)”等語法成分,并分析語法成分之間的關(guān)系,以此確定句法結(jié)構(gòu)或詞匯間依存關(guān)系。句法分析,可進(jìn)行語義分析、語句傾向、答案抽取等,適用于復(fù)雜結(jié)構(gòu)的較長語句,以及缺少大量標(biāo)注樣本的情況,目前以哈工大ltp、StanfordParser句法分析工具為代表。當(dāng)前句法分析難度還很大,準(zhǔn)確度為80%~90%。
3實(shí)驗(yàn)
3.1數(shù)據(jù)來源
本文數(shù)據(jù)是在健康管理系統(tǒng)開發(fā)過程中,于文獻(xiàn)、醫(yī)學(xué)期刊等搜集而來。由于所參與的國家基金研究方向?yàn)樾难芗膊》揽?,因此?shù)據(jù)以心內(nèi)防控知識為主。其中,健康網(wǎng)站39健康網(wǎng)、中華康網(wǎng)、尋醫(yī)問藥網(wǎng),擁有豐富內(nèi)容與龐大用戶。經(jīng)過去重、清洗共獲得551條數(shù)據(jù),每條數(shù)據(jù)長度為5~200字,屬于較短文本。
3.2分類依據(jù)
預(yù)防與管控的邏輯知識是指如何從收集到的健康知識出發(fā),針對知識條目中的標(biāo)的物進(jìn)行方案的實(shí)施和操作。當(dāng)然針對不同精確度的健康知識,所需要的標(biāo)的物實(shí)施程度也不同。所以,在方案實(shí)施階段,根據(jù)知識方案的量化性、可操作性,可將知識方案劃分為三種類型:定性知識、定量知識、實(shí)施知識。根據(jù)每條知識所含元素的不同,可以將其劃分為不同層級的知識管理方案。
3.2.1三種知識的作用劃分
定性知識的作用主要是傳遞出標(biāo)的評價(jià),如某事物的正負(fù)情感(宜、不宜)給人在整體上的認(rèn)知,如“控制飲酒”。該條知識就很明確地傳遞出對于“飲酒”是負(fù)向的情感傾向。其中,“飲酒”是動(dòng)詞+名詞構(gòu)成的賓語,“控制”是動(dòng)詞,構(gòu)成了句子的謂語,整個(gè)句子為謂賓結(jié)構(gòu)。
定量知識的標(biāo)的在執(zhí)行或者判斷中所涉及的程度或者數(shù)量也進(jìn)一步量化,以便給人更直觀、具體的信息,如“每天不超過100g葡萄酒為宜”。該條知識就在控制飲酒的負(fù)向情感上進(jìn)一步量化,給出了“不超過100g”的量化標(biāo)準(zhǔn)。
實(shí)施知識就是一個(gè)可以執(zhí)行的方案,而定性知識只知道標(biāo)的和情感,定量知識有標(biāo)的、情感量化后的實(shí)施范圍,但是缺少實(shí)施條件和實(shí)施順序等。因此,在實(shí)施知識中實(shí)施條件(時(shí)間、地點(diǎn)等)和實(shí)施順序(多并列語句)就需要加入幫助確定標(biāo)的操作方法,如“空腹、睡覺前或感冒時(shí),不宜飲酒。此外時(shí)間,控制飲酒,每日飲酒20~70g、每周飲酒5~7杯,以每天不超過100g葡萄酒為宜”。
3.2.2三種知識劃分標(biāo)準(zhǔn)
定性知識:名詞是標(biāo)的,形容詞、動(dòng)詞是核心,只有簡單的定性判斷,如“多吃、少吃、多喝”等。
定量知識:名詞是標(biāo)的,形容詞、量詞是核心,通過形容詞進(jìn)行定性、量詞規(guī)范范圍,如“每日/飲酒/20~70g,每天/吃/5~10g/干品黑木耳”。
實(shí)施知識:動(dòng)詞(如何實(shí)施)、并列語句(多條分句,實(shí)施次序)是核心,狀語成分(時(shí)間、地點(diǎn)、先后順序)是實(shí)施動(dòng)作的說明,量詞(實(shí)施范圍)是精度補(bǔ)充,如“赤小豆/適量/,浸泡/半日【后】,【同】粳米/100克,煮粥。每日/1次”。
3.2.3三種知識辨析
首先,對其中一條知識進(jìn)行關(guān)鍵詞句抽取,可得:“速度:最好保持每分鐘60~80米的速度;時(shí)間:每天堅(jiān)持走路30~60分鐘,并長期堅(jiān)持;放松:運(yùn)動(dòng)后要讓雙腳徹底放松,可用熱水熱敷,并由下至上按摩雙腿?!?/p>
其次,進(jìn)行句法分析:“【速度】:最好/保持/每分鐘60~80米的/速度/;【時(shí)間】:每天/堅(jiān)持走路/30~60分鐘/,【并】長期堅(jiān)持;【放松】:運(yùn)動(dòng)后/要讓雙腳/徹底放松,可用/熱水/熱敷/,【并】由下至上/按摩/雙腿?!?/p>
該知識具有多個(gè)并列的分句,其中還有表示并列、遞進(jìn)的語詞,具有明顯的實(shí)施順序,進(jìn)而整體上具有可操作性。同時(shí),存在數(shù)量詞,提供了實(shí)施的精度、范圍,所以劃分為實(shí)施知識。
3.3詞向量搭建
文本通過jieba分詞、去停用詞等數(shù)據(jù)預(yù)處理,表示成為向量形式。然后通過向量的余弦相似度計(jì)算,抽取關(guān)鍵詞、關(guān)鍵語句,以便對其有效信息進(jìn)行句法分析。
余弦相似度計(jì)算公式:
simidarity=cos(A,B)=A·B‖A‖‖B‖=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2
其中,A和B表示文本中詞語對應(yīng)的詞向量。
3.4句法分析分類
由3.2中劃分標(biāo)準(zhǔn)可知,三種知識的劃分需要從詞性分析、句法分析兩個(gè)方面出發(fā)。首先,根據(jù)無數(shù)量詞“m”劃分出來定性知識,在有量詞的語句中,需要進(jìn)一步分析句法結(jié)構(gòu)和語義角色,即根據(jù)關(guān)鍵的語義角色如各個(gè)動(dòng)作等,判斷這些動(dòng)作之間是否有并列語句關(guān)系“COO”進(jìn)行劃分。如角色之間有“COO”等并列、順接等語句順序關(guān)系,則說明是一套可以實(shí)施的動(dòng)作方案。此外,加上對關(guān)鍵的語義角色/實(shí)體的句法結(jié)構(gòu)進(jìn)行分析,如都是同一類型ADV(狀中結(jié)構(gòu))等,即劃分到實(shí)施知識,反之則為定量知識。圖3使用哈工大社會計(jì)算與信息檢索研究中心研制的語言技術(shù)平臺(LTP)繪制而成,該條知識中便存在“COO”等并列、順承等語句關(guān)系,且“清洗”“加水”“火燒”等的語義角色均為動(dòng)作A1、A2,與“梗米”形成了順承的“動(dòng)賓”句法結(jié)構(gòu)。
算法1為句法分析分類算法。
輸入:文本text
輸出:分類class
ifm(量詞符號)intext的分詞詞性列表:
class=定性知識
else:
class=定量知識
text句法分析抽取角色
forroleintext的關(guān)鍵角色列表:
ifrole_head(連接的前角色)intext的關(guān)鍵角色列表and兩角色連接關(guān)系==‘COO’:
ifrole的尾節(jié)點(diǎn)角色intext的關(guān)鍵角色列表and兩角色連接關(guān)系==‘COO’:
if角色的語義角色類似:
class=實(shí)施知識(語句具有順承關(guān)系)
elifrole_head的尾節(jié)點(diǎn)intext的關(guān)鍵角色列表and兩角色連接關(guān)系==‘COO’:
if角色的語義角色類似:
class=實(shí)施知識(語句具有并列關(guān)系)
else:
pass
整個(gè)實(shí)驗(yàn)流程如圖4所示。
4結(jié)果與分析
4.1分類結(jié)果
以來源于文獻(xiàn)、醫(yī)學(xué)著作等權(quán)威性高的110條健康知識作為訓(xùn)練數(shù)據(jù),以來源于健康網(wǎng)站的441條數(shù)據(jù)作為測試集。由前節(jié)可知,定性知識、量化知識到實(shí)施知識的劃分門檻升高,因此所包含的數(shù)量也應(yīng)逐漸減少。而從統(tǒng)計(jì)數(shù)據(jù)來看,定性知識、量化知識、實(shí)施知識分別有230、151、60條,各層級比例符合推測。
數(shù)據(jù)的分類已經(jīng)過多人人工標(biāo)注,以保證準(zhǔn)確性,分類結(jié)果的混淆矩陣如表2所示。
本文參照使用精確率P、召回率R、F值來評價(jià)模型,結(jié)果如表3所示。計(jì)算得出的精確率均在86%以上,召回率也在71%以上,F(xiàn)值在78%以上,較高的F值說明搭建的模型具有良好的分類效果。尤其是定性知識、定量知識的分類具有85%及以上的精確率、召回率和F值,其分類效果顯著。
精確率P=TP/(TP+FP)。TP表示將正類預(yù)測為正類的數(shù)目,F(xiàn)P表示將負(fù)類預(yù)測為正類即誤報(bào)的數(shù)目。
召回率R=TP/(TP+FN)。TP表示將正類預(yù)測為正類的數(shù)目,F(xiàn)N表示將正類預(yù)測為負(fù)類即漏報(bào)的數(shù)目。
F=P×R×2/(P+R)。F綜合了P和R的結(jié)果,F(xiàn)較高則說明實(shí)驗(yàn)方法比較有效。
4.2健康知識分類統(tǒng)計(jì)
通過上述劃分系統(tǒng),對現(xiàn)在已有的健康知識根據(jù)分類和來源網(wǎng)站進(jìn)行劃分,展示、對比如表4所示。在心內(nèi)疾病方面,39健康網(wǎng)所擁有的健康防控知識最多,共計(jì)224條,能給使用者帶來最豐富的管理方案;尋醫(yī)問藥網(wǎng)的實(shí)施知識占比最高,其心內(nèi)疾病防控建議中多數(shù)為飲食菜譜等可以實(shí)施的詳細(xì)方案,所以能給用戶帶來最可行的健康方案。
5分類結(jié)果實(shí)際應(yīng)用
5.1健康知識關(guān)鍵詞應(yīng)用
在Word2Vec詞向量搭建過程中,獲得了每條知識的關(guān)鍵詞,通過合并、去重、去除無關(guān)詞,可以得到由幾百條防控知識所構(gòu)成的詞庫。在這個(gè)關(guān)鍵詞庫中,頻數(shù)越高,代表該標(biāo)的在心內(nèi)防控上的可靠性越高。如表5出現(xiàn)的top10標(biāo)的中,山楂、蜂蜜等作為頻數(shù)較高的知識標(biāo)的,多次出現(xiàn)代表其可靠性相對較高。
在CNKI中以“山楂”和“心血管”為關(guān)鍵詞進(jìn)行搜索,共有79篇文獻(xiàn)在山楂對心血管疾病的防控作用上進(jìn)行了探討。在吳瞻邑等的文獻(xiàn)中詳細(xì)列出了山楂在治療心血管疾病方面的進(jìn)展,山楂提取物已被用于心血管健康的營養(yǎng)補(bǔ)救劑,可以改善動(dòng)脈粥樣硬化相關(guān)疾病。同理,以“維生素”和“心血管”為關(guān)鍵詞,共搜到276篇相關(guān)文獻(xiàn)。
因此,根據(jù)本文分詞后的關(guān)鍵詞分析,頻次越高,相關(guān)的文獻(xiàn)研究越多,確定性越高,用戶可以選擇頻次高的標(biāo)的作為最值得準(zhǔn)備的措施。同理,研究人員等可以選擇頻次較高、相關(guān)文獻(xiàn)數(shù)量較少的標(biāo)的作為研究方向,以發(fā)現(xiàn)標(biāo)的防控心血管疾病的機(jī)制。
5.2健康知識分類應(yīng)用
以同一標(biāo)的串聯(lián)的不同分類的健康知識為例,如表6所示,可清晰地看出來,實(shí)施知識能為用戶提供最有效的信息、最清晰的方法指引。但是一方面,對于網(wǎng)站來說,健康知識錄入時(shí)存在疏忽,對文本內(nèi)容把控不嚴(yán)謹(jǐn)。另一方面,用戶很難直接有效的判定出這三類知識。所以,本方法很好地根據(jù)文本句法結(jié)構(gòu)分類,以便網(wǎng)站和用戶清晰明白該方案知識是否可以實(shí)施。因?yàn)閷τ谒幬锖蜆?biāo)的來說,合適范圍、條件方法才能使方案產(chǎn)生作用。
6總結(jié)與展望
本文針對繁雜的心內(nèi)疾病健康知識提出了對其分類的現(xiàn)實(shí)需求,為人們提供在日常生活中進(jìn)行防控的方案。在分類時(shí),針對較短文本使用了Word2Vec詞向量模型,并根據(jù)分類的現(xiàn)實(shí)意義提出了結(jié)合句法分析的算法模型。分類的精確率、召回率、F值均很高,為健康知識分類提供了良好的分類方法。
應(yīng)用分類結(jié)果,可以對各個(gè)主流健康網(wǎng)站的健康知識進(jìn)行分析,從而為人們挑選知識較多或者實(shí)施方案較多的網(wǎng)站提供了選擇依據(jù),也可作為該網(wǎng)站的一種評價(jià)機(jī)制。此外,在進(jìn)行本文分類后,將算法結(jié)果應(yīng)用到實(shí)際中。一方面,醫(yī)生等研究人員可以根據(jù)健康知識的關(guān)鍵詞庫來選定有關(guān)心血管疾病與標(biāo)的之間的作用作為研究方向,用戶也可以選擇高頻詞作為健康防控的關(guān)鍵入手。其次,針對前文中提出的用戶在實(shí)際應(yīng)用中遇到的問題,本文進(jìn)行關(guān)鍵詞句的抽取,能為用戶提供最關(guān)鍵、有效的信息;對健康方案進(jìn)行分類,能夠很清晰地指引該方案是否可以具體實(shí)施、如何實(shí)施,以避免在不合適的用量范圍內(nèi)、不合適的操作方法下進(jìn)行使用,從而大大提高健康知識的有效性。
當(dāng)然,本文還存在研究拓展空間,如有的實(shí)施方案只是有效的經(jīng)驗(yàn)或者建議,不存在實(shí)證性研究的基礎(chǔ)。本文通過算法對知識進(jìn)行有效分類,可以此為基礎(chǔ)初步給出較為粗略的可靠性評判標(biāo)準(zhǔn)和方法,但如何鑒別實(shí)施知識的有效性、可靠性,及其醫(yī)學(xué)原理是研究者可以關(guān)注的方向。
參考文獻(xiàn):
[1]國家心血管病中心.中國心血管病報(bào)告2018[R].北京:中國大百科全書出版社,2019:1.
[2]世界衛(wèi)生組織.心血管疾病[EB/OL].https://www.who.int/topics/cardiovascular_diseases/zh,2020-02-28.
[3]李新蕊,陳惠.不同階段高血壓性腦卒中患者健康知識及行為水平分析[J].中國衛(wèi)生工程學(xué),2019,18(6):858-860.
[4]劉強(qiáng).文本的特征提取及KNN分類優(yōu)化問題研究[D].廣州:華南理工大學(xué),2009.
[5]丁世濤,盧軍,洪鴻輝,等.基于SVM的文本多選擇分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2020,48(1):147-152.
[6]KATZB,LINJ.Selectivelyusingrelationstoimproveprecisioninquestionanswering[C].ProceedingsoftheEACL-2003WorkshoponNaturalLanguageProcessingforQuestionAnswering,2003:43-50.
[7]徐明,彭玉華,馬朝霞.利用網(wǎng)絡(luò)資源發(fā)展健康教育初探[J].中國健康教育,2002(10):52-53.
[8]俞文敏,王杰,周宏宇,等.健康需求者對健康類網(wǎng)站的知識需求調(diào)查[J].護(hù)理學(xué)雜志,2009,24(9):86-87.
[9]劉萌萌,鄧朝華.在線健康社區(qū)用戶參與行為綜述[J].醫(yī)學(xué)信息學(xué)雜志,2018,39(11):15-19.
[10]吳江,李?yuàn)檴?,周露莎,?基于隨機(jī)行動(dòng)者模型的在線醫(yī)療社區(qū)用戶關(guān)系網(wǎng)絡(luò)動(dòng)態(tài)演化研究[J].情報(bào)學(xué)報(bào),2017,36(2):213-220.
[11]劉璇,汪林威,李嘉,等.在線健康社區(qū)中用戶回帖行為影響機(jī)理研究[J].管理科學(xué),2017,30(1):62-72.
[12]JONATHANBJ,BRYANNB.EvaluationofeHealthwebsitesforpatientswithchronickidneydisease[J].AmericanJournalofKidneyDiseases,2004(1).
[13]HINTONGE.Learningdistributedrepresentationsofconcepts[C]//Proceedingsoftheeighthannualconferenceofthecognitivesciencesociety.1986,1:12.
[14]YOSHUAB,REJEAND,PASCALV,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch(JMLR),3:1137-1155,2003.
[15]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[C]//ICLRWorkshop,2013.
[16]MIKOLOVT,SUTSKEVERI,CHENK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//InternationalConferenceonNeuralInformationProcessingSystems.CurranAssociatesInc.2013:3111-3119.
[17]CHEWX,LIZH,LIUT.LTP:AChineseLanguageTechnologyPlatform.InProceedingsoftheColing2010:Demonstrations.2010.08,pp13-16,Beijing,China.
[18]吳瞻邑,由璐,劉素穩(wěn),等.山楂抗心血管系統(tǒng)疾病的研究進(jìn)展[J].中國食物與營養(yǎng),2019,25(4):67-71.
[19]FORDE,ADAMSJ,GRAVESN.Developmentofaneconomicmodeltoassessthecost-effectivenessofhawthornextractasanadjuncttreatmentforheartfailureinAustralia[J].BMJOpen,2012,2(5):e001094-e001094.
[20]KOCHE,MALEKF.Standardizedextractsfromhawthornleavesandflowersinthetreatmentofcardiovasculardisorders-preclinicalandclinicalstudies[J].PlantaMedica,2011,77(11):1123-1128.
收稿日期:2020-04-09
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目“大數(shù)據(jù)驅(qū)動(dòng)的全景式個(gè)性化心血管健康管理研究”(91646205);國家自然科學(xué)基金創(chuàng)新研究群體項(xiàng)目“運(yùn)營與創(chuàng)新管理”(71421002);上海交通大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)資助項(xiàng)目“基于大數(shù)據(jù)的醫(yī)患匹配及其和諧關(guān)系研究”(16JCCS08)
作者簡介:趙艷斌(1991—),男,河北邯鄲人,碩士研究生,主要從事健康數(shù)據(jù)挖掘、健康風(fēng)險(xiǎn)預(yù)測;張朋柱(通信作者),男,教授,博導(dǎo),博士,研究方向?yàn)橹悄芙】倒芾?、大?shù)據(jù)創(chuàng)新導(dǎo)航等,E-mial:pzzhang@sjtu.eu.cn。