国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向患者的智能醫(yī)生框架研究

2018-09-12 02:22:20吳高巍任俊宏張似衡牛景昊張文生
計(jì)算機(jī)與生活 2018年9期
關(guān)鍵詞:詞庫三元組意圖

謝 剛,吳高巍,任俊宏,張似衡,牛景昊,張文生+

1.中國科學(xué)院 自動化研究所,北京 100080

2.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴陽 550001

1 引言

由于醫(yī)療資源緊缺和分級診療實(shí)施困難,“就醫(yī)難”、“就醫(yī)貴”成為當(dāng)今中國醫(yī)患矛盾的焦點(diǎn),如何借助互聯(lián)網(wǎng)和人工智能來有效解決遠(yuǎn)程健康咨詢與智能問診成為國際人工智能應(yīng)用的熱點(diǎn)。

智能醫(yī)生屬于醫(yī)療領(lǐng)域自動問答的范疇。目前,一部分研究者研究基于傳統(tǒng)檢索技術(shù)的問答系統(tǒng),如 MdeQA[1]、AskHERMES[2]、MiPACQ[3]、Enquire-Me[4]、HealthQA[5],這類系統(tǒng)利用關(guān)鍵詞匹配技術(shù)對問題答案對進(jìn)行檢索;一部分研究者研究基于語義技術(shù)的問答系統(tǒng),如MEANS[6]、AskCuebee[7]、QASSD[8]、Watson[9]這類系統(tǒng)從語義層面理解用戶提出的問題,同時(shí)將數(shù)據(jù)以資源框架(resource description framework,RDF,https://baike.baidu.com/item/RDFS/9869002)三元組形式進(jìn)行存儲,從而實(shí)現(xiàn)醫(yī)學(xué)知識的共享和利用。但在已有文獻(xiàn)里,對中文醫(yī)學(xué)領(lǐng)域的問答系統(tǒng)研究不多,尤其是針對患者的醫(yī)學(xué)領(lǐng)域問答系統(tǒng)則更少,因此迫切需要針對患者的中文醫(yī)學(xué)領(lǐng)域的問答系統(tǒng)。

由于患者缺乏相應(yīng)的醫(yī)學(xué)知識,對問題和意圖的表述往往不清楚,同時(shí)在表述問題時(shí)口語化現(xiàn)象比較嚴(yán)重,因此怎樣正確識別患者的意圖和將口語化的臨床表型數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的醫(yī)學(xué)術(shù)語將是醫(yī)療問答系統(tǒng)的一大挑戰(zhàn)。本文在這樣的需求下提出一種“一問一答”智能醫(yī)生框架,該框架以自建的中文醫(yī)學(xué)知識圖譜和抓取的健康網(wǎng)站的問題答案對為基礎(chǔ),對用戶的提問進(jìn)行分析,根據(jù)問題分析出結(jié)果,對產(chǎn)生出來的候選答案采用多種問題評分策略和答案生成策略。實(shí)驗(yàn)表明該框架是有效的。該項(xiàng)成果已成功應(yīng)用于某公司的健康咨詢APP中。

本文組織結(jié)構(gòu)如下:第2章介紹了智能醫(yī)生架構(gòu);第3章對實(shí)驗(yàn)結(jié)果進(jìn)行了描述;第4章總結(jié)全文。

2 智能醫(yī)生架構(gòu)

本文的智能醫(yī)生架構(gòu)如圖1所示。該系統(tǒng)主要包括問題分析、候選答案生成和答案生成等三大模塊。系統(tǒng)主要流程為:首先,系統(tǒng)對用戶輸入的問題進(jìn)行分析;其次,根據(jù)問題分析的結(jié)果,生成候選答案;最后,將生成的答案返回給用戶。下面對各模塊進(jìn)行相應(yīng)的介紹。

2.1 知識庫

知識庫的構(gòu)建是實(shí)現(xiàn)智能醫(yī)生的第一步。本文構(gòu)建的知識庫包括詞庫、知識圖譜、問題答案庫和答案模板庫等4類。其中,詞庫用于分詞和詞性標(biāo)注,知識圖譜用于生成語義三元組和答案生成,問題答案庫和答案模板庫也用于答案生成。

2.1.1 詞庫

本文用到的詞庫如下:

(1)通用詞庫:系統(tǒng)使用了上海林原信息科技有限公司的開源漢語言處理包(han language processing,HanLP,http://hanlp.linrunsoft.com/)中的通用詞庫。

(2)醫(yī)學(xué)詞庫:包括疾病詞庫、檢查詞庫、癥狀詞庫、手術(shù)詞庫、藥品詞庫、醫(yī)院詞庫、醫(yī)學(xué)單位詞庫。

(3)自定義詞庫:疑問詞詞庫、否定詞詞庫、同義詞庫。

2.1.2 醫(yī)學(xué)知識圖譜

本文構(gòu)建的醫(yī)學(xué)知識圖譜部分如圖2所示。

可見,醫(yī)學(xué)知識圖譜是一張圖G,由模式圖、數(shù)據(jù)圖和邊構(gòu)成,其形式化定義如下:

定義1(模式圖)[10]模式圖Gs=<Vs,Fs,Es>,其中:

Fig.1 Intelligent doctor architecture圖1 智能醫(yī)生框架

Fig.2 Example of knowledge graph圖2 知識圖譜示例

Vs表示模式圖的頂點(diǎn)集,每個(gè)頂點(diǎn)表示一個(gè)醫(yī)學(xué)概念,如藥品、疾病等。

Fs表示模式圖的邊標(biāo)記集,每個(gè)標(biāo)記表示一種概念之間語義關(guān)系,其元素為像rdfs:subClassOf、rdfs:equivalentClass這類來自語義網(wǎng)絡(luò)現(xiàn)有標(biāo)準(zhǔn)RDFS的屬性和像“主治”這類用戶自定義的屬性。

Es表示模式圖的邊集,即Es={<vi,vj,Fk>|vi,vj∈Vs,Fk∈Fs(i=1,2,…,n,j=1,2,…,m,k=1,2,…,h)},<vi,vj,Fk>表示結(jié)點(diǎn)vi與vj具有關(guān)系Fk。如<醫(yī)生,專家,rdf:subClassof>表示專家和醫(yī)生是子類關(guān)系。

定義2(數(shù)據(jù)圖)[10]數(shù)據(jù)圖Gd=<Vd,Fd,Ed>,其中:

Vd表示數(shù)據(jù)圖的頂點(diǎn)集,每個(gè)頂點(diǎn)要么表示一個(gè)概念的實(shí)例,如“感冒”為疾病的一個(gè)實(shí)例,要么表示屬性的值,如“10袋”為藥品規(guī)格這一屬性的值。

Fd表示數(shù)據(jù)圖的邊標(biāo)記集,定義與Fs相同。

Ed表示數(shù)據(jù)圖的邊集,即Ed={<vi,vj,Fk>|vi,vj∈Vd,Fk∈Fd(i=1,2,…,n,j=1,2,…,m,k=1,2,…,h)},<vi,vj,Fk>表示一個(gè)結(jié)點(diǎn)vi的屬性Fk的值vj。例如<感冒,發(fā)燒,@相關(guān)癥狀”>表示“感冒”的相關(guān)癥狀為“發(fā)燒”。

定義3(知識圖譜)[10]知識圖譜G=<V,E>,其中:

V表示知識圖譜的頂點(diǎn)集,包括模式圖和數(shù)據(jù)圖的頂點(diǎn),即V=Vs∪Vd。

E表示知識圖譜的邊集,包括模式圖和數(shù)據(jù)圖的邊及標(biāo)記為rdf:type的邊,即E=Ed∪Es∪{<vi,vj,rdf:type > |vi∈Vs,vj∈Vdi(i=1,2,…,n,j=1,2,…,m)}。

在定義1~定義3和現(xiàn)有本體[11-12]的基礎(chǔ)上,本文首先利用protégé(https://protege.stanford.edu/)構(gòu)建醫(yī)療領(lǐng)域知識圖譜的模式圖;其次,利用D2R(relational database to resource description framework,http://d2rq.org/d2r-server)將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換成RDF三元組。目前已有1 126 214個(gè)三元組,構(gòu)成知識圖譜的數(shù)據(jù)圖,并以RDF三元組存儲在fuseki(http://jena.apache.org/documentation/fuseki2/index.html)服務(wù)器中。

2.1.3 問答庫

本文的問題答案庫來源于智能問醫(yī)生、99健康網(wǎng)和名醫(yī)在線的問答數(shù)據(jù),通過人工整理了60萬條,并以(編號,問題,答案)的形式存儲在數(shù)據(jù)庫管理系統(tǒng)中,其表結(jié)構(gòu)如表1所示。

Table 1 Question answer table表1 問題答案表

2.1.4 模板庫

為了更自然地把答案展示給用戶,根據(jù)意圖類別和是非問題的類別利用可擴(kuò)展標(biāo)記語言(extensible markup language,XML)共制定了112個(gè)答案模板(answermodel,AM)。例如詢問概念定義的模板如下:

其中,<AM>和</AM>表示一個(gè)答案模板的開始和結(jié)束;<AMID>和</AMID>表示答案模板的編號;<parameters>和</parameters>表示答案模板需要的參數(shù);<Answer_Model>和</Answer_Model>表示答案模板的內(nèi)容;<EXAMPLE>和</EXAMPLE>表示該模板對應(yīng)的問題實(shí)例。

2.2 問題分析

問題分析是整個(gè)智能醫(yī)生的第一步,其結(jié)果對后續(xù)處理過程有很大影響。問題分析的結(jié)果表示為八元組 <It,Qc,Nel,N,Ss,I,TL,P>。其中:It表示問題類型,類型與表2中的類型一致;Qc表示問題主題類別,具體類別見表3;Nel表示命名實(shí)體集;N表示否定詞集,N={(key,value)};Ss表示問題的依存關(guān)系集合;I表示疑問詞;TL表示語義三元組集合;P表示意圖。

問題分析的過程:用戶輸入問題后,(1)利用HanLP根據(jù)詞庫進(jìn)行分詞和詞性標(biāo)注;(2)利用詞的標(biāo)注信息得到命名實(shí)體集Nel、疑問詞集I和依存關(guān)系集合Ss;(3)識別問題類型It、否定詞集合N和問題主題類別Qc;(4)識別問題意圖P;(5)生成語義三元組集合TL;(6)輸出分析結(jié)果。其流程圖如圖3所示。下面對問題分析的各個(gè)模塊進(jìn)行介紹。

2.2.1 分詞和詞性標(biāo)注

本文使用了HanLP對問題進(jìn)行分詞,同時(shí)利用新增的領(lǐng)域?qū)I(yè)詞庫和自定義詞庫,對相應(yīng)的詞語重新進(jìn)行詞性標(biāo)注,然后通過同義詞替換操作,得到如下的問題向量表示:

Fig.3 Question analysis flow chart圖3 問句分析流程圖

Q=(q1,q2,…,qn)

其中,qi為(word,nature),word表示單詞本身,nature表示單詞的詞性。

例1“感冒了不發(fā)燒也不咳嗽應(yīng)該吃什么藥”對應(yīng)的向量表示為((感冒,JB),(不,NW),(發(fā)燒,ZZ),(也,d),(不,NW),(咳嗽,ZZ),(應(yīng)該,v),(吃,v),(什么藥,WHT))。

2.2.2 命名實(shí)體識別

本文需要單獨(dú)識別的實(shí)體包括疾病、癥狀、檢查、藥品、手術(shù)和醫(yī)院。因?yàn)橐呀?jīng)收集了大量的專業(yè)詞匯,所以直接使用詞性標(biāo)注來進(jìn)行命名實(shí)體識別,識別算法如下。

算法1命名實(shí)體識別算法

輸入:問題向量Q。

輸出:命名實(shí)體集Nel。

2.2.3 依存關(guān)系分析

本文使用了HanLP的條件隨機(jī)場(conditional random field,CRF)依存句法分析器進(jìn)行問題的依存關(guān)系分析。例1對應(yīng)的依存關(guān)系如圖4所示。

Fig.4 Dependency relation graph圖4 依存關(guān)系圖

從分析結(jié)果中可以看出,句子的核心詞是“感冒”,主語是“感冒了不發(fā)燒也不咳嗽”,謂語是“應(yīng)該吃”,賓語是“什么藥”;感冒、發(fā)燒、咳嗽是并列關(guān)系;“不”是修飾“發(fā)燒”和“咳嗽”的否定詞。

2.2.4 疑問詞識別和問題類型分析

中文將疑問句分為特殊疑問句、是非疑問句和選擇疑問句。根據(jù)統(tǒng)計(jì),在醫(yī)療咨詢方面是非問句占30%,選擇問句占1%,特殊疑問句約69%。因此本文只討論是非問句和特殊問句。首先提取是非問句和特殊疑問句的疑問詞,然后按照表2所示的分類體系對疑問詞進(jìn)行分類。

算法2疑問詞分析算法

輸入:問題向量Q。

輸出:疑問詞集I和問題類型It。

Table 2 Classification system of interrogative表2 疑問詞分類體系

利用上述算法可以得到例1的疑問詞集I={(什么藥,WHT)}和問題類型It=WHT。

2.2.5 否定詞分析

在醫(yī)學(xué)領(lǐng)域的信息咨詢中,用戶往往用否定詞來排除某種情況,因此,需要對否定詞進(jìn)行正確分析。本文的否定詞分析包括否定詞的識別和否定詞修飾的范圍,其算法如下:

算法3否定詞分析算法

輸入:問題向量Q,命名實(shí)體集Nel和依存關(guān)系集Ss。

輸出:否定詞集N。

利用上述算法可以得到例1中的否定詞集N={(不,發(fā)燒),(不,咳嗽)}。

2.2.6 問題主題分析

問題主題分析主要是分析句子的主題。本文按照表3的分類體系進(jìn)行分類,利用支持向量機(jī)(support vector machine,SVM)[13]模型進(jìn)行分類,首先對每個(gè)類別標(biāo)注200個(gè)問題進(jìn)行訓(xùn)練,然后隨機(jī)挑選了100個(gè)問題進(jìn)行測試,均取得了較好的效果。

Table 3 Classification system of subject表3 問題主題分類體系

按照上述的分類體系,例1的問題主題是“JB”。

2.2.7 意圖識別

本文首先利用詞、問題主題和問題類型之間的搭配關(guān)系和次序構(gòu)造了如表4所示的254條規(guī)則;其次,利用規(guī)則構(gòu)造如表5~表7所示的條件概率統(tǒng)計(jì)表;再次,根據(jù)如下公式得到相應(yīng)的意圖:

其中,ai表示第i類意圖;qj表示Q中的第j個(gè)詞。

如果根據(jù)上述公式計(jì)算出來的值為0,則利用SVM分類器進(jìn)行分類。意圖識別算法如下:

Table 4 Rule example表4 規(guī)則示例

Table 5 Probability table of intention example表5 意圖概率表示例

Table 6 Conditional probability tablep(focus|intention)表6 條件概率表p(焦點(diǎn)詞|意圖)

Table 7 Conditional probability tablep(entity type|intention)表7 條件概率表p(實(shí)體類型|意圖)

算法4意圖識別算法

輸入:Q,Nel,It,Qc;PT,意圖的概率表(表5);CPT,條件概率表(表6、表7)。

輸出:問題意圖P。

1.for each focus wordqofQdo

2.利用相似度求q.word在規(guī)則集中的同義詞f;

3.將f替換Q中的q.word

4.end for

5.利用表5~表7所示的概率表和式(1)計(jì)算P

6.ifPnot exist then采用SVM分類器對Q進(jìn)行分類得到P;

7.end if

8.returnP;

利用上述算法識別出例1的意圖為“藥品”。

這種混合意圖識別方法,既不需要分類模型對特征明顯的問題進(jìn)行訓(xùn)練,同時(shí)也不需要使用多個(gè)分類器達(dá)到多分類的效果,因而能夠保證分類準(zhǔn)確率的前提下,取得較好的時(shí)間效率。

2.2.8 語義三元組

本部分根據(jù)意圖、問題主題類別生成語義三元組。本文根據(jù)語義三元組的作用,將語義三元組分為主三元組(main)、條件三元組(condition)和否定三元組(negative),其中主三元組對應(yīng)于句子主干的語義,條件三元組是對主三元組的限制,對應(yīng)于句子的肯定修飾成分,否定三元組也是對主三元組的限制,對應(yīng)于句子的否定修飾成分。語義三元組的生成思想:首先,從命名實(shí)體集合和否定詞中確定三元組的主語和類型;其次,將意圖作為所有三元組的謂語。其具體生成算法如下:

算法5語義三元組生成算法

輸入:P,Nel,Qc,N。

輸出:TL。

利用上述算法得到的語義三元組列表TL={<(感冒,藥品,?),main>,<(咳嗽,藥品,?),negative>,<(咳嗽,藥品,?),negative>}。

2.3 候選答案生成

候選答案生成模塊的功能是生成候選答案。本文利用搜索、查詢和推理3個(gè)技術(shù)來生成候選答案,因此本模塊包括搜索、查詢和推理3個(gè)子模塊,其流程圖如圖5所示。

Fig.5 Candidate generation flow chart圖5 候選答案生成流程圖

2.3.1 搜索

本模塊首先根據(jù)問題分析得出的命名實(shí)體集、主三元組、同義詞,問題通過搜索引擎solr(http://lucene.apache.org/solr/)在問題答案庫中搜索出排名前60的問題答案對。本模塊的核心任務(wù)就是搜索語句的構(gòu)造。本文構(gòu)造的搜索語句形式如下:

其中,pi∈Nel,sij為pi的同義詞。

例1對應(yīng)的查詢語句為(感冒or(發(fā)燒or發(fā)熱)or咳嗽or什么藥or(感冒and不and發(fā)燒and也and不and咳嗽and應(yīng)該and吃and什么藥))。

2.3.2 查詢

本模塊根據(jù)文獻(xiàn)[14]的思想首先將語義三元組轉(zhuǎn)換成SPARQL查詢語句,然后利用查詢語句查詢知識圖譜。三元組轉(zhuǎn)換成SPARQL是本模塊的主要任務(wù),其轉(zhuǎn)換思想為:語義三元組的word對應(yīng)于SPARQL語句的Subject,P對應(yīng)于SPARQL語句的Predicate,?號對應(yīng)于SPARQL語句的?object。轉(zhuǎn)換后的SPARQL示例語句如下:

2.3.3 推理

所謂推理就是利用知識圖譜中已有的知識推出新的知識。例如用戶想問“腹痛和發(fā)燒有關(guān)系嗎?”,假設(shè)知識圖譜中只有癥狀和疾病的關(guān)系,此時(shí)就需要推理出癥狀和癥狀的關(guān)系。

在醫(yī)療領(lǐng)域大量用到這樣的推理,尤其在疾病診斷當(dāng)中。本文利用Jena(http://jena.apache.org/)推理機(jī)實(shí)現(xiàn)知識的推理。Jena推理機(jī)使用規(guī)則進(jìn)行推理。Jena中的規(guī)則包括通用規(guī)則和自定義規(guī)則兩類,其中通用規(guī)則為Jena自帶的規(guī)則,這類規(guī)則主要是對知識的有效性進(jìn)行檢驗(yàn),如模式圖與數(shù)據(jù)圖的一致性,不能對實(shí)際應(yīng)用的領(lǐng)域知識進(jìn)行推理;自定義規(guī)則是用戶自己定義的領(lǐng)域知識,能對領(lǐng)域知識進(jìn)行推理,因此,本文共定義20條規(guī)則,例如:

[rule1:(?A rdf:type癥狀),(?A疾病?B),(?B癥狀?C)->(?A相關(guān)?C)]

該規(guī)則說明如果癥狀A(yù)是疾病B的癥狀,而疾病B有癥狀C,則癥狀A(yù)與癥狀C相關(guān)。

2.4 答案生成

答案生成模塊的功能是讓智能醫(yī)生將評分排名第一的答案展示給用戶。答案生成的思想是:首先判斷答案是否為問題答案對,如果是,則進(jìn)入問題答案評分和排序;否則直接生成答案。該模塊流程圖如圖6所示。

Fig.6 Answer generation flow chart圖6 答案生成流程圖

由圖6可知,問題評分是答案生成的主要組成部分,其作用是計(jì)算候選答案的問題與用戶的問題之間的相似度?,F(xiàn)有的評分算法都是直接計(jì)算這兩個(gè)問題的相似度。但這種方法只能說明問題之間的句子含有詞語的相似度,而不能說明它們的語義相似度。本文利用多種評分算法從不同的側(cè)面計(jì)算它們的相似度,從而使評分更準(zhǔn)確。下面將介紹相關(guān)的評分算法。

2.4.1 問題詞條匹配算法

該評分算法主要是計(jì)算候選答案的問題詞條與用戶的問題詞條的匹配程度,該評分越高,說明與用戶的問題越相似。假設(shè)t為問題Q中除疑問詞以外的詞條,即t={t1,t2,…,tn},則該算法的評分公式如下:

其中:

例2Q:“流產(chǎn)有什么危害?”

P1:“流產(chǎn)可能會導(dǎo)致什么?”

P2:“流產(chǎn)危害是什么”

根據(jù)式(2)可知,P2>P1,顯然符合實(shí)際。

2.4.2 依存句法匹配算法

該算法主要是計(jì)算候選答案的問題與用戶的問題句子結(jié)構(gòu)的相似度,值越高,說明句子結(jié)構(gòu)越類似。算法思想是:首先得到問題及所有候選答案的依存關(guān)系,然后根據(jù)公式得出評分。該算法的評分公式如下:

其中,Ps表示從候選答案問題中抽取出來的依存關(guān)系二元組集合;Qs表示從問題中抽取出來的依存關(guān)系二元組集合。

根據(jù)式(3)~式(5)可得,P1>P2,顯然與實(shí)際相符。

2.4.3 文本余弦相似度算法

本文算法首先基于改進(jìn)的TF-IDF(term frequencyinverse document frequency)詞頻技術(shù)[15]計(jì)算問題Q和候選答案問題的TF-IDF值向量,然后利用向量余弦相似度計(jì)算用戶的問題和候選答案問題的相似度。假設(shè)QTF-IDF={x1,x2,…,xn},qTF-IDF={q1,q2,…,qn},其中xi、qi為相應(yīng)詞的TF-IDF值,則文本余弦相似度公式如下:

2.4.4 問題評分算法

本文將問題詞條匹配算法、依存句法匹配算法和文本余弦相似度算法的結(jié)果按照式(7)計(jì)算出問題的最后得分:

其中,si為每個(gè)評分算法的評分;wi為評分算法的權(quán)重,本文通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)wi為1/3時(shí),效果最好。

3 實(shí)驗(yàn)與結(jié)果

本文利用Eclipse開發(fā)環(huán)境、Java開發(fā)語言和Jena框架,初步實(shí)現(xiàn)了“一問一答”的婦產(chǎn)科智能醫(yī)生,并利用真實(shí)的婦產(chǎn)科問答語料測試了本文的系統(tǒng)。

3.1 度量標(biāo)準(zhǔn)

采用正確率(precision)來度量本系統(tǒng)的性能,計(jì)算公式如下:

3.2 數(shù)據(jù)集

本文使用真實(shí)的有關(guān)懷孕這一主題的問答語料447個(gè)問題作為實(shí)驗(yàn)數(shù)據(jù)集,并進(jìn)行人工評測。這些問題基本涵蓋了懷孕這一主題的全部類型和關(guān)系。實(shí)驗(yàn)數(shù)據(jù)集中的部分問題樣例如表8所示。

Table 8 Question example表8 問句示例

3.3 實(shí)驗(yàn)和結(jié)果

本節(jié)首先將真實(shí)的語料共計(jì)447個(gè)問題分別輸入計(jì)算機(jī),得到相應(yīng)的答案,其次將答案提交給醫(yī)生進(jìn)行審核,具體實(shí)驗(yàn)結(jié)果如表9所示。

Table 9 Experiment result表9 實(shí)驗(yàn)結(jié)果

通過分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本系統(tǒng)的正確率為88.81%,在不正確的問題中有64%的錯(cuò)誤是由于未能對是非疑問句進(jìn)行準(zhǔn)確分析造成的,如對“做輸卵管通液能懷孕嗎?”這樣的問題分析不對;16%的錯(cuò)誤是由于句子成分復(fù)雜和未對口語化的詞語進(jìn)行理解造成的,如句子“為什么那么多人說懷孕3個(gè)月以后就穩(wěn)定了,沒事了?”這樣的問題分析不對;8%的錯(cuò)誤是由于在否定詞識別時(shí)未能對動詞的否定進(jìn)行識別造成的,如未能識別句子“懷孕不能吃西瓜嗎?”中的否定詞“不能”是修飾“吃”這個(gè)動詞的;6%的錯(cuò)誤是由于在答案中未對實(shí)體限制進(jìn)行處理造成的,如“孕婦便秘怎么辦?”的答案與“便秘怎么辦”相同;4%的錯(cuò)誤是由于知識庫不完備造成的,例如未能識別句子“懷孕初期能吃桃子嗎?”中的“桃子”;2%的錯(cuò)誤是由于未能識別不連續(xù)的實(shí)體造成的,如未能將句子“輸卵管為什么梗阻”中的實(shí)體識別為“輸卵管堵塞”。

3.4 智能醫(yī)生用戶界面

本文提出的智能醫(yī)生框架已經(jīng)成功用于某公司的APP中,其用戶界面如圖7所示。

Fig.7 Users'interface圖7 用戶界面

4 總結(jié)

本文提出了一種“一問一答”的智能醫(yī)生架構(gòu),該架構(gòu)包括問題分析、候選答案生成和答案生成等三部分,并用真正語料對該架構(gòu)進(jìn)行了測試,實(shí)驗(yàn)結(jié)果表明,本文提出的架構(gòu)的準(zhǔn)確率達(dá)到80%以上,因此,該架構(gòu)是有效的。但該智能醫(yī)生的認(rèn)知水平還有待提高,下一步將在以下幾方面進(jìn)行改進(jìn):(1)利用自動化技術(shù)對知識庫進(jìn)行擴(kuò)充,增強(qiáng)知識庫的自動更新能力;(2)利用關(guān)系抽取技術(shù),對問題分析進(jìn)行更精確的理解;(3)利用表示學(xué)習(xí)對意圖和問題類型及主體進(jìn)行識別;(4)增加推理規(guī)則對時(shí)間進(jìn)行推理。

猜你喜歡
詞庫三元組意圖
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
原始意圖、對抗主義和非解釋主義
法律方法(2022年2期)2022-10-20 06:42:20
陸游詩寫意圖(國畫)
特征標(biāo)三元組的本原誘導(dǎo)子
制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
法律方法(2021年3期)2021-03-16 05:56:58
關(guān)于余撓三元組的periodic-模
詞庫音系學(xué)的幾個(gè)理論問題芻議
英語知識(2016年1期)2016-11-11 07:07:54
環(huán)境變了,詞庫別變
電腦迷(2014年14期)2014-04-29 00:44:03
燕山秋意圖
三元組輻射場的建模與仿真
化隆| 肇东市| 和田市| 南陵县| 英吉沙县| 贵港市| 屯留县| 武隆县| 萝北县| 永善县| 二连浩特市| 依安县| 南部县| 绥阳县| 深水埗区| 岱山县| 中江县| 青河县| 申扎县| 南华县| 蒙自县| 江油市| 简阳市| 新野县| 友谊县| 陵水| 陕西省| 桃江县| 安图县| 永新县| 桃园县| 鲁山县| 平顺县| 塔城市| 安义县| 五寨县| 什邡市| 黄陵县| 葵青区| 林甸县| 林口县|