国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于甲狀腺知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2018-09-05 10:19馬晨浩
關(guān)鍵詞:分詞圖譜數(shù)值

文章編號(hào): 2095-2163(2018)03-0102-06中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A

摘要: [HT6SS〗隨著人們生活水平的提高,甲狀腺結(jié)節(jié)類疾病日漸成為當(dāng)代人的一種常見(jiàn)疾病,而中國(guó)國(guó)內(nèi)醫(yī)療資源分布不均,造成了大醫(yī)院人滿為患,醫(yī)生名下病人多,病人看病時(shí)間長(zhǎng)等問(wèn)題,許多病人想要看病在花費(fèi)大量金錢的同時(shí)還要耗費(fèi)大量時(shí)間。隨著互聯(lián)網(wǎng)技術(shù)以及計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的病人為了節(jié)省時(shí)間,在趕往醫(yī)院前,往往會(huì)在網(wǎng)絡(luò)上對(duì)自己的病癥進(jìn)行相關(guān)查詢,所以市面上出現(xiàn)了醫(yī)生網(wǎng)上答診和病人在線問(wèn)診的醫(yī)療咨詢系統(tǒng),一對(duì)一為病人回答問(wèn)題。此舉將醫(yī)生提供給不能定時(shí)提問(wèn)的網(wǎng)上咨詢的患者的同時(shí)、會(huì)造成醫(yī)院內(nèi)醫(yī)生資源更加緊缺的狀況,且網(wǎng)上在線系統(tǒng)大多僅包括導(dǎo)診流程,即幫助病人在前往醫(yī)院確診前對(duì)自己的病癥有初步了解,并未涉及到病種診斷治療,無(wú)法達(dá)到節(jié)約病人的時(shí)間的目的。 因此,針對(duì)上述狀況,本文選取甲狀腺結(jié)節(jié)類病種數(shù)據(jù)為研究對(duì)象,對(duì)甲狀腺真實(shí)數(shù)據(jù)進(jìn)行重點(diǎn)的分析,創(chuàng)建甲狀腺知識(shí)圖譜,基于該知識(shí)圖譜,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)面向甲狀腺診療的自動(dòng)問(wèn)答系統(tǒng),本系統(tǒng)可以有效地回答病人在甲狀腺類疾病方面的用藥以及檢查等方面的問(wèn)題,節(jié)約病人問(wèn)診時(shí)間的同時(shí),醫(yī)生可以使用該系統(tǒng)對(duì)患者以及處方等信息進(jìn)行相關(guān)查詢,更加快速便捷,節(jié)約了醫(yī)生的時(shí)間。

關(guān)鍵詞: automatic question answering system based on thyroid knowledge map

(School of Computer Science and Technology, Donghua University, Shanghai 201620, China)

Abstract: With the improvement of people's living standards, thyroid nodule disease has become a common disease of the contemporary people. While China's domestic medical resources are unevenly distributed, the top-three hospitals are mainly concentrated in Beijing、 Shanghai and Guangzhou, resulting in overcrowding in large hospitals. It is required that many patients spend long time and a lot of money for seeing a doctor. With the development of Internet technology and computer technology, more and more patients often search for their own conditions on the Internet before going to the hospital to save time. So there is a medical consultation system on the market where doctors give online consultations and patients online consultations. One-on-one answers questions for the patient, which provides doctors with patients who do not regularly ask online consultation. At the same time, the situation of doctors in hospitals will become more scarce, and most of the online online systems only include the consultation process, which means that they can help patients to get a preliminary understanding of their own conditions before going to the hospital for diagnosis. The diagnosis and treatment of the diseases could not be involved and the purpose of saving the patient's time could not be achieved. Therefore, in view of the above situation, this study selects thyroid nodule disease data as the research object, analyzes the characteristics of the thyroid true data, creates a thyroid knowledge map, further designs and implements an automated question and answer system for thyroid diagnosis and treatment based on this knowledge map. The system can effectively answer questions about the patient's thyroid diseases such as medications and examinations, save doctors' time, and doctors can use this system to make relevant queries on patients and prescriptions, which is more rapid and convenient.

Key words:

作者簡(jiǎn)介:

收稿日期: 引言

為了解決病人掛號(hào)難,看病難的問(wèn)題,各家醫(yī)院均紛紛出臺(tái)利民舉措。專門地,針對(duì)甲狀腺結(jié)節(jié)類疾病,許多醫(yī)院及網(wǎng)站就推行了該類疾病的病情問(wèn)答版塊,如:好大夫在線網(wǎng)[1]、尋醫(yī)問(wèn)藥網(wǎng)。病人可以通過(guò)互聯(lián)網(wǎng)與醫(yī)生開(kāi)展在線的語(yǔ)音或文字的交流,但此舉卻將消耗大量人力物力,更多的醫(yī)生在線診療就意味著更少的醫(yī)生會(huì)在一線的醫(yī)院對(duì)病人施以治療,由于病人在線問(wèn)診時(shí)間的不確定,醫(yī)生的在線等待就避免不了時(shí)間的浪費(fèi)。為了緩解醫(yī)療壓力,提高醫(yī)療資源的利用率,降低醫(yī)療支出,本文研究建立有關(guān)甲狀腺類疾病信息的知識(shí)圖譜,并基于該知識(shí)圖譜設(shè)計(jì)實(shí)現(xiàn)自動(dòng)問(wèn)答系統(tǒng),患者、醫(yī)生、醫(yī)院通過(guò)使用系統(tǒng)可以迅速獲取自己需要了解的信息,從而達(dá)到高效化、自動(dòng)化、信息化服務(wù)于社會(huì)的目的。

英國(guó)數(shù)學(xué)家圖靈[2]在1950年首次提出了 “機(jī)器智能”和“圖靈測(cè)試”[3],這可視作為自動(dòng)問(wèn)答系統(tǒng)的前身。圖靈測(cè)試是使測(cè)試者—輸入問(wèn)題的用戶,對(duì)計(jì)算機(jī)進(jìn)行自然語(yǔ)言問(wèn)題的輸入,通過(guò)輸出結(jié)果判斷計(jì)算機(jī)是否具備人的智能。如果有超過(guò)30%的測(cè)試者不能確定出被測(cè)試者是人還是機(jī)器,那么這臺(tái)機(jī)器就通過(guò)了測(cè)試,可以用作問(wèn)答系統(tǒng)。

國(guó)內(nèi)外在自動(dòng)問(wèn)答系統(tǒng)方面的研究已歷經(jīng)了較長(zhǎng)的發(fā)展時(shí)期。上世紀(jì)60到70年代的問(wèn)答系統(tǒng)主要依賴搜索技術(shù),對(duì)查詢相關(guān)的文檔進(jìn)行檢索,例如Yahoo早期的answer and quora。上世紀(jì)70年代開(kāi)始,自動(dòng)問(wèn)答系統(tǒng)大多以結(jié)構(gòu)化知識(shí)庫(kù)為基礎(chǔ),將用戶輸入的自然語(yǔ)言轉(zhuǎn)換為機(jī)器可識(shí)別的結(jié)構(gòu)化查詢語(yǔ)言,通過(guò)搜索知識(shí)庫(kù)最終得到結(jié)果。該階段的研究實(shí)例主要包括SQL[4]、SPARQL[5]等。80年代以來(lái),人工智能即進(jìn)入了蓬勃發(fā)展期,而且其研究成果層出不窮,在很多項(xiàng)目均有重大斬獲。而如今,基于知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)已經(jīng)成為問(wèn)答系統(tǒng)的主流,眾所周知的SIRI就是以知識(shí)圖譜為基礎(chǔ)設(shè)計(jì)并研發(fā)成型的,IBM的Watson系統(tǒng)[6]也是國(guó)外認(rèn)知計(jì)算[7]系統(tǒng)的成功范本,基于知識(shí)圖譜的問(wèn)答系統(tǒng)包含信息分析、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助使用者從大量非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息。

目前,隨著人們生活水平的提高,人們對(duì)于醫(yī)療健康的需求也逐年增長(zhǎng)。但患者基數(shù)大,健康資源供給遠(yuǎn)遠(yuǎn)滯后于需求的增長(zhǎng),并呈現(xiàn)分布不均衡的狀態(tài)[8]。全國(guó)三甲醫(yī)院主要集中分布在中、東部地區(qū),西部地區(qū)健康資源稀缺。龐大的健康需求將推動(dòng)尋找研發(fā)更加有效的方式為人們提供健康服務(wù)。近幾年,國(guó)內(nèi)居民醫(yī)療支出呈現(xiàn)遞增態(tài)勢(shì),也給在線醫(yī)療產(chǎn)業(yè)帶來(lái)了發(fā)展契機(jī),同時(shí)這也給自動(dòng)問(wèn)答系統(tǒng)的技術(shù)研究創(chuàng)造了實(shí)踐機(jī)遇與應(yīng)用空間。目前國(guó)內(nèi)并沒(méi)有甲狀腺結(jié)節(jié)類疾病專用的自動(dòng)問(wèn)答系統(tǒng),本文研究的即是甲狀腺類疾病領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng),在將大量有關(guān)甲狀腺類疾病信息做出有效匯總整合后,創(chuàng)建生成了甲狀腺知識(shí)圖譜,基于該知識(shí)圖譜設(shè)計(jì)給出了有關(guān)甲狀腺類疾病的自動(dòng)問(wèn)答系統(tǒng)。用戶輸入問(wèn)題,在系統(tǒng)中對(duì)輸入的自然語(yǔ)言進(jìn)行命名實(shí)體識(shí)別、依存句法分析等處理,轉(zhuǎn)換為Sparql查詢語(yǔ)言,通過(guò)識(shí)別語(yǔ)義,匹配不同語(yǔ)義的不同模板在知識(shí)圖譜內(nèi)進(jìn)行查詢,由此獲取到答案。最后,在Java平臺(tái)上實(shí)現(xiàn)了基于甲狀腺知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng),通過(guò)多次實(shí)驗(yàn)初步證明了系統(tǒng)的可用性。

1系統(tǒng)架構(gòu)

系統(tǒng)以用戶在醫(yī)院的問(wèn)診流程為基礎(chǔ),根據(jù)用戶關(guān)心問(wèn)題構(gòu)建知識(shí)圖譜,并遵循自動(dòng)問(wèn)答系統(tǒng)的問(wèn)答流程,本系統(tǒng)設(shè)計(jì)有良好的人機(jī)交互界面,用戶通過(guò)輸入有關(guān)甲狀腺相關(guān)的自然語(yǔ)言問(wèn)題,經(jīng)過(guò)系統(tǒng)處理后得到簡(jiǎn)單準(zhǔn)確的自然語(yǔ)言答案。

整個(gè)系統(tǒng)分為3部分,可對(duì)其闡釋如下:

(1)是用戶在瀏覽器所看到的人機(jī)交互界面,用戶在系統(tǒng)外部界面輸入自然語(yǔ)言問(wèn)題。

(2)是存儲(chǔ)甲狀腺類疾病相關(guān)信息的知識(shí)圖譜,根據(jù)存儲(chǔ)甲狀腺相關(guān)信息Sql Server數(shù)據(jù)庫(kù)設(shè)計(jì)知識(shí)圖譜。

(3)系統(tǒng)內(nèi)部的功能處理模塊,以(2)中涉及的知識(shí)圖譜為基礎(chǔ),系統(tǒng)內(nèi)部接受(1)中用戶輸入的問(wèn)題后,將該問(wèn)題進(jìn)行命名實(shí)體識(shí)別與詞性標(biāo)注,根據(jù)識(shí)別后的實(shí)體,將用戶輸入的自然語(yǔ)言問(wèn)題劃定分類,再根據(jù)不同類別,匹配不同的查詢模板,使用模板研發(fā)得到用戶求索問(wèn)題的最終答案。研究可得,系統(tǒng)設(shè)計(jì)架構(gòu)如圖1所示。

2相關(guān)技術(shù)

2.1甲狀腺知識(shí)圖譜的構(gòu)建

本系統(tǒng)甲狀腺知識(shí)圖譜根據(jù)Sql Server數(shù)據(jù)庫(kù)[9]中存儲(chǔ)的三甲醫(yī)院甲狀腺類疾病信息構(gòu)建,包括患者信息實(shí)體、藥品使用信息實(shí)體,診斷數(shù)據(jù)實(shí)體等、實(shí)體之間存在很多聯(lián)系,由于數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)整齊,可以規(guī)范解析實(shí)體和實(shí)體之間的關(guān)系來(lái)形成整個(gè)知識(shí)圖譜,利用形成的知識(shí)圖譜提供具體且豐富的語(yǔ)義關(guān)系,用戶可以更為直接地觀察到實(shí)體數(shù)據(jù)以及實(shí)體的聯(lián)系。

2.1.1構(gòu)建流程

本次設(shè)計(jì)的總體流程為:首先,根據(jù)數(shù)據(jù)庫(kù)中不同表的不同數(shù)據(jù),結(jié)合初始甲狀腺結(jié)節(jié)就診記錄,提煉出甲狀腺知識(shí)圖譜的概念層,構(gòu)建概念分類樹(shù)并抽取數(shù)據(jù)之間的關(guān)系。而后,將表中數(shù)據(jù)、即實(shí)體填充進(jìn)概念層中,以三元組、即<實(shí)體,關(guān)系,實(shí)體>的形式,得到完整的甲狀腺知識(shí)圖譜。

2.1.2概念層設(shè)計(jì)

對(duì)甲狀腺數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行分類,研究得到如下醫(yī)學(xué)實(shí)體定義。

定義1甲狀腺醫(yī)學(xué)實(shí)體包括甲狀腺患者實(shí)體、基本信息實(shí)體、甲狀腺診斷結(jié)果實(shí)體、甲狀腺用藥實(shí)體等。

在定義了甲狀腺醫(yī)學(xué)實(shí)體之后,可以構(gòu)建甲狀腺知識(shí)圖譜的概念分類樹(shù)如圖2所示。

定義2甲狀腺事實(shí)關(guān)系實(shí)體甲狀腺事實(shí)關(guān)系表示不同甲狀腺醫(yī)學(xué)實(shí)體間產(chǎn)生的聯(lián)系,如<病人,入院診斷,甲狀腺腫>。其中,病人、甲狀腺腫均為甲狀腺醫(yī)學(xué)實(shí)體,而入院診斷為甲狀腺事實(shí)關(guān)系實(shí)體,甲狀腺事實(shí)關(guān)系類型主要包括內(nèi)容可見(jiàn)如下:

(1)X has Y關(guān)系:表示實(shí)體Y隸屬于實(shí)體X的關(guān)系。

(2)X attribute_of Y 關(guān)系:表示實(shí)體Y擁有一個(gè)屬性實(shí)體X。

(3)X use drug Y 關(guān)系:表示病癥實(shí)體X使用藥品實(shí)體Y。

(4)X diagnosis Y 關(guān)系:表示檢驗(yàn)報(bào)告實(shí)體Y的診斷結(jié)果為實(shí)體X,實(shí)體間為診斷關(guān)系。

在給出了甲狀腺醫(yī)學(xué)實(shí)體和甲狀腺事實(shí)關(guān)系實(shí)體定義后,甲狀腺知識(shí)圖譜的概念層的定制設(shè)計(jì)可如圖2所示。

2.1.3實(shí)體填充設(shè)計(jì)

在探討了概念層設(shè)計(jì)后,可以實(shí)體填充方式創(chuàng)建本體,通過(guò)實(shí)體映射的方法,將概念層中的概念與數(shù)據(jù)庫(kù)中實(shí)體一一對(duì)應(yīng),本文采用的是BFS廣度優(yōu)先算法,對(duì)創(chuàng)建的概念樹(shù)進(jìn)行填充,得到知識(shí)圖譜。輸入已得到實(shí)現(xiàn)的概念分類樹(shù)T、概念層中的概念集合C以及定義后的實(shí)體集合E,輸出研發(fā)運(yùn)行后的甲狀腺知識(shí)圖譜G,保證輸出后的知識(shí)圖譜是以三元組的形式構(gòu)建的。算法偽代碼如下:

map = CreateMap(C,E)BFS(T,map) Enqueue(root); While(!queue) Node=dequeue(); For v in ChildrenNodes(node):if v is leaf node T.add(map.get(v.c)); Enqueue(v);CreateSequentialTuples(T)[JP3]E+Relation+Time=ExtractFromTree(T);[JP] For head in E For tail in E For relation in RelationsortedTuples = SortByTime(head,relation,tail,Time)k = FindKthRel(sortedTuples);Tuples.add(head,rel|k,tail)return Tuples至此,研究得到實(shí)體填充的運(yùn)行流程可表述為:首先,創(chuàng)建映射表。根據(jù)實(shí)體屬于概念樹(shù)中某一概念的原則,構(gòu)造得出概念到實(shí)體間的映射表如圖3所示。[PS馬晨浩3.EPS;S*2;X*2,BP#][HT6H][ST6HZ][WT6HZ][JZ]圖3映射表[JZ]Fig. 3Mapping table[HT5SS][ST5BZ][WT5BZ]其次,根據(jù)一一對(duì)應(yīng)的映射表,進(jìn)行實(shí)體填充。通過(guò)BFS廣度優(yōu)先遍歷將映射表中的實(shí)例實(shí)體存放在對(duì)應(yīng)的子節(jié)點(diǎn)中,使每個(gè)實(shí)體都有自己的屬性以及屬性值,如患者A屬于患者實(shí)體類,則將“患者A”實(shí)例化為患者實(shí)體的姓名屬性值。[JP3]最后,抽取實(shí)體和關(guān)系,綜合確定三元組,形成最終的甲狀腺知識(shí)圖譜,以rdf文件的形式送入存儲(chǔ)。[JP][BT5]2.2用戶自然語(yǔ)言問(wèn)題處理[JP2]在預(yù)期構(gòu)建了甲狀腺知識(shí)圖譜后,系統(tǒng)首先對(duì)知識(shí)圖譜的各實(shí)體進(jìn)行存儲(chǔ),將所有實(shí)體存入表中,方便日后查詢。此后將立足于研究用戶提問(wèn)的部分,即需要對(duì)用戶輸入的自然語(yǔ)言問(wèn)題進(jìn)行處理,得到計(jì)算機(jī)查詢語(yǔ)句后才能在知識(shí)圖譜中進(jìn)一步展開(kāi)查詢。[JP]對(duì)于用戶提出的自然語(yǔ)言問(wèn)題,系統(tǒng)內(nèi)部對(duì)其實(shí)現(xiàn)了一定的預(yù)處理。首先進(jìn)行中文分詞、命名實(shí)體識(shí)別,在得到各實(shí)體后,就是辨識(shí)用戶問(wèn)題的類別。不同類別的問(wèn)題,將調(diào)取系統(tǒng)中不同的模板,并將提取出的關(guān)鍵詞輔以依存句法分析,得到關(guān)鍵詞的語(yǔ)法關(guān)系,再與存有知識(shí)圖譜實(shí)體的表經(jīng)過(guò)測(cè)試比對(duì)后,將比對(duì)成功的關(guān)鍵詞,根據(jù)分析后的語(yǔ)法關(guān)系,傳入模板,執(zhí)行查詢。2.2.1最大匹配算法設(shè)計(jì)綜述目前,中文分詞大多采用最大匹配算法進(jìn)行操作。最大匹配是指以詞典為基礎(chǔ),擷取詞典中最長(zhǎng)單詞作為首個(gè)選取字?jǐn)?shù)量的掃描串,在詞典中依序搜索掃描(為提升掃描效率,還可以依據(jù)字?jǐn)?shù)不同設(shè)計(jì)多份字典,而后則根據(jù)字?jǐn)?shù)從不同字典中分別來(lái)提速掃描)。而最大匹配算法,則可分為最大正向匹配算法和最大逆向匹配分詞算法。這2個(gè)算法都將定義一個(gè)最大詞長(zhǎng)m。其中,最大正向匹配算法在收到自然語(yǔ)言字符串后,從左向右取待切分漢語(yǔ)句的m個(gè)字符作為匹配字段,切分出詞長(zhǎng)不大于最大詞長(zhǎng)的候選字符串,將候選字符串在已建立好的詞庫(kù)中進(jìn)行查詢,若匹配成功,則將這個(gè)匹配字段作為一個(gè)詞切分出來(lái)。 若匹配不成功,則將這個(gè)匹配字段的最后一個(gè)字去掉,剩下的字符串作為新的匹配字段,進(jìn)行再次匹配,重復(fù)以上過(guò)程,直到切分出所有詞為止。與最大正向匹配算法不同,最大逆向匹配算法由右至左對(duì)字符串進(jìn)行切分,若匹配不成功,則將匹配字段的最前一個(gè)字去掉。一般來(lái)說(shuō),逆向匹配的切分精度略高于正向匹配。統(tǒng)計(jì)結(jié)果表明[10],單純使用最大正向匹配錯(cuò)誤率為1/169,單純使用逆向最大匹配錯(cuò)誤率則為1/245。為了滿足系統(tǒng)內(nèi)部需要,本文結(jié)合正向匹配和逆向匹配算法的優(yōu)點(diǎn),采用雙向最大匹配算法。雙向最大匹配法是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法得到的結(jié)果加以衡量比較,從而決定正確的分詞方法。根據(jù)Sun等人的研究[11],中文方面大約90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正確;只有大約9.0%的句子對(duì)于這2種切分方法得到的結(jié)果不一樣,但其中必有一個(gè)是正確的;而僅有少于1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分雖重合卻是錯(cuò)的,或者正向最大匹配法和逆向最大匹配法切分不同但2個(gè)都不對(duì)。因此可知,雙向最大匹配法能得到更高的準(zhǔn)確率,這一點(diǎn)將是毋庸置疑的。算法的偽代碼設(shè)計(jì)內(nèi)容如下:Vector list_zheng=ZhengXiang(String) //正向匹配算法分詞Vector list_ni=NiXiang(String)//逆向匹配算法分詞If(list_zheng.size()!=list_ni.size()){//分詞結(jié)果詞數(shù)不同 return 分詞數(shù)量較少的list}else{//分詞結(jié)果相同return任一list}2.2.2技術(shù)研究處理在雙向最大匹配算法保證了分詞的準(zhǔn)確度后,還需識(shí)別文本中有關(guān)甲狀腺結(jié)節(jié)病癥及專用詞的實(shí)體,即對(duì)文本進(jìn)行命名實(shí)體識(shí)別,本系統(tǒng)以分詞后的結(jié)果,使用基于詞典的方法對(duì)文本提供處理。在該方法中,多采用語(yǔ)言學(xué)專家手工構(gòu)造規(guī)則模板[10],選用特征包括統(tǒng)計(jì)信息、標(biāo)點(diǎn)符號(hào)、關(guān)鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配為主要手段,這類系統(tǒng)大多依賴于知識(shí)庫(kù)和詞典的建立。詞庫(kù)的建立以前期研究給出的知識(shí)圖譜為基礎(chǔ),由于知識(shí)圖譜是以三元組<實(shí)體,關(guān)系,實(shí)體>的形式存儲(chǔ)在rdf[12]文件中。rdf屬于一種xml應(yīng)用,存儲(chǔ)格式整齊,是處理分布式結(jié)構(gòu)信息的有效工具,將實(shí)體和關(guān)系取出分別存儲(chǔ),組建出基于甲狀腺知識(shí)圖譜實(shí)體的詞庫(kù)。在用戶輸入的自然語(yǔ)言文本經(jīng)過(guò)分詞處理后,系統(tǒng)借助哈工大語(yǔ)言云平臺(tái)的LTPParser[13]接口,對(duì)文本進(jìn)行依存句法分析。在得到文本各分詞的成分后,將分詞結(jié)果與詞庫(kù)內(nèi)實(shí)體進(jìn)行比對(duì),比對(duì)成功的實(shí)體和關(guān)系,可以最終植入查詢模板[14],形成完整的Sparql查詢語(yǔ)句,在系統(tǒng)中進(jìn)行查詢。如自然語(yǔ)言文本“病人A的入院診斷是什么?”,經(jīng)過(guò)實(shí)體識(shí)別及句法分析正確得到該問(wèn)句主語(yǔ)為“病人A”,關(guān)系為“入院診斷”,需要得到對(duì)賓語(yǔ)的查詢,而不會(huì)將“入院診斷”視為主語(yǔ),對(duì)“入院診斷”進(jìn)行相關(guān)查詢。2.2.3問(wèn)題分類設(shè)計(jì)在用戶進(jìn)行分詞后,同時(shí)需要對(duì)用戶提出的問(wèn)題劃定分類。本系統(tǒng)問(wèn)題主要可分為4類。研究可得各類型設(shè)計(jì)闡釋如下。(1)列表類問(wèn)題。帶有“哪些”等關(guān)鍵詞的問(wèn)句在進(jìn)行自然語(yǔ)言處理后,獲取實(shí)體Keyword放入列表類問(wèn)題模板。得到完整的Sparql查詢語(yǔ)言,在甲狀腺知識(shí)圖譜內(nèi)進(jìn)行查詢,列表類問(wèn)題模板為:SELECT ?答案 where{< Keyword > ?relation ?答案}[JP3]其中,Keyword為用戶的查詢目標(biāo)關(guān)鍵詞;由于分類為列表類問(wèn)題,?relation 為Keyword與Keyword下各實(shí)體的關(guān)系;?答案為Keyword下與其相關(guān)的各個(gè)實(shí)體,使用一個(gè)循環(huán)函數(shù),將所有符合Sparql查詢語(yǔ)句的實(shí)體顯示出來(lái),同時(shí)呈現(xiàn)出列表繪制效果。[JP](2)計(jì)數(shù)型問(wèn)題。帶有“有多少”、“數(shù)目”、“數(shù)量”等單詞的問(wèn)句在進(jìn)行自然語(yǔ)言處理后,獲取實(shí)體Keyword。計(jì)數(shù)類問(wèn)題模板為:SELECT ?答案 (COUNT(?x)as ?count) where {"<" + Keyword + ">" + " ?relation?答案 " +" }GROUP BY ?x order by ?count ";利用該函數(shù),即可獲得Keyword下實(shí)體的數(shù)目,得到最終問(wèn)題的答案。(3)最值類問(wèn)題。最值類問(wèn)題分為最大值和最小值。帶有“最大”、“最高”、“最小”、“最低”等單詞的問(wèn)句在進(jìn)行自然語(yǔ)言處理后,獲取問(wèn)題目標(biāo)Keyword的過(guò)程中,可推得設(shè)計(jì)定義如下。① 最大值類問(wèn)題模板SELECT ?數(shù)值類實(shí)體 ?數(shù)值 where{?主體 ?relation1?數(shù)值類實(shí)體}.ORDER BY DESC(?數(shù)值) LIMIT 1② 最小值類問(wèn)題模板SELECT ?數(shù)值類實(shí)體 ?數(shù)值實(shí)體 where{?主體 ?relation1?數(shù)值類實(shí)體}.ORDER BY ASC(?數(shù)值) LIMIT 1[JP2]其中,主體是指問(wèn)題的具體方向,數(shù)值類實(shí)體是指實(shí)體內(nèi)含有數(shù)值屬性的實(shí)體,如甲狀腺結(jié)節(jié)檢查報(bào)告實(shí)體中含有各種指標(biāo)。總地來(lái)說(shuō),甲狀腺結(jié)節(jié)為主體,檢查報(bào)告為數(shù)值類實(shí)體,各指標(biāo)則為數(shù)值實(shí)體。[JP]研究中,需要對(duì)各數(shù)值進(jìn)行排序,而數(shù)值分散在各數(shù)值類實(shí)體中,因而在最值類模板中,就要將數(shù)值類實(shí)體經(jīng)過(guò)第一輪查詢?nèi)〕?,再在所有查詢出的?shù)值類實(shí)體中對(duì)各數(shù)值做出排序,由此獲得了用戶所需的最值答案。(4)事實(shí)類問(wèn)題。將帶有”是什么“、“是誰(shuí)”、“如何使用”等關(guān)鍵詞的問(wèn)句均列為事實(shí)類問(wèn)題。在事實(shí)類問(wèn)題中,主要對(duì)知識(shí)圖譜中的各實(shí)體的特征屬性,進(jìn)行查詢,根據(jù)用戶的具體需求,設(shè)計(jì)得出功能模板的分類內(nèi)容如下。① 基本事實(shí)類模板SELECT?答案 where{?主體 ?關(guān)系 ?客體}基本事實(shí)類模板是對(duì)用戶提出的簡(jiǎn)單問(wèn)題而構(gòu)設(shè)的基本查詢。根據(jù)對(duì)“誰(shuí)”、“什么”等代詞的成分分析判斷問(wèn)句需要得到的答案是作為主體還是客體,得到代詞在問(wèn)句中的成分后,將提取出的實(shí)體送入模板中的相應(yīng)位置進(jìn)行查詢。② 用戶手術(shù)查詢類模板While(病人信息未全部遍歷){SELECT?病人 where{?病人 ?relation ?病人信息}}用戶輸入自己病癥的信息,將所有信息送入模板進(jìn)行多次查詢,得到相同狀況的病人后,再對(duì)該病人信息設(shè)定手術(shù)查詢,查詢同等病況的患者是否做過(guò)穿刺手術(shù),最終統(tǒng)計(jì)得到病人手術(shù)的比例。在將實(shí)體進(jìn)行模板匹配后,通過(guò)在甲狀腺知識(shí)圖譜中的查詢,系統(tǒng)最終可以得到用戶所需的答案,并通過(guò)圖形界面提交給用戶。[BT4]3實(shí)驗(yàn)結(jié)果與分析[BT5]3.1實(shí)驗(yàn)一 計(jì)數(shù)類問(wèn)題[HT5H]輸入[HT5SS]:<實(shí)體>有多少?[HT5H]實(shí)例輸入[HT5SS]:34歲的患者有多少個(gè)?[HT5H]預(yù)期結(jié)果[HT5SS]:83個(gè)(人工計(jì)數(shù)知識(shí)圖譜中34歲患者的數(shù)目)。實(shí)驗(yàn)運(yùn)行結(jié)果如圖4所示。[PS馬晨浩4.EPS;S*2;X*2,BP#][HT6H][ST6HZ][WT6HZ][JZ]圖4計(jì)數(shù)類問(wèn)題測(cè)試[JZ]Fig. 4Counting class problem test[HT5SS][ST5BZ][BT5]3.2實(shí)驗(yàn)二 列表類問(wèn)題[HT5H]輸入[HT5SS]:<實(shí)體>都有哪些?[HT5H]實(shí)例輸入[HT5SS]:40歲的患者都有哪些?[HT5H]預(yù)期結(jié)果[HT5SS]:[JP4]列舉出所有年齡為40歲患者的病歷號(hào)。[JP]實(shí)驗(yàn)運(yùn)行結(jié)果如圖5所示。[PS馬晨浩5.EPS;S*2;X*2,BP#][HT6H][ST6HZ][WT6HZ][JZ]圖5列表類問(wèn)題測(cè)試[JZ]Fig. 5List problem test[HT5SS][ST5BZ][WT5BZ][BT5]3.3實(shí)驗(yàn)三 最值類問(wèn)題[HT5H]輸入[HT5SS]:<實(shí)體>的<最大值,最小值>是多少?[HT5H]實(shí)例輸入[HT5SS]:[JP4]患有甲狀腺結(jié)節(jié)的最大年齡的患者是?[JP][HT5H]預(yù)期結(jié)果[HT5SS]:最大年齡患者的病歷卡號(hào)及其年齡。實(shí)驗(yàn)運(yùn)行結(jié)果如圖6所示。[PS馬晨浩6.EPS;S*2;X*2,BP#][HT6H][ST6HZ][WT6HZ][JZ]圖6最值類問(wèn)題測(cè)試[JZ]Fig. 6Maximum class problem test[HT5SS][ST5BZ][WT5BZ][BT5]3.4實(shí)驗(yàn)四 事實(shí)類問(wèn)題[HT5H]輸入[HT5SS]:<藥品名>的使用方法。[HT5H]實(shí)例輸入[HT5SS]:葡萄糖酸鈣注射液如何使用?[HT5H]預(yù)期結(jié)果[HT5SS]:得到知識(shí)圖譜中藥品的使用方法。實(shí)驗(yàn)運(yùn)行結(jié)果如圖7所示。[PS馬晨浩7.EPS;S*2;X*2,BP#][HT6H][ST6HZ][WT6HZ][JZ]圖7事實(shí)類問(wèn)題測(cè)試[JZ]Fig. 7Fact class problem test[HT5SS][ST5BZ][WT5BZ][BT4]4結(jié)束語(yǔ)隨著IT技術(shù)的不斷發(fā)展,自動(dòng)問(wèn)答系統(tǒng)也正日趨完善。研究可知,有關(guān)醫(yī)療行業(yè)的自動(dòng)問(wèn)答系統(tǒng)勢(shì)將更加貼近病人的實(shí)際需求,而現(xiàn)今社會(huì)上問(wèn)世的有關(guān)醫(yī)療方面的問(wèn)答系統(tǒng)卻多為在線診療,即采用一對(duì)一問(wèn)診的方式來(lái)解答用戶問(wèn)題。迄今為止,自動(dòng)問(wèn)答系統(tǒng)并不多見(jiàn),而以知識(shí)圖譜為基礎(chǔ)的自動(dòng)問(wèn)答系統(tǒng)則尚屬罕見(jiàn)。本系統(tǒng)基于甲狀腺知識(shí)圖譜展開(kāi)設(shè)計(jì)。知識(shí)圖譜可以存儲(chǔ)大量數(shù)據(jù)的同時(shí),還在后續(xù)的數(shù)據(jù)維護(hù)方面相比較傳統(tǒng)知識(shí)庫(kù)而言也占據(jù)了顯著優(yōu)勢(shì)。在研究過(guò)程中,隨著對(duì)知識(shí)圖譜內(nèi)有關(guān)甲狀腺類疾病信息的增加,系統(tǒng)可以處理回答的問(wèn)題種類也將增多,準(zhǔn)確度也會(huì)獲得有效提高。但是由于目前知識(shí)圖譜內(nèi)信息種類較少,決定了可以回答的問(wèn)題種類至今并未得到明顯突破,這也將是未來(lái)亟待改進(jìn)的研究方向之一。[HS2][HT5H]參考文獻(xiàn)[HT][WT6B1][ST6BZ][HT6SS][1] [ZK(#〗[HJ*2] 薛書(shū)峰. 互聯(lián)網(wǎng)醫(yī)療的定價(jià)影響因素研究[D]. 南京:南京大學(xué),2015.[2] PEREIRA L M.Turing is among us[J]. Journal of Logic and Computation,2012, 22 (6):1257-1277.[3] KORUKONDA A R. Taking stock of Turing test: A review, analysis, and appraisal of issues surrounding thinking machines[J]. International Journal of Human-Computer Studies, 2003,58 (2) : 240-257.[4] 詹晨迪. 基于知識(shí)庫(kù)的自然語(yǔ)言問(wèn)答方法研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué),2017.[5] 郭少友,魏朋爭(zhēng),洪娜,等. 四種SPARQL查詢構(gòu)建器及其比較研究[J]. 情報(bào)科學(xué),2015,33(3):80-84.[6] 孔鹿. IBM的Watson如何改善中國(guó)醫(yī)療[N]. 第一財(cái)經(jīng)日?qǐng)?bào),2016-08-30(A08).[7] 索傳軍,蓋雙雙,周志超. 認(rèn)知計(jì)算—單篇學(xué)術(shù)論文評(píng)價(jià)的新視角[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2018,44(233):50-61.[8] 中華醫(yī)學(xué)會(huì)內(nèi)分泌學(xué)分會(huì),中華醫(yī)學(xué)會(huì)外科學(xué)分會(huì),中國(guó)抗癌協(xié)會(huì)頭頸腫瘤專業(yè)委員會(huì),等. 甲狀腺結(jié)節(jié)和分化型甲狀腺癌診治指南[J]. 中國(guó)腫瘤臨床,2012,39(17):1249-1272.[9] 蔣曉健,鄭力,梁宇瀾,等. 基于SQL SERVER的面向?qū)ο髷?shù)據(jù)庫(kù)的構(gòu)建[J]. 計(jì)算機(jī)工程與應(yīng)用,2004(4):178-181.[10]曾田日,王晉國(guó). 基于統(tǒng)計(jì)的云搜索中文分詞算法[J]. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,45(4):568-572.[11]孫茂松,鄒嘉彥. 漢語(yǔ)自動(dòng)分詞研究評(píng)述[J]. 當(dāng)代語(yǔ)言學(xué),2001,3(1):22-32,77.[12]佟強(qiáng). 數(shù)據(jù)庫(kù)支持的RDF(S)構(gòu)建與存儲(chǔ)方法研究[D]. 沈陽(yáng):東北大學(xué),2015.[13]杜澤宇. 基于中文知識(shí)圖譜的電商領(lǐng)域問(wèn)答算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[D]. 上海:華東師范大學(xué),2016.[14]張喜. 基于語(yǔ)義模板與知識(shí)庫(kù)的智能導(dǎo)購(gòu)機(jī)器人系統(tǒng)的研究與實(shí)現(xiàn)[D]. 北京:中央民族大學(xué),2012.[ZK)][FL)]

猜你喜歡
分詞圖譜數(shù)值
秦九韶與高次方程的數(shù)值解法
基于CiteSpace的我國(guó)文化“走出去”研究的知識(shí)圖譜分析(2001-2020)
分詞在英語(yǔ)教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
圖表
改進(jìn)明托熱機(jī)的數(shù)值模擬研究
改進(jìn)明托熱機(jī)的數(shù)值模擬研究
基于有限差分法的邊坡治理數(shù)值分析
基于有限差分法的邊坡治理數(shù)值分析