国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種健康醫(yī)療保險格式條款的結(jié)構(gòu)化處理方法

2018-09-05 10:19:04張晶杜明
智能計算機與應用 2018年3期
關(guān)鍵詞:保險合同分詞條款

張晶 杜明

文章編號: 2095-2163(2018)03-0087-04中圖分類號: 文獻標志碼: A

摘要: 關(guān)鍵詞: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)

Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.

Key words:

作者簡介:

收稿日期: 引言

隨著當前中國經(jīng)濟水平的發(fā)展和民眾對保險產(chǎn)業(yè)認知的加深,使得保險產(chǎn)業(yè)在互聯(lián)網(wǎng)效應的驅(qū)動下有了更進一步的發(fā)展。目前各大應用平臺紛紛上線財產(chǎn)保險、人身保險等相關(guān)保險產(chǎn)品,從保險購買者的角度出發(fā),對于健康醫(yī)療保險,投保人如何根據(jù)保險人的實際身體健康狀況和所需相關(guān)保障進行投保更大程度上取決于投保人對健康醫(yī)療保險條款的理解和判斷[1]。但對于普通保險購買人來說,保險行業(yè)信息仍然存在著極大的不透明性,保險合同格式條款是由保險公司單方面商定、購買人并不參與定制的文本文件,且保險合同格式條款[2-3]大多為長文本數(shù)據(jù)類型,文本內(nèi)容多采用專業(yè)性語言和超長詞匯進行描述。

因此,如何從保險格式條款中獲取有效信息并且根據(jù)投保人意愿提供相關(guān)合理化意見和建議已經(jīng)成為保險經(jīng)營活動的新趨勢。 目前在文本數(shù)據(jù)結(jié)構(gòu)化[4]處理方面,國內(nèi)外均有許多相關(guān)的研究工作,但由于中文語言、語義、文法等存在著特殊性,借鑒國外的技術(shù)受到很多制約。首先,處理中文格式化健康保險文檔需要對長文本進行分詞,但目前現(xiàn)有的中文分詞工具,如中科院的NLPIR[5]、復旦的FNLP[6]、斯坦福的NLTK[7]等在處理具有很強專業(yè)性的中文保險合同格式條款中并不能取得很好的分詞結(jié)果;其次,與英文不同,中文不存在類似于英文的詞根/前綴,不能直接通過詞語本身對詞語進行分類,需要借助語境、語義做相應的判別分析。

針對上述問題,本文結(jié)合中文健康保險合同格式條款的具體特點,提出了一種簡單有效的中文健康保險合同格式條款文本結(jié)構(gòu)化處理方法。該方法首先對獲取到的保險條款格式進行格式轉(zhuǎn)換、編碼轉(zhuǎn)換、事項分類、長句切分等預處理操作。然后利用外部詞庫和文本分詞計算詞語共現(xiàn)度和計算詞語權(quán)重的方法構(gòu)建包含專業(yè)術(shù)語和具有重要意義的長復合詞組庫。構(gòu)建RDF提取模板;首先對事項內(nèi)容進行聚類,根據(jù)聚類結(jié)果進行關(guān)鍵名詞組提取,然后利用余弦相似度計算方法去除同義屬性,接著根據(jù)提取結(jié)果進行總結(jié)和含義轉(zhuǎn)換,最后回溯屬性提取過程,建立RDF提取模板。之后根據(jù)構(gòu)建的RDF提取模板建立通用的正則算法對文本數(shù)據(jù)進行描述抽取。

1問題闡述

保險合同格式條款是根據(jù)保險法及保險險種、范圍所定義的內(nèi)容。條款內(nèi)容中包含大量的專業(yè)術(shù)語和規(guī)范性語言表述,其中還有大量“本合同”、“本合同條款”等無關(guān)鍵意義的詞語。保險合同格式條款文本數(shù)據(jù)樣例如圖1所示。

在文本結(jié)構(gòu)上,保險合同格式條款以總分結(jié)構(gòu)定義,每篇條款由多條事項構(gòu)成;在語義上,保險合同格式條款是對其規(guī)定相關(guān)內(nèi)容的描述,每項條款由若干關(guān)聯(lián)長短句組成。

定義1條款名稱指所屬的保險合同的條款名稱名詞。例:新華i健康定期重大疾病保險利益條款。

定義2事項名稱指保險合同格式條款中包含的規(guī)定事項。例:保險期間。

定義3屬性名指某一事項下包含的主體、原因、期間、賠付、結(jié)果等信息名詞。

定義4描述值指與指標名一一對應的描述性信息。

以圖1中的數(shù)據(jù)為例,該條款中的事項名稱為 “保險期間”、“保險責任”,在保險責任部分,按語義內(nèi)容可提取指標和對應指標值“主體 :被保險人”,“原因:疾病”,“給付:重大疾病保險金”。

2保險格式條款機構(gòu)化處理方法

本文提出的基于中文健康醫(yī)療保險合同格式條款的結(jié)構(gòu)化信息抽取方法主要涉及到自然語言處理[9]的分詞、文本聚類、文本相似度計算、正則表達式匹配等技術(shù),整個處理過程主要包括5部分,分別是:合同條款數(shù)據(jù)的預處理、模板提取、領(lǐng)域詞庫構(gòu)建、信息抽取和糾錯校驗,其具體流程如圖2所示。

2.1文本預處理

由于保險格式條款的獲取渠道和文本形式不盡相同,所以在保存數(shù)據(jù)前需要對收集到的大量不符合結(jié)構(gòu)化要求的數(shù)據(jù)進行前期處理,將表格形式、網(wǎng)頁格式的文檔轉(zhuǎn)換為純文本文件,且為了能在抽取過程中進行字符串匹配對獲取的文本數(shù)據(jù)按需要進行編碼轉(zhuǎn)換。保險合同格式條款單個數(shù)據(jù)量比較復雜,依據(jù)事項關(guān)鍵字匹配對其進行分類。由于保險條款存在一定的法律意義,所以數(shù)據(jù)相對正確性較高,無需進行清洗工作,只需根據(jù)斷點進行長短句切分。

2.2領(lǐng)域詞庫構(gòu)建

在保險合同格式條款中,對很多保險事項內(nèi)容的描述都采用了醫(yī)療保險領(lǐng)域內(nèi)的專業(yè)術(shù)語或固有詞組進行表達,如“投?!薄ⅰ氨kU期間”。并且其中包含很多在語義上不可分割的較長的字符串詞組,如“重大疾病保險金”。

本文首先采用結(jié)巴分詞工具對文本數(shù)據(jù)進行分詞,首先去除停用詞,然后利用TF-IDF統(tǒng)計算法篩選出文本數(shù)據(jù)集中比較重要的詞語,應用N-Gram模型套用貝葉斯公司計算詞語的共現(xiàn)度,從而得出數(shù)據(jù)集中復雜的復合詞語,然后經(jīng)初步人工篩選建立醫(yī)療保險領(lǐng)域詞組庫。

2.3RDF提取模板建立

建立RDF資源描述框架形式的提取模板有助于對保險合同格式化條款進行高效的抽取和分類。提取模板的建立過程主要包含以下步驟:首先對事項中的內(nèi)容利用Single-Pass算法進行聚類處理,然后利用IDF和IC-value計算關(guān)鍵名詞組提取,之后利用余弦相似度比較對提取的復雜詞組進行去重,經(jīng)含義轉(zhuǎn)換操作對屬性值和描述值進行重新定義和轉(zhuǎn)換,最后根據(jù)抽取內(nèi)容和內(nèi)在聯(lián)系建立RDF 抽取模板。

2.3.1文本聚類

由于事項內(nèi)容文本量較小,但待聚類數(shù)據(jù)量大,無法確定簇的個數(shù),為便于后續(xù)根據(jù)數(shù)據(jù)情況增加新的類別,所以本文采用single-pass算法[13]對事項數(shù)據(jù)文本內(nèi)容進行聚類。Single-pass算法流程如圖3所示。

文本進行聚類的目的是為了將每個事項內(nèi)容中的長短句進行類別劃分。在本文中,對子句進行相似度對比是應用杰卡德相似系數(shù)(Jaccard Similarity)計算子句之間字符串的重合度實現(xiàn)的。 杰卡德相似系數(shù)計算公式如下:J(A,B)=|A∩B||A∪B|(1)

2.3.2關(guān)鍵名詞組抽取

對文本進行關(guān)鍵名詞組抽取主要應用基于統(tǒng)計參數(shù)的方法實現(xiàn)。在模板提取中重點需要用到兩個重要的統(tǒng)計參數(shù)分別為IDF值和IC-value值。IDF值為信息檢索中最常用到的“逆文本頻率指數(shù)”,IC-value是一種通過從逆文檔頻率、破碎子串和術(shù)語長度3個方面改進C-value而得到的一種計算候選術(shù)語度的方法。同時,屬性值的統(tǒng)計范圍是該類別的長子句的集合,而不是整個文本數(shù)據(jù)集。

計算屬性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D為子類中全部長句數(shù),Dw為子類中W出現(xiàn)的長句數(shù)。

計算屬性名w的IC-value值的公式如下:

猜你喜歡
保險合同分詞條款
性侵未成年人新修訂若干爭議條款的理解與適用
利他保險合同解除中的介入權(quán)研究——檢討《保險法司法解釋三》第17條之但書條款
法大研究生(2019年2期)2019-11-16 00:40:02
正確審視“紐約假期”條款
中國外匯(2019年15期)2019-10-14 01:00:48
結(jié)巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
再保險合同的法律性質(zhì)之初探
長江叢刊(2019年12期)2019-06-06 07:27:20
On Knock-for-Knock Principle:Analysis of SUPPLYTIME 2017 Clause 14(a)
有利解釋規(guī)則在保險合同中的適用
法律方法(2017年2期)2017-04-18 09:00:27
保險合同解除權(quán)制度之探討
市場周刊(2017年1期)2017-02-28 14:13:41
值得重視的分詞的特殊用法
制定一般反濫用條款:達成平衡
右玉县| 神木县| 天津市| 泰安市| 绍兴县| 乌拉特后旗| 双辽市| 顺义区| 华蓥市| 泰安市| 罗平县| 原阳县| 和顺县| 云霄县| 稻城县| 靖江市| 四会市| 沙湾县| 新乡县| 万载县| 秭归县| 桂林市| 四会市| 阿拉善左旗| 平度市| 永吉县| 平陆县| 吉木萨尔县| 汽车| 聊城市| 响水县| 浮山县| 晋宁县| 济阳县| 正安县| 岳阳市| 额济纳旗| 东兴市| 南宁市| 绵阳市| 嵩明县|