国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

領(lǐng)域文本信息抽取中的短語相似度計算方法

2017-06-20 23:44:29沈潔彭敦陸
軟件導(dǎo)刊 2017年4期
關(guān)鍵詞:案由知識庫字符

沈潔+彭敦陸

摘要:隨著信息化的深入發(fā)展,各應(yīng)用領(lǐng)域積累了大量采用半結(jié)構(gòu)化方式記錄的文本數(shù)據(jù)。為了快速有效地從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取有用信息,信息抽取技術(shù)應(yīng)運而生。文本信息抽取的核心算法之一是計算詞或短語的相似度,針對面向領(lǐng)域的半結(jié)構(gòu)化文本中的中文短語相似度計算,先采用模式匹配算法從原始半結(jié)構(gòu)化文本中抽取中文短語,然后結(jié)合領(lǐng)域語義依存關(guān)系,對基于公共子串的短語相似度計算方法進行改進,以此提高短語相似度計算的可靠性。實驗結(jié)果表明,所提算法具有較好的計算效果。關(guān)鍵詞:領(lǐng)域半結(jié)構(gòu)化文本;公共子串;依存關(guān)系(DOI)DOI:10.11907/rjdk.162708中圖分類號:TP301文獻標識碼:A(文章編號)文章編號:16727800(2017)0040006030 引言 在信息爆炸的今天,各大領(lǐng)域都產(chǎn)生了大規(guī)模的半結(jié)構(gòu)化文本。在醫(yī)療領(lǐng)域,產(chǎn)生了大量的電子病歷文本[1];在司法領(lǐng)域,產(chǎn)生了大量的審判案件法律文書。對領(lǐng)域文本進行高效地信息抽取,是實現(xiàn)文本數(shù)據(jù)結(jié)構(gòu)化和領(lǐng)域數(shù)據(jù)分析的基礎(chǔ),而短語相似度計算又是進行正確信息抽取的前提。 通常,由于缺乏背景知識,直接從面向領(lǐng)域的半結(jié)構(gòu)文本中抽取的短語不夠準確,難以與領(lǐng)域知識相對應(yīng)。一種可能的方法是從領(lǐng)域知識庫中查找與抽取短語相似的短語來提高信息抽取的準確性。由此,需要高效地計算從文本中抽取出的短語與領(lǐng)域知識庫中的短語相似度。迄今為止,短語相似度的計算已應(yīng)用于諸多方面,例如文本聚類[2]、文本檢索[3]和機器翻譯[4]等。 在司法領(lǐng)域,為了對大量案件進行有效的數(shù)據(jù)分析,首先需要對審判案件的法律文書進行信息抽取,形成結(jié)構(gòu)化數(shù)據(jù)。在針對法律文書(如判決書)抽取的大量數(shù)據(jù)項中,有一類數(shù)據(jù)項是由一組連續(xù)詞語組成的短語,例如,針對“案由”這個數(shù)據(jù)項,在判決書中可能會抽取到“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識庫(取自我國《刑法》)中的對應(yīng)短語是“走私、販賣、運輸、制造毒品罪”,兩者之間不完全相同,但相比其它短語則更加相似。研發(fā)出高效計算文本中抽取出的短語與領(lǐng)域知識庫中短語的相似度計算方法,有助于提高領(lǐng)域信息抽取的準確度和抽取效率。1 準備工作1.1 面向領(lǐng)域的中文短語抽取〖ST〗〖WT〗 與領(lǐng)域相關(guān)的中文短語抽取是面向領(lǐng)域的半結(jié)構(gòu)化文本信息抽取的重要任務(wù)之一。抽取出的短語以結(jié)構(gòu)化的形式進行存儲,為后期的數(shù)據(jù)分析服務(wù)。在短語抽取中,先使用基于模式匹配的結(jié)構(gòu)化信息抽取方法[5],從面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取中文短語。 下面以實現(xiàn)來說明該算法的執(zhí)行過程。例如,對短語“指控被告人王某犯販賣毒品罪一案”,首先進行分詞,然后選取案件案由的抽取模式(見圖1)對分詞序列進行模式匹配得到目標短語。其中,keyword、itemword、objphrase分別表示關(guān)鍵詞、普通詞和目標短語。通過增加關(guān)鍵詞同義詞的方式對案件案由的抽取模式進行優(yōu)化,這樣該算法就可以克服傳統(tǒng)模式的不足,準確地匹配包括同義詞在內(nèi)的短語表達。< pattern keyword ="指控" pos ="v" >< keyword-synonym >< synonym name ="控告" pos ="v" / >< / keyword-synonym >< Cluster id ="1" >< patternStr >< pattern id ="1" value =" \\s keyword/v 被告人/n itemword/nr 犯/v objphrase/n 一/m 案/ng \\b" >< / patternStr >< / Cluster >< / pattern >1.2 構(gòu)建領(lǐng)域知識庫 法律文書由司法相關(guān)工作人員人工進行書寫,書寫過程中會出現(xiàn)書寫不規(guī)范的情況。例如使用上節(jié)闡述的算法從法律文書中抽取的案件案由為“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識庫(取自我國《刑法》)中的對應(yīng)短語是“走私、販賣、運輸、制造毒品罪”。所以需要構(gòu)建領(lǐng)域知識庫,從知識庫中選取與抽取短語相似程度最高的短語作為最后的使用短語,這樣可以使抽取結(jié)果更加專業(yè)化。 本文采用主成分分析算法過濾法律文書中的噪聲信息,然后通過深度學(xué)習(xí)算法抽取領(lǐng)域特征詞和領(lǐng)域特征短語,構(gòu)建領(lǐng)域知識庫。司法領(lǐng)域的審判案件法律文書中有很多法律方面的知識,例如,審判案件類型、案件案由、結(jié)案方式等,其中案由又分為刑事案件案由、民事案件案由和行政案件案由,刑事案件案由如表1所示。3類案件在知識庫中共1 470條具體的案由數(shù)據(jù)。領(lǐng)域知識庫中的專業(yè)知識蘊含了該領(lǐng)域?qū)氋F的信息,對于提高信息抽取的準確性和有效性有巨大幫助。2 短語相似度應(yīng)用實驗 2.1 基于公共子串的短語相似度計算 基于編輯距離的短語相似度計算方法,沒有考慮字符與字符之間的連續(xù)性。例如“販賣毒品罪”通過編輯距離計算得到的相似短語是“非法買賣制毒物品罪”,而實際上“販賣毒品罪”相似的司法領(lǐng)域短語是“走私、販賣、運輸、制造毒品罪”。短語“販賣毒品罪”與短語“非法買賣制毒物品罪”相同的字符為“賣”、“毒”、“品罪”,而短語“販賣毒品罪”與短語“走私、販賣、運輸、制造毒品罪”相同的字符為“販賣”、“毒品罪”,由此可以看出短語與短語的相同字符越連續(xù),越具有語義含義。為了解決相同字符不連續(xù)導(dǎo)致相似短語選取錯誤的情況,本文提出基于公共子串的短語相似度計算方法(Common Substring,CS)。 定義1 子串:字符串S中任意個數(shù)的連續(xù)字符所組成的子序列稱為該字符串的子串。 定義2 公共子串:如果字符串C既是字符串S的子串又是字符串T的子串,則字符串C是字符串S和字符串T的一個公共子串。 定義3 最長公共子串:指字符串S和T的公共子串中長度最長的一個公共子串D。 動態(tài)規(guī)劃算法是解決最長公共子串[6]問題的經(jīng)典算法,通過式(1)可以計算出原始短語和目標短語的最長公共子串,進而可以得到不包含重復(fù)字符的公共子串(包含空字符串)。原始短語S和目標短語T的公共子串(不包含重復(fù)字符)個數(shù)為k,公共子串集合按長度從大到小排序,可以通過式(2)計算基于公共子串的短語相似度。其中,|Vm|表示公共子串的字符個數(shù),|S|表示原始短語的字符個數(shù)。 通過基于公共子串的短語相似度計算方法給連續(xù)的字符賦予更高的權(quán)重,可以解決通過編輯距離計算短語相似度時,字符不連續(xù)情況導(dǎo)致的相似短語選取錯誤的情況,從而提高算法的準確度。2.2 結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算 在上節(jié)提出的短語相似度計算方法考慮了連續(xù)字符的重要性,通過賦予連續(xù)字符更高的權(quán)重增加了連續(xù)字符的重要程度,但是沒有考慮短語中詞語與詞語之間的依存關(guān)系(Dependency Relationship,DR)。例如短語“制造、販賣毒品罪”中包含動賓關(guān)系,強調(diào)的是賓語“毒品”,而上節(jié)中提出的算法給連續(xù)字符“制造販賣”賦予了更高的權(quán)重,而忽略了賓語“毒品”的重要性。通過分析司法領(lǐng)域知識庫中的短語,可以發(fā)現(xiàn)知識庫中的短語都是名詞性短語,主要包括3種關(guān)系:主謂關(guān)系、動賓關(guān)系和定中關(guān)系。在司法領(lǐng)域,對于主謂關(guān)系,主語依存于謂語動詞,多數(shù)在語義上強調(diào)的是主語;對于動賓關(guān)系,賓語依存于動詞,強調(diào)的是賓語;對于定中關(guān)系,定語依存于中心詞(名詞),強調(diào)的是定語。通過分析領(lǐng)域短語中詞語與詞語之間的語義依存關(guān)系,可以發(fā)現(xiàn)短語的主語、賓語和定語是短語的語義重心,應(yīng)該給語義重心賦予更高的權(quán)重,更好地體現(xiàn)領(lǐng)域的特征。 在計算短語相似度時,考慮短語語義重心可以使選取相似短語的結(jié)果更加準確,在此提出結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法(DR-CS)。為了找到短語的語義重心,需要對短語進行依存句法分析。本文通過語言技術(shù)平臺(LTP)[7]得到短語中的主謂關(guān)系、動賓關(guān)系和定中關(guān)系,進而得到句子的主語、賓語和定語。如圖1所示,SBV表示主謂關(guān)系,VOB表示動賓關(guān)系,ATT表示定中關(guān)系。對目標短語中的主語、賓語和定語分別賦予權(quán)重,并結(jié)合上節(jié)中提出的算法計算短語相似度,可以體現(xiàn)短語的語義重心,提高短語相似度計算的準確度。主語、賓語和定語的權(quán)重如式(3)所示,其中WG分別表示主語、賓語和定語的權(quán)重之和,λ1、λ2、λ3表示權(quán)重的系數(shù),需要通過實驗進行調(diào)整,|Gsub|、|Gobj|、|Gatt|分別表示主語、賓語和定語的字符個數(shù)。將主語、賓語和定語的權(quán)重與基于公共子串的短語相似度計算方法相結(jié)合得到式(4)。 結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法不僅考慮了字符與字符之間的連續(xù)性,還考慮了領(lǐng)域依存關(guān)系,增加了領(lǐng)域詞語的重要程度,體現(xiàn)了短語的語義重心,提高了相似短語查找的準確性和有效性。2.3 實驗方法實驗數(shù)據(jù)來自江蘇省全省人民法院在2014年1月-2014年12月公開審判案件的裁判文書 ,包括4 000篇刑事案件裁判文書、4 000篇民事案件裁判文書和4 000篇行政案件裁判文書,總共12 000篇文檔。 實驗采用對比的方法,驗證本文提出算法的準確性和有效性。結(jié)合司法領(lǐng)域知識庫中的刑事、民事和行政案件案由,計算抽取短語與案件案由列表中短語的相似度。將結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算結(jié)果與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結(jié)果進行對比,驗證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法的有效性。〖JP+2〗表2展示了3種方法的短語相似度計算結(jié)果。原始短語就是抽取短語,目標短語是知識庫中的短語。第3、4、5列分別表示基于編輯距離的短語相似度計算方法、基于公共子串的短語相似度計算方法和結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法的計算結(jié)果。對于基于編輯距離的短語相似度計算方法,選取編輯距離最小的目標短語作為原始短語的相似短語,而對于基于公共子串的短語相似度計算方法和結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法,應(yīng)該選取相似度值最大的目標短語作為原始短語的相似短語。從表2可以看出,結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法具有更好的區(qū)分度。2.4 實驗結(jié)果與分析 本文對12 000篇審判案件裁判文書的案件案由進行了人工標注,通過對比3種算法的結(jié)果和人工標注的結(jié)果來驗證算法的準確性和有效性。 實驗過程中,對權(quán)重系數(shù)進行調(diào)整,當(dāng)λ1=0.8,λ2=0.6,λ3=0.3時,結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法得到較好結(jié)果。實驗使用準確率來評估算法在不同規(guī)模下的準確性和有效性。通過對比結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結(jié)果,可以驗證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法具有更好的效果。從實驗結(jié)果(見圖1)可知,橫坐標表示實驗所用數(shù)據(jù)集的大小,縱坐標表示ED、CS和DR-CS算法在相應(yīng)數(shù)據(jù)集上準確率的大小。另外,從圖中還可以看到,在不同規(guī)模的數(shù)據(jù)集下,結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法的準確性比其它兩種算法的準確性要高,準確率維持在90%左右。3 結(jié)語隨著互聯(lián)網(wǎng)的發(fā)展,電子化辦公方式越來越普及,各領(lǐng)域都產(chǎn)生了大量文本數(shù)據(jù),如何從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中挖掘有價值的信息是研究者所關(guān)注的。有效地信息抽取對后期的數(shù)據(jù)挖掘和分析效果會生產(chǎn)較大影響。本文從面向領(lǐng)域的半結(jié)構(gòu)化文本出發(fā),先采用模式匹配算法抽取的中文短語,運用結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法計算抽取短語與領(lǐng)域知識庫中短語的相似度,查找出領(lǐng)域知識庫中與抽取短語最相似的短語作為結(jié)果保存到結(jié)果數(shù)據(jù)中,保證了抽取的信息更加符合領(lǐng)域?qū)嶋H情況。實驗結(jié)果展示了所提算法具有較好的計算效果。如何在分布式環(huán)境下對大規(guī)模面向領(lǐng)域的文本信息抽取技術(shù)及文本數(shù)據(jù)挖掘算法進行探索,則是下一步研究的重點。endprint

參考文獻:[1]KREUZTHALER M,SCHULZ S,BERGHOLD A.Secondary use of electronic health records for building cohort studies through topdown information extraction[J].Journal of biomedical informatics,2015(53):188195.

[2][CHO Y H,PARK S H,LEE S K.Phraserank for document clustering:reweighting the weight of phrase[C].Proceedings of the 2nd International Conference on Interaction Sciences:Information Technology,Culture and Human,2009:168174.

[3][PASCA M. Asking what no one has asked before:using phrase similarities to generate synthetic web search queries\[C].Proceedings of the 20th ACM International Conference on Information and Knowledge Management,2011: 13471352.

[4][ZENS R,OCH F J,NEY H.Phrasebased statistical machine translation[C].Annual Conference on Artificial Intelligence.Springer Berlin Heidelberg,2002:1832.

[5][邵堃,楊春磊,錢立賓,等.基于模式匹配的結(jié)構(gòu)化信息抽取[J].模式識別與人工智能,2014,27(8):758768.

[6][DEOROWICZ S,GRABOWSKI S.Efficient algorithms for the longest common subsequence in klength substrings\[J]. Information Processing Letters,2014,114(11):634638.[7][W CHE,Z LI,T LIU.Ltp:a Chinese language technology platform[C].Beijing:in Coling 2010:Demonstrations,2010:1316.(責(zé)任編輯:孫娟)

猜你喜歡
案由知識庫字符
尋找更強的字符映射管理器
論環(huán)境行政案件案由的規(guī)范化
職能定位視角下民事案由制度的反思與改進
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
消失的殖民村莊和神秘字符
論案由選擇的考慮因素
商情(2018年9期)2018-03-29 09:01:38
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
從一起案件談民事案由的選擇
人間(2015年33期)2015-12-08 23:52:10
大足县| 谢通门县| 即墨市| 平度市| 林甸县| 体育| 铅山县| 呼和浩特市| 弥勒县| 乌拉特中旗| 北流市| 浏阳市| 融水| 莆田市| 天柱县| 沧源| 宁城县| 青阳县| 邵阳市| 宾阳县| 洛扎县| 合山市| 武城县| 米易县| 新干县| 三门县| 灵武市| 府谷县| 舒城县| 富平县| 福清市| 米脂县| 铁岭市| 南澳县| 辽阳县| 彭泽县| 五华县| 城市| 湟中县| 三江| 化州市|