国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策列表的中文同音詞自動(dòng)識(shí)別與校對(duì)

2015-01-29 02:57:20石敏高尚
電子設(shè)計(jì)工程 2015年9期
關(guān)鍵詞:同音詞元組分詞

石敏,高尚

(江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003)

中文文本校對(duì)[1-3]是自然語言理解領(lǐng)域的一個(gè)重要并具有挑戰(zhàn)性的課題。尤其是隨著現(xiàn)代信息處理技術(shù)的發(fā)展,計(jì)算機(jī)漸漸替代了傳統(tǒng)文本工作,文本錯(cuò)誤有隨之越來越多。人工校對(duì)已無法滿足需求時(shí),文本自動(dòng)校對(duì)的研究應(yīng)運(yùn)而生,具有深遠(yuǎn)意義。20世紀(jì)60年代,國(guó)外就開展了英文文本的自動(dòng)校對(duì)研究[4],并取得可觀的成果。從20世紀(jì)90年代開始,國(guó)內(nèi)才開展了對(duì)中文文本的自動(dòng)校對(duì)研究[5-7],中文輸入不像英文直接輸入到計(jì)算機(jī),而是采用某種輸入法,但凡能輸入到計(jì)算機(jī)中的漢字都是存在于漢字庫中的,所以中文錯(cuò)誤只有“真詞錯(cuò)誤”。在這些錯(cuò)誤中,同音詞錯(cuò)誤占很大比例,尤其是在拼音輸入法下,人們很容易不小心將某個(gè)詞寫成它的同音詞。

本文的工作就是校對(duì)文本時(shí)出現(xiàn)了同音詞,即這個(gè)詞是同音詞混淆集中的詞,判斷這個(gè)同音詞是否出錯(cuò),如果出錯(cuò)正確的詞應(yīng)該是什么。如“我接收了他的建議”,要判斷出其中的“接收”是錯(cuò)誤的,并且能找出對(duì)應(yīng)正確的“接受”。由于本文只是對(duì)同音詞查錯(cuò)糾錯(cuò),并且只是同音詞混淆集中的詞,所以糾錯(cuò)候選象是一組同音詞,通過統(tǒng)計(jì)詞的2元特征和上下文語境結(jié)合一定的計(jì)算公式來計(jì)算這個(gè)句子對(duì)哪個(gè)詞的支持度高,這就是決策列表。

1 決策列表的構(gòu)建

決策列表[8]的構(gòu)建分為以下幾個(gè)步驟,文章中結(jié)合2元模型[9]特征和上下文語境特征,因此需要的資源有同音詞混淆集,2元模型,上下文語境。

Step1同音詞混淆集

文章中我們整理出最容易出錯(cuò)的1 000對(duì)同音詞組,文中只研究2、3字同音詞,單字詞和多字詞不考慮,列出一部分如表1所示。

表1 同音詞混淆集Tab.1 Homophone confusion set

Step2訓(xùn)練2元模型和上下文語境

我們需要大量的語料來訓(xùn)練詞的2元模型和上下文語境特征,訓(xùn)練好的資源作為接下來所有判斷的依據(jù)。

2元模型:即中心詞詞wi的前一個(gè)詞和后一個(gè)詞同現(xiàn)的頻次,即,并且統(tǒng)計(jì)出他們出現(xiàn)的次數(shù)。 例如:句子1——“今日習(xí)主席接受了奧巴馬總統(tǒng)的邀請(qǐng),并于下個(gè)月訪問美國(guó)”,統(tǒng)計(jì)“接受”的2元模型:

其中,F(xiàn)rq1,F(xiàn)rq2 為頻次。

本文摘錄4G大小的人民日?qǐng)?bào)作為訓(xùn)練語料,最后統(tǒng)計(jì)出的2元模型如表2所示。

表2 訓(xùn)練2元模型Tab.2 2-gram model of words

上下文語境:即中心詞前后最近的k個(gè)詞,k為窗口大小,同2元模型一樣,統(tǒng)計(jì)2元組以及出現(xiàn)次數(shù),例如:句子2——“今日習(xí)主席接受了奧巴馬總統(tǒng)的邀請(qǐng),并于下個(gè)月訪問美國(guó)”,統(tǒng)計(jì)“接受”窗口為3的上下文語境:

其中,F(xiàn)rq3,F(xiàn)rq4,F(xiàn)rq5,F(xiàn)rq6 為頻次。

經(jīng)過大量語料訓(xùn)練最后統(tǒng)計(jì)出的上下文語境模型如表3所示。

Step3提取待校對(duì)文本中同音詞的2元特征和上下文特征ei

表3 上下文語境Tab.3 Context of words

這部分的工作是針對(duì)待校對(duì)文本的,文章中用到的所有測(cè)試文本都是經(jīng)過分詞的。校對(duì)文本時(shí),首先找到同音詞,然后提取同音詞的2元特征和上下文,根據(jù)訓(xùn)練好的2元模型和上下文語境,找到這些特征2元組的出現(xiàn)頻次。需要注意的是,像“的”“了”等詞對(duì)區(qū)分一對(duì)同音詞幾乎沒有什么作用,這樣的詞稱停用詞,統(tǒng)計(jì)時(shí)我們不考慮停用詞。文章中用到的停用詞資源是哈工大的停用詞表,包括了最常見的504個(gè)停用字詞。

例如:句子3——我今天接收了她的邀請(qǐng)明天去參加她的生日party。

其中“接收”是同音詞,提取“接收”的2元特征和上下文特征 ei:

2元特征:今天,“了”是停用詞,因此不考慮。

窗口為4的上下文特征:我,她,接受

Step4計(jì)算提取的特征對(duì)同音詞的支持度sup

sup是特征ei對(duì)詞wi支持度:

其中

說明:frq(wi,ei)是從 Step2中訓(xùn)練好的模型查找出的 2元組出現(xiàn)頻次。 由于數(shù)據(jù)存在稀疏性,frq(wi,ei)可能為0,所以這里設(shè)置了α=0.15。經(jīng)過上述計(jì)算,最后得出整個(gè)句子對(duì)同音詞的支持度為 sup(w)=∑sup(w,ei)。

經(jīng)過 Step3,Step4得到表 4,表 5:

表4 特征2元組頻次Tab.4 Frequency of 2-gram feature

表5 決策列表Tab.5 Decision list

決策列表就是各特征以及整個(gè)句子對(duì)同音詞的支持度,從表5的最后一列中可以看出,sup(接受)>sup>(接收)>sup(接手)所以句子3中的“接收”是錯(cuò)誤的,應(yīng)該改為“接受”。校對(duì)后句子為“我 今天 <接收|接受>了 她 的 邀請(qǐng) 明天 去參加 她 的 生日 party?!边@樣就完成了句子3的查錯(cuò)和糾錯(cuò)。

2 實(shí)驗(yàn)結(jié)果及分析和改進(jìn)

2.1 實(shí)驗(yàn)結(jié)果

首先選取了最常見的易出錯(cuò)的20組同音詞構(gòu)成實(shí)驗(yàn)的同音詞混淆集,從百度上摘錄包含這些同音詞的2 000條正確句子,手工將一部分正確的詞改錯(cuò)成它的同音詞,這樣構(gòu)成了測(cè)試集。通過實(shí)驗(yàn),文本總共錯(cuò)誤800處,程序召回659處,其中正確召回599處,正確糾正570處,召回率達(dá)74.88%,準(zhǔn)確率90.9%,糾錯(cuò)率95.16%。

2.2 實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)系統(tǒng)中,試驗(yàn)結(jié)果的好壞與一些因素有關(guān),如:

1)分詞的準(zhǔn)確度

由于本實(shí)驗(yàn)是通過大規(guī)模語料統(tǒng)計(jì)模型都是在分詞的基礎(chǔ)上進(jìn)行的,因此分詞的準(zhǔn)確度對(duì)實(shí)驗(yàn)結(jié)果有影響,但是到目前的分詞方法都不能達(dá)到100%的準(zhǔn)確度。另外,由于中文本身的復(fù)雜性,語料涉及的領(lǐng)域廣泛,分詞過程中難免會(huì)碰到詞典的未登陸詞,對(duì)分詞及最終結(jié)果都有影響。

2)數(shù)據(jù)稀疏性

本實(shí)驗(yàn)中的決策列表構(gòu)建依據(jù)是大規(guī)模語料訓(xùn)練出來2元模型和上下文語境,所用的大規(guī)模語料有限,數(shù)據(jù)稀疏在所難免。這樣導(dǎo)致很多2元組的出現(xiàn)頻次為0,會(huì)影響到實(shí)驗(yàn)結(jié)果。

2.3 實(shí)驗(yàn)改進(jìn)

實(shí)驗(yàn)中通過觀察中間結(jié)果,發(fā)現(xiàn)那些未召回的錯(cuò)誤80%以上都是由于數(shù)據(jù)稀疏導(dǎo)致的,例如:句子4——半晌,她 轉(zhuǎn)身 進(jìn)去 抱 杯子 了。 實(shí)驗(yàn)發(fā)現(xiàn),2元組<進(jìn)去 杯子><進(jìn)去 被子><抱 杯子><抱 被子>的出現(xiàn)頻次均為0,因此系統(tǒng)無法將這類錯(cuò)誤召回。

改進(jìn)思路是通過同義詞聚類。舉個(gè)例子,假設(shè)模型中<接受 采訪>頻次為0,那么就找“采訪”的同義詞“訪問”等,也就是計(jì)算時(shí)我們可以用<接受 訪問>的頻次代替,如果有多個(gè)同義詞,則頻次相加作為原2元組<接受 采訪>的頻次。實(shí)驗(yàn)室需要用到同義詞聚類表,這里用的是哈工大信息檢索研究室同義詞詞林?jǐn)U展版,例如其中一條數(shù)據(jù)“Bp07B01=杯 杯子 盅 盅子 盞”,Bp07B01是這條數(shù)據(jù)的編碼,后面是一組同義詞,當(dāng)程序發(fā)現(xiàn)2元組<抱 杯子>的頻次為0時(shí),我們可以做這樣的替代 Frq(抱 杯子)=Frq(抱 杯)+Frq(抱 盅)+Frq(抱盅子)+Frq(抱 盞),對(duì)于“被子”做同樣的處理,最終實(shí)驗(yàn)結(jié)果表明能正確召回這個(gè)錯(cuò)誤。

經(jīng)過上述的改進(jìn),程序召回680處,其中正確召回628處,正確糾正599處,召回率=78.5%,比原實(shí)驗(yàn)結(jié)果有所改善。

3 結(jié)束語

本文對(duì)漢語文本校對(duì)中的同音詞錯(cuò)誤進(jìn)行自動(dòng)查錯(cuò)和糾錯(cuò),首先通過大批語料統(tǒng)計(jì)同音詞的2元模型和上下文語境,然后在校對(duì)文本時(shí)提取同音詞的2元和上下文特征,構(gòu)建決策列表,通過比較特征支持度,最后判斷是否出錯(cuò)并找到最合適的進(jìn)行替換。由于數(shù)據(jù)稀疏,還加入同義詞聚類[10]說進(jìn)行改進(jìn),最后取得比較好的實(shí)驗(yàn)結(jié)果。今后考慮加入詞性和遠(yuǎn)距離搭配,進(jìn)一步改進(jìn)實(shí)驗(yàn),提高系統(tǒng)性能。

[1]李晶皎,張莉,姚天順.漢語語音理解中自動(dòng)糾錯(cuò)系統(tǒng)的研究[J].軟件學(xué)報(bào),1999,10(4):377-381.LI Jing-jiao,ZHANG Li,YAO Tian-shun.Research on automatic checking and confirming correction for chinese speech understanding[J].Journal of Software,1999,10(4):377-381.

[2]吳巖,李秀坤,劉挺,等.中文自動(dòng)校對(duì)系統(tǒng)的研究與實(shí)現(xiàn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2001(2):60-64.WU Yan,LI Xiu-kun,LIU Ting,et al.Research and implementation of chinese text automatic system[J].Journal of Harbin Institute of Technology,2001(2):60-64.

[3]張磊,周明,黃昌寧,等.中文文本自動(dòng)校對(duì)[J].語言文字應(yīng)用,2001,2(1) :19-25.ZHaNG Lei,ZHOU Ming,HUANG Chang-ning,et al.Automatic detection and correction of typed errors in chinese text[J].Applied Linguistics,2001,2(1):19-25.

[4]Kukich K.Techniques for automatically correcting words in text[J].ACM Computing Surveys,1992,24(4):377-439.

[5]劉挺,施洪濱.中文計(jì)算機(jī)輔助校對(duì)系統(tǒng)原理[J].中文信息,1997(2):21-22.LIU Ting,SHI Hong-bin.Principle of chinese computer aided detection and correction system[J].Chinese Information,1997(2):21-22.

[6]邱超捷,宋柔.大規(guī)模語料庫中詞語接續(xù)對(duì)的統(tǒng)計(jì)與分析[A].第四屆計(jì)算語言學(xué)會(huì)議論文集(語言工程)[C]//北京:清華大學(xué)出版社,1997.

[7]郭志立.中文校對(duì)系統(tǒng)中的修改建議提供算法;第四屆計(jì)算語言學(xué)會(huì)議論文集(語言工程)[C]//北京:清華大學(xué)出版社,1997.325-330.

[8]Hiroyuki Shinnou.Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence[C]//Proceedings of EACL’99,180-187.

[9]張仰森,丁冰青.基于二元接續(xù)關(guān)系檢查的字詞級(jí)自動(dòng)查錯(cuò)方法[J].中文信息學(xué)報(bào),2001,15(3):36-43.ZHANG Yang-sen,DIng Bing-qing.Automatic errors detecting of chinese texts based oil the bi-neighborship[J].Chinese Information Technology,2001,15(3):36-43.

[10]羅智勇,宋柔.相似詞及其在計(jì)算機(jī)輔助校對(duì)系統(tǒng)中的應(yīng)用[C]//全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集.南京;2005.

猜你喜歡
同音詞元組分詞
Python核心語法
結(jié)巴分詞在詞云中的應(yīng)用
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
妙筆小畫家
基于減少檢索的負(fù)表約束優(yōu)化算法
關(guān)于同形同音詞的研究綜述
山西青年(2017年15期)2017-01-30 15:56:04
值得重視的分詞的特殊用法
淺析維漢同音詞的對(duì)比
人間(2016年29期)2016-11-10 12:38:13
面向數(shù)據(jù)流處理的元組跟蹤方法
高考分詞作狀語考點(diǎn)歸納與疑難解析
鄱阳县| 镇赉县| 潮安县| 定结县| 泽普县| 岳阳市| 嘉兴市| 邮箱| 大新县| 恭城| 三河市| 炎陵县| 西昌市| 陇川县| 大城县| 于都县| 双峰县| 威远县| 资中县| 津市市| 肥城市| 阳朔县| 自治县| 永宁县| 滦南县| 连山| 太白县| 吉木乃县| 三穗县| 开原市| 宁河县| 兴业县| 论坛| 平顶山市| 平阴县| 青河县| 乐安县| 泸水县| 都匀市| 北流市| 三门峡市|