国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模板的對(duì)幾種特殊結(jié)構(gòu)句子的語句改寫

2009-03-19 01:59劉圓圓王忠建
現(xiàn)代電子技術(shù) 2009年3期

劉圓圓 王忠建

摘 要:通過對(duì)大量漢語句子進(jìn)行考察和結(jié)構(gòu)分析,抽出以關(guān)鍵詞為核心的改寫模板,對(duì)具有一定結(jié)構(gòu)特點(diǎn)的語句進(jìn)行改寫。通過相似度計(jì)算進(jìn)行改寫模板與相應(yīng)改寫句的匹配。通過合并修飾詞并用變量替換把體現(xiàn)句子結(jié)構(gòu)的關(guān)鍵詞及結(jié)構(gòu)輔助詞固化在模板中,既實(shí)現(xiàn)了句子級(jí)的結(jié)構(gòu)精確匹配又提高了模板的覆蓋率。通過實(shí)驗(yàn)對(duì)方法進(jìn)行了考察,并給出了改寫的模板覆蓋率和改寫正確率,分別為66.34%和74.71%。

關(guān)鍵詞:語句改寫;改寫模板;模板匹配;漢語結(jié)構(gòu)

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:B

文章編號(hào):1004-373X(2009)03-157-03

Paraphrasing of Several Special Sentence Structure Based on Templates

LIU Yuanyuan,WANG Zhongjian

(School of Computer and Information Engineering,Harbin University of Commerce,Harbin,150028,China)

Abstract:By analyzing and studying the structure of large amount sentences in Chinese,extracting paraphrasing templates based on keywords,which can be used to paraphrase some sentences with special structure.Matching of paraphrasing template with sentences through calculating similarity of paraphrase sentence with paraphrasing template.With fixing keywords and structure auxiliary words which reflect the structure of sentences in the templates and combining the qualifier and replacing them using variable,it has achieved exactly structural matching in sentence level and has enhanced the coverage of the templates.To evaluate performance of the method,experiments have been done and the coverage rate of template and precision of paraphrasing are 66.34% and 74.71% respectively.

Keywords:paraphrasing;paraphrasing template;template matching;structure of Chinese

0 引 言

語句改寫是在不改變?cè)Z句表達(dá)意思的條件下的另一種表達(dá)方式,其技術(shù)可以應(yīng)用到信息檢索、問答系統(tǒng)、自動(dòng)文摘以及機(jī)器翻譯等系統(tǒng)中,并能夠有效地提高相應(yīng)系統(tǒng)的性能。

有關(guān)句改寫方面的研究資料有很多,如漢語語句改寫[1],對(duì)語句改寫語料庫的構(gòu)筑、改寫規(guī)則抽出及改寫句的生成等進(jìn)行了綜述,并介紹了采用外國名著的多個(gè)中文譯本進(jìn)行句子對(duì)齊,獲得句子的改寫實(shí)例從而構(gòu)建改寫語料庫的研究。文獻(xiàn)[2]將語句改寫應(yīng)用于漢語口語的機(jī)器翻譯中,采用基于句子分析和語言生成技術(shù)的方法對(duì)口語句子進(jìn)行了改寫。關(guān)于英語和日語的語句改寫研究,如文獻(xiàn)[3]從語料庫中抽取用于改寫研究的改寫句子語料,注重于改寫語料庫資源的構(gòu)筑研究,對(duì)改寫句的生成涉較少。文獻(xiàn)[4]則采用一種近似于無指導(dǎo)的學(xué)習(xí)方法將日語中的名詞短語改寫為動(dòng)詞短語或是相關(guān)的從句,這種方法幾乎不需要手工干預(yù),而且易于實(shí)現(xiàn)機(jī)器學(xué)習(xí)。文獻(xiàn)[5]實(shí)現(xiàn)了對(duì)英語的改寫,把被改寫句中一系列不間斷的單詞事先編碼后映射到模板中,將從模板語法中抽取出的改寫規(guī)則遞歸的運(yùn)用到改寫句的生成中,這種方法要求改寫句子的長度一般在5~12個(gè)單詞內(nèi)。

由于漢語缺乏嚴(yán)格的形態(tài)變化,既不像英語有詞序、時(shí)態(tài)、人稱、詞尾變化等可參考,又不像日語有格助詞和詞尾變化等幫助決定句子的語法結(jié)構(gòu)和時(shí)態(tài),語序和虛詞是漢語表達(dá)的重要手段。所以漢語語句改寫的研究要相對(duì)困難。本文在對(duì)語句的語法結(jié)構(gòu)進(jìn)行分析的基礎(chǔ)上使用基于模板的方法對(duì)幾種具有特殊結(jié)構(gòu)的漢語語句的改寫進(jìn)行了研究。通過模板的抽出,可以積累改寫語料為后續(xù)研究提供資源。

1 基于模板的語句改寫方法

該文采用基于模板的語句改寫方法,方法中的模板分為實(shí)例化模板和規(guī)則化模板。實(shí)例化模板是針對(duì)句子結(jié)構(gòu)比較復(fù)雜的特殊句型設(shè)計(jì)的,鑒于這種特殊語句很難使用規(guī)則模板進(jìn)行描述,而實(shí)例模板能夠更好地體現(xiàn)其句子特性,并使模板匹配更加準(zhǔn)確;規(guī)則化模板是由標(biāo)志句子結(jié)構(gòu)的關(guān)鍵詞和其他的變項(xiàng)組成,語言知識(shí)的精細(xì)度高于規(guī)則并具有規(guī)則的抽象化特性。

這里涉及改寫內(nèi)容主要是:句子結(jié)構(gòu)的變換,利用單句的特殊句式改變句子的結(jié)構(gòu)達(dá)到改寫的目的。

1.1 模板獲取分析

漢語語法結(jié)構(gòu)的分析是模板建立的關(guān)鍵。漢語語言表達(dá)要求細(xì)致,語言中的同一個(gè)意義可以用不同的句法格式來表達(dá),這就造成大量的同義句式存在[6]。在進(jìn)行語句分析中對(duì)于不同的詞類區(qū)別對(duì)待,將動(dòng)詞、助詞、介詞、和虛詞保留,通過用變量來替代其他的一些實(shí)詞構(gòu)筑句子改寫模板。以例句1為例進(jìn)行說明。

例句1:我丟了辦公室的兩把鑰匙。

在保持基本表達(dá)意思不變的情況下,在不同的場(chǎng)合根據(jù)不同的表達(dá)需要有不同的表達(dá)形式,即可用不同的句式來表示。表1中的四種句式可以用來表達(dá)例句1的意思。

表1中的四種句式互為改寫句式。除A句式外,其他三種句式還可以因表達(dá)的需要而在內(nèi)部格式上有所變化,從而生成更多的改寫語句(見表2)。

可見例句1的改寫句達(dá)10余種,可對(duì)應(yīng)抽出10種句式的改寫模板。

根據(jù)漢語句子的結(jié)構(gòu)特點(diǎn)可以劃分出漢語句子的基本句型[7],通過對(duì)所有句型的分析歸納總結(jié)出能被改寫的幾類句型。對(duì)漢語中很難歸納到某種句型的特殊句式,通過分析最后歸納出存現(xiàn)句、倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等在句子結(jié)構(gòu)上可以變換的句式。這些句式的轉(zhuǎn)換主要是主題的轉(zhuǎn)移,非常規(guī)語序大都是修辭的需要引起的。這些變化都多少會(huì)影響句子的感情色彩,但句子所要傳遞的信息沒有改變。為了說明和處理方便,在此僅介紹存現(xiàn)句。

表1 例句1的不同表達(dá)方式

編號(hào)句子結(jié)構(gòu)改寫結(jié)果

A名詞語[施事]+動(dòng)詞+名詞語[受事];

“主—?jiǎng)印e”句式,正常的表達(dá)方式我丟了兩把辦公室的鑰匙。

B名詞語[施事]+把+名詞語[受事]+動(dòng)詞語;

一般的所說的“把”字句我把辦公室的兩把鑰匙丟了。

C名詞語[受事]+被+名詞語[施事]+動(dòng)詞語;

一般所說的“被”字句辦公室的兩把鑰匙被我丟了。

D名詞語[受事]+名詞語[施事]+動(dòng)詞語;

一般的所說的主謂謂語句辦公室的兩把鑰匙我丟了。

表2 內(nèi)部格式變化的不同表達(dá)方式

編號(hào)句子結(jié)構(gòu)改寫結(jié)果

B′名詞語[施事]+把+名詞語[受事]+給+動(dòng)詞語我把辦公室的兩把鑰匙給丟了。

C′a.名詞語[受事]+被+名詞語[施事]+給+動(dòng)詞語;

b.名詞語[受事]+被+名詞語[施事]+動(dòng)詞語+數(shù)量詞a.辦公室的兩把鑰匙被我給丟了;

b.辦公室的鑰匙被我給丟了兩把。

D′a.名詞語[受事]+名詞語[施事]+給+動(dòng)詞語;

b.名詞語[受事]+名詞語[施事]+給+動(dòng)詞語+數(shù)量詞a.辦公室的兩把鑰匙我給丟了;

b.辦公室的鑰匙我給丟了兩把。

注:B′,C′,D′是由表1中B,C,D進(jìn)一步變化后得到的句子。

1.2 存現(xiàn)句的模板獲取過程

存現(xiàn)句是表示什么地方存在、出現(xiàn)或消失什么人或事物的句子式。從結(jié)構(gòu)上來說存現(xiàn)句由三部分組成:句首是表示處所或時(shí)間的詞或短語,中間是動(dòng)詞或動(dòng)詞短語,句末是名詞或名詞短語。存現(xiàn)句是一個(gè)歧義句式,既可以表示存在、表示靜態(tài),又可以表示活動(dòng)、表示動(dòng)態(tài)。因此同一個(gè)意思可以用不同的句式表達(dá)。 下面通過例子給出了存現(xiàn)句的語句改寫模板的抽出過程。

例:墻上掛著一幅畫。

→(有)一幅畫在墻上掛著。

→(有)一幅畫掛在墻上。

對(duì)應(yīng)如下變換關(guān)系的句法結(jié)構(gòu)框架:

Np+V+著+N

→ (有)+N+在+Np+V+著

→ (有)+N+V+在+Np

在此,Np表示句首方處所結(jié)構(gòu);V表示動(dòng)詞或動(dòng)詞短語;N表示句末名詞性結(jié)構(gòu)。

在原句式中,“掛”和“畫”是動(dòng)作和受事關(guān)系,“墻上”表示存在的處所;在變換式中,“掛”和“畫”仍是動(dòng)作和受事的關(guān)系,“墻上”仍表示“畫”的存在的處所。三者在共現(xiàn)詞之間的語義關(guān)系上保持不變。

通過對(duì)存現(xiàn)句的句子結(jié)構(gòu)分析得出各種句法結(jié)構(gòu)框架,進(jìn)一步進(jìn)行抽象化,就得到了改寫模板。分別以s,f,t表示處所、方位和時(shí)間的品詞標(biāo)記,則每種結(jié)構(gòu)都會(huì)有(s)處所詞,(f)方位詞,(t)時(shí)間詞。將其分離出來,作為該類模板的關(guān)鍵詞結(jié)構(gòu)。對(duì)于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語,形容詞短語等非關(guān)鍵成分,就得到了如下的改寫模板:

(1) {*}+[s/f/t]+[v]+(著)+{*}+[n]

(2) {*}+[n]+[v]+(在)+{*}+[s/f/t]

(3) {*}+[n]+(在)+{*}+[s/f/t]+[v]+(著)

其他幾種句式比如倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等的改寫模板的抽取過程與上述存現(xiàn)句的類似。

2 改寫的處理過程

模板匹配是基于模板方法的改寫系統(tǒng)的關(guān)鍵,基本思想是實(shí)現(xiàn)一個(gè)具有少數(shù)關(guān)鍵詞常項(xiàng)、任意多個(gè)變項(xiàng)的模板匹配算法,把原語句中的任意符號(hào)串結(jié)構(gòu)自動(dòng)替換成目標(biāo)語句中的符號(hào)串結(jié)構(gòu)。在具有關(guān)鍵項(xiàng)、約束項(xiàng)、任意變項(xiàng)的模板匹配算法的基礎(chǔ)上,可以利用按照一定的層次結(jié)構(gòu)組織存貯的模板,實(shí)現(xiàn)從原語句到目標(biāo)語句的自動(dòng)改寫。在此關(guān)鍵項(xiàng)是指抽出的所有模板共通的關(guān)鍵詞,而約束項(xiàng)是指所有抽出模板中除關(guān)鍵項(xiàng)之外的關(guān)鍵詞。在進(jìn)行語句改寫時(shí)對(duì)將要進(jìn)行改寫的語句抽出其結(jié)構(gòu)框架,計(jì)算它與改寫模板的相似度以決定與之相匹配的改寫模板,計(jì)算式如式(1),式(2)所示。

關(guān)鍵項(xiàng)相似度和約束項(xiàng)相似度計(jì)算:

KWS[%]=SKW(T,S)TKW(T)×100

RWS[%]=RW(T,S)TRW(T)×100

(1)

則待改寫句與模板的相似度計(jì)算:

TemSim[%]=0, KWS=RWS=0

α?KWS(T,S)+β?RWS(T,S)KWS(T,S)+RWS(T,S)×100,

KWS or RWS≠0

(2)

式中:SKW為待改寫句與模板對(duì)應(yīng)的關(guān)鍵項(xiàng)個(gè)數(shù);RW為待改寫句與模板對(duì)應(yīng)的約束項(xiàng)個(gè)數(shù);TKW為模板中所含關(guān)鍵項(xiàng)個(gè)數(shù);TRW為模板中所含約束項(xiàng)個(gè)數(shù);KWS為待改寫句與模板的關(guān)鍵項(xiàng)相似度;RWS為待改寫句與模板的約束項(xiàng)相似度;TemSim為待改寫句與模板的相似度;α,β是加權(quán)參數(shù)由預(yù)備試驗(yàn)獲得。

通過式(1),式(2)的計(jì)算獲得待改寫句與模板的相似度值,滿足設(shè)定的相似度閾值的模板用于改寫。

3 語句改寫實(shí)驗(yàn)及考察

3.1 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

實(shí)驗(yàn)使用了從中學(xué)課文中收集的約300個(gè)句子,模板庫中模板總數(shù)為196個(gè)。語句改寫的輸入內(nèi)容是使用分詞系統(tǒng)得到的分詞和詞性標(biāo)注過的句子。改寫結(jié)果的正誤判斷通過手工進(jìn)行。判斷的基準(zhǔn)分為改寫正確和改寫錯(cuò)誤。改寫正確:改寫句沒有錯(cuò)誤、表達(dá)意思不變或錯(cuò)誤較少及表達(dá)意思基本不變;改寫錯(cuò)誤:信息缺失、語序混亂及表達(dá)意思改變。

采用評(píng)價(jià)函數(shù)對(duì)抽出模板及其語句改寫的效果進(jìn)行評(píng)價(jià),公式如下:

CPR[%]=CPNPST×100

TCR[%]=PSTIST×100

(3)

式中:CPR為正確改寫率;TCR為模板覆蓋率;CPN為正確改寫數(shù)目;PST為改寫句子總數(shù);IST為輸入句子總數(shù)。由式(3)對(duì)實(shí)驗(yàn)結(jié)果評(píng)價(jià)得到在被改寫句中改寫正確率為74.71%,模板覆蓋率為66.34%。

3.2 實(shí)驗(yàn)結(jié)果的考察

在被改寫的語句中隨機(jī)抽取200句,其中錯(cuò)誤改寫句為49句。通過對(duì)改寫錯(cuò)誤句子進(jìn)行考察,獲得造成改寫誤差的不同原因。在改寫錯(cuò)誤中由于分詞和詞性標(biāo)注錯(cuò)誤而導(dǎo)致改寫的錯(cuò)誤約占19.23%,而由于待改寫句修飾成分過和多句子過長,則分詞后的詞匯信息單元過多,超出了模板所能描述的程度,出現(xiàn)的錯(cuò)誤改寫率占38.46%。模板匹配錯(cuò)誤而導(dǎo)致的改寫錯(cuò)誤有:模板抽出的錯(cuò)誤和相似度計(jì)算不夠精確而導(dǎo)致的錯(cuò)誤的匹配分別占15.38%和26.93%。由此可見對(duì)于較長的句子需要對(duì)抽出模板的方法進(jìn)一步探討,此外相似度計(jì)算也有進(jìn)一步改進(jìn)的必要。

4 結(jié) 語

通過考察句子的語法結(jié)構(gòu),抽出句子的結(jié)構(gòu)框架從而進(jìn)行了語句改寫模板的構(gòu)造。對(duì)待改寫句則通過計(jì)算改寫句與相應(yīng)模板的框架中包含的關(guān)鍵項(xiàng)和約束項(xiàng)的相似度進(jìn)行模板的匹配。通過對(duì)小規(guī)模數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)及考察給出了針對(duì)幾種特殊結(jié)構(gòu)的句子的改寫效果。錯(cuò)誤分析指出了改寫方法及處理細(xì)節(jié)上存在的問題,在今后的研究中計(jì)劃針對(duì)抽取模板的細(xì)化、相似度計(jì)算方法的改進(jìn)、擴(kuò)大對(duì)不同結(jié)構(gòu)語句的模板的抽取范圍和進(jìn)行較大規(guī)模數(shù)據(jù)的實(shí)驗(yàn)考察等方面進(jìn)行探討。

參考文獻(xiàn)

[1]李維剛,張宇,劉廷.復(fù)述技術(shù)研究綜述[J].中文信息學(xué)報(bào),2006,20(4):25-32.

[2]宗成慶,張玉潔,山本和英.面向口語翻譯的漢語語句改寫方法[J].Journal of Chinese Language and Computing,2006,12(1):63-77.

[3]Li W,Liu T.Combining Sentence Length with Location to Align Monolingual Parallel Texts [A].In:AIRS.2004.

[4]Kentaro Torisawa.A Nearly Unsupervised Learning Method for Automatic Paraphrasing of Japanese Noun Phrases.Workshop on Automatic Paraphrasing,2001:63-72.

[5]Carl Michael,Ecaterina Rascu,Paul Schmidt.Using Template Grammars for Shake & Bake Baraphrasing.Proceedings of EAMT,Budapest,2005:66-73.

[6]陸儉明.現(xiàn)代漢語語法研究教程[M].北京:北京大學(xué)出版社,2005.

[7]賈嬌燕.實(shí)用漢語語法[M].合肥:安徽教育出版社,2003.

作者簡(jiǎn)介 劉圓圓 女,1981年出生,山東濰坊人,碩士研究生。研究方向?yàn)樽匀徽Z言處理。

王忠建 男,1960年出生,河南濮陽人,教授,博士。研究方向?yàn)樽匀徽Z言處理。

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

房产| 商都县| 屏东市| 赤水市| 进贤县| 商洛市| 汝城县| 出国| 长春市| 阜南县| 横峰县| 吉林市| 翁牛特旗| 灵璧县| 高碑店市| 无锡市| 本溪市| 伊川县| 双城市| 甘谷县| 类乌齐县| 攀枝花市| 二手房| 苍溪县| 汤原县| 南江县| 靖宇县| 安吉县| 南充市| 固阳县| 福州市| 高要市| 普安县| 玉树县| 大庆市| 武宁县| 宜君县| 谢通门县| 广元市| 庆元县| 江阴市|