国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最大熵模型的漢語(yǔ)標(biāo)點(diǎn)句缺失話題自動(dòng)識(shí)別初探*

2016-01-26 06:48:16盧達(dá)威,宋柔
關(guān)鍵詞:語(yǔ)料賓語(yǔ)主語(yǔ)

?

基于最大熵模型的漢語(yǔ)標(biāo)點(diǎn)句缺失話題自動(dòng)識(shí)別初探*

通信地址:100871 北京市北京大學(xué)中國(guó)語(yǔ)言文學(xué)系A(chǔ)ddress:Department of Chinese Language and Literature,Peking University,Beijing 100871,P.R.China

盧達(dá)威1,宋柔2

(1.北京大學(xué)中國(guó)語(yǔ)言文學(xué)系,北京 100871;2.北京語(yǔ)言大學(xué)語(yǔ)言信息處理研究所,北京 100083)

摘要:本文的任務(wù)是判別標(biāo)點(diǎn)句缺失話題是上句的主語(yǔ)還是賓語(yǔ),將該任務(wù)作為標(biāo)點(diǎn)句缺失話題自動(dòng)識(shí)別研究的切入點(diǎn)。首先歸納了判別這一任務(wù)的一系列字面特征和語(yǔ)義特征,然后結(jié)合規(guī)則和最大熵模型,進(jìn)行自動(dòng)判別實(shí)驗(yàn)。結(jié)果顯示,對(duì)特定類別動(dòng)詞的實(shí)驗(yàn)F值達(dá)到82%。對(duì)實(shí)驗(yàn)結(jié)果的分析說(shuō)明,動(dòng)詞特征和語(yǔ)義特征對(duì)判別該任務(wù)的作用最大,規(guī)則方法和統(tǒng)計(jì)方法在判別任務(wù)中不能偏廢,精細(xì)化的知識(shí)對(duì)判別的性能有重要影響。

關(guān)鍵詞:廣義話題結(jié)構(gòu);新支話題;自動(dòng)識(shí)別;最大熵模型 關(guān)系句的判斷以一系列作為代表,包括表判斷的“是”、“屬于”、“當(dāng)作”、“稱為”等,表相似比喻關(guān)系的“像、好像、比如”等,以及表比較的“比”等。如:

1引言

標(biāo)點(diǎn)句是指漢語(yǔ)文本中逗號(hào)、分號(hào)、句號(hào)、嘆號(hào)、問(wèn)號(hào)、直接引語(yǔ)的引號(hào)以及這種引號(hào)前的冒號(hào)所分隔出的詞語(yǔ)串,是漢語(yǔ)篇章的基本單位[1~3]。文獻(xiàn)[4]在大規(guī)模語(yǔ)料庫(kù)統(tǒng)計(jì)中發(fā)現(xiàn),漢語(yǔ)篇章中,標(biāo)點(diǎn)句的話題缺失是常態(tài)。如:

c2:

說(shuō)住在火車站旁一家旅館內(nèi),

c3:便搬去了。

上例有3個(gè)標(biāo)點(diǎn)句,除c1的話題—說(shuō)明結(jié)構(gòu)完整外,c2、c3都缺話題。標(biāo)點(diǎn)句的話題缺失對(duì)機(jī)器翻譯、文本摘要等都是一大挑戰(zhàn)。話題屬于語(yǔ)用范疇的問(wèn)題,不容易通過(guò)統(tǒng)計(jì)獲得。

細(xì)讀c2、c3發(fā)現(xiàn),它們所缺話題并不一樣。c2的話題是“李顧留的紙條”,是c1的賓語(yǔ);c3的話題是“三人”,是c1的主語(yǔ)。在英語(yǔ)中,話題是上句的賓語(yǔ)還是主語(yǔ)可以用一定的形式手段來(lái)表達(dá),如c2可以用關(guān)系從句來(lái)表現(xiàn)。漢語(yǔ)缺乏形式標(biāo)記,雖然漢語(yǔ)母語(yǔ)者也很容易憑借語(yǔ)感判斷標(biāo)點(diǎn)句所缺的話題是什么,但讓計(jì)算機(jī)自動(dòng)判別就十分困難。另外,通過(guò)對(duì)大規(guī)模語(yǔ)料的調(diào)查發(fā)現(xiàn),標(biāo)點(diǎn)句所缺話題除了上句的主語(yǔ)和動(dòng)詞賓語(yǔ)外,還可能是上句的介詞賓語(yǔ)、主謂語(yǔ)句小主語(yǔ)、從句主語(yǔ)等,甚至上句整句作為話題[5]。因此,計(jì)算機(jī)自動(dòng)識(shí)別標(biāo)點(diǎn)句缺失話題是一項(xiàng)十分困難的任務(wù)。

文獻(xiàn)[6]針對(duì)百科全書語(yǔ)料通過(guò)人工語(yǔ)義泛化標(biāo)注和計(jì)算相似度的方法來(lái)識(shí)別標(biāo)點(diǎn)句的缺失話題,F(xiàn)值達(dá)到73.64%,文獻(xiàn)[7,8]又作了改進(jìn)。由于上述方法需要大量語(yǔ)料標(biāo)注,且針對(duì)百科全書語(yǔ)料的,對(duì)通用語(yǔ)料來(lái)說(shuō),全面的語(yǔ)義泛化十分困難。本文嘗試從另一個(gè)角度切入,將問(wèn)題的范圍限定為:僅對(duì)給定的樣本,區(qū)分標(biāo)點(diǎn)句所缺話題是上句的主語(yǔ)還是賓語(yǔ)。這樣就將問(wèn)題簡(jiǎn)化為樣本的二值分類問(wèn)題。本文首先從語(yǔ)言學(xué)和認(rèn)知方面入手,挖掘上下文的特征,進(jìn)而使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,學(xué)習(xí)各個(gè)特征的權(quán)重,實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)判別。

2實(shí)驗(yàn)樣本選擇

2.1 樣本定義

(1)每個(gè)樣本以文本中相鄰的兩個(gè)標(biāo)點(diǎn)句為原型,由前一標(biāo)點(diǎn)句的話題自足句(標(biāo)點(diǎn)句如果不缺少話題或說(shuō)明,則本身就是話題自足句,否則按照廣義話題結(jié)構(gòu)流水模型的規(guī)律,從上下文補(bǔ)足所缺的話題或說(shuō)明,補(bǔ)足后稱為話題自足句。定義詳見文獻(xiàn)[3]。)和后一標(biāo)點(diǎn)句組成一個(gè)句對(duì)。其中,前一個(gè)標(biāo)點(diǎn)句的話題自足句稱為上句,后一個(gè)標(biāo)點(diǎn)句稱為本句。

(2)上句必須是主動(dòng)賓結(jié)構(gòu)。

(3)本句必須是缺話題的標(biāo)點(diǎn)句,而且話題一定在上句出現(xiàn),且話題不是上句主語(yǔ)就是上句賓語(yǔ)。

如果樣本中本句所缺話題是上句的賓語(yǔ),這類樣本稱為新支樣本,本句稱為新支句,上句的賓語(yǔ)稱為新支話題,如例1中c1的“李顧留的紙條”就是新支話題;如果本句所缺話題是上句的主語(yǔ),則該樣本稱為非新支樣本。

2.2 實(shí)驗(yàn)?zāi)繕?biāo)

本文實(shí)驗(yàn)的目標(biāo)就是讓計(jì)算機(jī)自動(dòng)區(qū)分新支樣本和非新支樣本。

2.3 新支樣本的情況

本文以“廣義話題結(jié)構(gòu)標(biāo)注語(yǔ)料”(“北京語(yǔ)言大學(xué)語(yǔ)言信息處理研究所廣義話題結(jié)構(gòu)標(biāo)注語(yǔ)料(2014年5月28日版)”共有37萬(wàn)余字,含3萬(wàn)多個(gè)標(biāo)點(diǎn)句,包括小說(shuō)、百科全書、政府工作報(bào)告等多種語(yǔ)體的語(yǔ)料,詳見文獻(xiàn)[9]。語(yǔ)料免費(fèi)公開使用,地址為:http://pan.baidu.com/s/1i3qpibb。)為基礎(chǔ),從中篩選出所有符合以上要求的新支樣本,共有431例。另從《圍城》全文和北京語(yǔ)言大學(xué)CCRL語(yǔ)料庫(kù)中,抽取符合要求的新支樣本228例。實(shí)驗(yàn)的新支樣本合共641例,組成新支樣本集。

經(jīng)統(tǒng)計(jì),在新支樣本集中,引出新支話題的不同的動(dòng)詞(如例1的“看見”)共有267個(gè),這些動(dòng)詞的詞形在本文實(shí)驗(yàn)中將直接作為實(shí)驗(yàn)的特征。

2.4 非新支樣本的情況

我們以這267個(gè)動(dòng)詞為基礎(chǔ)來(lái)篩選非新支樣本,篩選條件是:非新支樣本的上句必須主動(dòng)賓齊全,且動(dòng)詞必須是這267個(gè)詞之一,同時(shí)本句以上句主語(yǔ)為話題。在“廣義話題結(jié)構(gòu)標(biāo)注語(yǔ)料”中,共選出符合上述條件的非新支樣本集1 508例。

3特征的分析與標(biāo)注

通過(guò)對(duì)新支樣本和非新支樣本的詳細(xì)分析發(fā)現(xiàn),影響本句話題所指的上下文因素非常復(fù)雜,涉及句法、語(yǔ)義、語(yǔ)用、常識(shí),甚至專業(yè)知識(shí)等。從工程計(jì)算的角度,我們將這些特征分為六類:動(dòng)詞特征、接續(xù)特征、信息量特征、句法特征、語(yǔ)義特征和其他特征。

3.1 動(dòng)詞特征

動(dòng)詞特征是指以樣本上句主動(dòng)賓句式中動(dòng)詞的詞形為特征(即2.3節(jié)中提到的267個(gè)動(dòng)詞)。文獻(xiàn)[10]對(duì)動(dòng)詞引出新支話題能力已有初步研究。由于每個(gè)動(dòng)詞對(duì)于是否能帶賓語(yǔ),以及所帶賓語(yǔ)是否容易作為下一個(gè)標(biāo)點(diǎn)句的話題,能力不一樣,因此動(dòng)詞詞形本身具有重要的區(qū)別意義。有些動(dòng)詞在語(yǔ)料庫(kù)中出現(xiàn)頻率很高,但沒(méi)有引出過(guò)新支話題,如“去”“沒(méi)有”“工作”等。語(yǔ)料中,引出新支話題數(shù)量最多的動(dòng)詞是“有”(84例)、“是”(46例)、“為”(26例),其他都不超過(guò)20例。

3.2 接續(xù)特征

接續(xù)特征的計(jì)算方法是:以二元語(yǔ)言模型為基礎(chǔ),分別計(jì)算上句動(dòng)詞賓語(yǔ)與本句首詞接續(xù)概率,和主語(yǔ)與本句首詞分別的接續(xù)概率,再以兩者概率之差為判別新支樣本的候選特征。

漢語(yǔ)缺少主謂一致等形態(tài)變化(性、數(shù)、格等),無(wú)法通過(guò)語(yǔ)言中的標(biāo)記來(lái)判斷話題接續(xù),故我們通過(guò)接續(xù)概率來(lái)預(yù)測(cè)。如果樣本中本句的話題是上句主語(yǔ)/賓語(yǔ),那么對(duì)于漢語(yǔ)來(lái)說(shuō),上句主語(yǔ)/賓語(yǔ)與本句通??梢圆唤?jīng)刪改直接連成句法通順、語(yǔ)義合理的句子。既然如此,這種接續(xù)情況在大規(guī)模語(yǔ)料下應(yīng)該會(huì)出現(xiàn)在一個(gè)完整的句子中,接續(xù)概率相對(duì)高。反之,若上句主語(yǔ)/賓語(yǔ)與本句首詞接不起來(lái),那么這種接續(xù)概率在大規(guī)模語(yǔ)料庫(kù)中很可能較低。例如:

‖里面想是米

該例是新支樣本的例子,上句主語(yǔ)是“他”,賓語(yǔ)是“滾圓的麻袋”,統(tǒng)計(jì)時(shí)以“麻袋”為賓語(yǔ)核心詞。本句首詞是“里面”。從接續(xù)概率上看,“麻袋里面”比“他里面”概率高,故按接續(xù)概率計(jì)算,傾向于將該例判斷為新支樣本。

由于句法的多樣性和復(fù)雜性,目前漢語(yǔ)自動(dòng)句法分析的準(zhǔn)確率不高,故在計(jì)算時(shí),對(duì)上句賓語(yǔ),我們通過(guò)人工標(biāo)記出每個(gè)樣本上句動(dòng)詞賓語(yǔ)的核心成分,再在語(yǔ)言模型中查詢?cè)摮煞趾捅揪涫自~的接續(xù)概率;對(duì)上句主語(yǔ),我們既不做句法分析,也不做人工標(biāo)注主語(yǔ)核心詞,而是直接分詞處理,計(jì)算上句動(dòng)詞前每個(gè)詞與本句首詞的接續(xù)概率,取其最大值作為該樣本上句主語(yǔ)和本句的接續(xù)概率。

3.3 信息量特征

文獻(xiàn)[11]指出,信息量對(duì)新支句的形成有重要作用。若上句賓語(yǔ)的信息量越小,則越有必要對(duì)賓語(yǔ)所指事物進(jìn)一步說(shuō)明,故賓語(yǔ)成為新支話題的可能性越大。反之,若上句賓語(yǔ)信息量越大,則對(duì)賓語(yǔ)所指事物再加以說(shuō)明的必要性越小,賓語(yǔ)成為新支話題的可能性越小。此時(shí),本句傾向于說(shuō)明主語(yǔ)的某些結(jié)果,上句主語(yǔ)成為本句話題的可能性大。

由于信息量不容易計(jì)算,在實(shí)驗(yàn)中,我們用了兩個(gè)特征進(jìn)行粗糙的模擬,即賓語(yǔ)詞數(shù)和字?jǐn)?shù)比所有樣本賓語(yǔ)平均詞數(shù)和字?jǐn)?shù)多還是少。

3.4 句法特征

這里的句法特征是指能夠從字面識(shí)別的特征,這些特征是人的認(rèn)知和語(yǔ)義在字面上的體現(xiàn)。這類特征可以被計(jì)算機(jī)直接識(shí)別,包括:

(1) 標(biāo)點(diǎn)符號(hào)特征:若上句標(biāo)點(diǎn)為句號(hào)、嘆號(hào)、問(wèn)號(hào)、分號(hào),本句一般不成為新支句。

上句句末為句號(hào)、分號(hào)、嘆號(hào)、問(wèn)號(hào)等有較大停頓的標(biāo)點(diǎn)符號(hào)時(shí),表示上句意義相對(duì)完整,故本句難以就上句的賓語(yǔ)作進(jìn)一步說(shuō)明。

例3①顎針魚科下咽骨被有細(xì)小尖齒;

鼻骨大,

②顎針魚科兩頜具細(xì)小尖齒,

‖呈帶狀排列,

上例都是百科全書中的原文,例中①和②的上句意思相當(dāng),賓語(yǔ)相同。①的上句句末用分號(hào),提示讀者,后文不會(huì)再對(duì)“細(xì)小尖齒”做進(jìn)一步說(shuō)明。②的上句句末用逗號(hào),提示后文可能繼續(xù)說(shuō)明“細(xì)小尖齒”。

(2) 本句句首是后連詞時(shí),一般不成為新支句。

例4王腳擦汗時(shí)看到兒子王肝和女兒王膽,

便大聲喝斥

該例的上句主語(yǔ)“王腳”和賓語(yǔ)“兒子王肝和女兒王膽”,在語(yǔ)義上都能與本句“大聲喝斥”搭配。位于標(biāo)點(diǎn)句句首的連詞“就”、“便”等表示上文動(dòng)作的順承。因此,本句話題傾向于“王腳”。

(3)上句特征動(dòng)詞后有趨向動(dòng)詞時(shí),其動(dòng)詞賓語(yǔ)傾向于成為新支話題。

趨向動(dòng)詞往往表示句中主體(人或事物)的位置移動(dòng)[12],若移動(dòng)的主體是賓語(yǔ)時(shí),該主體往往因位置移動(dòng)而從隱蔽處顯現(xiàn),有進(jìn)一步說(shuō)明的需要,容易成為新支話題。

例5阿劉手向口袋里半天掏出來(lái)一只發(fā)釵,

‖就是那天鮑小姐擲掉的。

例中“發(fā)釵”是因位移引介出來(lái)的新事物,成為了新支話題。

(4) 本句是關(guān)系句而上句不是關(guān)系句時(shí),本句傾向成為新支句。

例6老大這個(gè)孩子后來(lái)看中蘇鴻業(yè)的女兒,

‖也是有錢有勢(shì)的人家。

該例上句不是關(guān)系句,本句是表歸類的關(guān)系句,是對(duì)上句賓語(yǔ)“蘇鴻業(yè)的女兒”描寫,成為新支句。

(5)本句是有字句而上句不是有字句時(shí),本句傾向成為新支句。

例7車?yán)椒ㄗ饨邕吷希?/p>

‖有一個(gè)法國(guó)巡捕領(lǐng)了兩個(gè)安南巡捕在搜檢行人,

“有”字的一大功能是表存在。該例動(dòng)詞賓語(yǔ)“法租界邊上”是方位短語(yǔ),與本句構(gòu)成存現(xiàn)句,故本句成為新支句。

例8沙發(fā)旁一個(gè)小書架猜來(lái)都是張小姐的讀物。

‖有原文小字白文《莎士比亞全集》、《新舊約全書》、《家庭布置學(xué)》、翻版的《居里夫人傳》、《照相自修法》、《我國(guó)與我民》等不朽大著以及電影小說(shuō)十幾種

該例的本句表列舉,是對(duì)動(dòng)詞賓語(yǔ)外延的進(jìn)一步擴(kuò)充。

3.5 語(yǔ)義特征

語(yǔ)義特征是判斷是否新支樣本的最主要因素。實(shí)際上,上文的接續(xù)特征本身就是語(yǔ)義特征的一種,它模擬了人的認(rèn)知中某兩個(gè)詞語(yǔ)之間的緊密程度。這里的語(yǔ)義特征專指需要人工語(yǔ)義標(biāo)注的特征。

(1)語(yǔ)義泛化。

實(shí)驗(yàn)中,我們對(duì)上句主/賓語(yǔ)核心詞、本句主語(yǔ)核心詞以及本句謂語(yǔ)核心詞進(jìn)行了人工語(yǔ)義泛化標(biāo)注。主/賓語(yǔ)核心詞的語(yǔ)義泛化類型有:人、人的部件、人的部位、人的屬性、人的反應(yīng)性部位(如“心里”)、事物、事物部位、事物部件、事物屬性、書信、書信部件、書信屬性、信息、指示詞、抽象物。

對(duì)本句謂語(yǔ)核心詞的語(yǔ)義泛化類型有:一般行為、反應(yīng)性行為、反應(yīng)性形容詞、一般形容詞、狀態(tài)動(dòng)詞、具有“是”“有”“說(shuō)”“看”“聽”意義的動(dòng)詞、關(guān)系動(dòng)詞、一般名詞。

(2) 基于語(yǔ)義泛化的平行結(jié)構(gòu)。

若經(jīng)過(guò)語(yǔ)義泛化后,上句中存在某一個(gè)后段與本句結(jié)構(gòu)相似,則標(biāo)記該樣本為平行結(jié)構(gòu)。此時(shí),本句共享上句平行結(jié)構(gòu)前的部分作為話題。為避免句法分析,平行結(jié)構(gòu)均人工標(biāo)注。

例9阿古柏本為浩罕的軍官,

初為浩罕國(guó)王呼達(dá)雅爾汗的”穆合熱本”,

該例上句和本句構(gòu)成“時(shí)間副詞+擔(dān)任+隸屬者+職務(wù)”的平行結(jié)構(gòu),本句共享“阿古柏”為話題。

例10自薊城向南可直下中原,

向西北徑上蒙古高原,

該例上句和本句構(gòu)成“自+處所A+向+方向+到達(dá)+處所B”的平行結(jié)構(gòu),本句共享“自薊城”為話題。

3.6 其他特征

除了以上列舉的特征外,常識(shí)和專業(yè)知識(shí)對(duì)新支樣本的判斷也有影響。

例11他們路上碰見兩個(gè)潰兵,

‖搶去方老先生的錢袋,從語(yǔ)義上看,“他們搶去了錢袋”也是通順的。但是常識(shí)上“潰兵”容易讓人與“搶”的施動(dòng)者聯(lián)系起來(lái),故人傾向?qū)⒈揪淅斫獬尚轮Ь洹?/p>

例12鰺尾鰭分叉深,

下葉比上葉略長(zhǎng);

若不具備專業(yè)知識(shí),就不知道“下葉”是“尾鰭”的組成部件,還是“鰺”的身上與“尾鰭”同等地位的部件。有了魚類部件的專業(yè)知識(shí),才知道下葉是尾鰭的一部分。

但是,由于常識(shí)和專業(yè)知識(shí)類特征過(guò)于復(fù)雜,難以提取,本文實(shí)驗(yàn)暫沒(méi)采用。

在以上特征中,動(dòng)詞特征、信息量特征、接續(xù)特征、句法特征都是可以通過(guò)字面統(tǒng)計(jì)或推導(dǎo)出來(lái)的,實(shí)驗(yàn)中統(tǒng)稱為字面特征,而區(qū)別于需要人工標(biāo)注的語(yǔ)義特征。

4實(shí)驗(yàn)方法

4.1 模型的選擇

通過(guò)上節(jié)的分析可見,判別新支樣本的特征是分別從句法、語(yǔ)義、語(yǔ)用甚至常識(shí)中提取出來(lái)的,這些特征的粒度差異大,特征間的同質(zhì)性不高,難以預(yù)測(cè)在自然語(yǔ)言中的概率分布,故我們采用最大熵模型作為機(jī)器學(xué)習(xí)模型。因?yàn)樽畲箪啬P偷奶卣鬟x擇較為靈活[13],且特征之間不需要獨(dú)立性假設(shè)或者其他內(nèi)在約束,能夠較好地把人的知識(shí)以特征的形式融合到統(tǒng)計(jì)模型中,最大限度將人的知識(shí)與統(tǒng)計(jì)方法相結(jié)合。

4.2 模型的調(diào)整

由于最大熵模型是以整體準(zhǔn)確率來(lái)評(píng)價(jià)結(jié)果好壞的,而新支句判別問(wèn)題是一個(gè)非均衡的分類問(wèn)題??傮w樣本中,新支樣本641例,非新支樣本1 508例,比例約為1∶2.35。這種情況下,即使把全部樣本2 149例全部判為非新支句,整體準(zhǔn)確率也能達(dá)到70.2%。但是,這并非實(shí)驗(yàn)所要達(dá)到的目標(biāo)。我們更關(guān)注新支樣本的準(zhǔn)確率和召回率,故在實(shí)驗(yàn)中,我們調(diào)整新支樣本的權(quán)重。方法是:在構(gòu)造訓(xùn)練集時(shí),將新支樣本復(fù)制若干份,使得新支樣本和非新支樣本比例約為1∶1左右,而測(cè)試集則保持原來(lái)的比例不變。

4.3 測(cè)試方法

由于總體樣本較少,為了更充分地利用有限的樣本,我們采取“留一交叉驗(yàn)證”的方法進(jìn)行測(cè)試。具體方法如下:將非新支樣本集和未經(jīng)復(fù)制的新支樣本集合起來(lái)作為“原始庫(kù)”;將非新支樣本集和復(fù)制了若干份的新支樣本集合起來(lái)作為“調(diào)整庫(kù)”。每次實(shí)驗(yàn),在原始庫(kù)中取一個(gè)樣本作為唯一測(cè)試對(duì)象,調(diào)整庫(kù)中臨時(shí)除去這個(gè)測(cè)試對(duì)象后的數(shù)據(jù)作為訓(xùn)練集。如此,對(duì)原始庫(kù)中的每個(gè)樣本都測(cè)試一次,最后對(duì)原始庫(kù)所有樣本的測(cè)試結(jié)果進(jìn)行統(tǒng)計(jì)。

5實(shí)驗(yàn)過(guò)程和結(jié)果

5.1 實(shí)驗(yàn)1(Baseline):基于字面特征的全語(yǔ)料新支判別

原語(yǔ)料中,新支樣本641例,非新支樣本1 508例。訓(xùn)練時(shí),經(jīng)權(quán)重調(diào)整,新支樣本調(diào)整為原來(lái)的3倍,即1 923例;測(cè)試時(shí),按原語(yǔ)料逐一進(jìn)行留一交叉驗(yàn)證。由于時(shí)間和精力有限,全語(yǔ)料的判別實(shí)驗(yàn)僅采用字面特征,包括:動(dòng)詞特征、接續(xù)特征、句法特征和信息量特征,沒(méi)有引入語(yǔ)義特征。實(shí)驗(yàn)結(jié)果如表1所示。

Table 1 New branch recognition results in full data

注:表中“新支正確”指的是新支樣本被判為新支;“新支錯(cuò)誤”指的是新支樣本被判為非新支;“非新支正確”指的是非新支樣本被判為非新支;“非新支錯(cuò)誤”指的是非新支樣本被判為新支。下同。

這一結(jié)果是新支樣本自動(dòng)判別實(shí)驗(yàn)的Baseline。新支樣本判斷的準(zhǔn)確率為47.85%,召回率為62.40%,非新支樣本的判斷正確率要高于新支樣本近10個(gè)百分點(diǎn)。為衡量各個(gè)特征的貢獻(xiàn)度,我們計(jì)算了每個(gè)特征的信息增益(如表2所示)以及各特征權(quán)重值λ(如表3所示)。

Table 2 Information gain of each literal

表2是按照調(diào)整庫(kù)來(lái)計(jì)算特征的信息增益,按照信息增益的值由大到小列出了特征信息增益前5的特征。其中,區(qū)分度最明顯的是上句核心謂語(yǔ)動(dòng)詞的特征,遠(yuǎn)高于其他特征。其次是標(biāo)點(diǎn)符號(hào)。

Table 3 Weight value λ of each non-verbal

注:(1)表中的lambda函數(shù)是最大熵實(shí)現(xiàn)程序中的特征權(quán)重的表現(xiàn)形式。lambda函數(shù)的參數(shù)中,第一個(gè)參數(shù)值0表示新支,1表示非新支,第二個(gè)參數(shù)是特征值,如FinishedSent表示句號(hào)類標(biāo)點(diǎn)。lambda函數(shù)表明經(jīng)過(guò)模型訓(xùn)練后,該特征傾向于對(duì)新支樣本還是非新支樣本有貢獻(xiàn),等號(hào)后的數(shù)字表示其權(quán)重。下同。(2)動(dòng)詞特征權(quán)重表中沒(méi)有列出,如排名在1~87、89~90等的特征,均為動(dòng)詞特征。

表3列出了排在前5名的非動(dòng)詞特征值。本實(shí)驗(yàn)中,含動(dòng)詞在內(nèi)全部特征值有248個(gè),而排在前88的都是動(dòng)詞特征(即各動(dòng)詞詞形,表中沒(méi)有列出),可見動(dòng)詞特征是影響新支判別最重要的因素。除動(dòng)詞特征外,上句句末的標(biāo)點(diǎn)符號(hào)為句號(hào)、嘆號(hào)、問(wèn)號(hào)等標(biāo)點(diǎn)符號(hào)作為特征值的權(quán)重最大,從lambda函數(shù)看,模型認(rèn)為遇到這類特征傾向于判斷為非新支樣本。其次是本句句首為“就”或“便”這種后連詞,模型傾向于判斷為非新支樣本。

結(jié)合以上兩個(gè)表可見,動(dòng)詞特征對(duì)新支樣本的判別效果是最顯著的。故,為了進(jìn)一步考察不同動(dòng)詞對(duì)于其他各種特征及特征值敏感程度的差異,我們選擇了兩類有代表性的典型動(dòng)詞進(jìn)行實(shí)驗(yàn)。一類是動(dòng)詞“有”;另一類是“看聽”類動(dòng)詞,包括“看”“聽”“見”“瞧”“看見”“聽見”“瞧見”“看看”等。我們把含有這些典型動(dòng)詞的新支樣本和非新支樣本挑出來(lái),單獨(dú)組成該類實(shí)驗(yàn)動(dòng)詞的語(yǔ)料庫(kù),進(jìn)一步做語(yǔ)義泛化標(biāo)注和實(shí)驗(yàn)。

5.2 實(shí)驗(yàn)2:動(dòng)詞“有”類樣本的單獨(dú)實(shí)驗(yàn)

挑選“有”作為典型動(dòng)詞進(jìn)行實(shí)驗(yàn),有以下幾個(gè)原因:從統(tǒng)計(jì)上看,動(dòng)詞“有”新支樣本數(shù)量最多,且總體樣本數(shù)量也最多,有較好的統(tǒng)計(jì)意義。從語(yǔ)義上看,“有”的義項(xiàng)中出現(xiàn)最多的是擁有和存在,它們的語(yǔ)用意義很多情況下是引出上文中未出現(xiàn)過(guò)的新事物,很可能接下來(lái)要介紹這個(gè)新事物,因此“有”的賓語(yǔ)成為新支話題的可能性大。在語(yǔ)料中,含有“有”的新支樣本共84例,非新支樣本446例。訓(xùn)練時(shí),調(diào)整庫(kù)中,新支樣本調(diào)整為原來(lái)的6倍,即504例;測(cè)試時(shí),按原語(yǔ)料逐一進(jìn)行留一交叉驗(yàn)證。我們首先做基于字面特征的實(shí)驗(yàn),然后加入語(yǔ)義特征再次實(shí)驗(yàn)。

(1)基于字面特征。

對(duì)“有”的實(shí)驗(yàn),按照接續(xù)特征、句法特征、信息量特征等字面特征進(jìn)行最大熵的訓(xùn)練,結(jié)果如表4右欄。全語(yǔ)料中“有”樣本判別結(jié)果和“有”單獨(dú)實(shí)驗(yàn)相比,二者選取的特征是相同的。全語(yǔ)料實(shí)驗(yàn)中,新支樣本判斷的正確率只有29.76%,模型把大部分“有”類樣本判定為非新支樣本,包括410個(gè)非新支樣本和59個(gè)新支樣本,共469個(gè),占全體530個(gè)樣本的88.5%。而“有”類樣本單獨(dú)實(shí)驗(yàn)中,模型把大部分新支樣本都判斷正確了,新支樣本判斷正確率90.48%,但也把179個(gè)非新支樣本判為新支樣本。我們考察“有”類樣本單獨(dú)實(shí)驗(yàn)的特征權(quán)重值如表5所示。

Table 4 Comparison of the new branch recognition

Table 5 Weight value λ of each literal feature of “YOU”

對(duì)比表3和表5,兩個(gè)實(shí)驗(yàn)使用了相同的字面特征,但是權(quán)重值排序不一樣,有些具體的特征傾向性也不一樣。因?yàn)樵谌Z(yǔ)料中,“有”的樣本的判斷正確率受到其他動(dòng)詞的干擾。

(2)基于字面特征+語(yǔ)義泛化。

“有”類樣本的語(yǔ)義特征標(biāo)注包括平行結(jié)構(gòu)和賓語(yǔ)語(yǔ)義泛化。

平行結(jié)構(gòu)定義如3.5節(jié),具有平行結(jié)構(gòu)的樣本,本句傾向于成為非新支句。

“有”的賓語(yǔ)語(yǔ)義泛化可以分為兩類,一類指具體事物,一類指抽象事物。具體事物較容易作為新支話題,而抽象事物作新支話題通常比較困難。如:

‖規(guī)模均很小

上例“紡織廠”是一個(gè)具體的事物,被“有”引出后,從認(rèn)知上,有需要介紹其更多情況,如規(guī)模、產(chǎn)量、產(chǎn)品等屬性。

曾任國(guó)際天文學(xué)聯(lián)合會(huì)恒星光譜組和恒星結(jié)構(gòu)組主席。

上例“聲望”是一種抽象的概念,內(nèi)涵比較單一且明確,被“有”引出后,不需要對(duì)其屬性進(jìn)一步說(shuō)明。

這兩種特征引入模型后,含語(yǔ)義特征在內(nèi)的各特征的信息增益情況如表6所示。在“有“的語(yǔ)料中,所有平行結(jié)構(gòu)的樣本都為非新支樣本,而上句賓語(yǔ)為抽象名詞的樣本也大多數(shù)是非新支樣本,故這兩種特征的信息增益都較大。

Table 6 Information gain of each literal and semantic feature

實(shí)驗(yàn)結(jié)果如表7所示。

Table 7 New branch recognition results in “YOU”

表7顯示,添加語(yǔ)義特征后,召回率不變,而準(zhǔn)確率提高了60%。可見平行結(jié)構(gòu)和賓語(yǔ)語(yǔ)義泛化作用明顯。但仔細(xì)考察新支判別錯(cuò)誤的例子發(fā)現(xiàn),雖然都是8個(gè)錯(cuò)誤,但分別有4個(gè)樣本在不添加語(yǔ)義特征時(shí)判斷正確的,添加語(yǔ)義后判斷錯(cuò)了,還有4個(gè)樣本是不添加語(yǔ)義時(shí)判斷錯(cuò)誤而添加語(yǔ)義特征后判斷正確。

不添加語(yǔ)義特征時(shí)判斷正確,添加語(yǔ)義特征后反而判斷錯(cuò)誤的示例為:

‖一種是非和平的方式,

例15的“方式”是抽象名詞,由于語(yǔ)義特征的重要影響,根據(jù)特征的信息增益和模型的權(quán)重,傾向于判為非新支樣本。但是,仔細(xì)分析例15錯(cuò)判的原因發(fā)現(xiàn),雖然“方式”是抽象名詞,但其前面有數(shù)量短語(yǔ)“兩種”。通常數(shù)量名短語(yǔ)作為句末的賓語(yǔ)時(shí),有進(jìn)一步解釋的需求。而這個(gè)特征之前沒(méi)有發(fā)現(xiàn)??梢?,特征選取還有很大的研究空間。但是,特征越多、越細(xì),樣本數(shù)據(jù)就越稀疏,越可能發(fā)生過(guò)度擬合,這是另一個(gè)令人糾結(jié)的問(wèn)題。

Table 8 Weight value λ of each literal and semantic feature

5.3 實(shí)驗(yàn)3:“看聽”類動(dòng)詞樣本的單獨(dú)實(shí)驗(yàn)

“看聽”類動(dòng)詞語(yǔ)義上通過(guò)感官的認(rèn)知引入一個(gè)對(duì)象,這個(gè)對(duì)象通常是較為具體的對(duì)象,如一個(gè)人、一個(gè)物體,一條消息等,故有深入介紹其特性或內(nèi)容的需要。實(shí)驗(yàn)所用“看聽”類動(dòng)詞包括:看、看見、看到、看得(“他看得幾頁(yè)”)、細(xì)看、偷看、瞧、瞧見、瞧著、見、聽、聽見、聽到、聽清、聽說(shuō)、碰到、碰見。在語(yǔ)料中,含“看聽“的新支樣本有62例,非新支樣本有101例。訓(xùn)練時(shí),把新支樣本調(diào)整為原來(lái)的2倍,即124例,非新支樣本101例保持不變。測(cè)試時(shí),仍使用留一交叉驗(yàn)證。

(1)基于字面特征。

對(duì)“看聽”的樣本,首先按照接續(xù)特征、句法特征、信息量特征等字面特征進(jìn)行最大熵的訓(xùn)練,不包括語(yǔ)義泛化的特征,結(jié)果如表9所示。

Table 9 New branch recognition results of

對(duì)“看聽”類樣本而言,僅基于字面特征的效果已經(jīng)達(dá)到60.24%的準(zhǔn)確率和80.65%的召回率??梢姡瑢?shí)驗(yàn)選用的特征,比較適合判別“看聽”類動(dòng)詞引起新支話題。

表10列出了除動(dòng)詞特征外,字面特征的權(quán)重值排前5的特征??梢钥闯?,排在前列的還是以動(dòng)詞特征居多,但前幾個(gè)實(shí)驗(yàn)中區(qū)別顯著的標(biāo)點(diǎn)符號(hào)類特征并沒(méi)有排在前列。

Table 10 Weight value λ of each literal feature

(2)基于字面特征+語(yǔ)義泛化。

僅有上述一些特征,顯然不足以描述新支話題的形成原因,進(jìn)一步,我們針對(duì)動(dòng)詞的主語(yǔ)、賓語(yǔ)和本句核心動(dòng)詞以及本句句首副詞或主語(yǔ),進(jìn)行語(yǔ)義泛化。泛化內(nèi)容如3.5節(jié)。

加入對(duì)上句主/賓語(yǔ)、本句主/謂語(yǔ)的人工語(yǔ)義泛化的標(biāo)注后,效果有了明顯的提升,召回率達(dá)到87.10%,準(zhǔn)確率也達(dá)到76.06%,如表11所示。

Table 11 New branch recognition results in “KAN-TING”

表12顯示了包括語(yǔ)義泛化后各特征的信息增益。本句核心謂語(yǔ)和上句核心謂語(yǔ)相關(guān)的特征信息增益都較大,在“有”類實(shí)驗(yàn)中作用顯著的標(biāo)點(diǎn)符號(hào)增益最小。

Table 12 Information gain of each literal and semantic

表13顯示,權(quán)重靠前的特征都是語(yǔ)義泛化特征,其作用還大于動(dòng)詞特征。而且,本句相關(guān)的語(yǔ)義特征比上句有關(guān)的語(yǔ)義特征作用更明顯。

有意思的是,比較“看聽”類樣本“基于字面特征”和“基于字面特征+語(yǔ)義泛化”兩組實(shí)驗(yàn)中的新支錯(cuò)誤的數(shù)據(jù)時(shí)發(fā)現(xiàn),原來(lái)“基于字面特征”的12個(gè)新支樣本判斷錯(cuò)誤,經(jīng)過(guò)語(yǔ)義泛化,“基于字面特征+語(yǔ)義泛化”中有9個(gè)判斷正確了,但卻有5個(gè)原來(lái)判斷正確的新支樣本,語(yǔ)義泛化后反而判斷錯(cuò)了。這5個(gè)例子如下:

Table 13 Weight value λ of each literal and semantic

例16

‖一副怡然自得的樣子,

‖確是身量高了

‖正要說(shuō)話,

‖說(shuō)正要來(lái)問(wèn)趙叔叔的事。

‖也還是亂蓬蓬的須發(fā);

例中列出了各個(gè)例子的特征和具體例子,①~④主賓語(yǔ)都是人;⑤的主語(yǔ)是人,賓語(yǔ)是人的屬性,在語(yǔ)義上,上句的主語(yǔ)和賓語(yǔ)基本沒(méi)有區(qū)別,模型沒(méi)能判斷孰優(yōu)孰劣。

再看非新支判斷錯(cuò)誤的例子,有些是不應(yīng)該判斷錯(cuò)的,如:

例17他看得幾頁(yè),

眼前金光一閃,

系統(tǒng)把該例判斷成了新支樣本,而例中,上句主語(yǔ)是人,賓語(yǔ)是書信類,本句句首“眼前”是人體部位,而“書信”是無(wú)法和人體部位相連接的。但是,由于把語(yǔ)義泛化作為特征時(shí),并沒(méi)有考慮上句主語(yǔ)、賓語(yǔ)語(yǔ)義和本句句首主語(yǔ)或者謂語(yǔ)的接續(xù)關(guān)系,所以這種不合理的接續(xù)未被發(fā)現(xiàn)。而由于實(shí)驗(yàn)語(yǔ)料太少,學(xué)習(xí)這種接續(xù)關(guān)系,將面臨數(shù)據(jù)嚴(yán)重稀疏的問(wèn)題。因此,下面我們使用規(guī)則的辦法,把這種不可能相接的關(guān)系作為規(guī)則引入判斷體系中。

(3)基于字面特征+語(yǔ)義泛化+規(guī)則。

計(jì)算機(jī)能夠根據(jù)概率給出答案,但無(wú)法斷言某種答案不可能存在,只能指定小概率的范圍。因此,通過(guò)人為給出規(guī)則判定,可以幫助計(jì)算機(jī)提高性能。具體方法是:把上句主語(yǔ)、賓語(yǔ)的語(yǔ)義類型和本句句首、本句主語(yǔ)、本句核心動(dòng)詞的語(yǔ)義類型一一比對(duì),根據(jù)人的認(rèn)知:將不可能匹配的語(yǔ)義二元組建立為否定規(guī)則,實(shí)驗(yàn)中遇到滿足否定規(guī)則的情況,直接確定相反的情況為判斷結(jié)果。對(duì)于不滿足否定規(guī)則的情況不做判斷。語(yǔ)義接續(xù)否定規(guī)則舉例如表14所示。

Table 14 Semantic negation rules(with examples)

例如,例17,上句賓語(yǔ)“幾頁(yè)”泛化成“書信”,本句主語(yǔ)(亦即首詞)“眼前”泛化為“人體部位”,“書信”和“人體部位”滿足否定規(guī)則,直接判為不可能發(fā)生新支,于是只能判為非新支。

加入規(guī)則后,我們的實(shí)驗(yàn)方案修改為:先通過(guò)規(guī)則,把能夠判定的先判定,不能夠判定的交給最大熵模型處理。實(shí)驗(yàn)結(jié)果如表15所示,并跟沒(méi)有添加規(guī)則的結(jié)果(表11)相比較。

可以看出,添加語(yǔ)義規(guī)則后,對(duì)新支判斷沒(méi)有影響,對(duì)非新支的錯(cuò)誤數(shù)從17例下降到15例,有2例非新支原來(lái)判斷錯(cuò)誤的,現(xiàn)在正確了。如:

例18

不由得嚇了一跳,

心里都非常感奮,

上例中,①句的賓語(yǔ)“幾頁(yè)”是書信類,本句首詞“不由得”是反應(yīng)性副詞,不可能相接。②句的賓語(yǔ)“這面‘治崗紅旗’”是事物,本句首詞“心里”是人反應(yīng)部件,不能相接。這兩個(gè)例子是規(guī)則判斷的結(jié)果。

Table 15 New branch recognition results in

Figure 1 Experimental results comparison 圖1 各實(shí)驗(yàn)結(jié)果比較

5.4 實(shí)驗(yàn)4:含“看”“聽”“有”語(yǔ)料的新支判別

在以上實(shí)驗(yàn)的基礎(chǔ)上,我們嘗試把“看聽”“有”兩類動(dòng)詞樣本綜合起來(lái),考察它們的表現(xiàn)情況。由于“有”和“看聽”使用的語(yǔ)義泛化方法不一樣,故本實(shí)驗(yàn)僅使用基于字面特征的方法進(jìn)行訓(xùn)練和測(cè)試,不加入語(yǔ)義泛化的特征?!翱绰牎薄坝小惫灿行轮颖?46例,非新支547例,訓(xùn)練時(shí),把新支語(yǔ)料調(diào)整為原來(lái)的4倍,即584例,非新支語(yǔ)料547例不變。測(cè)試結(jié)果如表16所示。

Table 16 New branch recognition results in “KAN-

從表現(xiàn)測(cè)試結(jié)果看(表16),準(zhǔn)確率在“有”和“看聽”類樣本實(shí)驗(yàn)之間,但是,召回率卻比“有”和“看聽”類樣本實(shí)驗(yàn)都要低??梢姡瑑深悇?dòng)詞由于表現(xiàn)不一樣,需要的特征和權(quán)重不一樣,把他們混到一起會(huì)出現(xiàn)兩類特征出現(xiàn)相互制約的情況。這正是全語(yǔ)料字面特征實(shí)驗(yàn)(Baseline)中,結(jié)果不太好的一大原因。

6討論

通過(guò)新支樣本和非新支樣本的判別實(shí)驗(yàn),我們嘗試將統(tǒng)計(jì)方法和認(rèn)知規(guī)則及人的語(yǔ)義知識(shí)結(jié)合起來(lái)進(jìn)行判定??偟膩?lái)說(shuō),自動(dòng)判別是比較復(fù)雜的。

圖1比較了各實(shí)驗(yàn)的新支準(zhǔn)確率、召回率和F值,由實(shí)驗(yàn)可知:

(1)動(dòng)詞特征起重要作用。一方面,動(dòng)詞特征在訓(xùn)練后,權(quán)重皆比較高;另一方面,同樣的特征,對(duì)不同動(dòng)詞專門訓(xùn)練,所得到的其他特征的權(quán)重也不一樣。動(dòng)詞特征的重要作用從另一個(gè)方面說(shuō)明,對(duì)不同的動(dòng)詞應(yīng)該使用不同的特征進(jìn)行判定。反推人的認(rèn)知,我們提出一種可能性,即人在判斷后標(biāo)點(diǎn)句的話題是上句的主語(yǔ)還是賓語(yǔ)時(shí),也是根據(jù)動(dòng)詞的語(yǔ)義、語(yǔ)用等因素,調(diào)取不同的模板進(jìn)行判斷,而不是通過(guò)同一套特征及其權(quán)重來(lái)判定。

(2)語(yǔ)義泛化對(duì)新支判斷的影響重大。凡經(jīng)過(guò)泛化,都能使得效果有較大提高。而且語(yǔ)義泛化特征的權(quán)重都排在較前的位置,證明語(yǔ)義泛化標(biāo)注具有較好的一致性。語(yǔ)義泛化需要人的知識(shí)的介入和標(biāo)注,再輔以統(tǒng)計(jì)學(xué)習(xí)方法才能獲得較為良好的效果。

(3)規(guī)則能夠幫助提高判斷的準(zhǔn)確率。如果僅靠規(guī)則,由于變化因素多,相互關(guān)系復(fù)雜,寫規(guī)則時(shí)難以面面俱到,準(zhǔn)確無(wú)誤地描述。但是,統(tǒng)計(jì)的一大缺點(diǎn)是無(wú)法對(duì)否定進(jìn)行斷言,只能按照一個(gè)小概率的范圍來(lái)估計(jì)和拒絕。如果能總結(jié)出不可能的規(guī)則,則能夠幫助計(jì)算機(jī)提高效率和準(zhǔn)確率,減少對(duì)不可能的事情的錯(cuò)誤估計(jì)。

誠(chéng)然,本實(shí)驗(yàn)還有許多能夠改進(jìn)的地方:

(1)有幾個(gè)特征的獲取依賴于句法分析,如果提高句法分析的準(zhǔn)確性,可以減少人工標(biāo)注,獲得更多的訓(xùn)練數(shù)據(jù)。如主賓語(yǔ)核心成分的提取,以及平行結(jié)構(gòu)的識(shí)別,它們都在特征中起到重要作用。

(2)有些特征的計(jì)算方法不科學(xué),比如賓語(yǔ)信息量的特征,作用甚微,甚至有時(shí)起到反作用,應(yīng)重新設(shè)計(jì)計(jì)算方法。

(3)統(tǒng)計(jì)方法上,不一定只選擇最大熵模型,可以結(jié)合多種方法進(jìn)行嘗試,本文由于時(shí)間關(guān)系,沒(méi)有開展更多的實(shí)驗(yàn)。

從本文的實(shí)驗(yàn)及其分析,我們認(rèn)為可以得出以下幾點(diǎn)結(jié)論:

(1)統(tǒng)計(jì)方法和規(guī)則方法不能偏廢。隨著大數(shù)據(jù)的興起,深度學(xué)習(xí)的出現(xiàn),學(xué)術(shù)界對(duì)統(tǒng)計(jì)方法有了新一輪的期待。越來(lái)越多的聲音認(rèn)為統(tǒng)計(jì)方法將能取代規(guī)則或者自動(dòng)發(fā)現(xiàn)規(guī)則。規(guī)則的作用在于斷言,能夠把不可能的情況排除在外。我們的實(shí)驗(yàn)表明,規(guī)則確實(shí)能夠提高系統(tǒng)的性能,系統(tǒng)的設(shè)計(jì)應(yīng)留有接口,介入規(guī)則。

(2)注意精細(xì)知識(shí)的使用。本實(shí)驗(yàn)的一條重要結(jié)論是,不同動(dòng)詞適用不同的特征。這就要求對(duì)特征的描述非常準(zhǔn)確和精細(xì),對(duì)每類動(dòng)詞,應(yīng)根據(jù)其語(yǔ)義、語(yǔ)用、認(rèn)知等構(gòu)造一套語(yǔ)義特征模板。這不能缺少人的參與。

(3)統(tǒng)計(jì)模型和人的作用并重。統(tǒng)計(jì)中的特征選取,包括字面特征和精細(xì)的語(yǔ)義泛化,以及規(guī)則的確定等,這一系列的過(guò)程都不能離不開人的參與。人在認(rèn)知時(shí),依賴于許許多多的知識(shí)模板,這些精細(xì)的模板必須由人來(lái)提供一定的知識(shí)支持,再輔以統(tǒng)計(jì)模型,才能取得更好的效果。因此,自然語(yǔ)言處理中,不僅不能忽視人的因素,還需要有大量深入的人的智力投入,深入到語(yǔ)言事實(shí)語(yǔ)言現(xiàn)象中,發(fā)掘和思考認(rèn)知原理。

7結(jié)束語(yǔ)

本文嘗試讓計(jì)算機(jī)自動(dòng)判別標(biāo)點(diǎn)句所缺的話題??紤]到任務(wù)的復(fù)雜性,最后限制在上句主語(yǔ)和賓語(yǔ)的判別上,即僅區(qū)分新支樣本和非新支樣本。主要工作內(nèi)容是實(shí)驗(yàn)語(yǔ)料的獲取、統(tǒng)計(jì)模型的確定、特征的選取、實(shí)驗(yàn)的組織。實(shí)驗(yàn)組織中涉及到不同對(duì)象語(yǔ)料、不同特征類的多種組合以及規(guī)則的加入。實(shí)驗(yàn)結(jié)果是:僅用字面特征的全語(yǔ)料的最大熵模型計(jì)算中,新支句判斷的F值為54%,對(duì)于“看聽”類動(dòng)詞的樣本單獨(dú)實(shí)驗(yàn),加入比較豐富的語(yǔ)義特征并使用否定型的規(guī)則后,新支句判斷的F值達(dá)到82%。實(shí)驗(yàn)說(shuō)明,即使在有限范圍內(nèi)的自動(dòng)識(shí)別,工作難度也較大,且嚴(yán)重依賴于人的語(yǔ)言知識(shí)。

本文的實(shí)驗(yàn)只是進(jìn)行初步的探索,而且由于時(shí)間關(guān)系,實(shí)驗(yàn)過(guò)程使用的特征和模型參數(shù)還比較粗糙,本實(shí)驗(yàn)的目的并不在于令標(biāo)點(diǎn)句缺失話題的自動(dòng)判別達(dá)到實(shí)用化,實(shí)驗(yàn)結(jié)果并非十分理想,但實(shí)驗(yàn)表明,基于把統(tǒng)計(jì)模型和認(rèn)知方法相結(jié)合是可行的,其結(jié)果的正誤是基本可解釋的。

參考文獻(xiàn):附中文

[1]Song Rou.The delesion of the fronts of clauses in Chinese narratives [J].Journal of Chinese Information Processing,1992,6(3):62-68.(in Chinese)

[2]Song Rou.Research on properties of syntactic relation between P-clauses in modern Chinese [J].Chinese Teaching in the World,2008(2):26-44.(in Chinese)

[3]Song Rou.Stream model of generalized topic structure in Chinese text[J].Studies of The Chinese Language,2013(6):483-494.(in Chinese)

[4]Lu Da-wei,Song Rou,Shang Ying.Cognitive complexity of topic in Chinese text based on generalized topic structure theory [J].Journal of Chinese Information Processing,2014,28(5):112-124.(in Chinese)

[5]Lu Da-wei.The cognitive and computational research of generalized topic structure in Chinese discourse:A corpus-driven approach [D].Beijing:Beijing Language and Culture University,2015.(in Chinese)

[6]Jiang Yu-ru,Song Rou.Topic clause identification based on generalized topic theory [J].Journal of Chinese Information Processing,2012,26(5):114-119.(in Chinese)

[7]Jiang Yu-ru,Song Rou.Topic clause identification method based on specific features [J].Journal of Computer Applications,2014,36(5):1345-1349.(in Chinese)

[8]Jiang Yu-ru,Song Rou.Optimization of candidate topic clause evaluation function in topic clause indentification [J].Jouranl of Beijing University of Technology,2014,40(1):43-48.(in Chinese)

[9]Shang Ying.Empirical research of generalized topic structure theory [D].Beijing:Beijing Language and Culture University,2014.(in Chinese)

[10]Ji Cui,Lu Da-wei,Song Rou.Research on pragmatic function of verbs addressing new branch topic [J].Journal of Chinese Information Processing,2014,28(3):22-27.(in Chinese)

[11]Zhang Rui-peng.The research about the constraint rules of syntax relation in cross-puctuation sentence in written mordern Chinese [M].Beijing:China Social Sciences Press,2013.(in Chinese)

[12]Zhang Bin. Descriptive Grammar of Modern Chinese[M].Beijing:The Commerical Press, 2010.(in Chinese)

[13]Berger A L, Pietra V J D, Pietra S AD. A maximum entropy approach to natural language processing [J].Computational Linguistics,1996,22(1):39-71.

[1]宋柔.漢語(yǔ)敘述文中的小句前部省略現(xiàn)象初析[J].中文信息學(xué)報(bào),1992,6(3):62-68.

[2]宋柔.現(xiàn)代漢語(yǔ)跨標(biāo)點(diǎn)句句法關(guān)系的性質(zhì)研究[J].世界漢語(yǔ)教學(xué),2008(2):26-44.

[3]宋柔.漢語(yǔ)篇章廣義話題結(jié)構(gòu)的流水模型[J].中國(guó)語(yǔ)文,2013(6):483-494.

[4]盧達(dá)威,宋柔,尚英.從廣義話題結(jié)構(gòu)考察漢語(yǔ)篇章話題的認(rèn)知復(fù)雜度[J].中文信息學(xué)報(bào),2014,28(5):112-124.

[5]盧達(dá)威.語(yǔ)料庫(kù)實(shí)證的漢語(yǔ)篇章廣義話題結(jié)構(gòu)認(rèn)知和計(jì)算研究[D].北京:北京語(yǔ)言大學(xué),2015.

[6]蔣玉茹,宋柔.基于廣義話題理論的話題句識(shí)別[J].中文信息學(xué)報(bào),2012,26(5):114-119.

[7]蔣玉茹,宋柔.基于細(xì)粒度特征的話題句識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1345-1349.

[8]蔣玉茹,宋柔.話題句識(shí)別中候選話題句評(píng)估函數(shù)的優(yōu)化[J].北京工業(yè)大學(xué)學(xué)報(bào),2014,40(1):43-48.

[9]尚英.漢語(yǔ)篇章廣義話題結(jié)構(gòu)理論的實(shí)證性研究[D].北京:北京語(yǔ)言大學(xué),2014.

[10]季翠,盧達(dá)威,宋柔.動(dòng)詞引出新支話題的語(yǔ)用功能研究[J].中文信息學(xué)報(bào),2014,8(3):22-27.

[11]張瑞朋.現(xiàn)代漢語(yǔ)書面語(yǔ)中跨標(biāo)點(diǎn)句句法關(guān)系約束條件的研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2013.

[12]張斌.現(xiàn)代漢語(yǔ)描寫語(yǔ)法[M].北京:商務(wù)印書館,2010.

盧達(dá)威(1983-),男,廣東廣州人,博士后,講師,研究方向?yàn)樽匀徽Z(yǔ)言處理。E-mail:wedalu@163.com

LU Da-wei,born in 1983,postdoctor,lecturer,his research interest includes natural language processing.

宋柔(1946-),男,北京人,教授,博士生導(dǎo)師,研究方向?yàn)樽匀徽Z(yǔ)言處理。E-mail:songrou@126.com

SONG Rou,born in 1946,professor,PhD supervisor,his research interest includes natural language processing.

Automatic recognition of the absent topics in Chinese punctuation clauses based on maximum entropy model

LU Da-wei1,SONG Rou2

(1.Department of Chinese Language and Literature,Peking University,Beijing 100871;

2.Institute of Language Information Processing,Beijing Language and Culture University,Beijing 100083,China)

Abstract:We focus on the task of the automatic recognition,which identify whether an absent topic of a punctuation clause is the subject or object of its previous sentence. We regard this task as the pointcut of the automatic recognition of absent topics in Chinese punctuation clauses. Several literal features and semantic features are summerized to achieve this task by combining the rules and the maximum entropy model. Experimental results show that F-score of this recognition approach reaches 82% for the samples of some specific verbs. Experimental results analysis shows that verb features and semantic features play the most important role in the recognition process; neither rules nor statistics can be neglected, and refined knowledge has great influence on the performance of the recognition .

Key words:generalized topic structure;new branch topic;automatic recognition;maximum entropy model

作者簡(jiǎn)介:

doi:10.3969/j.issn.1007-130X.2015.12.014

中圖分類號(hào):TP391.1

文獻(xiàn)標(biāo)志碼:A

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61171129);國(guó)家973計(jì)劃資助項(xiàng)目(2014CB340502)

收稿日期:修回日期:2015-11-05

文章編號(hào):1007-130X(2015)12-2282-12

猜你喜歡
語(yǔ)料賓語(yǔ)主語(yǔ)
談?wù)勔龑?dǎo)主語(yǔ)從句的連接詞的用法
巧用無(wú)靈主語(yǔ),讓續(xù)寫更靈動(dòng)
連詞that引導(dǎo)的賓語(yǔ)從句
賓語(yǔ)從句及練習(xí)
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
中考試題中的賓語(yǔ)從句
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
盤點(diǎn)高考中的特殊句式(二)
青蘋果(2014年2期)2014-04-29 20:31:27
海宁市| 拉孜县| 文水县| 昔阳县| 通江县| 阳信县| 云龙县| 北票市| 盐边县| 集安市| 绥芬河市| 荔浦县| 八宿县| 定兴县| 鄂托克旗| 德庆县| 潢川县| 芦溪县| 鄂尔多斯市| 绥化市| 大同市| 新乐市| 吴堡县| 清水县| 商水县| 吐鲁番市| 南宁市| 搜索| 邵阳市| 汝南县| 临潭县| 平原县| 赤水市| 白银市| 手机| 神池县| 淮南市| 临澧县| 长汀县| 克什克腾旗| 临西县|