国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多特征的半監(jiān)督并列結(jié)構(gòu)識(shí)別

2021-08-24 03:06:44邵玉斌張海玲杜慶治
關(guān)鍵詞:語(yǔ)料語(yǔ)言學(xué)聚類

楊 丹,邵玉斌,張海玲,龍 華,杜慶治

(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)

1 引 言

并列結(jié)構(gòu)作為漢語(yǔ)中常見(jiàn)的語(yǔ)言結(jié)構(gòu),成為句法分析的底層研究領(lǐng)域,其正確識(shí)別對(duì)漢語(yǔ)句法分析有著至關(guān)重要的作用.隨著漢語(yǔ)研究從中文信息處理到自然語(yǔ)言處理的發(fā)展,并列結(jié)構(gòu)的影響范圍也隨之?dāng)U大,從淺層句法分析到機(jī)器翻譯、信息抽取,此研究都有較為重要的意義.由于漢語(yǔ)本身的復(fù)雜性,并列短語(yǔ)形式多樣,結(jié)構(gòu)繁雜,左右邊界難以界定,從而給并列結(jié)構(gòu)識(shí)別研究增加了不小難度,加上無(wú)標(biāo)記結(jié)構(gòu)對(duì)并列關(guān)系表現(xiàn)“乏力”[1],目前對(duì)并列結(jié)構(gòu)的研究以有標(biāo)記結(jié)構(gòu)為主.

并列結(jié)構(gòu)的識(shí)別問(wèn)題可轉(zhuǎn)化為序列標(biāo)注問(wèn)題,因而目前主流的識(shí)別方法是基于統(tǒng)計(jì)[2-6]的有監(jiān)督學(xué)習(xí)方法,利用機(jī)器學(xué)習(xí)模型與語(yǔ)言學(xué)特征的有機(jī)結(jié)合來(lái)選取最佳標(biāo)注序列,完全依賴于標(biāo)注語(yǔ)料進(jìn)行研究.另外,還有基于規(guī)則[7-9]和規(guī)則與統(tǒng)計(jì)相融合[10-12]的方法.基于規(guī)則即由人為制定符合并列結(jié)構(gòu)形式的規(guī)則,根據(jù)一系列規(guī)則“套出”句子中的并列短語(yǔ).以往研究表明基于統(tǒng)計(jì)較基于規(guī)則的方法效果相對(duì)較優(yōu),原因主要是規(guī)則的建立具有較強(qiáng)的主觀性,“機(jī)動(dòng)性”較差,且規(guī)則之間易產(chǎn)生互斥,并列短語(yǔ)除單層短語(yǔ)外還存在著復(fù)雜多變的嵌套結(jié)構(gòu),這使規(guī)則無(wú)法完全覆蓋.基于統(tǒng)計(jì)的方法取得的效果相對(duì)較好,但其對(duì)標(biāo)注語(yǔ)料的依賴難以適應(yīng)小語(yǔ)料研究,從語(yǔ)料中獲取的有監(jiān)督特征涵蓋面狹隘,無(wú)法有效利用未標(biāo)注語(yǔ)料信息補(bǔ)足特征單一的缺陷,而人工擴(kuò)大標(biāo)注語(yǔ)料庫(kù)則需要付出大量的人力、時(shí)間成本.因此并列結(jié)構(gòu)研究語(yǔ)料不足也成為其自動(dòng)識(shí)別的一道障礙.

鑒于擴(kuò)大標(biāo)注語(yǔ)料耗費(fèi)時(shí)間長(zhǎng),而存在的未標(biāo)注語(yǔ)料豐富,可以充分利用未標(biāo)注語(yǔ)料內(nèi)容來(lái)影響基于有監(jiān)督學(xué)習(xí)的并列結(jié)構(gòu)的識(shí)別效果.隨著自然語(yǔ)言中詞向量[13]的引入,如何將詞向量更好的應(yīng)用于半監(jiān)督模型這一問(wèn)題由GUO等人[14]做了探索,并在命名體識(shí)別中得到了有效驗(yàn)證[15].本文由此根據(jù)詞向量的應(yīng)用,在CRF模型中融合無(wú)監(jiān)督學(xué)習(xí)特征,提出基于半監(jiān)督的并列結(jié)構(gòu)自動(dòng)識(shí)別方法.首先,本文參照王東波[2]的研究方法,根據(jù)并列結(jié)構(gòu)的外部特征和內(nèi)部成分的語(yǔ)義相似性,在CRF模型中融入詞語(yǔ)長(zhǎng)度、是否連接詞、同義詞編碼3個(gè)語(yǔ)言學(xué)特征,考察不同語(yǔ)言學(xué)特征及其組合對(duì)并列結(jié)構(gòu)的識(shí)別效果的影響;其次,利用大量未標(biāo)注語(yǔ)料訓(xùn)練詞向量,再將訓(xùn)練出的連續(xù)的詞向量轉(zhuǎn)化為離散高維的適合線性CRF的表達(dá)[14],此種表達(dá)即作為無(wú)監(jiān)督特征融入到CRF模型中,考察不同無(wú)監(jiān)督特征及其組合的識(shí)別效果.最后,將語(yǔ)言學(xué)特征與無(wú)監(jiān)督特征作不同的組合實(shí)驗(yàn),考察兩種類型特征的共同作用是否會(huì)對(duì)識(shí)別效果產(chǎn)生更大的影響.

2 相關(guān)工作

周強(qiáng)最先把并列結(jié)構(gòu)放在整個(gè)句子生成的層面驗(yàn)證,得出了聯(lián)合結(jié)構(gòu)的識(shí)別“錯(cuò)誤很嚴(yán)重”的結(jié)論[16].孫宏林也曾利用并列成分之間的對(duì)稱性構(gòu)建概率模型來(lái)識(shí)別并列結(jié)構(gòu)的邊界,而效果也不太理想[17].吳云芳在分析了僅依靠成分的相似性來(lái)判定并列結(jié)構(gòu)似有所不足后,探討了漢語(yǔ)并列結(jié)構(gòu)可能存在的邊界標(biāo)記,為之后基于規(guī)則的并列結(jié)構(gòu)識(shí)別研究做了準(zhǔn)備[18].并在之后的論文中從句法和語(yǔ)義兩個(gè)層面考察并列成分間的約束關(guān)系,將這些約束關(guān)系以規(guī)則的形式描述出來(lái),從而基于規(guī)則識(shí)別并列結(jié)構(gòu)的邊界[7].由于之前對(duì)并列結(jié)構(gòu)的自動(dòng)識(shí)別研究幾乎大多圍繞并列成分的相似性來(lái)進(jìn)行,吳云芳又基于中文概念詞典(CCD)對(duì)名詞性并列結(jié)構(gòu)的成分相似性進(jìn)行“逆向”考察,為名詞性并列結(jié)構(gòu)的自動(dòng)識(shí)別奠定了一定的理論基礎(chǔ)[19].王東波繼以吳云芳的聯(lián)合結(jié)構(gòu)具有中心語(yǔ)相似和結(jié)構(gòu)平行的特性為理論基礎(chǔ),從單層單標(biāo)記聯(lián)合結(jié)構(gòu)的句法結(jié)構(gòu)和語(yǔ)法功能中統(tǒng)計(jì)出規(guī)則模板,結(jié)合詞語(yǔ)的語(yǔ)義相似度進(jìn)行單層聯(lián)合結(jié)構(gòu)自動(dòng)識(shí)別研究,最終由于規(guī)則模板顆粒度過(guò)于粗糙和詞語(yǔ)語(yǔ)義計(jì)算的粗略得出“僅依靠聯(lián)合結(jié)構(gòu)各成分間的相似性進(jìn)行識(shí)別的方法行不通”的結(jié)論[8].接著在之后的論文中引入基于統(tǒng)計(jì)的方法,利用條件隨機(jī)場(chǎng)為基本框架,使用7詞位標(biāo)注集和18個(gè)特征模板,同時(shí)結(jié)合4個(gè)語(yǔ)言學(xué)特征對(duì)有無(wú)嵌套及最長(zhǎng)聯(lián)合結(jié)構(gòu)進(jìn)行識(shí)別研究,取得了相對(duì)滿意的結(jié)果[2].

自此,對(duì)并列結(jié)構(gòu)的自動(dòng)識(shí)別研究基本朝著基于規(guī)則與基于統(tǒng)計(jì)的方向發(fā)展.王浩在條件隨機(jī)場(chǎng)的基礎(chǔ)上增加隱結(jié)構(gòu)感知模型來(lái)處理并列短語(yǔ)中的隱含信息,在特征選擇一致的并列名詞短語(yǔ)任務(wù)中較條件隨機(jī)場(chǎng)的精度更高[6].劉小蝶從多個(gè)角度對(duì)專利中的并列結(jié)構(gòu)進(jìn)行標(biāo)注,制定217條規(guī)則融入HNC系統(tǒng)中對(duì)專利中的并列結(jié)構(gòu)進(jìn)行識(shí)別研究.而苗艷軍則提出一種規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,先用最大熵模型識(shí)別出并列結(jié)構(gòu)的左右邊界,再用制定的規(guī)則對(duì)識(shí)別出的左右邊界進(jìn)行處理得到最終識(shí)別結(jié)果[10].

在以往的研究中,基于統(tǒng)計(jì)的方法較基于規(guī)則的方法取得的效果較明顯,但由于有監(jiān)督方法完全建立在標(biāo)注語(yǔ)料上進(jìn)行研究,無(wú)法獲取未標(biāo)注語(yǔ)料中隱含的語(yǔ)義信息,并且之前的研究并未使用半監(jiān)督學(xué)習(xí)方法.為充分利用未標(biāo)注語(yǔ)料,從中獲取對(duì)識(shí)別模型有利的特征,本文提出基于條件隨機(jī)場(chǎng)和半監(jiān)督學(xué)習(xí)的方法,將從未標(biāo)注語(yǔ)料中提取的無(wú)監(jiān)督特征融入條件隨機(jī)場(chǎng)中,構(gòu)建半監(jiān)督模型進(jìn)行考察.

3 基于半監(jiān)督學(xué)習(xí)的并列結(jié)構(gòu)識(shí)別

本文以CRF模型與詞性特征結(jié)合為基本框架,首先逐一加入詞語(yǔ)長(zhǎng)度、是否連接詞、同義詞編碼3個(gè)不同語(yǔ)言學(xué)特征以及不同特征組合進(jìn)行考察.接著利用《人民日?qǐng)?bào)》的大量未標(biāo)注語(yǔ)料訓(xùn)練詞向量,通過(guò)對(duì)詞向量進(jìn)行二值化、聚類和取相似詞得到無(wú)監(jiān)督特征,將詞向量特征、二值化特征、聚類特征以及相似詞特征4個(gè)不同無(wú)監(jiān)督特征及其不同組合特征加入基本框架中進(jìn)行實(shí)驗(yàn).最后將語(yǔ)言學(xué)特征和無(wú)監(jiān)督特征進(jìn)行交叉組合實(shí)驗(yàn)查看識(shí)別效果以進(jìn)行結(jié)果分析.實(shí)驗(yàn)流程如圖1所示.

圖1 半監(jiān)督學(xué)習(xí)實(shí)驗(yàn)流程

在此部分中,首先介紹整個(gè)模型的基本框架——條件隨機(jī)場(chǎng)模型,再對(duì)選取的特征及其特征模板的設(shè)定作一個(gè)簡(jiǎn)要說(shuō)明.

3.1 條件隨機(jī)場(chǎng)模型

條件隨機(jī)場(chǎng)(conditional random field,CRF)最早由Lafferty[20]提出,是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型,它從形式上看是一種無(wú)向圖模型.條件隨機(jī)場(chǎng)模型作為一個(gè)整句聯(lián)合標(biāo)定的判別式概率模型,同時(shí)具有很強(qiáng)的特征融入能力,是目前解決自然語(yǔ)言序列標(biāo)注問(wèn)題最好的統(tǒng)計(jì)模型之一,在NLP領(lǐng)域有很多應(yīng)用,如詞性標(biāo)注、淺層句法分析、命名體識(shí)別等任務(wù).

假設(shè)X=(x1,x2,…,xn),Y=(y1,y2,…,yn)均為線性鏈表示的隨機(jī)變量序列,若在給定的隨機(jī)變量序列X的條件下,隨機(jī)變量Y的條件概率分布P(Y|X)構(gòu)成條件隨機(jī)場(chǎng),即滿足馬爾可夫性:

P(yi|y,y1,…,yi-1,yi+1,…,yn)=P(yi|x,yi-1,yi+1),i=1,2,…,n

(1)

則P(Y|X)為線性條件隨機(jī)場(chǎng).其參數(shù)化形式為:

(2)

其中tk是轉(zhuǎn)移特征,Sl是狀態(tài)特征,λk,μl為特征函數(shù)對(duì)應(yīng)的權(quán)重,而Z(x)是規(guī)范化因子:

(3)

后將轉(zhuǎn)移特征和狀態(tài)特征及其權(quán)值用統(tǒng)一符號(hào)來(lái)表示,設(shè)有K1個(gè)轉(zhuǎn)移特征,K2個(gè)狀態(tài)特征,記為:

(4)

并列結(jié)構(gòu)識(shí)別作為淺層句法分析的一個(gè)研究領(lǐng)域,可被轉(zhuǎn)化為序列標(biāo)注問(wèn)題,對(duì)句子進(jìn)行最優(yōu)標(biāo)注,通過(guò)標(biāo)注的標(biāo)簽則可自動(dòng)提取出其中最佳范圍的并列結(jié)構(gòu).條件隨機(jī)場(chǎng)除了特征設(shè)計(jì)靈活,可容納上下文信息外,還通過(guò)計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,解決了標(biāo)記偏置的問(wèn)題.因此基于統(tǒng)計(jì)學(xué)習(xí)對(duì)并列結(jié)構(gòu)的研究中,采用CRF模型是相對(duì)比較理想的.

CRF是一個(gè)序列化標(biāo)注算法,接受一個(gè)輸入序列如X=(x1,x2,…,xn),并且輸出目標(biāo)序列Y=(y1,y2,…,yn),此處的X假設(shè)是將要被標(biāo)注的含并列結(jié)構(gòu)的句子,Y是與之對(duì)應(yīng)的標(biāo)簽序列,n是序列長(zhǎng)度,如圖2所示.

圖2 并列結(jié)構(gòu)標(biāo)注示例

3.2 特征和特征模板的選取

在CRF模型中,特征的加入會(huì)使其性能受到不同程度的影響,優(yōu)質(zhì)特征會(huì)使其識(shí)別效果得到提升,因此特征的選取較為重要.根據(jù)并列結(jié)構(gòu)的內(nèi)外部特征,選擇3個(gè)語(yǔ)言學(xué)特征結(jié)合CRF模型進(jìn)行實(shí)驗(yàn),同時(shí)充分利用未標(biāo)注語(yǔ)料,從中獲取無(wú)監(jiān)督特征.不同特征對(duì)整個(gè)模型的影響面不同,每個(gè)特征對(duì)應(yīng)的特征模板也會(huì)直接影響識(shí)別效果,為使每個(gè)特征對(duì)模型的影響較優(yōu),且耗費(fèi)時(shí)間短,本文為不同特征配置相對(duì)適宜的特征模板.特征表示中W指的是詞語(yǔ)(word),P是詞性(pos),由于詞性是最基本特征,故不歸入語(yǔ)言學(xué)特征中,而直接加入基礎(chǔ)模型中.基礎(chǔ)模型的特征模板如表1所示.

表1 基礎(chǔ)模型特征模板

之后每個(gè)特征的總特征模板都是在基礎(chǔ)模型的特征模板基礎(chǔ)上增加列出的每個(gè)特征對(duì)應(yīng)的特征模板塊.

3.2.1 語(yǔ)言學(xué)特征

1)詞語(yǔ)長(zhǎng)度(word_length,WL)

在標(biāo)注語(yǔ)料中詞語(yǔ)長(zhǎng)度為1-3個(gè)單位的詞語(yǔ)量占比約為95%,從分布上看,詞長(zhǎng)為2個(gè)單位的居多.這在漢語(yǔ)中似乎是個(gè)比較“普通”的特征,但僅從并列結(jié)構(gòu)的外部形態(tài)上看,詞長(zhǎng)仍然是一個(gè)顯性特征存在,或多或少會(huì)對(duì)并列結(jié)構(gòu)產(chǎn)生影響,因而依然將此列為一個(gè)語(yǔ)言學(xué)特征,作為對(duì)比實(shí)驗(yàn)進(jìn)行考察.其特征模板為:

W|P|WL-2;W|P|WL-1;

P|WL-1|WL-2;P|P-1|WL-1

2)是否是連接詞(conj,C)

并列連接詞是并列結(jié)構(gòu)的一個(gè)顯象標(biāo)志,是各個(gè)并列成分的“紐帶”.從語(yǔ)義上看,連接詞將兩個(gè)相近的成分結(jié)合在一起,使句子意思更進(jìn)一步;從外部形態(tài)上看,連接詞標(biāo)示了并列結(jié)構(gòu)的位置,是并列結(jié)構(gòu)存在的“地標(biāo)”.當(dāng)前詞是連接詞時(shí)為“Y”,不是為“N”.其特征模板為:

C-i,C,C+i(i=1,2);W|P|C-1;

P|C-1|C-2;P|P+1|C-1

3)同義詞編碼(Synonym_coding,SC)

基于《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》(1)http://www.ir-lab.org/.2019.(HIT IR-Lab Tongyici Cilin(Extended)),選擇出詞語(yǔ)對(duì)應(yīng)的小類代碼,即第3級(jí)編碼.詞典中將詞匯分成大中小3類,每個(gè)類又根據(jù)詞義的遠(yuǎn)近和相關(guān)性分成了若干個(gè)詞群,進(jìn)一步分成若干行,同一行的詞語(yǔ)要么詞義相同或很相近,要么詞義有很強(qiáng)的相關(guān)性,詞語(yǔ)編碼表如表2所示.隨著級(jí)別的遞增,詞義刻畫(huà)越來(lái)越細(xì).

表2 詞語(yǔ)編碼表

表2中的編碼位是按照從左到右的順序排列.第8位的標(biāo)記有3 種,分別是“=”、“#”、“@”,“=”代表“相等”、“同義”.末尾的“#”代表“不等”、“同類”,屬于相關(guān)詞語(yǔ).末尾的“@”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒(méi)有同義詞,也沒(méi)有相關(guān)詞.

由于并列結(jié)構(gòu)中各成分之間存在一定的相似性,有相同編碼的詞表示屬于同一類,有一定的語(yǔ)義相關(guān)性,因此根據(jù)編碼來(lái)判斷詞語(yǔ)的相似性.編碼粒度過(guò)細(xì)可能會(huì)使在識(shí)別過(guò)程中遺漏有一定作用的語(yǔ)義信息,同時(shí)為訓(xùn)練增加負(fù)擔(dān),因此本文根據(jù)詞義標(biāo)注語(yǔ)料選取第3級(jí)編碼.其特征模板為:

SC-i|SC|SC+i(i=1,2);W|P|SC-1

4)組合特征

將不同語(yǔ)言學(xué)特征組合考察其結(jié)合之后的識(shí)別效果,特征模板如圖3所示.

圖3 語(yǔ)言學(xué)特征組合特征模板

3.2.2 無(wú)監(jiān)督特征

詞向量是將詞表示成一個(gè)定長(zhǎng)的連續(xù)稠密向量的分布式表示,在自然語(yǔ)言處理中有著廣泛應(yīng)用,現(xiàn)已成為改進(jìn)各項(xiàng)NLP任務(wù)不可或缺的基礎(chǔ)技術(shù).同時(shí)詞向量的獲取與語(yǔ)料是否標(biāo)注無(wú)關(guān),可充分利用未標(biāo)注語(yǔ)料,因而也成為改進(jìn)有監(jiān)督系統(tǒng)性能的一個(gè)重要工具.本文利用大規(guī)模未標(biāo)注語(yǔ)料訓(xùn)練不同維度的詞向量,將詞向量作為額外特征加入模型中.由于線性適合離散高維特征空間,非線性適合低維連續(xù)特征空間,而CRF屬于線性模型,詞向量則是連續(xù)的低維的矢量表達(dá),因此再將詞向量轉(zhuǎn)化為一種高維離散的適合線性CRF系統(tǒng)的表達(dá)[14],將這種表達(dá)作為特征加入基礎(chǔ)模型中.

1)詞向量(Embedding,emb)

本文利用Google開(kāi)源推出的word2vec工具包訓(xùn)練詞向量,word2vec工具主要包含兩個(gè)模型:跳字模型(Skip-gram)和連續(xù)詞袋模型(continuous bag of words,CBOW),Skip-gram模型是根據(jù)目標(biāo)詞預(yù)測(cè)語(yǔ)境,CBOW模型則是根據(jù)語(yǔ)境預(yù)測(cè)目標(biāo)詞,分別用這兩種模型訓(xùn)練詞向量進(jìn)行實(shí)驗(yàn),同時(shí)訓(xùn)練不同維度的詞向量以觀察維度對(duì)識(shí)別效果的影響.由于詞向量帶有與詞義相關(guān)的信息,仍將詞向量作為一個(gè)特征進(jìn)行實(shí)驗(yàn).其特征模板如下:

emb-i|emb|emb+i(i=1,2);

W|emb+2;W|P-1|emb-2

2)詞向量二值化(Binary,Bi)

二值化是GUO[14]等人提出的一種將詞向量轉(zhuǎn)化為高維離散表達(dá)的一種方法,對(duì)詞向量二值化之后降低了詞向量的復(fù)雜度,使模型訓(xùn)練時(shí)長(zhǎng)減短.對(duì)詞向量進(jìn)行二值化在形式上是將連續(xù)值的詞向量矩陣EV×D轉(zhuǎn)變?yōu)殡x散值的矩陣BV×D,其中V是指詞典大小,D是指詞向量的維度.首先詞向量第j列中的值Ei,j分為正負(fù)兩部分,Ei,j>0表示為Ej+,Ei,j<0表示為Ej-.接著計(jì)算正負(fù)兩部分的均值,正均值記為mean(Ei+),負(fù)均值記為mean(Ei-),計(jì)算公式如下:

(5)

(6)

其中nj+是指Ej+的個(gè)數(shù),nj-是指Ej-的個(gè)數(shù).最后將詞向量矩陣EV×D中的連續(xù)值轉(zhuǎn)化為離散值,構(gòu)成二值化矩陣BV×D.轉(zhuǎn)化函數(shù)如下:

(7)

其特征模板如下:

Bi-2|Bi-1|Bi;W|P-1|Bi-2

3)k-means聚類(Cluster,Clu)

由于并列結(jié)構(gòu)具有平衡性和語(yǔ)義相似性特征[19],即并列短語(yǔ)中各成分之間語(yǔ)義相近,為表現(xiàn)其這一特性,再對(duì)詞向量進(jìn)行聚類,將聚類后所得每個(gè)詞對(duì)應(yīng)的簇序號(hào)作為特征.聚類算法很多,而在詞向量的聚類算法中大多應(yīng)用K-means聚類,原因可能是其作為一種經(jīng)典算法,有著出色的速度和良好的可擴(kuò)展性.在K-means聚類算法中用歐氏距離來(lái)衡量樣本與各個(gè)簇的距離,將詞歸入距離最近的簇中,計(jì)算公式如下:

(8)

聚類后的不同簇包含不同的語(yǔ)義信息,聚類的個(gè)數(shù)直接決定詞語(yǔ)間的相似關(guān)系.尤其對(duì)于訓(xùn)練模型,聚類粒度的選擇尤為重要,因此在聚類時(shí)設(shè)置不同的聚類數(shù)以獲得不同的序列標(biāo)簽,進(jìn)行粒度分析.其特征模板如下:

clu-2|clu-1|clu;W|P-1|clu-2

4)相似詞(Similar_word,Sim)

詞向量能夠揭示詞語(yǔ)之間潛在的語(yǔ)義聯(lián)系,由此可通過(guò)詞向量獲得某個(gè)詞的相近詞,將獲取的相似詞作為一個(gè)特征.訓(xùn)練得到詞向量后,計(jì)算特定詞向量與其他詞語(yǔ)向量之間的余弦相似度,選擇5個(gè)相似詞作為特征引入.例如有n維詞語(yǔ)向量a和b,分別表示為:a=[x1,x2,x3,…,xn],b=[y1,y2,y3,…,yn]余弦相似度計(jì)算公式如下式:

(9)

相似度Similarity的范圍在[-1,1],1表示兩個(gè)向量的指向完全相同,-1表示完全相反,則當(dāng)Similarity越接近1時(shí),表示兩個(gè)詞語(yǔ)之間的相似度越高.由此選出相似度較高的前5個(gè)詞作為實(shí)驗(yàn)特征,且每個(gè)詞不能重復(fù)出現(xiàn).其特征模板如下:

sim-2|sim-1|sim;sim|sim+1|sim+2;W|P-1|sim-2

5)組合特征

將二值化特征、聚類特征和相似詞特征分別組合,考察特征結(jié)合后對(duì)識(shí)別效果的影響.特征模板如表3所示.

表3 無(wú)監(jiān)督組合特征模板

4 實(shí) 驗(yàn)

首先介紹實(shí)驗(yàn)數(shù)據(jù)及對(duì)數(shù)據(jù)的處理工作,列出實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),然后將實(shí)驗(yàn)大體分為3個(gè)部分展開(kāi):1)對(duì)語(yǔ)言學(xué)特征及其組合特征的實(shí)驗(yàn)分析;2)對(duì)無(wú)監(jiān)督特征及其組合特征的實(shí)驗(yàn)分析;3)對(duì)語(yǔ)言學(xué)特征和無(wú)監(jiān)督特征兩類特征組合的實(shí)驗(yàn)分析.

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)中用于訓(xùn)練詞向量提取無(wú)監(jiān)督特征的未標(biāo)注語(yǔ)料為《人民日?qǐng)?bào)》1998年與2014年的語(yǔ)料整合(分詞后約2894個(gè)詞),訓(xùn)練集和測(cè)試集為吳云芳(2)https://opendata.pku.edu.cn/dataverse/icl.2018.標(biāo)注的《人民日?qǐng)?bào)》并列結(jié)構(gòu)標(biāo)注語(yǔ)料(約56萬(wàn)字),其中用“{ }”標(biāo)示出并列結(jié)構(gòu),有7215個(gè)并列短語(yǔ).本文參考王東波[2]的實(shí)驗(yàn),將標(biāo)注語(yǔ)料按9:1的比例隨機(jī)抽取分成訓(xùn)練集和測(cè)試集兩部分,并采用7詞位標(biāo)注集T={B,F(xiàn),G,I,M,E,S}對(duì)語(yǔ)料進(jìn)行標(biāo)注,其中B是并列結(jié)構(gòu)的開(kāi)始詞,F(xiàn)是第2個(gè)詞,G是第3個(gè)詞,I是第4個(gè)詞,M是第5個(gè)及以上的詞,E是結(jié)尾詞,S是并列結(jié)構(gòu)外部的詞.實(shí)驗(yàn)前對(duì)數(shù)據(jù)做了如下處理:

1)剔除語(yǔ)料中每行開(kāi)頭的日期信息,如:1998-01-001-001/m.

2)將句子按,.???4類標(biāo)點(diǎn)符號(hào)分割成小句,為避免之后因句子冗長(zhǎng)給模型增加訓(xùn)練負(fù)擔(dān).

3)篩選出語(yǔ)料中含有并列結(jié)構(gòu)的小句作為新語(yǔ)料,從中提取訓(xùn)練集和測(cè)試集,減小標(biāo)注標(biāo)簽工作量及多余信息的融入.

4.2 評(píng)價(jià)指標(biāo)

準(zhǔn)確率,召回率和F值的計(jì)算公式如式(10)-式(12)所示,本文以F值作為最終評(píng)價(jià)指標(biāo).

(10)

(11)

(12)

4.3 實(shí)驗(yàn)結(jié)果及分析

本文將詞語(yǔ)(word)和詞性(pos)與CRF框架的結(jié)合作為基本模型(Baseline),在此基本模型中逐一添加各項(xiàng)特征進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)部分主要從3個(gè)模塊展開(kāi):1)語(yǔ)言學(xué)特征及其組合特征對(duì)識(shí)別效果的影響及分析;2)無(wú)監(jiān)督特征及其組合特征對(duì)識(shí)別效果的影響,這部分中考察Skip-gram和CBOW兩個(gè)模型分別訓(xùn)練出的不同維度的詞向量和不同個(gè)數(shù)的聚類集的影響程度,選擇其中效果最好的參數(shù)進(jìn)行下一步實(shí)驗(yàn);3)將語(yǔ)言學(xué)特征和無(wú)監(jiān)督特征任意組合進(jìn)行實(shí)驗(yàn),作效果對(duì)比.

4.3.1 語(yǔ)言學(xué)特征組合實(shí)驗(yàn)

并列結(jié)構(gòu)本身的特征會(huì)對(duì)模型的識(shí)別產(chǎn)生影響,為考察不同語(yǔ)言學(xué)特征的影響程度,分別將詞語(yǔ)長(zhǎng)度(word_length)、是否連接詞(conj)、同義詞編碼(Syn_coding)3個(gè)語(yǔ)言學(xué)特征加入基本模型,同時(shí)將3個(gè)特征隨意組合,其識(shí)別結(jié)果如表4所示.

表4 不同語(yǔ)言學(xué)特征組合實(shí)驗(yàn)

從結(jié)果中看出分別加入詞語(yǔ)長(zhǎng)度特征和是否連接詞特征后F值提高0.21%,兩者組合加入Baseline后提高0.61%,說(shuō)明這兩個(gè)語(yǔ)言學(xué)特征對(duì)并列結(jié)構(gòu)的識(shí)別影響較小,而兩者同時(shí)融入模型時(shí)的效果稍優(yōu)于單獨(dú)融入的效果,提升依然較小.可能由于并列短語(yǔ)的組成結(jié)構(gòu)多樣,除了在整個(gè)語(yǔ)料中占比較大的單層并列結(jié)構(gòu)的形式相對(duì)穩(wěn)定,易于識(shí)別,其余復(fù)雜多變的并列結(jié)構(gòu)如嵌套結(jié)構(gòu)組成成分各異,在這部分的識(shí)別上依然存在很大難度.同時(shí)各項(xiàng)成分的詞語(yǔ)長(zhǎng)度是取決于語(yǔ)料本身的分詞方法,大多詞語(yǔ)長(zhǎng)度分布在1-4,此語(yǔ)言學(xué)特征無(wú)法作為一個(gè)影響很大的因素,對(duì)并列結(jié)構(gòu)的識(shí)別效果影響較小.在句中確定并列連接詞的位置相當(dāng)于找到并列結(jié)構(gòu)的中心,在主觀上根據(jù)并列結(jié)構(gòu)的是否連接詞特征可以有效影響識(shí)別效果,但同樣由于并列嵌套結(jié)構(gòu)的復(fù)雜性,并列中會(huì)包含另外一個(gè)或多個(gè)并列,并列詞的位置有助于對(duì)并列結(jié)構(gòu)實(shí)行“定位”,卻無(wú)法保證并列結(jié)構(gòu)邊界識(shí)別的準(zhǔn)確性.從實(shí)驗(yàn)結(jié)果看,同義詞編碼的加入反而使整個(gè)模型的識(shí)別效果呈“負(fù)增長(zhǎng)”,原因可能是3級(jí)編碼標(biāo)注語(yǔ)料中包含的詞語(yǔ)較少,測(cè)試集和訓(xùn)練集中的很多詞語(yǔ)無(wú)法獲得“編碼”,致使識(shí)別效果不佳.

4.3.2 無(wú)監(jiān)督特征組合實(shí)驗(yàn)

在工作原理上看,Skip-gram模型是“逆向”的CBOW模型,兩種模型訓(xùn)練出的詞向量有一定差異,因而這部分中用了兩種模型分別訓(xùn)練詞向量,繼而進(jìn)行詞向量的二值化及聚類,通過(guò)實(shí)驗(yàn)效果選擇更適合并列結(jié)構(gòu)識(shí)別模型的方法.不同維度的詞向量會(huì)使詞之間的關(guān)系發(fā)生變化,因此訓(xùn)練不同維度的詞向量進(jìn)行對(duì)比實(shí)驗(yàn)以獲取最適宜的詞向量,同時(shí),在聚類時(shí)改變參數(shù)以產(chǎn)生不同個(gè)數(shù)的簇.

1)不同模型及維數(shù)下的單特征實(shí)驗(yàn)

通過(guò)兩個(gè)不同模型分別訓(xùn)練不同維度的詞向量,依據(jù)實(shí)驗(yàn)所用的數(shù)據(jù)量設(shè)置詞向量維度為50、100、150,將這3個(gè)維度下的詞向量特征、二值化特征及聚類特征分別加入基本模型進(jìn)行對(duì)比實(shí)驗(yàn),詞向量和二值化特征的對(duì)比結(jié)果如圖4所示.單從維度上看且忽略模型類別時(shí),50維時(shí)的數(shù)據(jù)較為穩(wěn)定,此時(shí)詞向量特征和二值化特征的F值幾乎接近且都達(dá)到全部數(shù)據(jù)的最高值:F1max(Embedding)=85.12%,F(xiàn)1max(Binary)=85.22%100維時(shí)詞向量特征的F值為最低值84.62%,而二值化特征的F值達(dá)到最大;150維時(shí)兩個(gè)特征的F值都較最大值85.22%低.綜合看來(lái),在3個(gè)維度中,詞向量維度為50維時(shí)效果較其他的更好.

從圖4中可見(jiàn)兩個(gè)模型下的詞向量特征在50維時(shí)的F值都為85.12%,在另外兩個(gè)維度時(shí)F值的差值也都控制在0.3%以內(nèi);對(duì)于二值化特征,兩個(gè)模型下的F值在100維時(shí)均達(dá)到最高值85.22%,另外兩個(gè)維度下的值相差也不大.從兩個(gè)特征在各個(gè)維度上的差值上看,模型的類別對(duì)兩個(gè)特征的識(shí)別效果影響較小.

圖4 不同維度及模型下的詞向量、二值化特征對(duì)比

在不同模型下訓(xùn)練出不同維度的詞向量后進(jìn)行聚類,分別聚類出100、300、500、700、800、1000、2000、3000個(gè)簇,將8組聚類中不同聚類簇標(biāo)簽作為特征進(jìn)行實(shí)驗(yàn),結(jié)果如圖5(橫坐標(biāo)聚類組x=1時(shí),簇個(gè)數(shù)N(x=1)=100;N(x=2)=300;N(x=3)=500;N(x=4)=700;N(x=5)=800;N(x=6)=1000;N(x=7)=2000;N(x=8)=3000).在CBOW模型下,詞向量為50維時(shí),聚類數(shù)N(x=2)=300、N(x=7)=1000、N(x=8)=3000時(shí)F值都達(dá)到最高85.32%;100維時(shí),聚類數(shù)N(x=8)=3000時(shí)達(dá)到最高85.32%;150維時(shí),聚類數(shù)N(x=3)=500、N(x=8)=3000時(shí)達(dá)到最高85.32%.在Skip-gram模型下只有在150維、N(x=6)=1000時(shí)達(dá)到最高值85.32%.兩個(gè)模型下得到的數(shù)據(jù)相差不大,若將數(shù)據(jù)一一對(duì)比,總體情況下CBOW模型的識(shí)別效果比Skip-gram模型的稍好.在CBOW模型的條件下,50維時(shí)多個(gè)值達(dá)到最高值;在聚類數(shù)N(x=8)=3000時(shí)3個(gè)維度的F值都達(dá)到最高值,效果較其他幾組更好.

圖5 不同維度及模型下的聚類簇對(duì)比

2)不同無(wú)監(jiān)督特征組合實(shí)驗(yàn)

為考察不同無(wú)監(jiān)督特征組合加入基本模型后性能是否在單特征的基礎(chǔ)上提高,此部分將CBOW模型下訓(xùn)練出的詞向量為50維的二值化特征與同等條件下聚類數(shù)為3000的聚類特征以及相似詞特征組合進(jìn)行實(shí)驗(yàn).因詞向量特征耗時(shí)較長(zhǎng),效果與二值化特征相近,此部分實(shí)驗(yàn)不加入詞向量特征.實(shí)驗(yàn)結(jié)果如表5所示.

表5 不同無(wú)監(jiān)督特征組合實(shí)驗(yàn)

從表5中看出詞向量的二值化特征、聚類特征和相似詞特征的加入都使并列結(jié)構(gòu)的識(shí)別效果有所提高,3個(gè)特征加入后的F值分別提高了1.52、1.62、1.22個(gè)百分點(diǎn),3個(gè)特征組合加入后F值達(dá)到85.71,較基礎(chǔ)模型提高了1.95%.說(shuō)明無(wú)監(jiān)督特征的加入能夠有效提升并列結(jié)構(gòu)的識(shí)別效果.

4.3.3 語(yǔ)言學(xué)特征與無(wú)監(jiān)督特征組合實(shí)驗(yàn)

在以上實(shí)驗(yàn)的基礎(chǔ)上,將語(yǔ)言學(xué)特征與無(wú)監(jiān)督特征任意組合,考察不同類型的特征對(duì)模型性能的影響,混合特征的特征模板為兩種特征的模板結(jié)合.由于語(yǔ)言學(xué)特征中的同義詞編碼特征起了“負(fù)作用”,不考慮加入此部分實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表6所示.

表6 不同類別特征的組合實(shí)驗(yàn)

從表6中看出無(wú)論是語(yǔ)言學(xué)特征還是無(wú)監(jiān)督特征,對(duì)并列結(jié)構(gòu)的識(shí)別效果都有一定的影響,而語(yǔ)言學(xué)特征的影響較無(wú)監(jiān)督特征的影響較弱.語(yǔ)言學(xué)特征組合后的F值為84.41%,無(wú)監(jiān)督特征組合后的F值為85.75%,而全部特征混合后的F值達(dá)到85.77%,較基礎(chǔ)模型提升了1.97%,兩種特征結(jié)合后的效果與無(wú)監(jiān)督特征組合后的效果相差不大.說(shuō)明無(wú)監(jiān)督特征的加入為識(shí)別“注入”了豐富的語(yǔ)義信息,在一定程度上減少人工選取繁多特征的工作量.

4.3.4 CRF模型與神經(jīng)網(wǎng)絡(luò)模型的對(duì)比實(shí)驗(yàn)

隨著深度學(xué)習(xí)在自然語(yǔ)言處理任務(wù)中取得越來(lái)越好的效果,大多自然語(yǔ)言處理任務(wù)如情感分析、命名體識(shí)別等都采用了較為“流行”的神經(jīng)網(wǎng)絡(luò)模型.本文采用Bi-LSTM-CRF模型對(duì)并列結(jié)構(gòu)進(jìn)行識(shí)別測(cè)試,與CRF模型進(jìn)行對(duì)比.實(shí)驗(yàn)中使用的詞向量除本文中自訓(xùn)練的50維詞向量,還引入3個(gè)公開(kāi)詞向量集,根據(jù)預(yù)訓(xùn)練好的模型獲取詞向量,考察不同質(zhì)量的詞向量對(duì)識(shí)別效果的影響,詞向量預(yù)訓(xùn)練模型的語(yǔ)料規(guī)模和維度如表7所示.其中詞向量預(yù)訓(xùn)練模型1和模型2生成靜態(tài)詞向量;模型3生成動(dòng)態(tài)詞向量.

表7 詞向量預(yù)訓(xùn)練模型

由不同的詞向量提取出無(wú)監(jiān)督特征,將3個(gè)無(wú)監(jiān)督特征融入CRF模型,并與Bi-LSTM-CRF作比較,識(shí)別結(jié)果如表8所示.不同質(zhì)量詞向量的引入會(huì)使識(shí)別結(jié)果產(chǎn)生波動(dòng),對(duì)于CRF模型,引入Bert訓(xùn)練的詞向量(D=768)時(shí)F值較原模型提高0.23%,D=300時(shí)提高0.1%,提升百分比很小.對(duì)于Bi-LSTM-CRF模型,在不同詞向量下識(shí)別F值都低于CRF模型,原因是語(yǔ)料規(guī)模還是偏小,在訓(xùn)練時(shí)易造成過(guò)擬合,同時(shí)動(dòng)態(tài)詞向量(D=768)的識(shí)別效果較好,F(xiàn)值提升了1.23%.

表8 模型識(shí)別結(jié)果對(duì)比

在實(shí)際應(yīng)用中,模型的性能也是考量其實(shí)用性的一個(gè)重要因素,因此通過(guò)模型的耗時(shí)情況來(lái)查看模型的性能如何.表9是兩個(gè)模型性能對(duì)比,CRF在CPU(i5-8300H@2.3GHz)、GPU為4GB的設(shè)備上進(jìn)行訓(xùn)練;Bi-LSTM-CRF在CPU(i9-9900H@3.6GHz)、GPU為8GB的設(shè)備上進(jìn)行訓(xùn)練,迭代次數(shù)為100.Bi-LSTM-CRF中不引入無(wú)監(jiān)督特征,故不存在詞向量聚類耗時(shí).從表9可見(jiàn)Bi-LSTM-CRF模型訓(xùn)練耗費(fèi)的時(shí)間要比CRF模型多,且對(duì)設(shè)備有一定要求,需要耗費(fèi)更多成本.而從獲取詞向量時(shí)間及詞向量聚類時(shí)間看,雖然Bert訓(xùn)練出的動(dòng)態(tài)詞向量效果稍好,但在小語(yǔ)料規(guī)模的任務(wù)中優(yōu)勢(shì)不太明顯,且需付出大量時(shí)間成本.

表9 模型性能對(duì)比

5 結(jié)語(yǔ)與展望

本文針對(duì)目前研究方法完全依賴標(biāo)注語(yǔ)料進(jìn)行,而并列結(jié)構(gòu)標(biāo)注語(yǔ)料規(guī)模較小的問(wèn)題,引入半監(jiān)督學(xué)習(xí)方法.利用未標(biāo)注語(yǔ)料訓(xùn)練詞向量,并轉(zhuǎn)化為無(wú)監(jiān)督特征加入以CRF為基本框架的模型中.實(shí)驗(yàn)中加入語(yǔ)言學(xué)特征作為對(duì)比實(shí)驗(yàn),將提取出的無(wú)監(jiān)督特征——詞向量特征,二值化特征,聚類特征和相似詞特征分別加入基礎(chǔ)模型,并將特征進(jìn)行組合實(shí)驗(yàn).實(shí)驗(yàn)表明,無(wú)監(jiān)督特征和語(yǔ)言學(xué)特征對(duì)并列結(jié)構(gòu)的識(shí)別都有影響,但無(wú)監(jiān)督特征的影響比語(yǔ)言學(xué)特征的影響大得多.無(wú)監(jiān)督特征的引入能夠充分利用未標(biāo)注語(yǔ)料中的語(yǔ)義信息,用詞向量來(lái)揭示單個(gè)詞與上下文的語(yǔ)義聯(lián)系,并體現(xiàn)詞語(yǔ)之間的相似性,可以在減少人工選取特征工作量的同時(shí)將豐富的語(yǔ)義信息通過(guò)較為簡(jiǎn)單的形式傳遞到識(shí)別過(guò)程中.實(shí)驗(yàn)結(jié)果表明本文引入的半監(jiān)督方法能夠有效影響并列結(jié)構(gòu)的識(shí)別效果.

實(shí)驗(yàn)方法對(duì)并列結(jié)構(gòu)的識(shí)別研究有一定的正面影響,但識(shí)別準(zhǔn)確率的上升仍然處于“瓶頸期”.實(shí)驗(yàn)結(jié)果中單層并列結(jié)構(gòu)的識(shí)別準(zhǔn)確率較高,例如:“各/r 條/q 戰(zhàn)線/n {改革/v 和/c 發(fā)展/v} 的/u 任務(wù)/n 都/d 十分/m 繁重/a”.原因是單層結(jié)構(gòu)是并列結(jié)構(gòu)中最為簡(jiǎn)單的一種類型,且它在整個(gè)標(biāo)注語(yǔ)料中的占比達(dá)到39.84%[8],在訓(xùn)練時(shí)有較大優(yōu)勢(shì).但其余結(jié)構(gòu)中包含的復(fù)雜多變的長(zhǎng)句結(jié)構(gòu)和嵌套結(jié)構(gòu)就難以準(zhǔn)確識(shí)別出.如:“保持/v {社會(huì)/n政治/n、/w 經(jīng)濟(jì)/n、/w 文化/n} {協(xié)調(diào)/v 發(fā)展/n 和/n 全面/ad 進(jìn)步/v} 的/u 興盛/a 局面/n”,易錯(cuò)誤識(shí)別成“保持/v {社會(huì)/n政治/n、/w 經(jīng)濟(jì)/n、/w 文化/n 協(xié)調(diào)/v 發(fā)展/n 和/n 全面/ad 進(jìn)步/v} 的/u 興盛/a 局面/n”,難以識(shí)別多重并列結(jié)構(gòu),其中一個(gè)主要原因是漢語(yǔ)本身的復(fù)雜性,還有一個(gè)原因是訓(xùn)練語(yǔ)料中出現(xiàn)的類似的句式較少,復(fù)雜嵌套句形式多變而每個(gè)句式在語(yǔ)料中出現(xiàn)的次數(shù)較為稀少.

目前并列標(biāo)注語(yǔ)料規(guī)模較小,無(wú)法滿足大數(shù)據(jù)量研究的需要,阻礙了對(duì)并列結(jié)構(gòu)識(shí)別研究的發(fā)展.在之后的研究中,將通過(guò)半監(jiān)督方法對(duì)標(biāo)注語(yǔ)料進(jìn)行擴(kuò)展,然后利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取特征對(duì)并列結(jié)構(gòu)進(jìn)行識(shí)別研究.

猜你喜歡
語(yǔ)料語(yǔ)言學(xué)聚類
基于DBSACN聚類算法的XML文檔聚類
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
基于改進(jìn)的遺傳算法的模糊聚類算法
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
桃源县| 甘孜县| 瑞丽市| 织金县| 大悟县| 涡阳县| 新河县| 桐柏县| 康乐县| 长岭县| 松潘县| 页游| 敖汉旗| 红安县| 峡江县| 岳阳县| 洛隆县| 洛扎县| 那曲县| 民乐县| 体育| 丁青县| 洛隆县| 隆回县| 连云港市| 云霄县| 广昌县| 介休市| 遂平县| 扎兰屯市| 乐东| 永康市| 北流市| 海盐县| 织金县| 东辽县| 宁都县| 沾化县| 郯城县| 固始县| 富阳市|