藏漢跨語(yǔ)言文本剽竊檢測(cè)數(shù)據(jù)集

2022-07-03 14:05鮑薇董建徐洋申影利戚肖克

中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版) 2022年2期

關(guān)鍵詞：藏文語(yǔ)料文本

鮑薇，董建,2，徐洋，申影利，戚肖克

1.中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院，北京 100007

2.北京航空航天大學(xué)，北京 100191

3.中央民族大學(xué)，北京 100081

4.中國(guó)政法大學(xué)，北京 102249

引言

跨語(yǔ)言文本剽竊檢測(cè)可以檢測(cè)出從一種語(yǔ)言翻譯抄襲形成文章的現(xiàn)象，可用于論文、著作等的檢測(cè)，在知識(shí)產(chǎn)權(quán)保護(hù)方面具有重要應(yīng)用價(jià)值。但當(dāng)前的跨語(yǔ)言文本剽竊檢測(cè)研究多為中英，英法等[1]，對(duì)藏文等低資源語(yǔ)言的研究較少，主要包括基于語(yǔ)法的文本剽竊檢測(cè)方法、基于詞典的方法、基于平行/可比語(yǔ)料的方法、基于機(jī)器翻譯的方法。SemEval是ACL舉辦的針對(duì)文本語(yǔ)義相似度計(jì)算研究的評(píng)測(cè)任務(wù)，連續(xù)多年開(kāi)展單語(yǔ)言、多語(yǔ)言語(yǔ)義相似度計(jì)算評(píng)測(cè)任務(wù)。在SemEval2016英語(yǔ)-西班牙語(yǔ)跨語(yǔ)言文本相似度計(jì)算評(píng)測(cè)任務(wù)中，CNRC[2]抽取句子的詞法語(yǔ)義特征，結(jié)合句對(duì)的淺層語(yǔ)義結(jié)構(gòu)，在英語(yǔ)-西班牙語(yǔ)任務(wù)上的皮爾森相關(guān)系數(shù)達(dá)到了0.567。FBK[3]使用機(jī)器翻譯中的質(zhì)量評(píng)估特征和雙語(yǔ)詞向量特征，結(jié)合回歸模型，在該任務(wù)上的皮爾森相關(guān)系數(shù)達(dá)到了0.3953。

目前，可用于跨語(yǔ)言文本剽竊檢測(cè)的公開(kāi)語(yǔ)料資源較少，多是使用信息檢索、句子相似度計(jì)算任務(wù)的語(yǔ)料資源。Ferrero等人建立的包含35篇英語(yǔ)-法語(yǔ)自然科學(xué)研究論文的可比語(yǔ)料庫(kù)，其中，法語(yǔ)文章來(lái)源于1997-2014 TALN和2006-2011 RNTI，英語(yǔ)文章來(lái)源于谷歌學(xué)術(shù)。CLEF-PAN 2011年文本剽竊評(píng)測(cè)任務(wù)[4]中提供了 388篇英語(yǔ)-海地語(yǔ)的跨語(yǔ)言文檔，標(biāo)注人員對(duì) 5031篇英文文章進(jìn)行機(jī)器或人工翻譯，生成388篇“剽竊”的海地語(yǔ)文檔。SemEval 2016年和2017年評(píng)測(cè)任務(wù)中也提供了少量用于跨語(yǔ)言文本相似度計(jì)算的語(yǔ)料，涉及的語(yǔ)言包括英語(yǔ)-西班牙語(yǔ)、英語(yǔ)-阿拉伯語(yǔ)、英語(yǔ)-土耳其語(yǔ)，語(yǔ)料格式為“[英文句子，西班牙語(yǔ)句子，相似度值]”。

為了緩解低資源語(yǔ)言的數(shù)據(jù)缺少問(wèn)題，在機(jī)器翻譯任務(wù)中，多位學(xué)者使用數(shù)據(jù)增強(qiáng)方法生成語(yǔ)料。Sennrich[5]最早提出使用數(shù)據(jù)增強(qiáng)方法，基于單語(yǔ)語(yǔ)料構(gòu)造偽平行句對(duì)，擴(kuò)充機(jī)器學(xué)習(xí)模型訓(xùn)練語(yǔ)料。Fadaee[6]在訓(xùn)練語(yǔ)料中將部分低頻詞替換為高頻詞，減少低頻詞在訓(xùn)練語(yǔ)料中出現(xiàn)的頻次，降低了低頻詞對(duì)機(jī)器翻譯模型的負(fù)面影響。蔡子龍等人[7]在藏漢機(jī)器翻譯訓(xùn)練語(yǔ)料中，對(duì)句子塊中相似的模塊進(jìn)行位置調(diào)換，使訓(xùn)練語(yǔ)料擴(kuò)充了一倍，豐富了句子的結(jié)構(gòu)，實(shí)驗(yàn)獲得了4個(gè)雙語(yǔ)評(píng)估基礎(chǔ)值（Bilingual evaluation understudy，BLEU）的提高。李家寧等人[8]梳理總結(jié)了文本分類任務(wù)中的數(shù)據(jù)增強(qiáng)方法，如在文本數(shù)據(jù)中將性別相關(guān)詞語(yǔ)替換成相反性別的對(duì)應(yīng)詞語(yǔ)，并在西班牙語(yǔ)等某些性別與語(yǔ)法關(guān)聯(lián)緊密的語(yǔ)言中，對(duì)性別詞語(yǔ)進(jìn)行替換后，對(duì)文本的詞形、句法標(biāo)簽進(jìn)行調(diào)整；在情感分類任務(wù)中，匹配含義相近標(biāo)簽相反的文本尋找因果詞，并替換為反義詞。

本研究采用數(shù)據(jù)增強(qiáng)（Data Augment）的數(shù)據(jù)擴(kuò)充方法，構(gòu)建了藏漢跨語(yǔ)言文本剽竊檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集包含標(biāo)注相似度值標(biāo)簽的15萬(wàn)藏漢句對(duì)，為研究藏漢文本剽竊檢測(cè)提供數(shù)據(jù)基礎(chǔ)。

1 數(shù)據(jù)采集和處理方法

1.1 數(shù)據(jù)采集方法

本研究所建立的跨語(yǔ)言文本剽竊檢測(cè)數(shù)據(jù)集，使用的原始數(shù)據(jù)包括單語(yǔ)語(yǔ)義相似度評(píng)測(cè)語(yǔ)料和跨語(yǔ)言機(jī)器翻譯平行語(yǔ)料。單語(yǔ)語(yǔ)義相似度評(píng)測(cè)語(yǔ)料為SemEval 2014年英語(yǔ)評(píng)測(cè)語(yǔ)料SICK，共包括10,000個(gè)英文單語(yǔ)句對(duì)，每句帶有人工標(biāo)注的句子相似度值標(biāo)簽，相似度值范圍為[0,5]。其中，0表示兩個(gè)句子無(wú)任何內(nèi)容相似，5表示兩個(gè)句子的內(nèi)容完全相同，語(yǔ)料標(biāo)注內(nèi)容如表1所示。標(biāo)注標(biāo)簽包括句對(duì)ID、句子A、句子B、蘊(yùn)含標(biāo)簽（neutral-中性、entailment-蘊(yùn)涵、contradiction-矛盾，用于判斷文本蘊(yùn)含關(guān)系）、相關(guān)度值、蘊(yùn)含_AB、蘊(yùn)含_BA、句子A的來(lái)源、句子B的來(lái)源、句子A所屬的數(shù)據(jù)集、句子B所屬的數(shù)據(jù)集、集合（開(kāi)發(fā)集、訓(xùn)練集、測(cè)試集）。跨語(yǔ)言機(jī)器翻譯平行語(yǔ)料為CWMT評(píng)測(cè)中提供的14.6萬(wàn)句對(duì)藏漢平行語(yǔ)料。

表1 SICK語(yǔ)料標(biāo)注內(nèi)容Table 1 Annotations of SICK corpus

由于漢文、藏文缺少人工標(biāo)注相似度值標(biāo)簽的語(yǔ)料，對(duì)新語(yǔ)料進(jìn)行人工標(biāo)注需要耗費(fèi)大量人力和物力。所以本研究首先使用將 SICK語(yǔ)料中的英文句對(duì)翻譯成相對(duì)應(yīng)的漢文句對(duì)和藏文句對(duì)，最終形成英文、漢文、藏文三種單語(yǔ)語(yǔ)料庫(kù)以及英-漢、英-藏、漢-藏三種跨語(yǔ)言語(yǔ)料庫(kù)，分別用SICK_en、SICK_cn、SICK_tib、SICK_en-cn、SICK_en-tib、SICK_cn-tib進(jìn)行表示。本研究所使用的藏文實(shí)驗(yàn)語(yǔ)料SICK_tib和藏漢語(yǔ)料SICK_cn-tib均為機(jī)器翻譯產(chǎn)生的語(yǔ)料，因藏漢翻譯系統(tǒng)本身存在一定的誤差，導(dǎo)致藏文句子可能存在翻譯不準(zhǔn)確的問(wèn)題。本研究針對(duì)藏漢文本的剽竊檢測(cè)，不針對(duì)藏漢機(jī)器翻譯研究，本研究未對(duì)機(jī)器翻譯的藏文語(yǔ)料進(jìn)行修改。

1.2 數(shù)據(jù)預(yù)處理

在低資源語(yǔ)言場(chǎng)景下，如何利用豐富的單語(yǔ)資源和其他領(lǐng)域資源來(lái)擴(kuò)充數(shù)據(jù)集尤為重要。近幾年，數(shù)據(jù)增強(qiáng)方法被成功應(yīng)用在機(jī)器翻譯、語(yǔ)言模型訓(xùn)練以及文本分類中，尤其在低資源語(yǔ)言機(jī)器翻譯研究中，用于增加深度學(xué)習(xí)所需的大規(guī)模訓(xùn)練語(yǔ)料，緩解數(shù)據(jù)稀疏問(wèn)題。

本研究建立的藏漢跨語(yǔ)言文本剽竊檢測(cè)數(shù)據(jù)集，使用數(shù)據(jù)增強(qiáng)方法擴(kuò)充語(yǔ)料。具體的處理步驟為：

第一步，將SICK語(yǔ)料中的英文句對(duì)翻譯成相對(duì)應(yīng)的漢文句對(duì)、藏文句對(duì)，最終形成英文SICK_en、漢文SICK_cn、藏文SICK_tib三種單語(yǔ)語(yǔ)料庫(kù)，以及英-漢SICK_en-cn、英-藏SICK_en-tib、漢-藏SICK_cn-tib三種跨語(yǔ)言語(yǔ)料庫(kù)。其中，SICK語(yǔ)料中英文句對(duì)均有人工標(biāo)注的相似度值，相似度值范圍為[0,5]。其中，0表示兩個(gè)句子意義不相同，5表示兩個(gè)句子意義相同。因此，對(duì)應(yīng)翻譯的漢文句對(duì)、藏文句對(duì)的相似度值與英文句對(duì)相同。表2給出了以上語(yǔ)料庫(kù)的句子樣例。

表2 語(yǔ)料庫(kù)中的句子樣例Table 2 Sentence samples in the corpus

第二步，使用 SCIK_cn語(yǔ)料庫(kù)中的 10,000個(gè)漢語(yǔ)句對(duì)訓(xùn)練漢語(yǔ)單語(yǔ)孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型[9]，網(wǎng)絡(luò)模型的輸入為兩個(gè)漢語(yǔ)句子，輸出為這兩個(gè)句子的相似度值。其中，訓(xùn)練集中的相似度值同SICK語(yǔ)料中人工標(biāo)注的相似度值。調(diào)整參數(shù)使模型性能達(dá)到最優(yōu)。

第三步，利用訓(xùn)練好的漢語(yǔ)單語(yǔ)孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型對(duì)藏漢平行語(yǔ)料SICK_cn-tib中的漢語(yǔ)句對(duì)計(jì)算其相似度值，即輸入SICK_cn-tib中的任意兩個(gè)漢語(yǔ)句子到網(wǎng)絡(luò)中計(jì)算，輸出為這兩個(gè)句子的相似度值，該過(guò)程如式(1)所示。例如，對(duì)表3所示的cn1和cn2兩個(gè)漢語(yǔ)句子，即“他全神注視著這片金黃色的景色?！焙汀八杂職廒A得大家的尊敬?！?，網(wǎng)絡(luò)模型輸出得到的相似度值為 1.6，即表示cn1和cn2的相似度值sim1為1.6。

其中，similarity()表示已訓(xùn)練的單語(yǔ)孿生長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型。cn1、cn2代表輸入到模型中的兩個(gè)漢語(yǔ)句子，sim1表示模型輸出的相似度值。

第四步，計(jì)算藏漢平行語(yǔ)料SICK_cn-tib中任意組合的藏漢句對(duì)的相似度值。具體操作如下：由于藏漢平行句對(duì)中平行的句子語(yǔ)義完全相同，即如表3所示的cn1與tib1兩個(gè)藏漢平行句對(duì)的相似度值為5，cn2與tib2兩個(gè)藏漢平行句對(duì)的相似度值為5，因此，表3中tib1和tib2的相似度值等于cn1和cn2的相似度值，也是sim1，即獲得了包含相似度值標(biāo)簽的句對(duì)。以此類推，對(duì)cn1-tib1、cn2-tib2兩個(gè)藏漢句對(duì)的相似度值等于 cn1和 cn2的相似度值，也是 sim1，最終可得出 cn1-tib1、cn2-tib2、cn1-tib2、cn2-tib1四個(gè)帶有相似度值標(biāo)簽的藏漢跨語(yǔ)言句對(duì)。計(jì)算流程如下：

表3 基于數(shù)據(jù)增強(qiáng)方法生成的藏漢句對(duì)樣例Table 3 Samples of Tibetan-Chinese sentence pairs based on data augmentation

其中，cn1、cn2代表兩個(gè)漢語(yǔ)句子，tib1、tib2代表兩個(gè)藏文句子，sim1是兩個(gè)句子的相似度值。

2 數(shù)據(jù)樣本描述

2.1 數(shù)據(jù)結(jié)構(gòu)

本數(shù)據(jù)集中包含一張數(shù)據(jù)表。表中有3個(gè)字段，包括漢文句子、藏文句子、句子相似度值。數(shù)據(jù)集共包括15萬(wàn)個(gè)藏漢句對(duì)。

2.2 數(shù)據(jù)樣本展示

基于數(shù)據(jù)增強(qiáng)方法生成的藏漢句對(duì)示例如表4所示。

表4 藏漢跨語(yǔ)言文本剽竊檢測(cè)數(shù)據(jù)集示例Table 4 Samples of Tibetan-Chinese cross-language text plagiarism detection dataset

3 數(shù)據(jù)質(zhì)量控制和評(píng)估

本研究使用基于數(shù)據(jù)增強(qiáng)方法生成的藏漢語(yǔ)料，在文獻(xiàn)[9]中的藏漢跨語(yǔ)言文本剽竊檢測(cè)模型中進(jìn)行實(shí)驗(yàn)驗(yàn)證，實(shí)驗(yàn)結(jié)果表明，生成語(yǔ)料大幅提升了模型性能。實(shí)驗(yàn)中使用皮爾森相關(guān)系數(shù)ρ（Pearson correlation coefficients）、平均平方誤差MSE（Mean-square error）和斯皮爾曼相關(guān)性系數(shù)ρs（Spearman correlation coefficient）衡量系統(tǒng)預(yù)測(cè)句對(duì)的相似度值與人工標(biāo)注的相似度值之間的差異。

從表5中實(shí)驗(yàn)結(jié)果對(duì)比可以看出，使用原始語(yǔ)料SICK_tib中10,000藏文句對(duì)訓(xùn)練的模型，藏漢跨語(yǔ)言剽竊檢測(cè)模型的皮爾森相關(guān)系數(shù)為0.1505，表明模型結(jié)果與人工標(biāo)注結(jié)果只達(dá)到弱相關(guān)程度。實(shí)驗(yàn)中不斷增加生成語(yǔ)料，皮爾森相關(guān)系數(shù)不斷提升。語(yǔ)料量增加至15萬(wàn)句對(duì)時(shí)，皮爾森相關(guān)系數(shù)達(dá)到0.4746，較基線結(jié)果提升了0.25，平均平方誤差降低了1.6，斯皮爾曼相關(guān)性系數(shù)提升了0.38，模型輸出的句對(duì)相似度值與人工標(biāo)注的相似度值達(dá)到了中等程度相關(guān)?？梢钥闯?，本數(shù)據(jù)集中的數(shù)據(jù)對(duì)藏漢跨語(yǔ)言文本剽竊檢測(cè)研究起到積極作用。實(shí)驗(yàn)結(jié)果表明，本研究中基于數(shù)據(jù)增強(qiáng)方法擴(kuò)充的藏漢語(yǔ)料可以顯著提升藏漢跨語(yǔ)言文本剽竊檢測(cè)實(shí)驗(yàn)結(jié)果。

表5 基于數(shù)據(jù)增強(qiáng)的藏漢跨語(yǔ)言剽竊檢測(cè)實(shí)驗(yàn)結(jié)果Table 5 Experimental results of Tibetan-Chinese cross-language plagiarism detection based on data augmentation

4 數(shù)據(jù)價(jià)值

本研究從少數(shù)民族語(yǔ)言信息處理的實(shí)際需要出發(fā)，建立的數(shù)據(jù)集不僅可用于藏漢跨語(yǔ)言文本剽竊檢測(cè)，也可用于藏漢句子相似度計(jì)算、語(yǔ)義計(jì)算等其他任務(wù)中，為低資源語(yǔ)言自然語(yǔ)言處理做出貢獻(xiàn)。另一方面，本研究在建立數(shù)據(jù)集中所使用的數(shù)據(jù)增強(qiáng)方法，擴(kuò)充了藏漢實(shí)驗(yàn)語(yǔ)料，有效地解決了語(yǔ)料稀缺問(wèn)題，為訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)模型奠定基礎(chǔ)，也對(duì)其他低資源語(yǔ)言相關(guān)研究提供了研究方法。

數(shù)據(jù)作者分工職責(zé)

鮑薇（1990—），女，江蘇徐州人，博士，工程師，研究方向?yàn)槿斯ぶ悄軜?biāo)準(zhǔn)化、自然語(yǔ)言處理、語(yǔ)音信號(hào)處理。主要承擔(dān)工作：基于數(shù)據(jù)增強(qiáng)方法計(jì)算數(shù)據(jù)相似度、論文撰寫(xiě)。

董建（1985—），男，山東單縣人，博士在讀，高級(jí)工程師，研究方向?yàn)槿斯ぶ悄?、大?shù)據(jù)、基礎(chǔ)軟件。主要承擔(dān)工作：修改論文。

徐洋（1983—），女，遼寧沈陽(yáng)人，碩士，高級(jí)工程師，研究方向?yàn)槿斯ぶ悄軜?biāo)準(zhǔn)化、語(yǔ)音信號(hào)處理。主要承擔(dān)工作：數(shù)據(jù)集預(yù)處理。

申影利（1994—），女，安徽亳州人，博士在讀，研究方向?yàn)闄C(jī)器翻譯。主要承擔(dān)工作：數(shù)據(jù)校對(duì)。

戚肖克（1985—），女，山東菏澤人，博士，副教授，研究方向?yàn)檎Z(yǔ)音信號(hào)處理、自然語(yǔ)言處理。主要承擔(dān)工作：數(shù)據(jù)集整合。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡