国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏文文本摘要數(shù)據(jù)集

2022-07-03 14:05閆曉東王羿欽黃碩楊金朋趙小兵
關(guān)鍵詞:藏文信息處理語料

閆曉東,王羿欽,黃碩,楊金朋,趙小兵

1.中央民族大學(xué)信息工程學(xué)院,北京 100081

2.國(guó)家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,北京 100081

引言

文檔摘要是一項(xiàng)被廣泛研究的自然語言處理任務(wù)。隨著人工神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn),摘要性能不斷提高,對(duì)訓(xùn)練數(shù)據(jù)的要求也越來越高。在一個(gè)好的摘要系統(tǒng)應(yīng)該理解全文,并重新組織信息,以生成連貫、信息豐富且顯著簡(jiǎn)短的摘要,從而傳達(dá)原文的重要信息[1-2]。大多數(shù)傳統(tǒng)的生成式摘要方法將過程分為兩個(gè)階段[3]。首先,使用監(jiān)督方法或語言知識(shí)從原始文本中提取關(guān)鍵文本元素。然后,通過使用語言規(guī)則或語言生成技術(shù),對(duì)提取的不清楚的成分進(jìn)行重寫或解釋,以生成原始文本的簡(jiǎn)明摘要。盡管人們對(duì)摘要進(jìn)行了廣泛的研究,但摘要的語言質(zhì)量仍不盡如人意。最近,深度學(xué)習(xí)方法顯示出通過利用GPU從大規(guī)模數(shù)據(jù)學(xué)習(xí)表征[4-5]和生成語言[6-7]的潛在能力。通過深度學(xué)習(xí)方法生成的摘要更接近于人工書寫的摘要。高質(zhì)量數(shù)據(jù)集的可用性能有效推動(dòng)摘要的研究進(jìn)展。然而,目前公開的、高質(zhì)量的大規(guī)模摘要數(shù)據(jù)集仍然非常稀少,且不容易人工構(gòu)建。例如近10年流行的英文摘要數(shù)據(jù)集DUC包括來自紐約時(shí)報(bào)和美聯(lián)社有線服務(wù)的500篇新聞文章,每篇文章的參考摘要都由4位不同的人書寫得到,摘要上限為75詞,屬于小型語料庫(kù)。CNN/Daily Mail數(shù)據(jù)集[8]由新聞文章和人工撰寫摘要構(gòu)成320 KB大小的英文單文本摘要數(shù)據(jù)集,NYTarticles數(shù)據(jù)集[9]已廣泛用于摘要研究[10-13],是一個(gè)由《紐約時(shí)報(bào)》策劃的文章和圖書館科學(xué)家撰寫的摘要組成的100 KB數(shù)據(jù)集。Gigaword語料庫(kù)[14],包含950萬篇左右文章,使用標(biāo)題作為參考摘要。

流行的中文數(shù)據(jù)集主要有清華新聞(THUCNews)數(shù)據(jù)根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,利用正文-標(biāo)題構(gòu)成摘要數(shù)據(jù)集,總共包含830 749個(gè)樣本。搜狗新聞(SogouCS)數(shù)據(jù)是搜狗實(shí)驗(yàn)室整理的1 245 835個(gè)樣本,同樣利用正文-標(biāo)題構(gòu)成摘要數(shù)據(jù)集。以及l(fā)csts摘要數(shù)據(jù)是哈爾濱工業(yè)大學(xué)整理,基于新聞媒體在微博上發(fā)布的新聞?wù)獎(jiǎng)?chuàng)建,每篇短文約100個(gè)字符,每篇摘要約20個(gè)字符[15]。

目前中文開源的文摘數(shù)據(jù)集大部分都是由“文章-標(biāo)題”這樣的偽摘要語料構(gòu)成,流行的人工摘要數(shù)據(jù)集只有數(shù)百個(gè),且都是針對(duì)短文本數(shù)據(jù)。就我們所知在藏文文本摘要領(lǐng)域目前還沒有公開的數(shù)據(jù)集,由于缺乏相應(yīng)的數(shù)據(jù)集,藏文文本摘要任務(wù)還處于起步階段。為了進(jìn)一步推動(dòng)藏文文本摘要的發(fā)展,同時(shí)為了滿足相關(guān)研究人員對(duì)高質(zhì)量的藏語文本摘要數(shù)據(jù)集的需求,本文構(gòu)建了一個(gè)藏文文本摘要數(shù)據(jù)集,其中包含1000篇新聞內(nèi)容與人工摘要對(duì)和超過3500個(gè)文章關(guān)鍵詞(表1)。

1 數(shù)據(jù)采集和處理方法

由于藏文文本摘要沒有規(guī)范的語料,并且由于機(jī)器翻譯的限制,并不能直接將其他語種語料直接翻譯,以免造成信息的錯(cuò)誤傳播。所以首先從各大藏文網(wǎng)站進(jìn)行語料爬取。對(duì)爬取下來的語料需要進(jìn)行數(shù)據(jù)清理,過濾掉HTML標(biāo)簽以及其他冗余信息,只留下新聞標(biāo)題以及新聞內(nèi)容。首先對(duì)爬取的原始新聞進(jìn)行挑選,刪除篇幅過長(zhǎng)或過短的新聞文本,并對(duì)文本內(nèi)容進(jìn)行清洗。獲取到清洗好的數(shù)據(jù)集后,將參與構(gòu)建人員分成兩組,一組負(fù)責(zé)在清洗后的數(shù)據(jù)集上進(jìn)行摘要的人工構(gòu)建,另一組負(fù)責(zé)驗(yàn)證摘要的質(zhì)量,對(duì)初始摘要進(jìn)行審核,對(duì)低于標(biāo)準(zhǔn)的摘要進(jìn)行刪除或人工復(fù)構(gòu)建操作。

1.1 數(shù)據(jù)采集方法

從香格里拉藏文網(wǎng)站、人民網(wǎng)藏文版等多家新聞媒體網(wǎng)站上爬取20000余篇新聞文本。

1.2 數(shù)據(jù)預(yù)處理

將爬取到的語料進(jìn)行挑選,刪除篇幅過長(zhǎng)或過短的新聞文本。數(shù)據(jù)集清洗時(shí),僅進(jìn)行了簡(jiǎn)單的規(guī)則清洗,采用正則表達(dá)式對(duì)新聞文本進(jìn)行數(shù)據(jù)清洗,對(duì)圖像標(biāo)記,表格等文本、非文本數(shù)據(jù)進(jìn)行刪除操作。

2 數(shù)據(jù)樣本描述

主要包括原始文章、人工摘要和文章主題關(guān)鍵詞,摘要展示如表2所示。

表2 藏文文本摘要數(shù)據(jù)集樣樣例Table 2 Sample of Tibetan text summarization datasets

3 數(shù)據(jù)質(zhì)量控制和評(píng)估

文摘的撰寫由中央民族大學(xué)藏語言文學(xué)專業(yè)學(xué)生負(fù)責(zé),藏文是他們的母語,又具備本專業(yè)文學(xué)功底,完全能夠勝任摘要撰寫工作?;谝韵抡獦?gòu)建要求對(duì)文摘進(jìn)行構(gòu)建:舍棄與藏文新聞主題無關(guān)的內(nèi)容;簡(jiǎn)略說明次要材料;摘要緊扣中心,突出新聞重點(diǎn);順序結(jié)構(gòu)嚴(yán)謹(jǐn),摘要層次分明。此外,為了進(jìn)一步提高數(shù)據(jù)集的質(zhì)量,采用交叉驗(yàn)證對(duì)構(gòu)建的摘要進(jìn)行選擇。獲取到初始摘要后,對(duì)摘要的質(zhì)量進(jìn)行驗(yàn)證。驗(yàn)證組分別從語句的流暢程度、語義的完整度以及新聞的覆蓋度對(duì)初始摘要進(jìn)行打分,剔除低質(zhì)量摘要。打分規(guī)則如表3所示。去除或?qū)ζ骄謹(jǐn)?shù)低于3.5的摘要進(jìn)行重寫。最終,人工校對(duì)出1000個(gè)新聞和新聞文摘對(duì)。

表3 人工摘要打分規(guī)則Table 3 Grading standards

4 數(shù)據(jù)價(jià)值

藏文是一種具有一千多年歷史的拼音文字,是藏族人們交流思想的工具,是世界公認(rèn)的成熟的文字之一。信息時(shí)代對(duì)藏文信息的處理提出了新的課題——用計(jì)算機(jī)來處理藏文信息。從20世紀(jì)80年代起,北京、上海、西藏、甘肅、青海等地的一些院校及科研機(jī)構(gòu)紛紛開始了藏文信息處理的研究,研制開發(fā)了許多藏文信息處理系統(tǒng),推動(dòng)了藏文信息處理技術(shù)的發(fā)展[16]。隨著科學(xué)技術(shù)的快速發(fā)展,西藏的研究和建設(shè)也進(jìn)入了快速增長(zhǎng)期。同時(shí),由于漢英語言文字信息處理研究技術(shù)的不斷迭代和更新,藏文信息處理技術(shù)也逐漸從文字信息處理[17]擴(kuò)展到語言語音信息處理[18]。然而對(duì)藏語自然語言的處理還沒有大規(guī)模的發(fā)展。為了藏語能夠跟上信息時(shí)代社會(huì)發(fā)展的步伐,更好地滿足西藏社會(huì)進(jìn)步和發(fā)展的需要,促進(jìn)西藏社會(huì)文明發(fā)展。藏語信息化發(fā)展已成為一項(xiàng)緊迫的任務(wù)。

文本摘要的目的是將原始文檔壓縮成幾個(gè)能夠涵蓋文檔主題的短句,通過該技術(shù)可以自動(dòng)化地生成摘要,能有效緩解互聯(lián)網(wǎng)高速發(fā)展帶來的信息爆炸和信息冗余的問題。這樣,無論是用戶還是搜索引擎都能快速通過摘要捕獲到原始文本中所包含的主要意思。藏文自動(dòng)文摘的研究發(fā)展緩慢,目前還沒有用于訓(xùn)練的大規(guī)模藏語文摘語料,且文摘的訓(xùn)練數(shù)據(jù)構(gòu)建需要大量的時(shí)間和資源,因此最新提出來的一些神經(jīng)模型只能應(yīng)用在有限的領(lǐng)域。本研究人工構(gòu)建的數(shù)據(jù)集有助于推動(dòng)藏文文本摘要的發(fā)展,滿足相關(guān)研究人員對(duì)高質(zhì)量的藏語文本摘要數(shù)據(jù)集的需求。

致謝

特別感謝香格里拉藏文網(wǎng)站、人民網(wǎng)藏文版,云藏網(wǎng)以及參與本數(shù)據(jù)集工作的藏語專業(yè)人員。

作者分工職責(zé)

閆曉東(1973—),女,內(nèi)蒙古自治區(qū)赤峰市人,博士,副教授,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)集質(zhì)量控制與綜合管理。

王羿欽(1998—),女,天津市人,碩士研究生,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)采集、論文撰寫。

黃碩(1998—),男,山東省菏澤市人,碩士研究生,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)集的預(yù)處理和整合、數(shù)據(jù)校對(duì)、論文撰寫。

楊金朋(1997—),男,吉林?。ㄊ校┩ɑ腥耍T士研究生,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)采集。

趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向?yàn)樽匀徽Z言處理。主要承擔(dān)工作:數(shù)據(jù)集質(zhì)量控制。

猜你喜歡
藏文信息處理語料
“毫米波雷達(dá)系統(tǒng)設(shè)計(jì)與信息處理技術(shù)”專題征文通知
大數(shù)據(jù)背景下會(huì)計(jì)信息處理智能化研究
基于Revit和Dynamo的施工BIM信息處理
面向低資源神經(jīng)機(jī)器翻譯的回譯方法
敦煌本藏文算書九九表再探
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
信息技術(shù)藏文編碼字符集擴(kuò)充集A
可比語料庫(kù)構(gòu)建與可比度計(jì)算研究綜述
現(xiàn)代藏文音節(jié)結(jié)構(gòu)分析研究
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
崇左市| 敖汉旗| 许昌县| 田林县| 高青县| 唐海县| 江津市| 萝北县| 尼木县| 临夏县| 锡林浩特市| 博客| 张家港市| 雅江县| 岚皋县| 北川| 峨山| 白河县| 临潭县| 白沙| 茂名市| 海阳市| 铁岭县| 清镇市| 上栗县| 乌拉特中旗| 江孜县| 太仆寺旗| 三原县| 饶河县| 广元市| 集贤县| 宣恩县| 从江县| 手机| 新昌县| 安阳市| 电白县| 武胜县| 光山县| 定陶县|