孫媛,旦正錯(cuò),劉思思,趙小兵
1.中央民族大學(xué)信息工程學(xué)院,北京 100081
2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081
機(jī)器閱讀理解是指機(jī)器根據(jù)給定的上下文回答相關(guān)問(wèn)題。早期的機(jī)器閱讀理解主要根據(jù)詞匯和語(yǔ)義等信息,人工定制規(guī)則,從而計(jì)算材料中語(yǔ)句和問(wèn)題的匹配度[1]。由于依賴(lài)人工制定的規(guī)則,其準(zhǔn)確率僅有30%-40%,性能非常差。隨著大規(guī)模數(shù)據(jù)集的應(yīng)用,基于深度學(xué)習(xí)的機(jī)器閱讀理解得以發(fā)展,其效果顯著優(yōu)于基于規(guī)則的機(jī)器閱讀理解,因此,面向機(jī)器閱讀理解任務(wù)數(shù)據(jù)集的創(chuàng)建也越來(lái)越受到業(yè)內(nèi)人士的關(guān)注。到目前為止,在中英文領(lǐng)域,已經(jīng)出現(xiàn)了很多大規(guī)模數(shù)據(jù)集。比如,文本開(kāi)放域機(jī)器理解的挑戰(zhàn)數(shù)據(jù)集MCTest[2]、基于監(jiān)督學(xué)習(xí)的閱讀理解語(yǔ)料CNN/Daily Mail[3]、機(jī)器閱讀理解數(shù)據(jù)集SQuAD[4]、與MCTest同為選擇題形式的機(jī)器閱讀數(shù)據(jù)集RACE[5]、基于百度搜索和百度知道的大規(guī)模數(shù)據(jù)集DuReader[6]、基于識(shí)別不可回答的問(wèn)題的數(shù)據(jù)集SQuADRUN[7]。隨著這些大規(guī)模數(shù)據(jù)集的創(chuàng)建與應(yīng)用,許多基于數(shù)據(jù)集的優(yōu)秀模型相繼被提出并在相關(guān)任務(wù)上取得不錯(cuò)的效果。最近研發(fā)的機(jī)器閱讀理解系統(tǒng),在斯坦福問(wèn)答數(shù)據(jù)集SQuAD上可以產(chǎn)生優(yōu)于人類(lèi)理解水平的效果[7],這也代表著在優(yōu)秀數(shù)據(jù)集的幫助下,機(jī)器閱讀理解生成與人類(lèi)理解水平相媲美的結(jié)果成為可能。
藏文作為一種低資源語(yǔ)言,相關(guān)公開(kāi)的數(shù)據(jù)集非常少,在一定程度上阻礙了藏文信息處理的發(fā)展。大量實(shí)驗(yàn)表明,大規(guī)模的高質(zhì)量數(shù)據(jù)集是推動(dòng)數(shù)據(jù)驅(qū)動(dòng)型任務(wù)的關(guān)鍵因素,因此,構(gòu)建用于機(jī)器閱讀理解的低資源語(yǔ)言數(shù)據(jù)集具有非常重要的價(jià)值。本文以云藏網(wǎng)的文本數(shù)據(jù)為基礎(chǔ),考慮問(wèn)題類(lèi)型、實(shí)際應(yīng)用場(chǎng)景、疑問(wèn)詞使用方法等因素,結(jié)合藏文的語(yǔ)法特征、閱讀理解模型的處理形式,構(gòu)建了一個(gè)面向機(jī)器閱讀理解的藏文數(shù)據(jù)集TibetanQA。
本文的原始數(shù)據(jù)來(lái)源于云藏網(wǎng)(https://www.yongzin.com/),對(duì)獲取的原始數(shù)據(jù)進(jìn)行降噪處理,去除圖片、表格等非文本數(shù)據(jù),最終獲得631篇文章。為了問(wèn)題的多樣性和有效性,舍棄小于100個(gè)音節(jié)的段落并去除不相關(guān)、不準(zhǔn)確、殘缺的數(shù)據(jù)后進(jìn)行分詞,最終得到903個(gè)段落作為問(wèn)答對(duì)的文本數(shù)據(jù),數(shù)據(jù)共劃分為自然、文化、教育、地理、歷史、生活、社會(huì)、藝術(shù)、技術(shù)、人物、科學(xué)、體育12大類(lèi)。
為了提高創(chuàng)建數(shù)據(jù)集的效率,我們開(kāi)發(fā)了用于問(wèn)題收集的web程序,如圖1所示。并請(qǐng)20位藏語(yǔ)專(zhuān)業(yè)人員創(chuàng)建問(wèn)題。
為了保證問(wèn)題的統(tǒng)一性,我們根據(jù)《實(shí)用藏文文法教程》[8]中疑問(wèn)代詞的使用規(guī)則,總結(jié)了藏文與英文、中文在構(gòu)建問(wèn)題時(shí)的不同點(diǎn),統(tǒng)一了提問(wèn)者對(duì)疑問(wèn)代詞的使用習(xí)慣,從而進(jìn)一步提高數(shù)據(jù)集的質(zhì)量。比如,一般藏文有 5 個(gè)單一形式的疑問(wèn)詞(“??”(What)、“??”(How)、“?”(Who)、“??”(Which/Where)、“??”(When)),其用法、意義和在文中的占比如表1所示。在實(shí)際問(wèn)題創(chuàng)建過(guò)程中,單一疑問(wèn)代詞以與別的詞素組成復(fù)合形式的疑問(wèn)代詞[8]出現(xiàn)。如表1所示,相對(duì)于英文,藏文中沒(méi)有明確的地點(diǎn)疑問(wèn)代詞(Where)、指代疑問(wèn)代詞(Which),因此對(duì)于二者,這里規(guī)定一律使用泛指疑問(wèn)詞“??”(Which/Where)來(lái)完成問(wèn)題集的創(chuàng)建。
表1 藏文疑問(wèn)代詞及在數(shù)據(jù)集的分布Table 1 Tibetan interrogative pronouns and distribution in the dataset
最終,通過(guò)眾包的形式從903個(gè)段落中創(chuàng)建問(wèn)答對(duì),即提問(wèn)者遵循疑問(wèn)代詞的使用方法,通過(guò)閱讀給定的標(biāo)題、段落提出1-25個(gè)相關(guān)問(wèn)題,并在對(duì)應(yīng)的段落中選擇連續(xù)的片段作為答案,組成問(wèn)答對(duì)并提交到數(shù)據(jù)庫(kù)。為了保證數(shù)據(jù)集的質(zhì)量,我們對(duì)提出的問(wèn)題進(jìn)行三次校對(duì),對(duì)內(nèi)容進(jìn)行了嚴(yán)格的篩選和處理,最終獲得2,000對(duì)用于藏文機(jī)器閱讀理解的問(wèn)答對(duì)數(shù)據(jù)集,平均每段有2個(gè)問(wèn)題,每個(gè)問(wèn)題包含10-20個(gè)音節(jié)。
本數(shù)據(jù)集包含一個(gè)命名為2000_TibetanQA的excel文件,在實(shí)際使用過(guò)程中,可以非常方便地將其轉(zhuǎn)換成json、txt等格式的文件,以滿(mǎn)足實(shí)驗(yàn)的數(shù)據(jù)格式要求。Excel文件中第一列為當(dāng)前文章ID,第二列為文本標(biāo)題,第三列為段落,第四列為問(wèn)題,第五列為問(wèn)題對(duì)應(yīng)的答案。
數(shù)據(jù)集中,每一段文本均產(chǎn)生一對(duì)或一對(duì)以上的問(wèn)答對(duì),其中答案全部來(lái)自當(dāng)前文本,如圖2所示,用時(shí)間疑問(wèn)代詞“??”(When)的復(fù)合形式“??????”(When)提出問(wèn)題,這類(lèi)問(wèn)題占整個(gè)數(shù)據(jù)集的11.9%。
如圖3所示,用泛指疑問(wèn)代詞“???”(Which/Where)提出問(wèn)題,這類(lèi)問(wèn)題占整個(gè)數(shù)據(jù)集的10.5%。
如圖4所示,用指人疑問(wèn)代詞“?”(Who)提出問(wèn)題,這類(lèi)問(wèn)題占整個(gè)數(shù)據(jù)集的8.7%。
如圖 5 所示,用指物疑問(wèn)代詞“???”(What)的復(fù)合形式“???????”(What)提出問(wèn)題,這類(lèi)問(wèn)題占整個(gè)數(shù)據(jù)集的40.4%。
除了1.2節(jié)中提到的五個(gè)單一疑問(wèn)代詞和相關(guān)常用的復(fù)合疑問(wèn)代詞的用法之外,本次問(wèn)題創(chuàng)建過(guò)程中,我們發(fā)現(xiàn)還有一部分常用的疑問(wèn)代詞較為常見(jiàn),分別為“?”(幾)“????????????????????”(嗎?)“?????”(多少),在本次數(shù)據(jù)集中占14.1%,使用頻率較高。其中,疑問(wèn)助詞中的“??”(When)同時(shí)表示時(shí)間疑問(wèn)代詞,與表1中的When相對(duì)應(yīng)。對(duì)疑問(wèn)代詞的總結(jié)歸納會(huì)使得我們后期的研究更具有針對(duì)性和高效性。
如圖6所示,用疑問(wèn)詞“?????”(多少)提出問(wèn)題。
初始語(yǔ)料獲取的過(guò)程中,首先使用正則匹配算法對(duì)原始文本進(jìn)行去噪處理,針對(duì)網(wǎng)頁(yè)文本雜亂無(wú)序、不規(guī)范等特點(diǎn)做進(jìn)一步處理,將網(wǎng)頁(yè)中的一些冗余標(biāo)簽替換成空白符,并刪除網(wǎng)頁(yè)文本數(shù)據(jù)中的一些無(wú)用字符,得到純文本形式的原始文本。
同時(shí),邀請(qǐng)了5位藏語(yǔ)專(zhuān)業(yè)人員對(duì)數(shù)據(jù)進(jìn)行下一步篩選和審查,對(duì)于審核結(jié)果不達(dá)標(biāo)的數(shù)據(jù),進(jìn)行重新編寫(xiě)或者將它們從數(shù)據(jù)庫(kù)中刪除。
在語(yǔ)法校對(duì)上,我們根據(jù)《實(shí)用藏文文法教程》[8]中提供的助詞、格助詞、從格助詞等的使用規(guī)則,修改數(shù)據(jù)集的語(yǔ)法和拼寫(xiě)錯(cuò)誤。例如,拼寫(xiě)錯(cuò)誤有“???????”、“????”、“????”等,其正確寫(xiě)法為“????????”(學(xué)習(xí))、“?????”(多少)、“?????”(哪些);語(yǔ)法錯(cuò)誤有“??????”“?????”等,其正確寫(xiě)法為“??????”(哪個(gè))、“????”(誰(shuí)的);不符合藏文語(yǔ)境的有“???????????”“????????????????”等,其正確寫(xiě)法為“??????????????”(哪些職業(yè))、“????????????????”(從事什么工作)。
在代詞的使用上,我們將所有的代詞替換為當(dāng)前語(yǔ)句的主語(yǔ)。例如,“????????????????????????????????????????????”(他在幾歲時(shí)大學(xué)畢業(yè)?),根據(jù)當(dāng)前文本替換代詞之后得到“????????????????????????????????????????????????????????????????”(才讓太教授在幾歲時(shí)大學(xué)畢業(yè)?)。
最后,本文以藏文音節(jié)為單位統(tǒng)計(jì)了數(shù)據(jù)集中文章、段落、問(wèn)題的平均長(zhǎng)度和平均每段所包含的問(wèn)題,如表2所示。
表2 數(shù)據(jù)集中文章和問(wèn)題長(zhǎng)度及平均每段的問(wèn)題分布數(shù)Table 2 The length of articles and questions and the average number of questions in paragraphs
藏文作為我國(guó)重要的少數(shù)民族文字,在西藏、青海、四川等藏族聚居地區(qū)被廣泛使用。但是由于缺乏大規(guī)模公開(kāi)的標(biāo)記語(yǔ)料庫(kù),使得一些藏文信息處理任務(wù)還處于起步階段,例如,藏文機(jī)器閱讀理解任務(wù)[9]、藏文實(shí)體關(guān)系抽取[10]、藏文知識(shí)圖譜的構(gòu)建等任務(wù)。因此,本數(shù)據(jù)集的發(fā)布,對(duì)于促進(jìn)藏文信息處理的發(fā)展具有重要的價(jià)值。本數(shù)據(jù)集可以用于評(píng)價(jià)機(jī)器理解自然語(yǔ)言的能力,也可用于訓(xùn)練藏文機(jī)器閱讀理解的模型,具有較高的科研價(jià)值和社會(huì)應(yīng)用價(jià)值。
致 謝
特別感謝參與本數(shù)據(jù)集工作的藏語(yǔ)專(zhuān)業(yè)人員。
數(shù)據(jù)作者分工職責(zé)
孫媛(1979—),女,山東省濱州市人,博士,教授,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:數(shù)據(jù)質(zhì)量控制與綜合管理、數(shù)據(jù)采集。
旦正錯(cuò)(1998—),女,青海省海南州人,碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:數(shù)據(jù)集的預(yù)處理和整合、數(shù)據(jù)校對(duì)、論文撰寫(xiě)。
劉思思(1998—),女,湖北隨州人,碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:數(shù)據(jù)采集、論文撰寫(xiě)。
趙小兵(1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向?yàn)樽匀徽Z(yǔ)言處理。主要承擔(dān)工作:數(shù)據(jù)集質(zhì)量控制。