趙小兵,高璐,高定國,包烏格徳勒,米爾阿迪力江·麥麥提,劉洋,才智杰,孫媛*
1.中央民族大學,北京 100081
2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081
3.西藏大學,拉薩 850013
4.呼和浩特民族學院,呼和浩特 015501
5.清華大學,北京 100084
6.青海師范大學,西寧 810016
7.藏語智能信息處理及應用國家重點實驗室,西寧 810016
少數(shù)民族語言信息處理技術(shù)起步較晚,目前還處于初中級階段,要解決人與計算機交互、系統(tǒng)問答等頂層問題,首先要從能夠獨立表義的最小單位即詞匯開始研究。由于各少數(shù)民族語言分詞標準的不統(tǒng)一以及語料的不開放性,極大地限制了少數(shù)民族語言信息處理發(fā)展的進程。因此,迫切需要運用評測語料庫的科學計算方法進行公開、公正的評測,建構(gòu)適用于自動分詞評測的規(guī)范標準,從而推動少數(shù)民族語言分詞的規(guī)范與統(tǒng)一。
本數(shù)據(jù)集從計算機的角度出發(fā),考慮蒙古文、藏文、維吾爾文分詞的規(guī)范原則,依據(jù)蒙古文、藏文和維吾爾文詞匯的構(gòu)詞規(guī)律和特點,制定適合計算機信息處理的蒙古文、藏文和維吾爾文分詞評測標準,設計三個語種的分詞評測分析軟件,構(gòu)建蒙古文、藏文和維吾爾文的分詞語料,形成標準評測數(shù)據(jù)集,為解決自動分詞、詞性標注、信息檢索、語料庫構(gòu)建等研究課題提供依據(jù)。
藏文分詞評測標準的制定借鑒了《信息處理用現(xiàn)代漢語分詞規(guī)范》(GB/T 13715-1992)[5]、《信息處理用藏文分詞規(guī)范》(GB/T 36452-2018)[3]、《信息處理用藏語詞類標記集》(GB/T 36337-2018),對每一詞類制定詳細的切分細則。
蒙古文按照特定的規(guī)范,把詞表示為詞干和構(gòu)形詞綴的形式。蒙古文分詞評測標準的制定主要依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》(GB/T 13715-1992)[5]和《信息處理用蒙古文詞語標記》(GB/T 26235-2010)[5]確定大類詞類,并對每個詞類制定詳細的切分規(guī)則。
維吾爾文的分詞是詞干提取的過程,其制定主要依據(jù)《信息處理用現(xiàn)代維吾爾語詞類標注標記規(guī)范集》。規(guī)范集對詞形變化豐富的名詞、動詞、形容詞進行了詳細的規(guī)則介紹,并舉例說明。
蒙、藏、維3個語種的語料均來源于由新聞、經(jīng)濟、法律、娛樂等各領(lǐng)域組成的綜合語料,因此語料爬取的媒體來源廣泛,表1展示了部分新聞媒體渠道。
表1 部分新聞媒體來源Table 1 Part of news media sources
1.3.1 數(shù)據(jù)爬取
每個語種團隊的技術(shù)小組負責數(shù)據(jù)爬取及預處理工作。通過構(gòu)建并行分布式爬蟲框架,按照之前整理的蒙、藏、維各領(lǐng)域媒體渠道,采用合適的機制對網(wǎng)頁數(shù)據(jù)進行爬取并保存在本地。爬取過程中,我們對網(wǎng)頁的具體內(nèi)容并不處理,以提升爬取的速度和效率。爬取結(jié)束后使用相應的預處理解析模塊,提取需要保存的內(nèi)容。
當前,國際標準的話語權(quán)已成為全球制造業(yè)發(fā)展的必爭之地,依靠技術(shù)標準占領(lǐng)市場成為國際競爭中的首選戰(zhàn)略。提升“江蘇制造”標準,占領(lǐng)制造業(yè)高地,需要借鑒發(fā)達國家和地區(qū)的有益經(jīng)驗。實施標準化戰(zhàn)略是振興制造業(yè)的國際通行做法。
1.3.2 數(shù)據(jù)預處理
該模塊將蒙古文、藏文、維吾爾文的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一編碼。此外,由于少數(shù)民族語言字符輸入較為復雜,如輸入蒙古文時需要考慮分寫詞綴、分寫元音、特殊字符等,部分人員在使用時為了提高輸入效率,會盡可能地減少使用這些繁瑣的控制符,導致輸入文本的后端編碼出錯,因此在進行文本處理之前勢必要進行字符的校對。在數(shù)據(jù)集構(gòu)建過程中,按照不同語種文本預處理的需要,應用和開發(fā)了相關(guān)的加工軟件對語料進行預處理。開發(fā)的軟件包括垃圾信息濾除軟件、編碼轉(zhuǎn)換軟件、語料校對軟件等。
1.3.3 自動初步分詞
少數(shù)民族語言分詞技術(shù)已經(jīng)有一定的研究基礎,也積累了相應的分詞工具,取得了領(lǐng)域內(nèi)較好的分詞結(jié)果。為了加快語料的處理,提高分詞的準確性,利用清華大學、中央民族大學、西藏大學等依托單位現(xiàn)有的分詞工具對各個語種的語料進行了初步分詞。由于沒有任何分詞工具能夠達到百分之百的準確性,初步分詞的結(jié)果需要進一步的人工校對。
1.3.4 人工校對
人工校對工作繁重,需要大量有經(jīng)驗的母語人士參與。蒙古文、藏文、維吾爾文分別由中央民族大學、西藏大學、清華大學負責。每個語種團隊分為技術(shù)小組、標注小組、校驗小組,其中標注小組和校驗小組由母語人士構(gòu)成,負責語料的人工校對工作。標注小組和校驗小組通力協(xié)作,不斷推動著數(shù)據(jù)集的構(gòu)建過程。在標注小組與校驗小組標注結(jié)果達成一致時,該條數(shù)據(jù)才會成功入庫;若有不一致現(xiàn)象產(chǎn)生,則移交相關(guān)負責人研判。在所有數(shù)據(jù)條目構(gòu)建完成后,按照整體10%的比例,引入第三方機構(gòu)進行數(shù)據(jù)集抽檢。
為保證標注的一致性及規(guī)范性,在標注之前,由相關(guān)團隊對母語人士進行語言水平測試,篩選有經(jīng)驗的母語人士入組;對母語人士進行標準規(guī)范的相關(guān)培訓,確保標注人員按照同一標準分詞;校驗小組與標注小組背對背,互不干擾,當二者標注不一致時,提交相關(guān)負責人研判,確保標注的準確率。
數(shù)據(jù)集整體構(gòu)建流程如圖1所示。
MLWS2021包含蒙、藏、維3個語種,評測對象是蒙古文、藏文、維吾爾文三個語種的自動分詞核心技術(shù)。數(shù)據(jù)集在MLWS2017的基礎上,由之前單一的新聞領(lǐng)域擴充到新聞、經(jīng)濟、法律、娛樂等綜合領(lǐng)域;數(shù)據(jù)規(guī)模也由之前的3萬句,擴大到目前的15.5萬句。MLWS2021數(shù)據(jù)集中,蒙古文由中央民族大學提供,共計6.5萬句;藏文由西藏大學提供,共計2.5萬句;維吾爾文由清華大學提供,共計6.5萬句。評測數(shù)據(jù)集概況如表2所示,標注樣例見表3。
表2 MLWS2021概況Table 2 Overview of MLWS2021
表3 標注樣例Table 3 Annotation samples
為保證評測數(shù)據(jù)集質(zhì)量的可靠性、穩(wěn)定性,評測工作委員會啟動數(shù)據(jù)集質(zhì)量評估工作,成立數(shù)據(jù)集抽檢小組,并進行抽檢排期。對于蒙、藏、維3個語種的標注語料,按照10%的比例抽取。其中,藏文以步長為10,均勻抽取10%,共抽取樣本2500句;蒙古文和維吾爾文分別將原語料打散,隨機抽取10%,分別抽取6500句。將抽取的數(shù)據(jù)樣本(15500句)委托第三方機構(gòu)進行人工校對。
經(jīng)第三方機構(gòu)評估,反饋結(jié)果為:藏文正確率為98.27%,蒙古文正確率99.12%,維吾爾文正確率86.39%。由評估結(jié)果可知,數(shù)據(jù)集質(zhì)量穩(wěn)定,可滿足少數(shù)民族語言分詞技術(shù)評測的要求。同時我們將第三方機構(gòu)人工校對后的結(jié)果收集起來,對原數(shù)據(jù)集的對應錯誤進行替換。
目前MLWS數(shù)據(jù)集已經(jīng)連續(xù)服務兩屆少數(shù)民族語言分詞技術(shù)評測,在構(gòu)建過程中形成了一套完整的迭代流程。未來,數(shù)據(jù)集維護小組會不定時對數(shù)據(jù)集按比例進行抽取、校驗、反饋、優(yōu)化,同時借助多語種信息處理專委會,成立評測工作組,利用MLWS2021數(shù)據(jù)集開展相關(guān)的評測工作。我們相信,在不斷的公開評測及多輪迭代下,數(shù)據(jù)集會不斷完善,推動少數(shù)民族語言信息技術(shù)的發(fā)展。
目前評測集已成功服務兩屆少數(shù)民族語言分詞技術(shù)評測,版本也由最初的MLWS2017迭代為MLWS2021,質(zhì)量和穩(wěn)定性得到進一步鞏固。表4展示了第二屆少數(shù)民族語言分詞技術(shù)評測中,藏文分詞技術(shù)在MLWS2021數(shù)據(jù)集上的部分參評結(jié)果。結(jié)果采用準確率(Precision)、召回率(Recall)、F1值作為評測指標,按照F1值進行高低排序并排名。未來該評測數(shù)據(jù)集將面向社會,提供免費評測服務,逐步構(gòu)建權(quán)威的少數(shù)民族語言分詞技術(shù)評測平臺,推動少數(shù)民族語言信息處理技術(shù)的發(fā)展。
表4 藏文評測部分結(jié)果Table 4 Results of Tibetan evaluation
致 謝
感謝中央民族大學碩士生金波搭建第二屆少數(shù)民族語言分詞技術(shù)評測平臺!感謝中央民族大學博士生特尼格爾、依斯馬依力·艾肯木、周毛克等在數(shù)據(jù)集校驗過程中的辛苦付出!
數(shù)據(jù)作者分工職責
趙小兵(1967—),女,北京市人,博士,教授,研究方向為計算語言學。主要承擔工作:評測數(shù)據(jù)集構(gòu)建流程的整體把控,人員協(xié)調(diào)與安排。
高璐(1989—),女,河北省邯鄲市人,博士生,講師,研究方向為計算語言學。主要承擔工作:數(shù)據(jù)集質(zhì)量監(jiān)控。
高定國(1972—),男,四川省若爾蓋縣人,碩士,教授,研究方向為藏文信息處理。主要承擔工作:藏文數(shù)據(jù)集的收集、整理、分詞標注、校對工作。
包烏格德勒(1979—),男,內(nèi)蒙古興安盟人,博士,副教授,研究方向為自然語言處理、人工智能。主要承擔工作:蒙古文評測語料的收集、整理、分詞標注、校對工作。
米爾阿迪力江·麥麥提(1989—),男,北京市人,博士,研究方向是:自然語言處理、機器翻譯、多語言信息處理。主要承擔工作:維吾爾文數(shù)據(jù)搜集、組織標注團隊、清洗數(shù)據(jù)、分配標注任務。
劉洋(1979—),男,北京市人,博士,教授,研究方向為:自然語言處理、深度學習、機器學習、機器翻譯。主要承擔工作:維吾爾文數(shù)據(jù)集整體質(zhì)量把控。
才智杰(1970—),男,青海樂都人,博士,教授,研究方向為藏語自然語言處理。主要承擔工作:藏文訓練集和測試集的標注質(zhì)量校對。
孫媛(1979—),女,北京市人,博士,副教授,研究方向為自然語言處理。主要承擔工作:數(shù)據(jù)集整體流程把控。