提 要:本文統(tǒng)計Klue-ner和Kochet-ner兩個命名實(shí)體語料庫中的新聞、評論和文化遺產(chǎn)文本數(shù)據(jù)包含的不同類別朝鮮語命名實(shí)體。根據(jù)統(tǒng)計結(jié)果分析朝鮮語命名實(shí)體的音節(jié)長度特征分布和格詞尾結(jié)合率。分析結(jié)果表明,音節(jié)長度和格詞尾的使用在命名實(shí)體分類中具有一定的規(guī)律可循。本文的研究成果可用于命名實(shí)體分類工作,同時也可以為朝鮮語命名實(shí)體語料庫構(gòu)建提供分布結(jié)構(gòu)建議。
關(guān)鍵詞:朝鮮語;格詞尾;命名實(shí)體識別;特征提取;名詞分類
中圖分類號:H08 """"文獻(xiàn)標(biāo)識碼:A """"文章編號:1000-0100(2025)01-0009-10
DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.002
A Corpus-based Study on the Structural Features of" Named Entities in Korean
Huang Zheng-hao Jin Guang-zhu
(Engineering" College, Yanbian University, Yanji" 133002, China;
School of" Foreign Languages, Yanbian University, Yanji 133002, China)
This paper counts the different categories of" Korean named entities contained in the news, comments, and cultural heritage text data in the Klue-ner and Kochet-ner named entity corpora. According to the statistical results, the syllable length feature distribution and case particle combination rate of Korean named entities are analyzed. The results show that the use of syllable length and case particles has certain regularity in named entity classification, which can be used for named entity classification work and can also provide distribution structure suggestions for the construction of Korean named entity corpora.
Key words:Korean; case particle; named entity recognition; feature extraction; noun classification
1 引言
隨著信息化技術(shù)的加速發(fā)展,以數(shù)字化為媒介的語言數(shù)據(jù)成為各國之間交流的主要方式。因此,在這些海量語言數(shù)據(jù)中以自動化的形式抽取關(guān)鍵信息成為目前研究的熱點(diǎn)。其中,命名實(shí)體識別(Named Entity Recognition,簡稱NER)技術(shù)作為信息抽取工作的重要方法,廣泛應(yīng)用于文本理解、信息檢索、自動摘要、問答系統(tǒng)、機(jī)器翻譯等自然語言處理的各項子任務(wù)中(Li et al. 2020:50)。
命名實(shí)體(Named Entity,簡稱NE)一般是指文本內(nèi)容中指代性較強(qiáng)且具有特定意義的名詞和數(shù)詞。它們通常包括人名、地名、機(jī)構(gòu)名、日期、時間等多種不同的分類(劉瀏等 2018:329)。因此,命名實(shí)體自動識別任務(wù)可以理解為針對文章中所包含的名詞和數(shù)詞的細(xì)分類任務(wù)。命名實(shí)體識別是自然語言處理領(lǐng)域中的一個重要研究方向。它可以幫助我們更好地從文本內(nèi)容中提取出核心實(shí)體,幫助讀者短時間內(nèi)在海量信息流中快速地定位高價值信息。例如,在新聞、金融、醫(yī)療等不同領(lǐng)域數(shù)據(jù)中我們可以通過命名實(shí)體識別技術(shù)快速地提取出這些數(shù)據(jù)中包含的人物、地點(diǎn)、事件、日期、時間等關(guān)鍵信息。
由于延邊朝鮮族自治州的特殊地理位置,朝鮮語在這里成為與朝鮮、韓國進(jìn)行學(xué)術(shù)文化交流的主要語言(崔仙 2022:33)。作為黏著語的朝鮮語具有語言的普遍特征,也有其獨(dú)有的語言學(xué)特點(diǎn)。從語言類型的角度來看,漢語和英語屬于主謂賓(SVO)型語言,而朝鮮語屬于主賓謂(SOV)型語言。這意味著朝鮮語的根節(jié)點(diǎn)位置出現(xiàn)的詞類是相對固定的,而位于句子的末尾的多數(shù)是朝鮮語中的謂詞(華英楠" 畢玉德 2022:55)。朝鮮語在構(gòu)詞方法上,實(shí)詞通常與虛詞進(jìn)行拼接,形成一個語節(jié);這些語節(jié)再次通過隔寫(空格)形式按照規(guī)則順序連接在一起,形成一個具有完整語義的句子(盧星華 金靜 2022:79)。實(shí)詞是指能夠獨(dú)立表達(dá)意義的詞,如名詞、動詞、形容詞等,通常在句子中充當(dāng)主語、謂語和賓語成分。虛詞則是指不能獨(dú)立表達(dá)意義,需要依附于實(shí)詞的詞,如助詞、介詞、連詞等(宋官懷" 2022:27)。特別是在朝鮮語中,實(shí)詞和虛詞之間的拼接關(guān)系非常重要,它決定句子的句法結(jié)構(gòu)和語義。
本文通過朝鮮語的這些語言學(xué)特點(diǎn),結(jié)合命名實(shí)體語料庫內(nèi)容進(jìn)行研究,有助于抽取朝鮮語命名實(shí)體在文章中的結(jié)構(gòu)特點(diǎn),能夠更加明確命名實(shí)體和其他句子成分之間的上下文依賴關(guān)系,從而保證在命名實(shí)體自動抽取任務(wù)中的識別性能,讓識別結(jié)果更接近人工標(biāo)注的結(jié)果。這一成果能加強(qiáng)作為資源稀缺語言的朝鮮語語料的規(guī)模和質(zhì)量,也能夠推進(jìn)朝鮮語信息化在國內(nèi)的研究進(jìn)程。
2 相關(guān)研究
命名實(shí)體識別任務(wù)最早提出于1995年舉辦的第六屆MUC-6會議(Sundheim 1995:319)。目前,命名實(shí)體識別技術(shù)已經(jīng)取得一定的發(fā)展。研究人員采用各種不同的方法來解決命名實(shí)體識別問題,包括基于規(guī)則的方法、基于統(tǒng)計學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法等。其中基于深度學(xué)習(xí)的方法是目前研究的熱點(diǎn)方法。
深度學(xué)習(xí)是一種人工智能技術(shù),它能夠通過大量數(shù)據(jù)訓(xùn)練來自動學(xué)習(xí)數(shù)據(jù)中隱藏的規(guī)律和關(guān)系。在命名實(shí)體識別領(lǐng)域中,深度學(xué)習(xí)能夠有效地提取文本中的特征,并通過多層神經(jīng)網(wǎng)絡(luò)來進(jìn)行分類。但深度學(xué)習(xí)建模過程中對所需要的語料庫質(zhì)量和規(guī)模都具有較高的要求。因此,作為低資源語言的朝鮮語,如果直接使用現(xiàn)有的命名實(shí)體識別常用方法,則無法達(dá)到預(yù)期效果。針對這種語料資源不足的問題,通常使用的方法是利用已標(biāo)注的較大規(guī)模的相關(guān)領(lǐng)域語料庫,通過遷移方式來解決語料資源不足的問題(吳炳潮等 2022:3776)。同時,為了提高命名實(shí)體識別效果在一般使用的詞向量特征外,通常結(jié)合字符級別的特征、形態(tài)學(xué)特征、位置特征和詞典等語言學(xué)特征作為識別系統(tǒng)輸入的額外信息來提高識別效果(鄧依依等 2021:30)。特別是在低資源語言類研究中從語言學(xué)角度研究能夠用于學(xué)習(xí)的結(jié)構(gòu)特征來增強(qiáng)語料庫,以解決訓(xùn)練語料不足的問題。劉嘉錫(2021:8)使用基于自舉的規(guī)則方法獲得基本詞典,再結(jié)合依存句法進(jìn)行數(shù)據(jù)分析獲得能夠輸入至深度學(xué)習(xí)模型的標(biāo)注數(shù)據(jù),最終完成使用少量人工標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)方法,用于案件要素提取模型。Oh等(2017:317)分析韓國語命名實(shí)體語料庫中組成實(shí)體的音節(jié)特征,構(gòu)建了基于音節(jié)單位的命名實(shí)體詞典用于命名實(shí)體識別任務(wù)。Park等(2021:556)為了解決更新較為頻繁的命名實(shí)體未登錄詞問題,使用韓國語詞匯語義網(wǎng)工具UWordMap從詞匯角度分析命名實(shí)體的上下文結(jié)構(gòu)特點(diǎn),為后續(xù)的命名實(shí)體抽取任務(wù)奠定了基礎(chǔ)。
3 研究方法
目前在自然語言處理領(lǐng)域所使用的語料庫多為開源語料庫。開源語料庫是一種面向公眾和語言研究人員的可以免費(fèi)訪問和使用的語料庫,包含大量結(jié)構(gòu)化的可用于研究的不同領(lǐng)域或不同語種語言數(shù)據(jù),可用于語言學(xué)研究和自然語言處理建模研究。在基于語料庫的語言研究中通常使用字符數(shù)、音節(jié)長度等數(shù)據(jù)分析不同語言單位的分布特點(diǎn)。畢玉德等(2019:42),通過統(tǒng)計韓國語新聞?wù)Z料庫中漢字詞的詞類符數(shù)和音節(jié)長度等數(shù)據(jù)考察了漢字詞的總體分布特點(diǎn)。本文使用公開的Klue-ner①和Kochet-ner(Kim et al. 2022:3496)兩個命名實(shí)體語料庫,統(tǒng)計組成命名實(shí)體的音節(jié)長度和助詞數(shù)據(jù),從總體分布和不同類別分布兩個角度進(jìn)行分布特征研究。Klue(Korean Language Understanding Evaluation)組織發(fā)布的語料庫包含針對不同任務(wù)的8個語料庫,其中Klue-ner是命名實(shí)體語料庫,包含人名、地名、機(jī)構(gòu)名、日期、時間、數(shù)字等共6個分類的命名實(shí)體。Kochet-ner是2022年發(fā)布的韓國文化遺產(chǎn)相關(guān)文本語料的命名實(shí)體標(biāo)注語料庫,主要有歷史、文物、文化等內(nèi)容相關(guān)的文本數(shù)據(jù),包含文物、人名、術(shù)語、日期、文化、材料、動物、植物、事件、地名等共10個分類的命名實(shí)體。這兩個語料庫都是開源語料庫,是由相關(guān)領(lǐng)域?qū)<腋鶕?jù)數(shù)據(jù)構(gòu)建指南建議進(jìn)行構(gòu)建的。其中因命名實(shí)體分類數(shù)量沒有明確的定義,所以本文使用的兩個語料庫分類也有所不同。
這兩個語料庫也在多個自然語言處理研究中獲得較好的效果(例如,Nam et al. 2017:147;Yu et al. 2017:306;Jin et al. 2021:101)。因此,本文使用這兩個語料庫作為主要研究對象,對朝鮮語命名實(shí)體的音節(jié)長度、助詞等兩個方面進(jìn)行統(tǒng)計,分析作為命名實(shí)體語料庫的實(shí)體特征。同時,也為創(chuàng)建朝鮮語命名實(shí)體語料庫建設(shè)提出結(jié)構(gòu)化建議。
例①是一個標(biāo)準(zhǔn)的主賓謂(SOV)格式句型,其中‘/哲洙’與主格詞尾‘[ka]’相連構(gòu)成句子的主語,‘[pab]/飯’與賓格詞尾‘[l]’相連構(gòu)成句子的賓語,‘/吃’是謂詞。例②中把主格詞尾‘[ka]’替換為同格詞尾‘[wa]’,語義上產(chǎn)生變化。與此同時,從語義角度分析時,不同類別的名詞對助詞的使用是有所限制的。例如,與格詞尾‘[ege]’主要連接在人名之后,位格詞尾‘[esh]’多數(shù)使用在地名之后等。因此,本節(jié)主要統(tǒng)計Klue和Kochet兩個語料庫中的不同類別命名實(shí)體與助詞的結(jié)合頻率,嘗試分析命名實(shí)體與助詞的結(jié)合關(guān)系。本文分析所使用的格詞尾分類和對應(yīng)發(fā)音如表4所示②。
表4中主格詞尾‘’和‘’,賓格詞尾‘’,同格詞尾‘’是同一種助詞的兩種形態(tài),使用方式僅與前一個音節(jié)發(fā)音形態(tài)有關(guān)。與開音節(jié)連接時使用‘’‘’‘’‘’,而與閉音節(jié)連接時使用‘’‘’‘’‘’。因此,本文在統(tǒng)計時將這類結(jié)果合并在一起進(jìn)行分析。統(tǒng)計結(jié)果使用帶有后綴的同一類別命名實(shí)體中格詞尾的占比來表示。如公式(1)所示。
格詞尾占比(%)=單一類格詞尾數(shù)單一實(shí)體類別連接的格詞尾總數(shù) ""(1)
4.3.1 語料統(tǒng)計結(jié)果
統(tǒng)計所使用語料庫還是Klue和Kochet兩個命名實(shí)體語料庫。Klue語料庫由新聞和評論數(shù)據(jù)組成,其命名實(shí)體分類包含人名、地名、機(jī)構(gòu)名等共計6個命名實(shí)體分類。Kochet語料庫由文化遺產(chǎn)文本數(shù)據(jù)組成,其命名實(shí)體分類包含人名、地名、術(shù)語等10個類別。而兩個語料庫中同時出現(xiàn)的命名實(shí)體分類為人名、地名和日期3個分類。使用公式(1)統(tǒng)計的兩個語料庫中,3個領(lǐng)域數(shù)據(jù)的統(tǒng)計結(jié)果如表5、表6、表7所示。
從上述3個表的統(tǒng)計結(jié)果可以看出,不同領(lǐng)域中的不同類別命名實(shí)體與格詞尾的結(jié)合規(guī)則也有著一定的規(guī)律。主格詞尾中‘’在3個領(lǐng)域語料庫中與人名的結(jié)合頻率是最高的,分別是32.6%、37.1%和29.81%?!贙ochet語料庫中僅在人名和文物實(shí)體之后少量出現(xiàn),在Klue語料庫中也是僅與人名一起出現(xiàn)。而‘’在3個語料庫中均未出現(xiàn)。賓格詞尾‘’在Kochet語料庫中事件實(shí)體中的占比和材料實(shí)體中的占比最高,分別為42.3%和39.6%。在Klue語料庫中,日期實(shí)體和數(shù)字實(shí)體與賓格詞尾結(jié)合的頻率較好,分別是25.3%和29%,而在Kochet語料庫中,日期實(shí)體與賓格詞尾結(jié)合頻率較少,只占2.7%。屬格詞尾‘’主要用于表示上下文對象的所屬關(guān)系。根據(jù)統(tǒng)計結(jié)果可以看出,屬格詞尾在所觀察的語料庫中與人名、術(shù)語、地名、機(jī)構(gòu)名都有較高的結(jié)合頻率,均超過20%,其中Klue-nsmc評論語料庫中與人名和地名結(jié)合頻率超過40%。與格詞尾‘’在Kochet語料庫中的日期實(shí)體結(jié)合的概率達(dá)到73.15%,說明與日期的關(guān)聯(lián)度較高,與地名和事件實(shí)體也有20%以上的結(jié)合率。在Klue語料庫中也與日期、時間、地名實(shí)體有著較高的結(jié)合率。因此在區(qū)分這類命名實(shí)體時具有一定的作用。與‘’結(jié)合的命名實(shí)體主要集中在人名和文化實(shí)體,其他實(shí)體大多數(shù)都沒有出現(xiàn)。其中‘’較為特殊,在新聞?wù)Z料庫中有少量與日期和時間實(shí)體結(jié)合的案例。‘’‘’只有在Klue-nsmc評論語料庫的人名和機(jī)構(gòu)名中少量出現(xiàn)。位格詞尾在3個領(lǐng)域語料庫中的結(jié)合相對比較集中。其中‘’在Kochet語料和Klue-wikitree新聞?wù)Z料中主要與地名實(shí)體具有較高的結(jié)合率。除此之外,Klue-nsmc評論語料庫中與機(jī)構(gòu)名結(jié)合率達(dá)到40.9%。而在統(tǒng)計結(jié)果中‘’則只與少量人名有結(jié)合情況。用格詞尾‘’和同格詞尾‘’在全部實(shí)體分類中都有結(jié)合,但占比都較低。用格詞尾‘’和同格詞尾‘’的統(tǒng)計數(shù)據(jù)也較低,只有在人名、文物、術(shù)語實(shí)體之后有少量結(jié)合情況。比較格詞尾統(tǒng)計結(jié)果也較少,與Klue語料庫中的日期實(shí)體有一定的結(jié)合率。
5 結(jié)束語
命名實(shí)體通常在文章中充當(dāng)主語、謂語、賓語或狀語,是文章中主要語義表達(dá)單位。在自然語言處理過程中命名實(shí)體自動識別和自動分類工作是自然語言理解的基礎(chǔ)工作。這一工作流程中需要構(gòu)建大規(guī)模高質(zhì)量的命名實(shí)體語料庫。因此,本文以Klue-ner和Kochet-ner兩個命名實(shí)體語料庫作為研究對象,統(tǒng)計和分析了兩個語料庫中的新聞、評論和文化遺產(chǎn)等3個領(lǐng)域文本數(shù)據(jù)的不同類別朝鮮語命名實(shí)體的音節(jié)長度特征和格詞尾結(jié)合率特征。
文章首先從音節(jié)長度分析了Klue-ner和Kochet-ner兩個命名實(shí)體語料庫。統(tǒng)計結(jié)果表明,總體音節(jié)長度在兩個語料庫中的分布相近,主要分布在1~6音節(jié)區(qū)間,其中分布最多的是雙音節(jié)詞。而對于每個命名實(shí)體類別都有著較為獨(dú)特的音節(jié)分布特點(diǎn)。人名主要分布在三音節(jié)詞這一特征可以作為朝鮮語命名實(shí)體語料庫構(gòu)建時的實(shí)體分布結(jié)構(gòu)參考。
其次從命名實(shí)體與格詞尾結(jié)合率的角度分析兩個命名實(shí)體語料庫。統(tǒng)計結(jié)果顯示,不同類別的命名實(shí)體和格詞尾都具有不同的結(jié)合頻率。在主格詞尾、賓格詞尾、與格詞尾等區(qū)分度較高,而且在與格詞尾、位格詞尾、用格詞尾、同格詞尾和比較格詞尾等類型詞尾中的一部分只在特定的命名實(shí)體類別之后出現(xiàn),具有一定的區(qū)分度。這些實(shí)體和格詞尾的結(jié)合方式可以作為命名實(shí)體分類時的一種依據(jù)。
總之,命名實(shí)體識別是自然語言處理領(lǐng)域中的一個重要研究方向。它可以幫助我們更好地理解文本內(nèi)容,提取出有用的信息。因此,建設(shè)更準(zhǔn)確的語料庫和提取更多的特征是提高命名實(shí)體識別精度的最佳途徑。這些特征可以加快自動化標(biāo)記命名實(shí)體的準(zhǔn)確率和效率,從而解決朝鮮語命名實(shí)體語料庫規(guī)模的不足問題。
注釋
①Park. S.等人發(fā)表在arXiv上的開源語料庫KLUE:Korean Language Understanding Evaluation(https://Klue-benchmark.com)
②格詞尾分類和命名參考了金永壽的《中國朝鮮語規(guī)范原則與規(guī)范細(xì)則研究》(166頁)。
參考文獻(xiàn)
畢玉德 趙 巖 安帥飛. 基于新聞?wù)Z料庫的韓國語漢字詞分布特點(diǎn)研究[J]. 民族語文, 2019(4).‖Bi, Y.-D.," Zhao, Y.," An, S.-F." Distributional Characteristics of" Sino-Korean Words in Korean: A News Corpus-based Study[J]. Minority Language of China, 2019(4).
崔 仙. 多元通和:延邊地區(qū)法治文化建設(shè)研究[D]. 延邊大學(xué)博士學(xué)位論文, 2022.‖Cui, X. Harmonious Pluralism: Research on Yanbian District Legislative Culture Development[D]. Yanbian University, 2022.
鄧依依 鄔昌興 魏永豐等. 基于深度學(xué)習(xí)的命名實(shí)體識別綜述[J]. 中文信息學(xué)報, 2021(9).‖Deng, Y.-Y. Wu, C.-X.," Wei, Y.-F.," et al. A Survey on Named Entity Recognition Based on Deep Learning[J]. Journal of Chinese Information Processing, 2021(9).
華英楠 畢玉德. 基于依存樹庫的朝鮮語依存距離研究[J]. 外語學(xué)刊, 2022(6).‖Hua, Y.-N.," Bi, Y.-D." Research on Dependency Distance of Korean Based on Dependency Tree Bank[J]. Foreign Language Research, 2022(06).
劉 瀏 王東波. 命名實(shí)體識別研究綜述[J]. 情報學(xué)報, 2018(3).‖Liu, L., Wang, D.-B. A Review on Named Entity Recognition[J]. Journal of the China Society for Scientific and Technical Information, 2018(3).
劉嘉錫. 基于小規(guī)模標(biāo)注的案件要素提取模型[D]. 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2021.‖Liu, J.-X. Case Element Extraction Model Based on Small-scale Annotation[D]. Harbin Institute of Technology, 2021.
盧星華 金 靜." 朝鮮語口語與書面語實(shí)詞間相關(guān)關(guān)系的一元線性回歸分析[J]. 民族語文, 2022(5).‖Lu," X.-H.," Jin, "J. Correlation Between Content Words in Spoken and Written Korean: A Univariate Linear Regression Analysis[J]. Minority Languages of China, 2022(5).
宋官懷. 基于“三一語法”教學(xué)體系的對外漢語綜合課詞匯教學(xué)行動研究[D]. 浙江科技大學(xué)碩士學(xué)位論文, 2022.‖Song, G.-H. A Study on Vocabulary Teaching in Integrated Chinese as a Foreign Language Based on “Trinity Grammar” Teaching System[D]. Zhejiang University of" Science amp; Technology, 2022.
吳炳潮 鄧成龍 關(guān)貝等. 動態(tài)遷移實(shí)體塊信息的跨領(lǐng)域中文實(shí)體識別模型[J]. 軟件學(xué)報, 2022(10).‖Wu, B.-C.," Deng, C.-L.," Guan, B.," et al. Dynamically Transfer Entity Span Information for Cross-domain Chinese Named Entity Recognition[J]. Journal of" Software, 2022(10).
Jin, G.," Yu, Z. A Korean Named Entity Recognition Method Using Bi-LSTM-CRF and Masked Self-attention[J]. Computer Speech amp; Language, 2021(65).
Kim, G., Kim, J., Son, J., et al. KOCHET: A Korean Cultural Heritage Corpus for Entity-related Tasks[A]. Proceedings of the 29th International Conference on Computational Linguistics[C]. Gyeongju: International Committee on Computational Linguistics, 2022.
Li, J., Sun, A., Han, J.," et al. A Survey on Deep Learning for Named Entity" Recognition[J].IEEE Transactions on Knowledge and Data Engineering, 2020(1).
Nam, S., Hahm, Y., Choi, K.S. Application of" Word Vector with Korean Specific Feature to Bi-LSTM Model for Named Entity Recognition[A]. Proceedings of the 29th Annual Conference on Human and Language Technology[C]. Daegu: Human and Language Technology, 2017.
Oh, S.," Lim, C.," Ahn, K.," et al. Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM[J]. Korean Language Information Science Society, 2017.
Park, S.," Ock, C. CRF Based Named Entity Recognition Using a Korean Lexical Semantic Network[J]. Journal of KIISE, 2021(5).
Park, S.," Moon J.," Kim, S.," et al. Klue: Korean Language Understanding Evaluation[J]. arXiv Preprint arXiv: 2105.09680, 2021.
Sundheim, B. Named Entity Task Definition[A]. MUC-6: Proceedings of" 6th Message Understanding Conference[C]. New York: Message Understanding Conference, 1995.
Yu, H., Ko, Y." Expansion of" Word Representation for Named Entity Recognition Based on Bidire Ctional lstm Crfs[J]. Journal of" KIISE, 2017(3).
定稿日期:2024-12-10【責(zé)任編輯 孫 穎】