国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英語網(wǎng)絡(luò)非正規(guī)語言表達的自動識別與術(shù)語庫構(gòu)建

2022-01-12 02:35夏榕璟張克亮
中國科技術(shù)語 2022年1期
關(guān)鍵詞:自動識別

夏榕璟 張克亮

摘 要:網(wǎng)絡(luò)非正規(guī)語言表達(Network Informal Language Expression, NILE)具有的創(chuàng)新性強、超常規(guī)化、表達方式口語化等特點,為許多自然語言處理任務(wù)帶來了挑戰(zhàn)。在使用網(wǎng)絡(luò)語言進行交流的過程中,部分網(wǎng)絡(luò)非正規(guī)語言表達逐漸標(biāo)準(zhǔn)化和規(guī)范化,形成網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語。通過對46萬余條Twitter數(shù)據(jù)的收集、處理和分析,英語網(wǎng)絡(luò)非正規(guī)語言表達可以在音、形、義層面劃分為13類,并對其特征進行分析和總結(jié)。結(jié)合統(tǒng)計方法和規(guī)則方法的優(yōu)點,設(shè)計了統(tǒng)計和規(guī)則融合的英語網(wǎng)絡(luò)非正規(guī)語言表達自動識別方法。最終構(gòu)建規(guī)模為7000余條的網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語庫。

關(guān)鍵詞: 網(wǎng)絡(luò)非正規(guī)語言表達;自動識別;術(shù)語庫

中圖分類號:N04; H083? 文獻標(biāo)識碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.004

Automatic Recognition and Terminology Database Construction of English Network Informal Language Expressions//XIA Rongjing, ZHANG Keliang

Abstract: Network Informal Language Expression (NILE) has the characteristics of novelty, unconventionality and colloquialism,which poses a challenge to many natural language processing tasks. In the process of using online language for communication, some NILEs are gradually standardized and normalized, forming a crucial part of the NILE terminology. By collecting, processing and analyzing more than 460 000 tweets, we divide English NILEs into 13 categories from the perspectives of sound, form and sense, and further analyzed their characteristics. Taking the advantage of statistic-based approach and rule-based approach, we design an automatic English NILE recognition system based on the integration of statistical techniques and linguistic rules, and thereupon build a terminology database of 7000 NILE items.

Keywords: Network Informal Language Expression (NILE); automatic recognition; terminology database

引言

術(shù)語(terminology)指在特定領(lǐng)域用于表示概念的稱謂的集合,是思想和認識交流的工具,具有單義性、純概念性、理據(jù)性、簡潔性、構(gòu)詞的能產(chǎn)性、穩(wěn)定性與國際性[1]。每一個具體術(shù)語具有上述八種屬性的部分或全部屬性。

網(wǎng)絡(luò)非正規(guī)語言表達(Network Informal Language Expression, NILE)指應(yīng)用于網(wǎng)絡(luò)中的特殊語言形式,可以體現(xiàn)為單詞、詞組、短語、句子等多種表現(xiàn)形式,但主要為單詞和詞組兩種類型。部分網(wǎng)絡(luò)非正規(guī)語言表達逐漸規(guī)范化和標(biāo)準(zhǔn)化,在網(wǎng)絡(luò)交流中形成了固定用法,具有了術(shù)語的性質(zhì)。因此,網(wǎng)絡(luò)非正規(guī)語言表達是網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語的上位概念。網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語包括黑客語(leetspeak)、常用語縮寫、具有特定用法和意義的符號等多種表達方式。

術(shù)語的自動識別和網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語庫構(gòu)建的根本目的在于能夠使機器“讀懂”網(wǎng)絡(luò)非正規(guī)語言表達,服務(wù)于自然語言處理任務(wù)。例如機器翻譯需要準(zhǔn)確翻譯網(wǎng)絡(luò)非正規(guī)語言表達的含義;情感分析任務(wù)需要正確理解網(wǎng)絡(luò)非正規(guī)語言表達的情感傾向。所以,網(wǎng)絡(luò)非正規(guī)語言表達識別和術(shù)語庫建設(shè)具有重要的理論意義和應(yīng)用價值。

1 相關(guān)工作

目前,自動術(shù)語識別和抽取可以分為基于規(guī)則、基于統(tǒng)計和基于深度學(xué)習(xí)的方法。但是基于深度學(xué)習(xí)的方法需要更大規(guī)模的訓(xùn)練語料,跨領(lǐng)域能力弱[2],相較于基于統(tǒng)計的方法,其效果提升并不明顯,所以統(tǒng)計方法在新詞識別中仍有較大優(yōu)勢。

術(shù)語識別作為信息抽取中的一個重要任務(wù),目前已有許多研究成果。Pantel和Lin[3]采用互信息來衡量術(shù)語的單元度。Chang等[4]利用熵來判別術(shù)語。Kamel[5]基于規(guī)則提出了一個本體信息抽取系統(tǒng)(OBIE),對Twitter數(shù)據(jù)中的本體(ontology)進行語義描述[6]。陳飛等[7]基于條件隨機場將新詞發(fā)現(xiàn)轉(zhuǎn)換為序列標(biāo)注問題,在開放領(lǐng)域識別新詞邊界。杜麗萍等[8]通過改進的互信息算法,與少量規(guī)則相結(jié)合,在大規(guī)模語料中自動識別網(wǎng)絡(luò)新詞。趙頌歌等[9]引入遠程監(jiān)督的方法解決缺乏大規(guī)模訓(xùn)練語料的問題,然后基于自注意力機制的Bi-LSTM模型對科技術(shù)語進行自動提取。

關(guān)于術(shù)語庫的建設(shè),早在20世紀(jì)80年代,聯(lián)合國總部已經(jīng)建立了名為UNTERM(The United Nations Terminology Database)的術(shù)語庫[10]。劉宇紅等[11]設(shè)計了“詞頻統(tǒng)計”“停用詞列表”“運用互信息熵和詞組教學(xué)值”“基于人工語義判斷”四個步驟,以英語語言學(xué)為例,識別和歸納總結(jié)術(shù)語,并認為這種識別方法能夠遷移到其他學(xué)科和領(lǐng)域。

隨著網(wǎng)絡(luò)日益流行,學(xué)者對網(wǎng)絡(luò)語言特征的研究也在不斷深入。Zhang和Yao[12]認為網(wǎng)絡(luò)非正規(guī)表達是一種文本噪聲,并討論了與英語關(guān)聯(lián)的網(wǎng)絡(luò)非正規(guī)語言表達的特點。景漾[13]借鑒傳統(tǒng)的構(gòu)詞方法,認為英語中網(wǎng)絡(luò)語言構(gòu)詞方法主要有縮略法、合成法、省略法。劉宇紅[14]將語言學(xué)術(shù)語分為四類,其中“利用現(xiàn)有語言資源進行部分創(chuàng)新”“創(chuàng)造新的術(shù)語”和“非常規(guī)的術(shù)語創(chuàng)新”這三類可以在很大程度上覆蓋網(wǎng)絡(luò)非正規(guī)語言表達的形成原因。

在目前的研究基礎(chǔ)上,本文擬通過社交媒體數(shù)據(jù)對英語網(wǎng)絡(luò)非正規(guī)語言表達特征進行分類和分析,結(jié)合目前已有的術(shù)語識別方法研究英語NILE的識別方法,設(shè)計高效網(wǎng)絡(luò)非正規(guī)語言表達識別系統(tǒng),最后構(gòu)建英語NILE術(shù)語庫。

2 英語NILE特征分析

2.1 英語NILE的類型

不同于漢語網(wǎng)絡(luò)語言中復(fù)雜的漢字、字母、數(shù)字、符號的混合使用,英語網(wǎng)絡(luò)非正規(guī)表達僅有英語字母、數(shù)字、符號以及它們的組合。英語非正規(guī)表達可從音、形、義三個層面上進行細化分類,具體分類方法見表1。

表1中展示了按音、形、義劃分的13類網(wǎng)絡(luò)非正規(guī)語言表達。在“音”的層面上,英語NILE可分為借用英語字母、數(shù)字的英語發(fā)音、混合借用英語字母和數(shù)字的英語發(fā)音和借用英語的音表其他語言的義四小類。在“形”的層面上,英語NILE可分為借用字母的形、借用符號的形、借用數(shù)字的形、混合借用字母數(shù)字和符號的形、帶有符號五小類。在“義”的層面上,英語NILE可分為詞義縮略、借用其他語言的語義、舊詞新義、舊詞組合衍生出新義四小類。

2.2 英語NILE的特征

通過對英語NILE分類整理,可以總結(jié)得到NILE識別的兩個重點——縮略詞和新義詞。英語NILE中的縮略詞指英語詞匯的縮略和混合字母、數(shù)字、符號縮略的詞或詞組,新義詞指具有新義的英語單詞或由單詞組合衍生得到新義的詞組。

(1)縮略詞分析

縮略法(Abbreviation)是英語的主要構(gòu)詞方法之一,可以分為首字母拼音法(Acronym)、截成法(Clipping)和混成法(Blending)[15],具有非常濃烈的“非正式”特點,是英語NILE詞匯的主要構(gòu)詞方法之一。

在13類英語NILE分類中,縮略詞覆蓋了借用字母的音、借用數(shù)字的英語發(fā)音、混合借用英語字母和數(shù)字的英語發(fā)音、帶有符號、詞義縮略五小類。由于縮略詞特征鮮明,基于規(guī)則的方法能夠有效識別英語NILE縮略詞。

部分縮略詞在網(wǎng)絡(luò)文本中常見,已經(jīng)形成了固定用法,人們一看到這種縮略方法,就會想到這個詞,比如“LOL = laugh out loud”“BTW = by the way”。還有一類縮略詞是基于話題標(biāo)簽的具有一定時效性的縮略詞,例如“MAGA(make America great again)”“KAG(keep America great)”。這類縮略詞因社會中某一事件而產(chǎn)生,在一段時間內(nèi)高頻出現(xiàn),但是過后可能不再使用。同時,這類作為標(biāo)簽的縮略詞也有演變?yōu)樾g(shù)語的潛力。所以,在構(gòu)建英語NILE術(shù)語庫時,應(yīng)該考慮是否將這類詞收錄。

(2)新義詞分析

對于新義詞,英語單詞或是構(gòu)成新義詞詞組的單詞在詞典中能夠查詢得到,但是其在網(wǎng)絡(luò)中表達的含義和詞典中的意義并不相同,或者并不是詞典中單詞意義的簡單堆疊。新義詞主要覆蓋了上述英語NILE的13類中的“借用其他語言語義”“舊詞新義”和“舊詞組合衍生出新義”三小類。

基于規(guī)則的方法難以識別新義詞,然而這三小類NILE往往是機器翻譯、情感分析等自然語言處理任務(wù)中需要重點解決的問題。

例如,對于“Miley’s new album slayed!”這一句子,常用機器翻譯引擎將其翻譯為“麥莉的新專輯被淘汰了!”這里“slayed”翻譯是錯誤的?!皊lay”的原義為“kill in a violent way”,用于物品上被譯作“淘汰”。但是作為網(wǎng)絡(luò)非正規(guī)語言表達時,則是語氣強烈的褒義詞,表示“succeed in something amazing”。該例的意思實際上是“麥莉的新專輯棒極了!”。在中文的非正規(guī)表達中,“slay全場”里的“slay”一詞也是取它的衍生義,表示“十分厲害而吸引全場”。如果是進行情感分析任務(wù),“slay”的原義和衍生義則是完全不同的兩種情感。對于這三小類NILE,本文擬采用統(tǒng)計的方法進行識別。

3 融合統(tǒng)計和規(guī)則的英語網(wǎng)絡(luò)非正規(guī)語言表達識別

3.1 英語NILE識別方法

(1)基于統(tǒng)計的方法

英語網(wǎng)絡(luò)非正規(guī)語言表達中,單詞和詞組為主要表現(xiàn)形式。識別單詞類NILE,采用最簡單的詞頻統(tǒng)計的方法;識別詞組類NILE,則采用互信息和信息熵的方法。

詞頻(term frequency, TF)是發(fā)現(xiàn)新詞或者新短語最直接簡單的一種方法,其基本思想是:詞語或短語出現(xiàn)的頻率表現(xiàn)了單詞的重要性;一個未收錄的詞或者搭配在某一領(lǐng)域文本中出現(xiàn)的頻率越高,則是這個領(lǐng)域的新詞的可能性越大。對于46萬余條Twitter數(shù)據(jù),沒有必要對所有詞都進行詞頻統(tǒng)計,可以基于WordNet詞典過濾停用詞和大部分正常使用的單詞。此外,由于英語單詞具有多種形態(tài),所以詞頻統(tǒng)計時,需要進行詞形還原和詞干提取。

點互信息和信息熵常用于中文新詞識別任務(wù),可以在不切詞的條件下預(yù)測文本中的新詞。英語文本有空格作為天然的分割符,在分詞任務(wù)上具有優(yōu)勢。點互信息和信息熵運用于漢語新詞預(yù)測時,以字為切分單元。在英語文本中,既可以以字母為切分單位識別新單詞,也可以以單詞為切分單位識別新的單詞搭配,即詞組或短語。

點互信息(Pointwise Mutual Information)在NLP任務(wù)中,表示兩個語言單元的相關(guān)性。其公式為:

PMIX,Y=log2P(X,Y)PXP(Y)

其中,P(X,Y)表示X和Y兩個語言單元的共現(xiàn)概率。PX和P(Y)分別表示X和Y兩個語言單元出現(xiàn)的概率。兩個語言單元間的點互信息值越大,說明這兩個語言單元越是經(jīng)常一起出現(xiàn),意味著兩個單元的凝固程度就越大,形成一個網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語的可能性也就越大。因此,在進行NILE的識別時,可以將語言單元設(shè)定為詞,識別得到表現(xiàn)為詞組形式的“新表達”。也可以設(shè)定語言單元為字母,識別詞典中未收錄的、表現(xiàn)形式為詞的“新表達”。

信息熵(Information Entropy)是一種表示信息量的指標(biāo),熵越高表示信息量越大,不確定性越高,越難以預(yù)測。對于一個隨機變量X,其熵可以表示為:

HX=-∑x∈Xp(x)log2p(x)

在NILE識別任務(wù)中,p(x)表示一個語言單元出現(xiàn)的概率。左右熵指文本中語言單元的左邊界的熵和右邊界的熵。通過計算一個候選語言單元左邊和右邊的信息熵得到一個語言單元是否有豐富的左右搭配,達到一定閾值則可以認為兩個語言單元組成一個新詞。

在Twitter語料的處理中,點互信息可以識別出“新表達”,這些“新表達”包括“新搭配”的短語或者詞。然后通過計算信息熵得到這些“新表達”的信息量,兩者結(jié)合識別得到潛在的新的NILE。

通過統(tǒng)計的方法,可以初步得到英語NILE術(shù)語候選集。

(2)基于規(guī)則的方法

基于規(guī)則的方法是對統(tǒng)計方法篩選得到的語言單元,通過規(guī)則對候選NILE進行進一步識別和確認,得到NILE術(shù)語。

根據(jù)上述總結(jié)和分析得到的特征,設(shè)計以下三條規(guī)則。

第一,所有字母都為大寫字母的語言單元。

對于網(wǎng)絡(luò)文本,由于人名、地名、機構(gòu)名常采用全大寫的方法,所以在所有字母都為大寫字母的語言單元中,命名實體(Named Entity)占很大比例,但是這類命名實體不屬于英語NILE。在46萬余條Twitter數(shù)據(jù)中,出現(xiàn)了如“TRUMP(特朗普)”“LOS ANGELES(洛杉磯)”“THE HOUSE(白宮)”等詞。這類命名實體可以使用現(xiàn)有的封裝好的自然語言處理工具進行識別,因此將這類詞從NILE候選集中排除。

第二,帶有“#”的語言單元。

在Twitter中,“#”有兩種用法,一種是用于固定NILE術(shù)語中,如“#FF(等于‘#Follow Friday’,是Twitter中一種分享和推薦的方式,作為一個標(biāo)簽常添加于一條推薦性推文后)”,這種固定用法較少;另一種則表示一個創(chuàng)建或者設(shè)定一個話題標(biāo)簽,便于搜索關(guān)鍵詞時對相關(guān)內(nèi)容進行過濾。前者收錄于NILE術(shù)語庫中,后者則進一步判斷是否具有成為NILE術(shù)語的潛力。

標(biāo)簽之間沒有空格,這就會出現(xiàn)“#WorstPresidentEver”“#TrumpRallyNJ”等情況。這類標(biāo)簽經(jīng)過切分后,能夠調(diào)用常用機器翻譯引擎正確翻譯,不屬于上述的NILE特征分類,所以可以將這類詞從NILE候選集中排除。

但是也有可以從這些標(biāo)簽中提取出NILE表達的情況。例如“#GOPTraitors”中的“GOP”是“Grand Old Party”的縮寫,在網(wǎng)絡(luò)語言中用于代指“共和黨”;“GetTheGat”拆分得到“get the gat”后,調(diào)用百度翻譯API,翻譯為“去拿服”,不具有可讀性。這一標(biāo)簽翻譯錯誤的原因是“gat”是“gun”的一個俚語,“gat”在網(wǎng)絡(luò)中常代指“gun”。這種情況下,“GOP”和“gat”應(yīng)該被收錄進入NILE術(shù)語庫中。

第三,混合數(shù)字、符號和字母的語言單元。

混合數(shù)字、符號和字母的語言單元涵蓋了上述NILE分類中的六類。這類語言單元可以通過正則表達式匹配出。滿足匹配條件且滿足統(tǒng)計條件的語言單元,可以判定為NILE術(shù)語。

3.2英語NILE識別系統(tǒng)設(shè)計

針對英語網(wǎng)絡(luò)非正規(guī)語言表達的特征,設(shè)計基于統(tǒng)計和規(guī)則融合的英語網(wǎng)絡(luò)非正規(guī)語言表達識別系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖1所示。

總結(jié)來說,英語非正規(guī)語言表達識別經(jīng)過數(shù)據(jù)預(yù)處理、判斷是否已經(jīng)在術(shù)語庫中、基于統(tǒng)計的方法、基于規(guī)則的方法、人工最終篩選五個階段。

在第三階段基于統(tǒng)計的方法中,詞頻統(tǒng)計以詞為統(tǒng)計單位,點互信息和信息熵兼顧詞和短語的統(tǒng)計。詞頻統(tǒng)計需要基于WordNet過濾停用詞和大部分正常使用的單詞,得到候選集a。在點互信息和信息熵的計算時,首先計算點互信息,得到一個候選集b,然后計算候選集b中元素的信息熵,最終得到候選集c。候選集a與候選集c取并集得到NILE候選集1。

詞頻統(tǒng)計和點互信息與信息熵計算后,數(shù)據(jù)放置于.csv文件中,部分數(shù)據(jù)如表2、表3所示。

可以看出,經(jīng)過數(shù)據(jù)預(yù)處理、已有術(shù)語判斷和統(tǒng)計的數(shù)據(jù)中,很大一部分是命名實體,所以,在基于規(guī)則判定之前,需要篩選出命名實體。

階段4中使用了3.1中的三條規(guī)則,在NILE候選集1上進行了進一步的篩選,得到候選集2。最終經(jīng)過人工一一校驗,得到以下NILE術(shù)語庫中未收錄的英語網(wǎng)絡(luò)非正規(guī)語言表達,存儲在.csv文件中(如表3所示),共170個未收錄的NILE術(shù)語。

46萬余條Twitter語料,使用AntConc進行統(tǒng)計,語料容量為6 763 672個詞,包括不重復(fù)的單詞93 439個。經(jīng)過前三個階段,即統(tǒng)計方法過后,候選集1中共有5828個表達。經(jīng)過階段4,即規(guī)則的方法的篩選過后,得到272個表達。最終人工篩選后,得到170個術(shù)語庫中未收錄的NILE,且這些表達具有可以演變?yōu)镹ILE術(shù)語的潛力,能夠收錄于NILE術(shù)語庫中。所以,截止到階段5,即人工篩選前,NILE術(shù)語的自動識別的準(zhǔn)確率為62.5%。在46萬余條語料中,識別得到的新的NILE術(shù)語,約占不重復(fù)單詞總量的0.182%。

NILE自動識別的準(zhǔn)確率并不是很高,NILE術(shù)語識別錯誤的類型和錯誤原因可以從以下幾個方面進行分析:(1)部分識別錯誤的NILE是非正規(guī)表達術(shù)語庫中的NILE術(shù)語的衍生,這類衍生不考慮為NILE術(shù)語。例如,“KAG”(Keep America Great)和“POTUS”(President of the United States)是NILE術(shù)語,但是“KAG2020”“POTUS45”這類由NILE術(shù)語衍生出來的表達不具備術(shù)語的八種屬性中的任何一種屬性。(2)仍然存在部分命名實體的衍生被錯誤識別為NILE術(shù)語。例如,“TRUMP2020”“Sleep Joe”這些表達可以看作命名實體的衍生,但本質(zhì)上仍然是命名實體,而不是NILE術(shù)語。然而,也不是所有帶命名實體的表達都不是NILE術(shù)語,比如“Uncle Sam”就是美國的綽號,在網(wǎng)絡(luò)中常被使用。(3)語料本身主題的問題,使得一些短語的點互信息和信息熵很高。例如“Fake News”(假新聞)和“FOLLOW ME”?!癋ollow”本身是一個NILE術(shù)語,作為NILE的含義是“關(guān)注”。但是由于語料主題(美國大選)的限制,結(jié)合不同的語境,“FOLLOW ME”可以解釋為 “跟隨我”“支持我”或“關(guān)注我”。這是導(dǎo)致NILE術(shù)語識別錯誤的三種主要原因。人能夠相對容易地識別出這些錯誤,但是機器通過統(tǒng)計和規(guī)則的方法可能難以判別。

4 英語網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語庫構(gòu)建

在構(gòu)建英語網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語庫時,需要用標(biāo)準(zhǔn)化的、可讀的表達解釋術(shù)語庫中的每一個術(shù)語。例如,“142n8ly”被解釋為“Unfortunately”,“troo”被解釋為“true”。所以,術(shù)語庫中存儲的NILE術(shù)語需要具有解釋性。

通過對數(shù)據(jù)的分析,能夠發(fā)現(xiàn)相同的含義有多種表達方式,也就是存在“一義多詞”(即同義,synonymy)的現(xiàn)象,例如“LOL (= Laughing Out Loud)”“LOOL(= Laughing Outrageously Out Loud)”“LOOMM(= Laughing Out Of My Mind)”是三個不同NILE表達的縮寫,但是都表示“very happy”這一含義,所以可以通過這一含義在這三個不同的表達中構(gòu)建聯(lián)系,這種關(guān)聯(lián)可以看作為一種“同義聯(lián)系”。

如果兩個或多個表達之間在含義上相近或者相關(guān),這兩個或多個表達之間也應(yīng)該構(gòu)建一種聯(lián)系。例如“l(fā)uv(= love)”“I <3 U(= I love you)”和“ILI(= I Love It)”雖然表述不同,含義也不盡相同,但都和“l(fā)ove”這一概念有所關(guān)聯(lián),這種關(guān)聯(lián)關(guān)系可以看作一種“相關(guān)聯(lián)系”。

因此,在構(gòu)建英語NILE術(shù)語庫時,術(shù)語庫應(yīng)該存儲某一術(shù)語的準(zhǔn)確解釋上述兩種關(guān)聯(lián)。由此設(shè)計一個三元組用于存儲每一術(shù)語。三元組結(jié)構(gòu)如下所示。

<W,E,R>

該三元組中,W表示一個NILE術(shù)語,E表示W(wǎng)的解釋,R表示關(guān)聯(lián)術(shù)語,關(guān)聯(lián)術(shù)語間用“;”進行分隔。

術(shù)語庫的來源主要有兩方面。一部分來源于相關(guān)網(wǎng)站的數(shù)據(jù)爬取,得到部分NILE術(shù)語信息;另一部分來源于基于上述統(tǒng)計和規(guī)則融合的NILE自動識別方法得到的170個未收錄的NILE,共得到7000余個NILE術(shù)語及相關(guān)信息,即7000余個NILE術(shù)語三元組。將得到的NILE術(shù)語庫按符號和字母索引存儲于.csv文件中,如表5所示。該.csv文件可以用于進一步構(gòu)建MongoDB數(shù)據(jù)庫或Neo4j數(shù)據(jù)庫,以提高存儲能力和檢索效率。

5 結(jié)語

對于英語網(wǎng)絡(luò)非正規(guī)語言表達的研究,首先闡述了術(shù)語識別方法、術(shù)語庫建設(shè)和網(wǎng)絡(luò)非正規(guī)特征表達的研究現(xiàn)狀,總結(jié)了英語網(wǎng)絡(luò)非正規(guī)語言表達的特征并對特征進行了分析。針對總結(jié)得到的特征,制定三條規(guī)則,并且結(jié)合統(tǒng)計的方法,設(shè)計了基于統(tǒng)計和規(guī)則融合的英語網(wǎng)絡(luò)非正規(guī)語言表達識別系統(tǒng)。最后基于兩種來源構(gòu)建了英語網(wǎng)絡(luò)非正規(guī)語言表達術(shù)語庫。英語網(wǎng)絡(luò)非正規(guī)語言表達識別與NILE術(shù)語庫構(gòu)建對于語言學(xué)研究和自然語言處理都具有重要意義。

參考文獻

[1] 朱偉華.談?wù)勑g(shù)語的特性[J].外語教學(xué)與研究,1987(2):47-49.

[2] 張雪, 孫宏宇, 辛東興,等.自動術(shù)語抽取研究綜述[J].軟件學(xué)報,2020,31(7):2062-2094.

[3] PANTEL P,LIN D. A Statistical Corpus-Based Term Extractor[M] / / STUMPTNER M,CORBETTD,BROOKS M. Advances in Artificial Intelligence. Berlin Heidelberg: Springer-Verlag, 2001: 36-46.

[4] HANG J S. Domain specific word extraction from hierarchical web documents: a first step toward building lexicon trees from web corpora[C] / / Proceedings of the 4th SIGHAN Workshop on Chinese Language Learning: 64-71.

[5] KAMEL N. Ontology-Based Information Extraction from Twitter[J]. Proceedings of the Workshop on Information Extraction and Entity Analytics on Social Media Data, 2012, 12: 17-22.

[6] 張艷,宗成慶,徐波.漢語術(shù)語定義的結(jié)構(gòu)分析和提取[J].中文信息學(xué)報,2003(6):9-16.

[7] 陳飛,劉奕群,魏超,等.基于條件隨機場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學(xué)報,2013,24(5):1051-1060.

[8] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學(xué)學(xué)報(自然科學(xué)版),2016,52(1):35-40.

[9] 趙頌歌,張浩,常寶寶.基于自注意力機制的科技術(shù)語自動提取技術(shù)研究[J].中國科技術(shù)語,2021,23(2):20-26.

[10] 顧春輝,溫昌斌.聯(lián)合國術(shù)語庫建設(shè)及其對中國術(shù)語庫建設(shè)的啟示[J].中國科技術(shù)語,2017,19(3):5-9,34.

[11] 劉宇紅, 殷銘.術(shù)語表研制的四個步驟:以英語語言學(xué)為例[J].中國科技術(shù)語,2021,23(2):11-19.

[12] ZHANG X, YAO T. A Study of Network Informal Language Using Minimal Supervision Approach[J]. Autonomous Systems:Self-Organization, Management, and Control, 2008: 978-1-4020-8888-9.

[13] 景漾. 英漢網(wǎng)絡(luò)詞語構(gòu)詞淺析[J].校園英語,2016(2):205.

[14] 劉宇紅. 語言學(xué)術(shù)語的理據(jù)類型研究[J]. 中國科技術(shù)語,2021,23(1):17-22.

[15] 張懷建, 黎進安, 劉麗燕,等. 新世紀(jì)大學(xué)英語語法 (下冊)[M]. 廣州:華南理工大學(xué)出版社, 2003:25.

作者簡介:夏榕璟(1998—),女,信息工程大學(xué)洛陽校區(qū)研究生。主要研究方向:自然語言處理、機器翻譯、知識圖譜等。通信方式:cczxxrj@163.com。

張克亮(1964—),男,博士,信息工程大學(xué)洛陽校區(qū)教授、博士生導(dǎo)師,主要研究領(lǐng)域為計算語言學(xué)、機器翻譯、知識工程等。先后兼任中國人工智能學(xué)會理事及自然語言理解專委會委員,中國中文信息處理學(xué)會機器翻譯專委會委員,國家自然科學(xué)基金、國家社會科學(xué)基金、教育部學(xué)位中心學(xué)位論文評審專家。長期從事計算語言學(xué)和語言信息處理教學(xué)科研工作,主持或參與完成國家科技支撐計劃、國家自然科學(xué)基金、國家社會科學(xué)基金、裝備科研等10余項課題的研究工作,其中包括主持國家自然科學(xué)基金重大項目課題1項,出版專著、編著、詞典、教材4部(套),發(fā)表中英文論文80余篇。通信方式:kliang99@sina.com。

猜你喜歡
自動識別
中國自動識別技術(shù)協(xié)會
船舶模擬駕駛系統(tǒng)障礙物自動識別方法
基于數(shù)據(jù)挖掘的船舶航跡自動識別系統(tǒng)
太陽黑子自動識別與特征參量自動提取
基于衛(wèi)星遙感圖像的收費站位置自動識別與校核
船舶自動識別系統(tǒng)對船舶救助的影響
基于改進Canny算法的道路標(biāo)線自動識別及定位
自動識別系統(tǒng)
金屬垃圾自動識別回收箱
基于IEC61850的配網(wǎng)終端自動識別技術(shù)