国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

金融領域中文命名實體識別研究進展

2021-03-14 13:35徐秋榮朱鵬羅軼鳳董啟文
關鍵詞:自然語言處理

徐秋榮 朱鵬 羅軼鳳 董啟文

摘要:命名實體識別(Named Entity Recognition, NER)作為自然語言處理的基本任務之一,一直以來都 是國內(nèi)外研究的熱點.隨著金融互聯(lián)網(wǎng)的快速發(fā)展,迄今為止,金融領域中文NER不斷進步,并得以應用 到其他金融業(yè)務中.為了方便研究者了解金融領域中文NER方法的發(fā)展狀況和未來發(fā)展趨勢,進行了一 項相關方法的研究和總結(jié).首先,介紹了 NER的相關概念和金融領域中文NER的特點;然后,按照金融領 域中文NER的發(fā)展歷程,將研究方法分為基于字典和規(guī)則的方法、基于統(tǒng)計機器學習的方法和基于深度 學習的方法,并詳細介紹了每類方法的特點和典型模型;接下來,簡要概括了金融領域中文NER的公開數(shù) 據(jù)集和工具、評估方法及其應用;最后,向讀者闡述了目前面臨的挑戰(zhàn)和未來的發(fā)展趨勢.

關鍵詞:自然語言處理;中文命名實體識別;金融領域

中圖分類號:TP399?????? 文獻標志碼:A?????? DOI: 10.3969/j.issn.1000-5641.2021.05.001

Research progress in Chinese named entity recognition in the financial field

XU Qiurong, ZHU Peng, LUO Yifeng, DONG Qiwen

(School of Data Science and Engineering, East China Normal University, Shanghai 200062, China)

Abstract: As one of the basic components of natural language processing, named entity recognition (NER) has been an active area of research both domestically in China and abroad. With the rapid development of financial applications, Chinese NER has improved over time and been applied successfully throughout the financial industry. This paper provides a summary of the current state of research and future development trends for Chinese NER methods in the financial field. Firstly, the paper introduces concepts related to NER and the characteristics of Chinese NER in the financial field. Then, based on the development process, the paper provides an overview of detailed characteristics and typical models for dictionary and rule-based methods, statistical machine learning-based methods, and deep learning-based methods. Next, the paper summarizes public data collection tools, evaluation methods, and applications of Chinese NER in the financial industry. Finally, the paper explores current challenges and future development trends. Keywords: natural language processing; Chinese named entity recognition; financial field

0引 言

在日常生活中,隨著科技的進步和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁新聞、研報、論壇、公眾號、微博等信 息不斷實時更新,使得網(wǎng)絡信息量呈爆炸式增長,海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)為自 然語言處理任務提供了數(shù)據(jù)來源,并促進自然語言處理技術的快速發(fā)展.面對結(jié)構(gòu)各異、信息冗雜的

收稿日期:2021-08-17

基金項目:國家自然科學基金(U1711262, 6207218(5)

通信作者:羅軼鳳,男,副教授,碩士生導師,研究方向為文本數(shù)據(jù)挖掘與知識圖譜.E-mail: yfluo@dase.ecnu.edu.cn

文本數(shù)據(jù),如何提取出關鍵性的有價值信息,是一項有意義的科研工作,信息抽取技術便應運而生.命 名實體識別作為信息抽取的子任務之一,是指從文本中識別出實體及其類別,這些實體類型包括人 名、地名、機構(gòu)名、專有名詞和時間等.同時,作為自然語言處理中的關鍵技術之一,命名實體識別為 其他自然語言處理任務,諸如信息檢索、知識問答系統(tǒng)、文本摘要、知識圖譜、關系抽取等奠定了基 礎,因此得到國內(nèi)外科研工作者的廣泛關注.

命名實體識別的研究可以追溯到1991年,Rau[1]最初開展的是從文本中識別并抽取企業(yè)名稱的工 作,隨后有研究者將專有名詞也加入有待識別實體.美國NIST自動內(nèi)容抽?。ˋutomatic Content Extraction, ACE)評測中根據(jù)實體在文本中的引用把它分為命名性指稱、名詞性指稱和代詞性指稱. “命名實體”(Named Entity, NE)這一術語是在MUC-6中提出的,是針對ACE中的“名詞性指稱”稱 呼,后來MUC-6組織了 NERC這項評測任務,即命名實體識別和分類(Named Entity Recognition and Classification, NERC).人們將人名、地名和組織機構(gòu)名這3類實體進一步細化,例如,將地名細 化為洲、國家、城市、州、自然景觀區(qū)域等.在計算自然語言學習會議(Conference on Computational Natural Language Learning,CoNLL)評測會議中擴大了專有名詞的范圍,如書籍名、電影名、產(chǎn)品 名、醫(yī)藥名等[2]. NER發(fā)展至今,已經(jīng)衍生了許多解決該任務的方法,模型效果也在逐漸提升,研究語 言包括但不限于英語、中文、阿拉伯語、德語、法語等.NER的應用已經(jīng)滲入商業(yè)、金融、電子病歷、 網(wǎng)絡安全、生物醫(yī)學、軍事、生態(tài)治理、農(nóng)業(yè)等多種垂直領域中.

自21世紀初期,我國金融科技行業(yè)逐漸由手工轉(zhuǎn)為互聯(lián)網(wǎng)金融信息化,人工智能技術與金融業(yè) 務不斷融合,許多學者投入通過命名實體識別將文本和金融業(yè)務中的實體信息關聯(lián)起來的科研工作 中,其科研成果為用戶提供了更優(yōu)質(zhì)的金融智能化服務[3].相比于通用領域中文NER,金融領域中文 NER除了人名、地名、機構(gòu)名的識別以外,還包含屬于專業(yè)領域的金融實體,如金融公司名、公司名 簡稱、金融產(chǎn)品名稱、金融項目名稱、金融專業(yè)名詞等.金融領域中文NER的新挑戰(zhàn)在于3點.其一 是組織機構(gòu)名的識別:金融文本中的組織機構(gòu)名長度變化大,并且機構(gòu)名實體中經(jīng)常含有人名、地名 和未登錄詞,構(gòu)成嵌套實體問題;對于同一個機構(gòu)的表達方式多樣,從全稱中抽取個別字組成新的不 同簡稱,甚至有一些網(wǎng)絡昵稱,如騰訊的昵稱為“鵝廠”;金融領域的組織機構(gòu)名的命名規(guī)則變化多樣, 沒有統(tǒng)一的格式進行約束.其二是金融術語的識別:金融術語是一種復雜類型實體并且存在較多的新 實體,常用的分詞工具難以較好地切分專業(yè)名詞的邊界;金融文本中經(jīng)常出現(xiàn)中文、英文和數(shù)字混合 組成的實體名;術語的口語化表述方式造成歧義識別;領域性含義的實體,如軌道、杠桿、板塊等.其 三是缺乏實體豐富且有質(zhì)量的金融領域數(shù)據(jù)集供實驗研究.隨著互聯(lián)網(wǎng)日新月異的變化,金融實體的 數(shù)量也在不斷大量增長,并且金融實體在文本中內(nèi)容分散、數(shù)據(jù)稀疏、無結(jié)構(gòu)化等特點,使得通用領 域的NER模型直接應用在金融領域中文NER數(shù)據(jù)集上的效果不顯著,需要根據(jù)金融文本特征探索 新方法.

近年來,有不少文獻對NER的國內(nèi)外研究方法進行了梳理.Li等詳細整理了針對英文語料的 NER方法,尤其是基于深度學習的模型;李嘉欣等問詳細整理了針對中文語料的NER方法;Nadeau 等[6]主要介紹了統(tǒng)計學習方法在NERC中的應用.在金融領域中,中文命名實體識別作為金融文本的 其他自然語言處理任務的基石,用科學技術促使金融業(yè)務變得更加智能化.然而,針對中文命名實體 識別在金融領域中應用的綜述幾乎沒有,這促使本文進行一項有關金融領域中文命名實體方法的調(diào) 查,闡述相關技術的研究現(xiàn)狀,梳理并總結(jié)現(xiàn)有科學技術在金融領域中文NER中的效果,以發(fā)現(xiàn)金融 領域中文NER仍然存在的問題以及其他可探索的研究方法.

本文深入調(diào)查了中文命名實體識別在金融領域中的應用.首先介紹NER的有關概念及其在金融 領域中的特點,然后將金融領域中文NER方法分為3大類:基于規(guī)則和字典的方法、基于統(tǒng)計機器學 習的方法、基于深度學習的方法.基于深度學習的方法按照模型的訓練模式分為單任務學習和多任務 聯(lián)合學習,對金融領域中文NER公開數(shù)據(jù)集和工具進行簡單介紹,之后詳細闡述有關的評估方法.此 外,本文還搜集了金融領域命名實體識別的應用,最后介紹金融領域中文NER仍然面臨的挑戰(zhàn)和未 來的發(fā)展方向,并對本文做出總結(jié).

1概念

首先介紹NER的有關概念,包括NER的定義、NER的標注方法、金融領域中文NER的特點.

1.1 NER的定義

NER,即命名實體識別,是指從非結(jié)構(gòu)化的自然語言文本中識別出具有特定意義的實體并將這個 實體歸為預先設定好的類別中實體通常代表一個具體的事物,通用領域中的實體主要包括人名、地 名、機構(gòu)名、專有名詞、時間、日期和貨幣等.

NER的形式化定義是指給定一段文字序列(叫,奶,..+,叫),識別出1組元組1個 元組代表1個實體,其中叫表示1個輸入的字或詞,is表示實體的開始下標,ie表示實體的結(jié)束下標, 尤表示實體的類型[4].如圖1所示是1個NER任務示例,對給定的序列通過NER識別輸出4個實體, 分別是“一·季度”(Time)、“上?!保↙ocation)、“北京"(Location)和“浙江"(Location).

通常把傳統(tǒng)的NER當作序列標注任務處理,即每個字都被打上一個對應的標簽.根據(jù)實體之間 的嵌套關系,衍生出嵌套NER任務'如“上海市人民政府”是一個機構(gòu)實體,但“上海市”是一個地名 實體.根據(jù)實體所屬的類別集合,又衍生出細粒度實體分類任務[9],實體所屬的類別之間具有層級關 系.例如,人名實體按照行業(yè)分為教育工作者、醫(yī)者、藝術家等,教育工作者按照職稱又分為教授、副 教授、研究員等.而本文不對后兩者做過多介紹,主要關注的是傳統(tǒng)的NER任務.

1.2 NER的標注方法

最常見的標注方法有BIO、BIOES、BMES,方法中各個字符所代表的含義如表1所示.

1.3金融領域中文NER的特點

金融領域是一個具有高度專業(yè)性的領域,很多詞匯不能從字面意思理解,需要結(jié)合金融的背景和 語境去理解其背后的特殊含義,自然語言處理的所有子任務在金融領域中都有一個獨特的理解方式. 金融具有成本低、效率高、覆蓋面廣、風險高的特點,命名實體識別作為自然語言處理最基礎的任務 之一,識別效果嚴重影響下游任務的效果,所以在金融領域中,命名實體識別結(jié)果是否準確間接決定 著金融經(jīng)濟產(chǎn)業(yè)鏈的效益.相對于通用領域的中文NER,本文總結(jié)了金融領域中文NER的主要特點 并將其歸為3大類.

(1)文本數(shù)據(jù)量大,內(nèi)容復雜,更新快.金融經(jīng)濟發(fā)展迅速,互聯(lián)網(wǎng)金融的時代下,每日不斷更新大 量的實時新聞,文本內(nèi)容質(zhì)量參差不齊,不同來源的報道表述格式不一,而且里面還會出現(xiàn)大量冗余 信息,使得很難全部識別出其中的實體.

(2)異常的表達方式,專業(yè)名詞多.

a)金融是一個專業(yè)背景強的領域,金融領域的術語往往有著特殊的含義,即使是人工,有時候也 需要具有專業(yè)背景的人員才能理解,比如產(chǎn)品實體“對沖基金”“白騎士”等,分詞工具難以準確分詞.

b)高頻存在不規(guī)則的實體縮寫,如“中國農(nóng)業(yè)銀行股份有限公司”是一個公司名,而“農(nóng)業(yè)銀行” “農(nóng)行”兩個簡稱也是一個公司名.

c)股票代碼和股票簡稱.

d)專業(yè)詞典不完善.

以上這些因素給機器識別命名實體帶來許多挑戰(zhàn).

(3)實體內(nèi)層嵌套多,邊界不易識別.如“深圳市騰訊計算機系統(tǒng)有限公司”應該從整體名稱上歸 為公司名,而在機器識別的時候,可能會識別為3個實體:“深圳市”(地名)、“騰訊”(公司名)、“計算 機系統(tǒng)有限公司”(公司名).

2金融領域中文NER方法

金融領域中文NER是中文NER在垂直領域上的具體應用,本文把金融領域的中文NER方法分 為3類:基于字典和規(guī)則的方法、基于統(tǒng)計機器學習的方法和基于深度學習的方法.

2.1基于字典和規(guī)則的方法

在NER任務提出之后,早期的NER系統(tǒng)通常是基于人工構(gòu)建的字典知識庫和手工制定的規(guī)則, 可以根據(jù)通用領域或者垂直領域指定合適的知識庫,根據(jù)句法-詞法模式制定規(guī)則,然后從文本中尋 找和這些字典、規(guī)則相匹配的字符串.在金融領域中文數(shù)據(jù)中,人們最早開始研究的實體僅僅是機構(gòu) 名(包括公司名)及其縮寫[1。-12].王寧等[10]總結(jié)了中文機構(gòu)名的特征和名稱的上下文信息,用人工的方 式創(chuàng)建了 6個知識庫,然后經(jīng)過兩次遍歷搜索匹配完成實體的識別.實驗結(jié)果表明,在封閉測試中機 構(gòu)名的召回率達到89.3%,可見這是一個不錯的結(jié)果.沈嘉懿等[11]和Xu等[12]在不同主題的語料庫上 基于復雜的規(guī)則映射的方法識別中文機構(gòu)名稱,均取得了較高的精確率和召回率.此外,Burdick 等[13]還利用基于規(guī)則的文本抽取平臺System T開發(fā)了兩種金融機構(gòu)名稱實體識別工具:Org-NER 和 Dict-NER.

當通用字典或者領域字典數(shù)量足夠充足、制定的規(guī)則足以覆蓋實體特征的時候,往往可以得到很 好的精確率,而這種方法的局限性也在于此,不完備的字典和規(guī)則,往往會導致較低的召回率,也就是 說,預測的實體數(shù)量和實際的實體數(shù)量具有一定的差距.對一種領域的實體類型的規(guī)則也無法移植到 另一領域的實體類型的預測.另外,這種方法耗費大量時間,對金融領域?qū)I(yè)背景要求強.因此,研究 人員把研究目光轉(zhuǎn)向了統(tǒng)計機器學習方法上.

2.2基于統(tǒng)計機器學習的方法

統(tǒng)計機器學習方法是基于特征工程的方法,統(tǒng)計機器學習任務的一般步驟如圖2所示.有監(jiān)督學 習是統(tǒng)計機器學習的一種,是指從有標簽的樣本數(shù)據(jù)中學習出預測函數(shù),并運用到未知樣本數(shù)據(jù)預測 出結(jié)果.常用于命名實體識別的方法有隱馬爾可夫模型(Hidden Markov Model, HMM)[14]、最大熵模 型(Maximum Entropy Model, ME)[15]、支持向量機(Support Vector Machine, SVM)[16]、條件隨機場 (Conditional Random Field, CRF)[17]和決策樹(Decision Tree, DT)[18].

數(shù)據(jù)分析數(shù)據(jù)清洗采樣

特征提取和處理

基于統(tǒng)計的方法在通用領域的NER數(shù)據(jù)集上取得了很好的效果,但是在金融領域中文NER中, 對于金融命名實體(Financial Named Entity, FNE)尤其是FNE縮寫的抽取有困難,現(xiàn)有的有監(jiān)督學 習方法往往和金融文本中實體的規(guī)則相結(jié)合訓練的效果更好.Shen等[19]提出的中文機構(gòu)名稱及其縮 寫的識別方法中,右邊界是借助機構(gòu)的后綴字典識別,而左邊界則是由基于貝葉斯概率模型的最佳 規(guī)則識別,識別出機構(gòu)名稱后,根據(jù)縮寫規(guī)則獲取候選縮寫.Wang等[21]提出了一種基于條件隨機場 和互信息與信息熵[22]的金融命名實體識別方法,股票名稱在金融文本中會經(jīng)常出現(xiàn),作者首先用領域 字典識別股票名稱,為了高效地識別實體的邊界,將機構(gòu)名后綴(如有限公司)、地名前綴(如深圳)、 職務詞匯(如董事長)、前驅(qū)謂詞(如收購)、后續(xù)詞(如日前)、詞性等規(guī)則特征融入一個線性CRF分類 器中識別完整的FNE,其中機構(gòu)名后綴、職務詞匯和后續(xù)詞可以決定機構(gòu)實體的右邊界,地名前綴和 前驅(qū)謂詞可以決定機構(gòu)實體的左邊界,而對于金融文本中存在的格式豐富的金融命名實體縮寫, CRF序列標注算法難以處理,通過引入互信息和邊界信息熵特征提高FNE縮寫的識別率,并用候選 集與股票名稱進行相似度計算,用來進一步驗證候選集中正確的縮寫,實驗結(jié)果顯示加入互信息和信 息熵后的模型準確率提升了約6%,也說明性能的改善得益于FNE的識別.

和以前的方法相比,雖然金融領域中文NER在基于統(tǒng)計機器學習的模型上的效果有所提高,但是龐大的特征工程仍然需要很高的人工和時間的成本.

2.3基于深度學習的方法

深度學習是機器學習的一個分支,它由多個處理層組成,可以學習到抽象的文本語義關系.2015年深度學習重新崛起,除了統(tǒng)計機器學習中的CRF常常用在新模型中,人們更多地聚焦在深度學習 方法上.因其強大的學習能力,近年來不斷被運用到包括命名實體識別在內(nèi)的自然語言處理領域.基 于深度學習的方法共分為3個步驟:

(1)文本數(shù)據(jù)的分布式表達作為輸入;

(2)選擇合適的神經(jīng)網(wǎng)絡模型作為特征提取器,即編碼器;

(3)選擇合適的分類或者序列標注模型獲得標簽結(jié)果,即解碼器.

2003年,Bengio等[23]提出的神經(jīng)語言模型中誕生了詞向量這個概念,它是指把字或者詞通過模型 訓練的方式得到它們的分布式表達——可供計算機識別的數(shù)值化表示,即輸入數(shù)據(jù),從而替代了統(tǒng)計 機器學習方法中繁重的特征工程,這個優(yōu)勢引發(fā)了學者們對詞向量的研究興趣.常見的預訓練模型有 Google Word2vec[24](包括 CBOW 和 Skip-Gram 兩個模型)、Facebook fastText[25]、Stanford Glove[26]、 AllenNLP ELMO1271、OpenAI GPT1281、Google BERT1291、CMU&Google XLNet1301、THU ERNIE1311 等.目 前主流的神經(jīng)網(wǎng)絡模型包括3種:卷積神經(jīng)網(wǎng)絡模型CNN[32]及其變形空洞卷積神經(jīng)網(wǎng)絡IDCNN[33];循 環(huán)神經(jīng)網(wǎng)絡模型 RNN1341 及其變形 LSTM1351、BiLSTM1361 和 GRU1371;基于 Attention 機制的 Transformer1381. 當把NER視為多分類任務時,可以使用多層感知機作為解碼器.當把NER視為序列標注任務時,常 常使用CRF作為解碼器,而當實體類型數(shù)量很大時,RNN作為解碼器的性能要優(yōu)于CRF,并且訓練 速度更快139].但是,通常情況下,CRF是表現(xiàn)較好的解碼器.

本文把基于深度學習的金融領域中文NER方法分為兩類,一類是單任務學習,另一類是多任務聯(lián)合學習.

2.3.1單任務學習

單任務學習,即僅僅為金融領域中文NER這一種任務而設計的訓練模型,這種模型學習任務唯 一且目標明確.

李昱昕1401采用網(wǎng)易財經(jīng)網(wǎng)的上市公司公告作為數(shù)據(jù)源,這種文本語法結(jié)構(gòu)單一,含有大量準確無 誤的公司名,采用通用領域NER標注工具和人工糾正的方法標注數(shù)據(jù)集.考慮到金融機構(gòu)命名實體 特征的特殊性,除了構(gòu)建常見的詞特征和詞性特征外,和Wang等1211類似,作者也構(gòu)建了職位詞、前驅(qū) 詞和后續(xù)詞、后綴詞、地名、人名特征.此外,作者還把表格形式的結(jié)構(gòu)化金融文本數(shù)據(jù)處理成一個小 型的金融領域知識圖譜,將知識圖譜中的實體作為外部知識加入特征集合中,利用大量豐富的無監(jiān)督 金融文本數(shù)據(jù)使用Word2vec的CBOW模型訓練蘊含領域知識的金融領域詞向量,然后使用 BiLSTM對詞向量進行編碼,最后使用CRF結(jié)構(gòu)對編碼序列進行解碼.CRF層是對BiLSTM層提取 的詞特征的一種再利用,從全局角度充分利用了文本中蘊含的信息,提高了標注的準確性.這種領域 詞向量結(jié)合BiLSTM-CRF的模型相比于CRF、BiLSTM和BiLSTM-CRF算法明顯提升了識別效果.

彭小鈺1411提出的面向金融領域的命名實體識別算法中,為了更好地表達字與字之間的語義關系, 融合了字向量、Word2vec詞向量和詞性向量這3種向量特征作為輸入句子的分布式表示,然后編碼 器——解碼器使用的模型架構(gòu)是雙層BiLSTM-CRF.與通用領域NER任務不同的是,作者同時考慮到 金融領域的應用場景和模型的通用性,詞向量的訓練語料中同時加入了金融領域的文本和百度百科 的通用語料文本.在金融領域數(shù)據(jù)集上對比了哈工大ltp、BiLSTM、BiLSTM-CRF模型,作者提出的 模型準確率、召回率和巧值均高于這三者.

Liu等1421針對互聯(lián)網(wǎng)金融新實體發(fā)現(xiàn)問題提出了一個基于BERT和Bootstrapping的半監(jiān)督方 法,該任務及其一萬條數(shù)據(jù)集來自2019年CCF BDCI (CCF大數(shù)據(jù)與計算智能大賽,https://www. datafountain.cn/competitions/36(1),預訓練模型BERT訓練詞向量,用于捕捉詞語之間的語義信息, BiLSTM-CRF作為模型架構(gòu)訓練NER任務,而作者任務中使用的金融領域的數(shù)據(jù)集標簽不足的問 題限制了 BiLSTM-CRF模型的表現(xiàn)效果,作者采用Bootstrapping方法解決了數(shù)據(jù)集中標簽不足問 題.實驗證明,加入BERT預訓練模型后巧值提升了約0.11,加上Bootsrapping后巧值再次提升約 0.05.

劉宇瀚等[43]提出結(jié)合字向量和中文漢字五筆字形嵌入作為模型整體的輸入,同樣選擇了 BiLSTM-CRF的編碼器-解碼器的結(jié)構(gòu).特殊的是,作者將這種模型作為子模型進行迭代學習,并且在 后一輪訓練的輸入中嵌入上一輪輸出結(jié)果的標簽編碼,這種方法考慮到了字符上下文標簽之間的潛 在關系,通過迭代學習不斷改進標簽預測的結(jié)果,提高了實體標注的性能.可見,在金融領域中文 NER中BiLSTM-CRF仍然是很有效的模型架構(gòu).

2.3.2多任務聯(lián)合學習

多任務聯(lián)合學習,即將NER任務和其他任務共同訓練,多個任務通過底層共享信息互相幫助學 習,訓練出一個更優(yōu)化的模型.

Zhou等[44]針對金融領域?qū)嶓w關系抽取問題,提出了一種新的雙向GRU注意力機制聯(lián)合模型 (Bigru Attention-Joint-Model, BGAJM).該模型將實體識別和關系提取作為一個整體進行學習和 訓練,避免了傳統(tǒng)的實體識別和關系提取作為兩個不同的子任務引起的錯誤傳播問題,兩個任務共享 字級別的詞向量層、BiGRU層和Attention層,而在NER模型解碼器端,通過大量的實驗選擇了 CNN作為NER解碼器.在數(shù)據(jù)集上測試Word2vec和Glove6b兩個預訓練模型,選擇準確率更高的 Glove6b作為詞嵌入.BiGRU與注意機制的結(jié)合消除了傳統(tǒng)的實體詞位置特征信息的添加,利用注意 機制的自動獲取特征,從一定程度上解決了因金融信息量大而人工特征選擇困難的問題,提高了計算 效率.

Zhao等[45]為在線金融文本的挖掘和社交媒體的輿情分析問題提出了一個基于RoBERTa的情感 分析和關鍵實體檢測方法.為解決深度學習應用于金融文本挖掘時金融領域標簽訓練數(shù)據(jù)缺乏的問 題,Liu等|46]基于BERT架構(gòu)搭建了首個金融領域的預訓練模型FinBERT,單純使用Word2vec或者 BERT預訓練不能有效地應用于金融數(shù)據(jù),金融文本中詞匯、語義、句子順序和句子之間的接近度等 都包含更多的語言知識和語義信息,作者構(gòu)建了包括NER在內(nèi)的6個覆蓋更多知識的自監(jiān)督預訓練 任務,通過多任務學習有效地捕獲了大規(guī)模預訓練語料庫中的語言知識和語義信息,作者用大量的實 驗證明了 FinBERT的有效性和魯棒性.

3金融領域中文NER公開數(shù)據(jù)集和工具

介紹了金融領域中文NER的方法之后,下面將對現(xiàn)有公開數(shù)據(jù)集和工具進行簡要介紹.

3.1公開數(shù)據(jù)集

本文介紹一個金融領域中文NER公開數(shù)據(jù)集BosonNLP_NER_6C (http://static.bosonnlp. com/resources/BosonNLP_NER_6C.zip),此數(shù)據(jù)集由玻森數(shù)據(jù)收集并整理,發(fā)布于2014年12月29 日,共包含2000條數(shù)據(jù),10953個句子,22429個實體,實體類型分為人名(person_name)、地名 (location)、時間(time)、機構(gòu)名(org_name)、公司名(company_name)、產(chǎn)品名(product _name).原 始數(shù)據(jù)的標注格式如圖3所示,每個實體的格式統(tǒng)一為“{{實體類型名:實體名}}”.在使用過程中,需 要把原始數(shù)據(jù)轉(zhuǎn)為1.2節(jié)介紹的標注格式,以BIO格式為例,遍歷一條數(shù)據(jù),若遍歷到的是實體,即當 遍歷到“{{”時,將其標記為新實體的開始字符,當遇到字符“ }}”時,將其標記為新實體的結(jié)尾字符, 開始字符和結(jié)尾字符之間的字符串中冒號后的實體名的第一個字符標注成“ B-實體類型名”,除第一 個字符之外的字符標注成“I-實體類型名”;若遍歷到的不是實體,即非相鄰“{{”和“ }}”之間的字符, 則將其標注為“O”.

{{product_name:新華08網(wǎng)}}{{location:北京}}{{time:11月29日}}電{{org_name:銀監(jiān)會}}副主席{{person_name:蔡鄂生}}在 接受{{product _name:和訊網(wǎng)}}獨家訪談時表示,{{location:中國}}銀行業(yè)實施{{product_name:巴塞爾協(xié)議III}}是由{{org_ name:國務院}}批準的,全球銀行業(yè)對于即將到來的{{time:2013年}}并不是那么期待的。根據(jù){{org _name:巴塞爾委員會}}此前的規(guī)定,{{time:2013年1月1日}}開始,巴塞爾協(xié)議成員國銀行業(yè)必須開始實施{{product_name:《巴塞爾協(xié)議ffl》}},并將于{time:2019年}}全部落實。{{time:今年上半年}}, {{org_name:國務院}}常務會議通過新版{{product_name:《商業(yè)銀 行資本管理辦法試行》}},這個被稱為{{location:中國}}版的{{product_name:巴塞爾協(xié)議III}}中明確規(guī)定,系統(tǒng)重要性銀行 和其他銀行的資本充足率監(jiān)管要求分別為11.5%和10.5%,與國內(nèi)現(xiàn)行監(jiān)管要求保持一致。該辦法將于{{time:2013年1月1日 }}起實施。截至{{time:今年 10月}},只有包括{{location:中國}}、{{location:日本}}、{{location:印度}}和{{location:瑞士}}在內(nèi)的8個國家公布了最終的新資本金監(jiān)管規(guī)定

3.2工具

本文介紹一種金融領域中文NER工具BosonNLP(http://docs.bosonnlp.com/ner.html),是由玻森 團隊研發(fā)的玻森中文語義開放平臺,提供了一個簡單、功能強大、性能可靠的中文自然語言分析服務. BosonNLP的命名實體識別功能識別的實體包括時間(time)、地點(location)、人名(person _name)、 組織名(org _name)、公司名(company _name)、產(chǎn)品名(product _name)、職位(job—title),輸入可以 是已分詞或未分詞的文本,輸出包括實體三元組〈實體起始下標,實體末尾下標,實體類別〉、分詞結(jié) 果、分詞結(jié)果中每個詞組的詞性.

4評估方法

對模型的預測結(jié)果進行全面的評估十分重要,許多技術根據(jù)文本識別能力對模型進行評估, MUC、ACE、CoNLL、SIGHAN Bakeoff、IREX、SemEval,13 等會議均對 NER 任務的不同評測技術做 出過定義和解釋.本文介紹的是一種基于實體邊界和實體類型的評估方法.

命名實體識別的目標是識別實體的邊界并對其類型分類,基于實體邊界和實體類型的評估方法 有精確率(Percision)、召回率(Recall)和巧值(巧-score),它們也是其他自然語言處理任務廣泛使用 的評測指標.通常在測試集中,把要關注的實例看作正例(Positive),其他實例看作負例(Negative),同 樣,預測結(jié)果也分為正例和負例兩種類型.真實類別和預測類別的“混淆矩陣”如表2所示.

下面對混淆矩陣中的4種分類結(jié)果做一個詳細說明:TP (真正例),真實類型是正例,模型預測結(jié) 果為正例的個數(shù)nTP; FP (假正例),真實類型是負例,模型預測結(jié)果為正例的個數(shù)~p; FN (假負例), 真實類型是正例,模型預測結(jié)果為負例的個數(shù)n?; TN (真負例),真實類型是負例,模型預測結(jié)果為 負例的個數(shù)《tn.

精確率(Percision,P)巧又稱查準率,是衡量預測為正例結(jié)果中有多少是被預測對的指標.計算公式為

召回率(Recall,R)均又稱查全率,是衡量全部真實的正例中有多少被預測出來的指標.計算公式為

可以看出P和R況這兩個指標是矛盾的,當P偏高時,況往往偏低.相反地,當P偏低時,況往往偏 高.巧值便綜合考慮兩者,是兩者的調(diào)和均值.計算公式為

在命名實體識別中,實體是由一個字或多個字組成的詞語構(gòu)成,因此首先關注的是實體的邊界是 否正確,然后判斷實體的類型的正確性,因此考慮到實體邊界和實體類型的匹配程度,將上述3個 評測指標細分為完全匹配和部分匹配兩種情況[4],區(qū)別在于混淆矩陣中的4種分類的統(tǒng)計結(jié)果會有所 不同.

(1)完全匹配.預測結(jié)果和測試集真實實體邊界和類型完全匹配分為3種情況:

a)實體邊界和實體類型均匹配正確,才被視為正確;

b)預測出的實體在測試集中不存在;

c)測試集中的實體沒有被預測出來.

(2)部分匹配.預測結(jié)果和測試集真實實體邊界和類型部分匹配分為3種情況:

d)實體邊界正確,類型不正確;

e)實體邊界有重疊,即可視為正確;

f)實體邊界無重疊,即邊界錯誤,類型也錯誤.

部分匹配比完全匹配的要求更為寬泛,完全匹配中只有情況a)才被視為真正例(TP),而在部分 匹配中滿足情況e)即可被接受為真正例(TP).

5金融領域中文NER的應用

金融領域中文NER作為一個底層的基礎任務,已經(jīng)被應用到其他多個金融領域自然語言處理任 務中,下面將分別介紹金融領域中文NER在中文文本中金融事件抽取、金融知識圖譜和金融文本分 類的技術應用.

5.1金融事件抽取

事件抽取旨在從一個句子或者從文檔中的多個句子中抽取事件,一個事件涉及多個角色,如一個產(chǎn)權(quán)凍結(jié)事件一般會涉及的事件參數(shù)有“股東名稱”“凍結(jié)股票編號”“凍結(jié)機構(gòu)”“凍結(jié)開始日期”“凍 結(jié)結(jié)束日期金融文本中命名實體對于從文檔中提取事件具有很大的幫助.Yang等[47]提出了名為DCFEE的框架,該框架從結(jié)構(gòu)化文本財務事件知識數(shù)據(jù)庫和結(jié)構(gòu)化文本公司公告中自動標記事件參 數(shù),這些參數(shù)就是一個個實體,然后基于自動標記的訓練數(shù)據(jù)從公告中提取文檔級事件,并用實驗證 明了系統(tǒng)的有效性,已經(jīng)成功地將系統(tǒng)聯(lián)機,用戶可以通過它快速地從財務公告中獲取事件信息.

5.2金融知識圖譜

知識圖譜的基本思想是獲取大范圍的數(shù)據(jù),清洗并結(jié)構(gòu)化,形成大規(guī)模的語義網(wǎng)絡,包含實體、概念及其之間的語義關系,并以可視化的形式展現(xiàn)出來,目前已經(jīng)發(fā)展成為人工智能的核心技術[48].目 前,知識圖譜成為智能金融浪潮中的熱點,在金融領域賦能越來越多的業(yè)務.比如,在智能投研、智能 投顧、智能風控、智能客服、智能監(jiān)管、智能運營等場景中都得以應用.知識圖譜構(gòu)建中最基礎的一個 過程就是知識抽取,NER系統(tǒng)便是從文本中識別出有意義或者指代性非常強的實體.除了常見的人 名、地名、機構(gòu)名、專有名詞外,根據(jù)業(yè)務需求可以拓展更多的實體,如產(chǎn)品名稱、型號、價格等.陳曉軍等[49]構(gòu)建了一個企業(yè)風險知識圖譜,其中知識抽取使用HanLP開源工具包、自定義詞典和特殊規(guī)則相結(jié) 合的方法有效識別語料中的命名實體.呂華揆等[50]利用金融數(shù)據(jù)構(gòu)建了金融股權(quán)知識圖譜,其中知識 抽取采用的是規(guī)則和基于機器學習的結(jié)合方法抽取機構(gòu)名和人名.Cheng等[51]利用NER抽取的知識 構(gòu)建了一個基于知識圖的金融量化投資事件嵌入框架.

5.3金融文本分類

文本分類是指為文本單元,如句子、段落、文檔等自動分配到預定義的類別中的過程,可以實現(xiàn) 文本數(shù)據(jù)的有效篩選和管理,也是自然語言處理的基本任務之一,為推薦系統(tǒng)、事件監(jiān)測等任務提供 了基礎.金融領域的文本分類有利于對投研分析、量化投資做出合理的投資決策.在金融文本中,有大 量的領域知識,這些垂直領域的實體對文本分類起著十分重要的作用,有利于專業(yè)領域中文本分類效 果的提升.Fan等[52]提出的一種融合全局領域信息和局部語義信息的方法對金融文檔進行分類,其中 在全局領域信息的異構(gòu)圖是由公司、人名、地點、時間、產(chǎn)品等實體來構(gòu)建的,多篇文章通過它們共同 擁有的實體相聯(lián)系,構(gòu)成鏈接關系,從而更加高效地對金融文本進行細粒度分類.

6挑戰(zhàn)和未來方向

目前,針對金融領域中文NER任務,現(xiàn)有的方法在一定程度上已經(jīng)取得了不錯的成績,但是仍然 面臨著許多挑戰(zhàn),下面將對有關挑戰(zhàn)進行總結(jié),并提出一些未來可發(fā)展的方向.

6.1挑戰(zhàn)

針對金融領域面臨的挑戰(zhàn),將從5個方面進行闡述,包括缺乏金融領域有質(zhì)量的公開數(shù)據(jù)集、邊 界歧義、機構(gòu)名縮寫構(gòu)詞靈活、金融專業(yè)領域詞匯的識別和嵌套實體.

6.1.1缺乏金融領域有質(zhì)量的公開數(shù)據(jù)集

數(shù)據(jù)集是模型訓練過程中最重要最基礎的一環(huán),在調(diào)研過程中發(fā)現(xiàn)很難找到金融領域用于中文 NER任務的數(shù)據(jù)集,金融領域的自然語言處理任務一般由金融行業(yè)背景的企業(yè)來做,數(shù)據(jù)集由企業(yè) 內(nèi)部自己構(gòu)建的,并將其應用到商業(yè)中,這些涉及商業(yè)機密的數(shù)據(jù)集不會公開,數(shù)據(jù)源的缺乏給學術 界做金融領域的中文NER任務帶來了挑戰(zhàn).有不少研究者是自己從各大金融財經(jīng)網(wǎng)站爬取新聞資訊, 經(jīng)過篩選、清洗、標注等過程之后作為實驗的數(shù)據(jù)集.因此,構(gòu)建一組有質(zhì)量的用于金融領域中文 NER的數(shù)據(jù)集,將為未來科研人員研究金融領域的中文NER問題省去不少人力.

6.1.2邊界歧義

自然語言的歧義性一直是困擾研究者的一個問題.一個最常見的歧義是多種劃分,如“兄弟科技 和花園生物均實現(xiàn)翻倍”可以劃分為“兄弟/科技/和/花園/生物/均/實現(xiàn)/翻倍/”,也可以劃分為“兄弟 科技/和/花園生物/均/實現(xiàn)/翻倍第一種劃分是沒有實體的,而第二種劃分有“兄弟科技”和“花園 生物”兩個實體,這種邊界歧義問題會影響金融領域中文NER的精確度和召回率,雖然深度學習對歧 義的消解有明顯優(yōu)勢,但是常會遇到對新詞的邊界把握模糊的問題.

6.1.3機構(gòu)名縮寫構(gòu)詞靈活

機構(gòu)名縮寫即機構(gòu)的簡稱,通常是由全稱中的幾個關鍵字組成的表達,這種縮寫不符合中國構(gòu)詞 規(guī)范,機構(gòu)名的簡稱個數(shù)可能不止一個,縮寫簡稱也屬于機構(gòu)名實體的一部分,比如“華東師范大學” 的簡稱有“華東師大”和“華師大如果對機構(gòu)名縮寫識別不準確,在實驗結(jié)果上會降低金融領域中 文NER的召回率,在工業(yè)上會影響到該機構(gòu)有關的信息的準確性,如該機構(gòu)有關的事件數(shù)、關聯(lián)公司 等信息會被遺漏.這種靈活的構(gòu)詞結(jié)構(gòu)增加了機構(gòu)名識別的困難.

6.1.4金融專業(yè)領域詞匯的識別

金融領域的中文NER問題不僅要以漢語語言的語法規(guī)范為依據(jù),還要兼顧詞語在金融領域知識 中的特殊含義,雖然字典是一種解決問題的途徑,但是大量的未登錄詞或者罕見詞匯仍然給NER帶來很大的難度.

6.1.5 嵌套實體

通常要處理的是邊界距離最長的實體,也就是非嵌套實體.而實際應用中,嵌套實體非常多,會使 原本屬于一個整體的實體,被劃分為多個不同類型的實體,導致實體邊界和實體類型預測錯誤.

6.2 未來方向

下面將從邊界檢測、融合專業(yè)知識、多特征學習和結(jié)合多任務學習等4個方面介紹金融領域中文 NER的未來發(fā)展方向.

6.2.1邊界檢測

邊界檢測的正確與否直接影響著實體整體的識別效果.邊界檢測錯誤時,即使檢測出的左右邊界 確實構(gòu)成一個實體且實體類型正確,但它也不是數(shù)據(jù)集中原本標注的實體類型.當實體由多個詞構(gòu)成 時,一旦一個詞識別錯誤,后續(xù)的多個詞識別的正確率也會受到影響.目前,主流的方法往往是把 NER視為一個序列標注任務相當于對每個字都進行一個分類,沒有考慮到每個字對實體邊界的貢獻 程度,而實體邊界正確率的提高可以有效提高NER的精確率和召回率.另外,研究發(fā)現(xiàn),現(xiàn)在已經(jīng)有 研究者在關注研究通用領域的嵌套實體識別,因此,在金融領域?qū)⒖梢酝吔鐧z測和嵌套實體的方向 進行研究.

6.2.2融合專業(yè)知識

特定的專業(yè)知識往往可以提高識別的準確率,特別是在垂直領域的NER任務,對于一些罕見的 詞,或者多義詞,結(jié)合領域背景才會正確理解其含義.在金融領域,通過專家介入,加強未登錄詞檢測 和指定豐富的規(guī)則將會幫助NER提升效果.

6.2.3多特征學習

深度學習方法在金融中文NER的效果是顯著的,而且降低了人力成本,在深度學習中詞向量扮 演了重要的角色.作為一項基礎的任務,對NER任務建模不需要太過復雜,可以從多特征入手,如字 特征、詞特征、詞性特征、句法特征、筆畫特征等,增強文本的詞嵌入表達.

6.2.4結(jié)合多任務學習

多任務學習使用多個有關聯(lián)的任務中的有用信息幫助每一個任務得到更為準確的學習器[53].根據(jù) 任務的性質(zhì)劃分,多任務又分為多任務有監(jiān)督學習、多任務無監(jiān)督學習、多任務主動學習、多任務強 化學習、多任務遷移學習.根據(jù)NER的定義,NER本身就可分解為兩個任務來學習,一個是實體邊界 識別,另一個是實體類型識別;當然,也可以將NER與其他自然語言處理任務同時學習,如金融領域 文本分類、事件抽取等.因此,多任務學習也是未來的一個發(fā)展方向.

7 總結(jié)

命名實體識別自提出起,就不斷受到國內(nèi)外研究者的關注,在為其他自然語言處理任務和垂直領 域做出貢獻的同時自身也在不斷改進,金融領域中文NER已經(jīng)被眾多企業(yè)用于金融文本處理,智能 投研、智能投資等業(yè)務中.本文根據(jù)金融領域中文NER的研究進展分別從研究背景與意義、基本概念、研究方法、公開數(shù)據(jù)集與工具、評估方法、在其他金融領域自然語言處理任務中的應用、挑戰(zhàn)和 未來方向進行了介紹,得出如下結(jié)論.

(1)端到端的模型架構(gòu)是金融領域中文NER的主流方法,融合BiLSTM和CRF的模型因為可以 捕捉雙向語義特征的長距離依賴和標簽上下文信息,在金融領域中文NER表現(xiàn)出非常好的效果.

(2)在金融領域中文NER中,有效的文本的特征表示十分重要,除了對金融文本進行字嵌入和詞 嵌入,加入專業(yè)領域字典有助于領域?qū)I(yè)實體識別的準確性.

(3)針對金融領域中文NER公開的數(shù)據(jù)集和工具很少.

(4)在金融領域中文NER中精確率、召回率和巧值一直是最常用的評估方法.

(5)雖然現(xiàn)有的模型在金融領域中文NER問題上取得了不錯的進展,但挑戰(zhàn)依然存在,作為金融 業(yè)務中的一個NLP底層任務,還有很大的研究價值.

本文對金融領域中文NER的特點和研究進展進行的梳理和總結(jié),希望可以為對該方向有興趣的 研究人員提供參考價值和研究思路.

[參考文獻]

[1]RAU L F. Extracting company names from text [C] // Proceedings of the Seventh IEEE Conference on Artificial Intelligence Application. IEEE, 1991.

[2]宗成慶.統(tǒng)計自然語言處理[M]. 2版.北京:清華大學出版社,2013: 510-512.

[3] 巴曙松,白海峰.金融科技的發(fā)展歷程與核心技術應用場景探索[J].清華金融評論,2016(1(1): 99-103.

[4]LI J, SUN A, HAN J, et al. A survey on deep learning for named entity recognition [EB/OL]. (2020-03-18) [2021-09-22]. https://arxiv.org/pdf/1812.09449.pdf.

[5]李嘉欣,王平.中文命名實體識別研究方法綜述[J].計算機時代,2021(4): 18-21.

[6]NADEAU D, SEKINE S. A survey of named entity recognition and classification [J]. Lingvisticae Investigationes, 2007, 30(1): 3-26.

[7]SHARNAGAT R. Named entity recognition: A literature survey [EB/OL]. (2014-06-30) [2021-09-22]. https://www.cfilt.iitb.ac.in/resources/surveys/rahul-ner-survey.pdf.

[8]KATIYAR A, CARDIE C. Nested named entity recognition revisited [C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1. New Orleans, Louisiana: Association for Computational Linguistics, 2018: 861-871.

[9]LING X, WELD D. Fine-grained entity recognition [C]//Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence. California: AAAI Press, 2012: 94-100.

[10]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002, 16(2): 1-6.

[11]沈嘉懿,李芳,徐飛玉,等.中文組織機構(gòu)名稱與簡稱的識別[J].中文信息學報,2007, 21(6): 17-21.

[12]XU Z, BURDICK D, RASCHID L. Exploiting lists of names for named entity identification of financial institutions from unstructured documents [EB/OL]. (2016-06-07) [2021-09-22]. https://arxiv.org/pdf/1602.04427.pdf.

[13]BURDICK D, DE S, RASCHID L, et al. resMBS: Constructing a financial supply chain from prospectus [C]//Proceedings of the Second International Workshop on Data Science for Macro-Modeling. 2016: 1-6.

[14]EDDY S R. Hidden markov models [J]. Current Opinion in Structural Biology, 1996, 6(3): 361-365.

[15]KAPUR J N. Maximum-entropy models in science and engineering [J]. International Biometric Society, 1992, 48(1): 333-334.

[16]HEARST M A, DUMAIS S T, OSUNA E, et al. Support vector machines [J]. IEEE Intelligent Systems and Their Applications, 1998, 13(4): 18-28.

[17]LAFFERTY J, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 2001: 282-289.

[18]QUINLAN J R. Induction of decision trees [J]. Machine Learning, 1986, 1(1): 81-106.

[19]SHEN J Y, LI F, XU F Y, et al. Recognition of chinese organization names and abbreviations [J]. Journal of Chinese Information Processing, 2007, 21(6): 17-21.

[20]KASS R E, RAFTERY A E. Bayes factors [J]. Journal of the American Statistical Association, 1995, 90(430): 773-795.

[21]WANG S, XU R, LIU B, et al. Financial named entity recognition based on conditional random?????? fields and information entropy

[C]//2014 International Conference on Machine Learning and Cybernetics. Lanzhou: IEEE, 2014: 838-843.

[22]NUNEZ J A, CINCOTTA P M, WACHLIN F C. Information entropy [J]. Celestial Mechanics and Dynamical Astronomy, 1996, 64: 43-53.

[23]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [J] . The Journal of Machine Learning Research, 2003(3): 1137-1155.

[24]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. (2013-09- 07)[2021-09-22]. https://arxiv.org/pdf/1301.3781.pdf.

[25]JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [EB/OL]. (2016-08-09) [2021-08-19]. https://arxiv.org/pdf/1607.01759.pdf.

[26]PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation [C]//EMNLP. 2014: 1532-1543.

[27]PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [EB/OL]. (2018-03-2(2) [2021-08-26]. https://arxiv.org/pdf/1802.05365.pdf.

[28]RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL].

[2021-08-26].???????? https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
國外基于知識庫的問答系統(tǒng)相關研究進展及其啟示
基于依存句法的實體關系抽取
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學規(guī)范化
漢哈機器翻譯中的文字轉(zhuǎn)換技術研究
HowNet在自然語言處理領域的研究現(xiàn)狀與分析
松江区| 临沂市| 酉阳| 吉安县| 周宁县| 易门县| 淳安县| 旬邑县| 包头市| 衡山县| 八宿县| 吉林省| 霞浦县| 泰安市| 云浮市| 白河县| 浪卡子县| 稷山县| 大城县| 青龙| 巫溪县| 济南市| 太湖县| 临海市| 德清县| 临漳县| 定边县| 台前县| 拜泉县| 贡嘎县| 惠州市| 天津市| 荆门市| 大埔区| 泰州市| 安陆市| 曲靖市| 本溪| 丰台区| 壶关县| 高雄市|