袁培森 李潤(rùn)隆 王 翀 徐煥良
(1.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,南京 210095;2.國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司,南京 210024)
植物表型組學(xué)數(shù)據(jù)分析是近年來(lái)植物學(xué)、信息科學(xué)領(lǐng)域研究的交叉熱點(diǎn),其本質(zhì)是對(duì)植物基因數(shù)據(jù)的三維時(shí)序表達(dá),以及地域分布特征和代際演進(jìn)規(guī)律[1]。表型組學(xué)指利用生物的遺傳基因組信息對(duì)生物的外部及內(nèi)部表型數(shù)據(jù)進(jìn)行研究的一門綜合性學(xué)科[2]。植物表型組學(xué)不僅研究植物的外在形狀,還研究其內(nèi)部結(jié)構(gòu)、物理和生化性質(zhì)以及遺傳信息。亟需研究建立植物表型組學(xué)數(shù)據(jù)完整知識(shí)庫(kù)的智能計(jì)算方法[3]。
中國(guó)是世界上水稻產(chǎn)量最大、消費(fèi)最多的國(guó)家[4],水稻的培育及研究是中國(guó)糧食安全戰(zhàn)略的重要內(nèi)容[5]。水稻表型組學(xué)研究是植物生物學(xué)的研究熱點(diǎn),水稻表型數(shù)據(jù)的高通量、高維、海量的數(shù)據(jù)特征對(duì)數(shù)據(jù)的快速檢索和知識(shí)的有效提取提出了更高的技術(shù)要求[6]。
知識(shí)圖譜將知識(shí)轉(zhuǎn)化為圖,利用計(jì)算機(jī)進(jìn)行推理分析,實(shí)現(xiàn)從感知智能到認(rèn)知智能的飛躍,是人工智能領(lǐng)域的一項(xiàng)重要技術(shù)[7]。知識(shí)圖譜是一個(gè)具有結(jié)構(gòu)化特征的語(yǔ)義知識(shí)庫(kù),采用符號(hào)的形式描述數(shù)據(jù)中的實(shí)體及之間的關(guān)系[8],利用對(duì)語(yǔ)義的抽取和分析,并結(jié)合數(shù)據(jù)科學(xué)、人工智能等學(xué)科的前沿技術(shù)和方法,在學(xué)科知識(shí)庫(kù)構(gòu)建領(lǐng)域獲得了廣泛關(guān)注。
對(duì)知識(shí)圖譜系統(tǒng)的構(gòu)建包括2個(gè)核心步驟:實(shí)體抽取、實(shí)體間關(guān)系的構(gòu)建,其中實(shí)體關(guān)系的構(gòu)建需要關(guān)系的抽取技術(shù)。關(guān)系抽取任務(wù)的研究目標(biāo)是自動(dòng)對(duì)兩個(gè)實(shí)體和之間聯(lián)系所構(gòu)成的3元組進(jìn)行關(guān)系識(shí)別[9]。關(guān)系抽取能夠提取文本數(shù)據(jù)中的特征,并提升到更高的層面[10]。
實(shí)體關(guān)系的抽取方法可以分為3類:基于模板、基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法[11]?;谀0宓年P(guān)系抽取方法是早期基于語(yǔ)料學(xué)知識(shí)及語(yǔ)料的特點(diǎn),由相應(yīng)領(lǐng)域的專家和研究人員手工編寫模板,這種方法需要耗費(fèi)大量專業(yè)人力,可移植性較差?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法主要包括使用核函數(shù)[12]、邏輯回歸[13]以及條件隨機(jī)場(chǎng)[14]等,是一種依賴特征工程的方法。HASEGAWA等[15]使用聚類方法計(jì)算上下文的相似性。趙明等[16]采用本體學(xué)習(xí),使用有監(jiān)督的、基于依存句法分析的詞匯-語(yǔ)法模式對(duì)百度百科植物語(yǔ)料庫(kù)進(jìn)行關(guān)系抽取,在非分類的關(guān)系抽取任務(wù)中表現(xiàn)較好,為構(gòu)建植物領(lǐng)域知識(shí)圖譜奠定了基礎(chǔ)。
基于深度學(xué)習(xí)的關(guān)系抽取方法包括遞歸神經(jīng)網(wǎng)絡(luò)模型[17]、卷積神經(jīng)網(wǎng)絡(luò)模型[18]、雙向轉(zhuǎn)換編碼表示模型(Bidirectional encoder representation from transformers, BERT)[19]等。深度學(xué)習(xí)能夠?qū)崿F(xiàn)語(yǔ)義特征的自動(dòng)提取,從而使模型能夠?qū)Σ煌橄髮哟紊系恼Z(yǔ)義進(jìn)行分析[20]。BERT為典型的深度學(xué)習(xí)模型[19],通過(guò)自動(dòng)學(xué)習(xí)句中特征信息、獲取句子向量表示,能夠?qū)λ颈硇徒M學(xué)數(shù)據(jù)進(jìn)行關(guān)系抽取。在水稻知識(shí)圖譜構(gòu)建中,區(qū)分水稻表型組學(xué)實(shí)體之間的復(fù)雜關(guān)系與水稻表型組學(xué)知識(shí)庫(kù)的構(gòu)建有關(guān)。因此,研究水稻表型組學(xué)的關(guān)系抽取十分重要。
本文使用爬蟲框架獲取水稻表型組學(xué)數(shù)據(jù),根據(jù)植物本體論提出一種對(duì)水稻的基因、環(huán)境、表型等表型組學(xué)數(shù)據(jù)進(jìn)行關(guān)系分類的方法。使用詞向量、位置向量等算法提取句中特征,在獲取水稻表型組學(xué)實(shí)體關(guān)系數(shù)據(jù)集的基礎(chǔ)上構(gòu)建基于雙向轉(zhuǎn)換編碼表示的關(guān)系抽取模型,并將本文方法與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[21]、分段卷積神經(jīng)網(wǎng)絡(luò)(Piece wise CNN,PCNN)[18]進(jìn)行對(duì)比,以期實(shí)現(xiàn)句子級(jí)別的關(guān)系抽取。
本文關(guān)系數(shù)據(jù)集主要來(lái)自國(guó)家水稻數(shù)據(jù)中心(http:∥www.ricedata.cn/)以及維基百科中文語(yǔ)料庫(kù)。數(shù)據(jù)爬取使用可對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)性數(shù)據(jù)進(jìn)行獲取以及保存的框架Scrapy[22],實(shí)現(xiàn)水稻數(shù)據(jù)中心本體系統(tǒng)以及維基關(guān)系數(shù)據(jù)集的爬取。對(duì)爬取的水稻表型數(shù)據(jù)進(jìn)行清洗處理,獲得了用于關(guān)系分類處理的水稻表型組學(xué)關(guān)系數(shù)據(jù)集,數(shù)據(jù)集詳情如表1所示。
表1 數(shù)據(jù)集來(lái)源分布
在水稻表型組學(xué)關(guān)系數(shù)據(jù)的分類問(wèn)題上,本文參照了植物本體論(Plant ontology)[23]對(duì)植物表型組學(xué)的分類,通過(guò)關(guān)系分類將水稻的解剖結(jié)構(gòu)、形態(tài)、生長(zhǎng)發(fā)育與植物基因數(shù)據(jù)聯(lián)系起來(lái),從而對(duì)水稻表型組學(xué)數(shù)據(jù)進(jìn)行分類。
本體[24]指的是在某一領(lǐng)域內(nèi)的實(shí)體與其相互間關(guān)系的形式化表達(dá),本體論是概念化的詳細(xì)說(shuō)明,它的核心作用是定義某一個(gè)領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系[25]。
植物本體論[23]是一種結(jié)構(gòu)化的數(shù)據(jù)庫(kù)資源,是用來(lái)描述植物解剖學(xué)、形態(tài)學(xué)等植物學(xué)的結(jié)構(gòu)性術(shù)語(yǔ)集合,它將植物的內(nèi)部解剖結(jié)構(gòu)、外表形態(tài)結(jié)構(gòu)等表型組學(xué)數(shù)據(jù)與植物基因組學(xué)數(shù)據(jù)聯(lián)系起來(lái),使用關(guān)系來(lái)描述基因、環(huán)境、表型之間的聯(lián)系。如今植物本體論的描述范圍從最開始的水稻單個(gè)物種擴(kuò)大到了22種植物,對(duì)這些植物的基因或基因模型、蛋白質(zhì)、RNA、種質(zhì)等表型和基因數(shù)據(jù)進(jìn)行描述。本文依據(jù)其分類規(guī)則,將水稻表型組學(xué)數(shù)據(jù)分為7類:①is a,用來(lái)表示父術(shù)語(yǔ)以及子術(shù)語(yǔ)之間的關(guān)系,表示對(duì)象O1是O2的子類型或亞型。②has part,用來(lái)表示對(duì)象O1的每個(gè)實(shí)例都有一部分O2的實(shí)例。③has a morphology trait,表示O1通過(guò)O2的形態(tài)特征表現(xiàn)出來(lái)。④develop from,表示O1從O2發(fā)育而來(lái),O2的世系可以追溯到O1。⑤participate,表示實(shí)體O1的每個(gè)實(shí)例都參與開發(fā)O2的某些實(shí)例。⑥r(nóng)egulate,O1對(duì)O2有調(diào)節(jié)或調(diào)控作用。⑦other,表示其他關(guān)系。
分類完成后的關(guān)系抽取數(shù)據(jù)集示例如表2所示。表2中,ddu1(Dwarf and disproportionate uppermost-internode1)為使用甲基磺酸乙酯誘變粳稻品種蘭勝而成的矮化突變體的品種名稱;SPL5(Spotted leaf 5)為經(jīng)γ射線輻射誘導(dǎo)粳稻品種Norin 8而成的水稻類病變突變體的品種名稱;FLW1(Flag leaf width NAL1)為劍葉寬度基因。最后,將數(shù)據(jù)集按8∶2分為訓(xùn)練集和測(cè)試集。
表2 關(guān)系抽取數(shù)據(jù)集示例
水稻實(shí)體及關(guān)系采用圖方式進(jìn)行建模以及數(shù)據(jù)存儲(chǔ),本文使用圖數(shù)據(jù)庫(kù)Neo4j[26]存放實(shí)體和關(guān)系數(shù)據(jù)。Neo4j的核心概念是節(jié)點(diǎn)和邊,節(jié)點(diǎn)用來(lái)存儲(chǔ)實(shí)體,使用圓形圖例表示,邊用來(lái)存儲(chǔ)關(guān)系數(shù)據(jù)結(jié)構(gòu)中實(shí)體之間的關(guān)系,使用帶箭頭的線表示。不同實(shí)體以及關(guān)系的相互連接形成復(fù)雜的數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)對(duì)某個(gè)實(shí)體進(jìn)行關(guān)系的完整增刪改查等功能。
對(duì)收集的數(shù)據(jù)集進(jìn)行預(yù)處理,提取2 021個(gè)實(shí)體和2 689條關(guān)系,通過(guò)Cypher語(yǔ)言[27]進(jìn)行快速的查詢工作。圖1為Neo4j數(shù)據(jù)庫(kù)存儲(chǔ)的水稻表型組學(xué)關(guān)系示例。由于實(shí)體名稱較長(zhǎng),圖1中的“12號(hào)染…”為12號(hào)染色體;“等位基因…”為等位基因STV11-S。
本文BERT關(guān)系抽取模型使用詞向量、位置向量以及句子向量相結(jié)合的輸入向量序列,不僅能簡(jiǎn)單獲取詞語(yǔ)語(yǔ)義上的特征,而且能夠?qū)ι顚哟握Z(yǔ)義進(jìn)行表示和抽取。
2.1.1詞向量
本文使用BERT模型中的詞嵌入方式來(lái)動(dòng)態(tài)產(chǎn)生詞向量,即將詞轉(zhuǎn)化為稠密的向量。通過(guò)這種詞嵌入方式,該模型能夠根據(jù)上下文預(yù)測(cè)中心詞的方式來(lái)獲得動(dòng)態(tài)的語(yǔ)義特征,以解決傳統(tǒng)詞嵌入模型產(chǎn)生的多義詞局限性,可以產(chǎn)生更精確的特征表示,從而提高模型性能。
BERT的詞向量生成方法如下:給定語(yǔ)句序列s=w0,w1,…,wn。其中w0=[CLS]、wn=[SEP]表示句子的開始以及結(jié)束。模型將原有的序列映射為具有固定長(zhǎng)度的向量來(lái)表示語(yǔ)義關(guān)系。
2.1.2位置向量
設(shè)句子為s=w0,w1,…,wn,實(shí)體為i1與i2,則對(duì)于每一個(gè)單詞wi,計(jì)算其與i1、i2的相對(duì)距離,即i-i1和i-i2,使得該句子可以根據(jù)兩個(gè)實(shí)體生成兩部分的位置向量,并且能體現(xiàn)距離和實(shí)體的關(guān)系。本文使用的位置向量維度為50。
2.1.3句子向量
句子向量按照句子的數(shù)目進(jìn)行標(biāo)記,對(duì)于第1條句子的每個(gè)單詞添加向量v1,給第2條句子中的每個(gè)單詞添加一個(gè)向量v2。
2.1.4輸入表示
BERT模型的輸入示例如圖2所示。圖2中的BERT模型輸入的句子為“稻是谷類,原產(chǎn)中國(guó)與印度”,模型生成每個(gè)詞的詞向量,根據(jù)每個(gè)詞與實(shí)體之間的距離生成句向量,根據(jù)句子的條數(shù)生成對(duì)應(yīng)的句向量,將此作為BERT模型的輸入。
BERT是以Transformer的編碼器為基礎(chǔ)的雙向自注意力機(jī)制表示模型,能夠?qū)λ袑踊谏舷挛倪M(jìn)行雙向表示。BERT模型使用雙向自注意力機(jī)制來(lái)進(jìn)行構(gòu)建,使用Transformer的編碼器來(lái)進(jìn)行編碼,并且使用遮擋語(yǔ)言模型以及下一句預(yù)測(cè)兩個(gè)方法來(lái)更有效地訓(xùn)練模型。
2.2.1雙向自注意力機(jī)制
BERT使用雙向自注意力機(jī)制[28]進(jìn)行構(gòu)建。雙向自注意力機(jī)制是注意力機(jī)制中的一種,注意力機(jī)制在自然語(yǔ)言處理領(lǐng)域的多個(gè)任務(wù)得到了實(shí)際應(yīng)用。注意力機(jī)制可以描述為一個(gè)查詢Q到相應(yīng)鍵值對(duì)〈K,V〉的一個(gè)映射過(guò)程[29],可描述為
At(Q,K,V)=Sf(Sm(Q,K))V
(1)
式中At——注意力機(jī)制函數(shù)
Sf——Softmax函數(shù)
Sm——相似度函數(shù)
注意力值的計(jì)算過(guò)程可分為3部分:①首先計(jì)算查詢Q和每個(gè)鍵K之間的相似度S,獲得權(quán)重,使用的相似度計(jì)算函數(shù)有點(diǎn)積、拼接以及感知機(jī)。②使用Softmax函數(shù)進(jìn)行權(quán)重歸一化。③將權(quán)重以及鍵值對(duì)中的值V進(jìn)行加權(quán),獲得最終的注意力值。自注意力機(jī)制即檢索自身的鍵值對(duì)進(jìn)行加權(quán)處理,Q=K=V,將序列進(jìn)行重新編碼,獲得更具整體性的特征序列[30]。自注意力機(jī)制的結(jié)構(gòu)圖如圖3所示。
自注意力機(jī)制將輸入序列通過(guò)向量映射的方式輸入到嵌入層,注意力層進(jìn)行查詢向量和值向量的相似度計(jì)算,Softmax層使用函數(shù)加權(quán)后將序列輸出。BERT所用的多頭自注意力機(jī)制在輸入到注意力層之前對(duì)查詢Q、鍵K以及值V進(jìn)行多次線性變換,線性變換的次數(shù)即為多頭,多頭自注意力機(jī)制可以獲得多種序列的子特征,進(jìn)而獲得較長(zhǎng)序列中的相隔較遠(yuǎn)的向量特征[31]。
2.2.2Transformer編碼器
BERT使用Transformer編碼器進(jìn)行編碼,Transformer[32]通過(guò)對(duì)語(yǔ)義信息以及位置信息的分析來(lái)完成自然語(yǔ)言處理任務(wù),其框架為編碼器加解碼器結(jié)構(gòu)。其中,編碼器框架使用了層疊結(jié)構(gòu),每一層有兩部分:進(jìn)行加權(quán)處理的多頭注意力機(jī)制和進(jìn)行前饋化網(wǎng)絡(luò)的全連接層,在兩部分之間使用殘差進(jìn)行連接然后進(jìn)行標(biāo)準(zhǔn)化。解碼器的層數(shù)與編碼器相同,同時(shí)在每一層之內(nèi)還添加了一個(gè)進(jìn)行計(jì)算翻譯效果的部分。Transformer編碼器結(jié)構(gòu)圖如圖4所示,圖中N×表示編碼器或解碼器包含的層數(shù)。
Transformer編碼器由3部分組成:①首先對(duì)輸入句子進(jìn)行向量化,將詞嵌入到編碼器中。②編碼器接受向量序列,隨后使用自注意力機(jī)制對(duì)序列進(jìn)行處理,通過(guò)對(duì)序列中所有單詞之間建立聯(lián)系來(lái)進(jìn)行序列編碼,處理后的序列通過(guò)殘差網(wǎng)絡(luò)進(jìn)行求和與歸一化。③自注意力機(jī)制結(jié)束以后,輸入到全連接的前饋網(wǎng)絡(luò)中,輸出標(biāo)準(zhǔn)化后的向量。
BERT模型使用多個(gè)Transformer編碼器進(jìn)行編碼,編碼器輸出后進(jìn)入到一個(gè)全連接層與激活函數(shù)構(gòu)成的分類層并輸出相應(yīng)的概率[33]。圖5是對(duì)水稻表型進(jìn)行編碼示例,輸入的句子為“產(chǎn)量性狀是與植物可收獲產(chǎn)物相關(guān)的性狀”。
BERT模型在使用過(guò)程中,僅需要在編碼器后面加上一層全連接層就能夠完成關(guān)系抽取任務(wù)。在后期的微調(diào)部分中,設(shè)之前遮蓋處理后的輸出向量為C,使用Softmax分類器完成關(guān)系分類的概率Pr為
Pr=Sf(CWT)
(2)
式中W——向量矩陣
對(duì)于本文的關(guān)系多分類問(wèn)題,類別標(biāo)簽y∈{1,2,…,M}。給定測(cè)試樣本x,Softmax函數(shù)預(yù)測(cè)類別c∈{1,2,…,M}的條件概率為
(3)
式中wc——權(quán)重
wi——第i類權(quán)重
p——概率
BERT模型輸出關(guān)系類別以及其對(duì)應(yīng)的概率。另外,BERT模型在預(yù)訓(xùn)練部分使用了遮擋語(yǔ)言模型以及下一句預(yù)測(cè)兩個(gè)方式來(lái)訓(xùn)練模型。
2.2.3遮擋語(yǔ)言模型
遮擋語(yǔ)言模型(Masked language model)[19]指的是在進(jìn)行BERT模型訓(xùn)練時(shí),由于進(jìn)行的注意力機(jī)制是多頭而不是單向的,如果按照CNN等模型的訓(xùn)練方式進(jìn)行訓(xùn)練,則BERT模型的訓(xùn)練將成為一個(gè)先獲得后文再進(jìn)行預(yù)測(cè)的任務(wù),無(wú)法正確獲取語(yǔ)義特征,因此進(jìn)行雙向注意力機(jī)制訓(xùn)練時(shí),BERT使用了遮擋語(yǔ)言模型,將輸入的詞進(jìn)行隨機(jī)遮蓋,從而使得雙向編碼器能夠真正對(duì)前后文進(jìn)行預(yù)測(cè)[19]。本文對(duì)15%的詞進(jìn)行遮擋,并且遵循以下規(guī)律:①被遮擋的詞有80%的概率被替換成屏蔽符號(hào)[mask]。②10%的概率被換成隨機(jī)詞。③10%的概率保持原有單詞不變。這樣后期微調(diào)部分的向量輸入不會(huì)與遮蓋處理中的向量差距太大。
2.2.4下一句預(yù)測(cè)
下一句預(yù)測(cè)(Next sentence prediction)[19]使BERT模型能夠?qū)W習(xí)下一句和上一句的內(nèi)在聯(lián)系,BERT模型在數(shù)據(jù)集中隨機(jī)選取句子S1,對(duì)于其下一句S2,有50%的概率將S2替換為無(wú)關(guān)的句子S3,以此來(lái)學(xué)習(xí)句子間的關(guān)系。
選擇Intel Corei5-8250u處理器@1.6 GHz,8 GB內(nèi)存,1 TB硬盤,Windows 10操作系統(tǒng)。
BERT模型的參數(shù)設(shè)置如表3所示。為防止模型訓(xùn)練后期的波動(dòng),學(xué)習(xí)率衰減采用了文獻(xiàn)[34]中的推薦值,設(shè)置為2×10-5。
表3 BERT模型參數(shù)設(shè)置
梯度下降算法(Gradient descent optimizer)[35]能夠幫助模型進(jìn)行目標(biāo)函數(shù)的最大化或最小化計(jì)算,一個(gè)優(yōu)秀的梯度下降算法能夠減少損失函數(shù)的值。常用的梯度下降算法有隨機(jī)梯度下降(Stochastic gradient descent,SGD)[35]、自適應(yīng)力矩估計(jì)(Adaptive moment estimation,ADAM)[36]、解耦權(quán)重衰減的自適應(yīng)矩估計(jì)(Adaptive moment estimation with decoupled weight decay,ADAMW)[37]等,本文選擇ADAMW算法。
根據(jù)植物本體論進(jìn)行實(shí)體關(guān)系數(shù)據(jù)的分類,共獲得7大類、2 689條關(guān)系數(shù)據(jù),類型有:is a、has part、has a morphology trait、develop from、participate、regulate、other。各個(gè)關(guān)系類型的數(shù)量及分布如表4所示。
表4 水稻表型組學(xué)關(guān)系數(shù)據(jù)集的數(shù)量分布
使用精度(Precision,P)、召回率(Recall,R)、F1值(F1)作為評(píng)價(jià)指標(biāo),將BERT與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型[21]與分段卷積神經(jīng)網(wǎng)絡(luò)模型[18]進(jìn)行對(duì)比。
本部分對(duì)梯度下降算法[35]、批尺寸[38]和表2中的關(guān)系進(jìn)行了試驗(yàn)分析測(cè)試。
3.5.1梯度下降算法
對(duì)于BERT關(guān)系抽取模型,本文進(jìn)行了梯度下降算法的對(duì)比,選擇批(Batch)尺寸為8,3種梯度下降算法在BERT模型上的結(jié)果如圖6所示。
由圖6可以看出,ADAMW的精度、召回率和F1值比SGD和ADAM高,SGD最低,3個(gè)指標(biāo)均在60%左右。ADAM和ADAMW都在94%以上。
3.5.2批尺寸
選擇批尺寸分別為8、16、32、64進(jìn)行試驗(yàn),選擇ADAMW作為梯度下降算法,其在BERT模型上的結(jié)果如表5所示。
由表5可知,批尺寸為8時(shí),ADAMW算法的精度達(dá)到了95.11%,召回率為96.61%,F(xiàn)1值為95.85%。相比批尺寸為16、32、64,精度分別提高了0.52、0.63、0.88個(gè)百分點(diǎn);F1值分別提高1.04、0.22、1.23個(gè)百分點(diǎn)。
表5 不同批尺寸在BERT模型上的對(duì)比
3.5.3不同關(guān)系類型的處理結(jié)果
本試驗(yàn)批尺寸為8,BERT模型使用ADAMW算法對(duì)本文數(shù)據(jù)集上的不同關(guān)系抽取結(jié)果進(jìn)行對(duì)比,結(jié)果如表6所示。
表6 BERT模型對(duì)不同關(guān)系的處理結(jié)果
由表6可知,BERT模型對(duì)于不同關(guān)系的F1值都不低于60.02%,但是對(duì)于不同關(guān)系的處理效果也不同。其中,對(duì)于has part、is a、other、regulate關(guān)系分類效果較好,其F1值都不小于73.33%,而對(duì)于develop from、participate、has a morphology trait的分類效果相對(duì)較差。在7種關(guān)系中,is a關(guān)系類型的測(cè)試結(jié)果最佳,其F1值達(dá)到了92.83%,是develop from類型的1.546 7倍。develop from、has a morphology trait和participate 分類效果較差的原因是這3個(gè)關(guān)系類別的數(shù)據(jù)庫(kù)中關(guān)系數(shù)較少,且數(shù)據(jù)集中各個(gè)類別的分布不均衡。其解決方法有:①通過(guò)增加這3個(gè)類別實(shí)體關(guān)系數(shù)據(jù)使BERT模型提取更多有效的語(yǔ)義和詞匯特征。②將各個(gè)關(guān)系數(shù)據(jù)的條數(shù)進(jìn)行調(diào)整,保持各個(gè)類別實(shí)體關(guān)系數(shù)據(jù)的數(shù)量均衡。
本文將CNN[21]、PCNN[18]與BERT模型進(jìn)行對(duì)比,CNN和PCNN模型的參數(shù)設(shè)置如表7所示。
表7 CNN和PCNN模型參數(shù)設(shè)置
CNN在批尺寸為16時(shí),使用SGD算法時(shí)獲得最高精度、召回率與F1值,精度為81.79%,召回率為82.35%,F(xiàn)1值為82.07%。PCNN的批尺寸為16,使用SGD算法時(shí),獲得最高精度、召回率與F1值,精度為85.95%,召回率為81.67%,F(xiàn)1值為83.66%。BERT模型在隱藏層數(shù)量為1 536、最大序列長(zhǎng)度為80、學(xué)習(xí)率衰減為2×10-5、訓(xùn)練輪數(shù)為5、批尺寸為8、梯度下降算法為ADAMW時(shí),關(guān)系抽取的精度、召回率與F1值達(dá)到最優(yōu),精度為95.11%,召回率為96.61%,F(xiàn)1值為95.85%。
BERT在精度、召回率以及F1值上都明顯高于其他兩種模型,其F1值是CNN的1.17倍、PCNN的1.15倍。
綜上所述,在使用BERT模型進(jìn)行水稻表型組學(xué)數(shù)據(jù)關(guān)系抽取時(shí),BERT模型能夠根據(jù)上下文預(yù)測(cè)中心詞的方式來(lái)獲得動(dòng)態(tài)的詞向量,使用自注意力機(jī)制獲得雙向的語(yǔ)義特征,大幅度提高了關(guān)系抽取的質(zhì)量。
本文基于植物本體論提出基于水稻表型組學(xué)的關(guān)系分類方法,將水稻表型的實(shí)體關(guān)系分為7類,使用詞向量、位置向量以及句子向量進(jìn)行句子特征抽取,構(gòu)建BERT模型,并將BERT模型與CNN、PCNN模型進(jìn)行對(duì)比。結(jié)果表明,BERT模型的精度、召回率與F1值分別為95.11%、96.61%和95.85%,達(dá)到了預(yù)期分類效果。