国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型

2021-03-03 09:24:26單婭輝田迎張龑
關(guān)鍵詞:實(shí)例圖譜實(shí)體

單婭輝,田迎,張龑

(1.湖北大學(xué)計算機(jī)與信息工程學(xué)院,湖北 武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心,湖北 武漢 430062;3.績效評價信息管理研究中心(湖北大學(xué)),湖北 武漢 430062)

0 引言

隨著我國信息技術(shù)的發(fā)展,通過新興技術(shù)來直接或間接影響傳統(tǒng)教育教學(xué)方式,已成為教育信息化的新熱點(diǎn).2012年,Google提出“Google Knowledge Graph”后,知識圖譜在各個領(lǐng)域受到了廣泛的關(guān)注,其中教育領(lǐng)域知識圖譜更是在近年來成為研究熱點(diǎn).在構(gòu)建中文教育領(lǐng)域知識圖譜的過程中,面對急劇增長的數(shù)據(jù),中文實(shí)體關(guān)系抽取成為其中的難點(diǎn)之一.

傳統(tǒng)的關(guān)系抽取方法主要包括兩類,一類是基于規(guī)則匹配的方法,另一類是基于深度學(xué)習(xí)的方法.其中基于規(guī)則匹配的方法是定義了一種表達(dá)實(shí)體關(guān)系的規(guī)則模版,然后在數(shù)據(jù)中找到與該模版相匹配的實(shí)體及關(guān)系.該方式對數(shù)據(jù)要求較高且靈活性很差[1],已逐漸被深度學(xué)習(xí)的方法所取代.基于深度學(xué)習(xí)的方法目前流行的包括有監(jiān)督的方法和遠(yuǎn)程監(jiān)督的方法[2].其中,有監(jiān)督的關(guān)系抽取方法主要是利用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型能夠自動學(xué)習(xí)文本的特征,改善了經(jīng)典方法中需要人工特征選擇的缺點(diǎn)[3].遠(yuǎn)程監(jiān)督的關(guān)系抽取方法是將大量無標(biāo)注的數(shù)據(jù)自動對準(zhǔn)已標(biāo)注的知識庫來自動標(biāo)注數(shù)據(jù)來提高關(guān)系抽取的效率.該方法的前提是,如果兩個實(shí)體間存在已定義的某種關(guān)系,那么所有包含這兩個實(shí)體的文本都存在該關(guān)系[4].Mintz等[5]提出使用Freebase知識庫與維基百科中的文本來對齊,獲取實(shí)體及其關(guān)系的三元組.在該前提下,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取能夠自動獲取大量的訓(xùn)練實(shí)例,但是同時也不可避免地存在許多噪聲數(shù)據(jù).王斌等[6]用遠(yuǎn)程監(jiān)督的方法進(jìn)行關(guān)系抽取時,通過采用LDA(latent dirichlet allocation)模型、對比類型相似度和對關(guān)鍵詞進(jìn)行模式匹配去噪.Surdeanu等[7]提出加入多標(biāo)簽來減少噪聲數(shù)據(jù)對關(guān)系抽取性能的影響.Lin等[8]提出在加入注意力機(jī)制在訓(xùn)練過程中通過動態(tài)調(diào)整各實(shí)例的權(quán)重來降低噪聲數(shù)據(jù)的權(quán)重,從而減少錯誤實(shí)例對關(guān)系抽取模型性能的影響.

以上方式大多是基于英文語料或者中文通用語料上[9]提出的模型,而在中文教育領(lǐng)域,楊玉基等[10]提出在構(gòu)建領(lǐng)域知識圖譜過程中使用有監(jiān)督、無監(jiān)督、遠(yuǎn)程監(jiān)督多種方法來進(jìn)行關(guān)系抽取,最后使用大量人工標(biāo)注來獲取高質(zhì)量數(shù)據(jù),耗費(fèi)時間精力.黃煥等[11]在構(gòu)建java知識圖譜的過程中采用人工定義關(guān)系類型,且在識別實(shí)體關(guān)系的過程中采用手工標(biāo)注關(guān)系的方式,雖然保證了數(shù)據(jù)的準(zhǔn)確性,但適用性不強(qiáng).本研究提出的實(shí)體關(guān)系抽取模型適用于中文基礎(chǔ)教育中的科目,將高質(zhì)量的教材教輔通過文本處理成已標(biāo)注的知識庫,通過遠(yuǎn)程監(jiān)督能夠獲取大量數(shù)據(jù)并自動標(biāo)注,加入的句子層注意力更能有效減少噪聲數(shù)據(jù)對于關(guān)系抽取性能的影響.

1 遠(yuǎn)程監(jiān)督構(gòu)建關(guān)系語料庫

由于中文領(lǐng)域公開的可供使用的數(shù)據(jù)很少,而基礎(chǔ)教育領(lǐng)域的就更少見,所以首先利用教育部發(fā)布的基礎(chǔ)教育的教材教輔,將其轉(zhuǎn)換成可供使用的電子文本;然后結(jié)合網(wǎng)絡(luò)爬蟲從百度百科上獲取的網(wǎng)頁數(shù)據(jù),通過預(yù)處理得到關(guān)系實(shí)體對以及包含實(shí)體對的文本集;最后選取其中一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)對關(guān)系抽取模型進(jìn)行訓(xùn)練,另一部分作為測試數(shù)據(jù)來檢測模型關(guān)系抽取的效果.構(gòu)建流程如圖1所示.

圖1 構(gòu)建流程

1.1 構(gòu)建信息技術(shù)知識庫基于教育部發(fā)布的基礎(chǔ)教育中信息技術(shù)學(xué)科的教材教輔,利用OCR技術(shù)將圖像中的文字轉(zhuǎn)換成文本格式存儲,使用詞頻-逆向文件頻率[12](term frequency-inverse document frequency,TF-IDF)算法和 TextRank[13]算法對文本集進(jìn)行關(guān)鍵詞抽取,TF-IDF算法是一個統(tǒng)計詞語在該文件中的重要程度的方法,其核心思想是詞語的重要性與它在該文件中出現(xiàn)的次數(shù)成正比,同時與它在語料庫中出現(xiàn)的次數(shù)成反比.TF-IDF算法考慮了詞語出現(xiàn)的頻率等因素,但是沒有考慮與其他詞語的關(guān)聯(lián)性,而TextRank算法就考慮到了詞語之間的關(guān)聯(lián)程度.TextRank算法起源于Google團(tuán)隊的PageRank算法,其核心思想是,如果網(wǎng)頁節(jié)點(diǎn)代表一個字詞,那么這個詞語的重要性與連接其他詞語的多少和與它連接的詞語權(quán)值的高低成正比.

分別使用以上兩種算法對文本進(jìn)行關(guān)鍵詞提取,得到了“數(shù)據(jù)庫”“信息安全”“信息資源管理”“計算機(jī)病毒”等核心概念,但同時也得到了一些出現(xiàn)頻率高,卻不是核心概念的詞,如“學(xué)生”“方法”“過程”等.結(jié)合信息技術(shù)領(lǐng)域?qū)<业闹笇?dǎo),得到最終的學(xué)科實(shí)體并且定義了基礎(chǔ)教育領(lǐng)域信息技術(shù)中實(shí)體的2種屬性關(guān)系:“同級”“父級”.如表1所示,構(gòu)建了包括2種屬性關(guān)系及其對應(yīng)的3 563個實(shí)例的知識庫.

表1 關(guān)系及其對應(yīng)實(shí)例

1.2 構(gòu)建關(guān)系實(shí)例集在遠(yuǎn)程監(jiān)督構(gòu)建關(guān)系實(shí)例集中,如果我們文本集中的句子包含的實(shí)體對在知識庫中有對應(yīng)的關(guān)系,那么我們認(rèn)為該句子可以描述此關(guān)系.以關(guān)系實(shí)體對<信息技術(shù),傳感技術(shù),父級>為例,可以在文本集中找到包含“信息技術(shù)”和“傳感技術(shù)”的句子:1)[傳感技術(shù)]同計算機(jī)技術(shù)與通信一起被稱為[信息技術(shù)]的三大支柱;2)[信息技術(shù)]包括[傳感技術(shù)],通信技術(shù)和電子計算機(jī)技術(shù)等,將這兩個句子分別提取出來,作為“父級”關(guān)系的兩個實(shí)例,“信息技術(shù) 傳感技術(shù) 父級 傳感技術(shù)同計算機(jī)技術(shù)與通信一起被稱為信息技術(shù)的三大支柱”,“信息技術(shù) 傳感技術(shù) 父級 信息技術(shù)包括傳感技術(shù),通信技術(shù)和電子計算機(jī)技術(shù)等”,為了方便模型訓(xùn)練,我們將關(guān)系實(shí)例的各個部分用空格符分割,這些關(guān)系實(shí)例構(gòu)成我們使用的關(guān)系實(shí)例數(shù)據(jù)集.

2 關(guān)系抽取模型設(shè)計

本研究提出一種面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型,基于權(quán)威教材教輔和遠(yuǎn)程監(jiān)督構(gòu)建的關(guān)系數(shù)據(jù)集,轉(zhuǎn)化成詞向量模型供模型訓(xùn)練,通過雙向門限循環(huán)單元獲得句子上下文語義,引入句子層注意力機(jī)制來動態(tài)降低句子噪聲權(quán)重,提升了關(guān)系抽取模型的準(zhǔn)確率.模型訓(xùn)練算法如圖2所示.

圖2 模型訓(xùn)練流程

2.1 詞向量映射訓(xùn)練為了將數(shù)據(jù)轉(zhuǎn)換成模型可識別的形式,我們需要將文本數(shù)據(jù)向量化.Mikolov等[14]提出了分布式的詞向量表征word2vec,即一個詞用一個低維向量來表示,詞與詞之間的相似性可以通過向量之間的相關(guān)性表示,其中包括2個模型,連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型和Skip-Gram模型,由于Skip-Gram模型在語義關(guān)系識別方面效果較好,所以本研究采用word2vec中的Skip-Gram模型來對詞向量模型進(jìn)行訓(xùn)練,使用知識庫中所有的三元組來進(jìn)行訓(xùn)練,其中模型參數(shù)設(shè)置的窗口數(shù)為5,向量維度為200.

2.2 BI-GRU傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)通過權(quán)重矩陣使神經(jīng)網(wǎng)絡(luò)具備了記憶功能,但是由于梯度爆炸和梯度消失的存在,它不能記憶太前和太后的內(nèi)容.GRU 網(wǎng)絡(luò)是由 Chung等[15]對 LSTM 網(wǎng)絡(luò)(一種循環(huán)神經(jīng)網(wǎng)絡(luò))進(jìn)行改進(jìn)得到的一種結(jié)構(gòu),由于門控機(jī)制,很大程度上彌補(bǔ)了梯度爆炸或梯度消失所帶來的損失,同時它簡化了LSTM網(wǎng)絡(luò),只有更新門(update gates)和重置門(reset gates)兩種門結(jié)構(gòu),因此參數(shù)更少,也更容易收斂。其內(nèi)部結(jié)構(gòu)如圖3所示.

圖3 GRU內(nèi)部結(jié)構(gòu)

其更新表達(dá)式為:

ht=zt?ht-1+(1-zt)?h′

(1)

ht-1包含了前一時刻節(jié)點(diǎn)的相關(guān)信息,zt表示更新門,h′表示當(dāng)前時刻節(jié)點(diǎn)的相關(guān)信息,主要是包含了當(dāng)前的輸入xt.從公式中可以得到,zt能控制遺忘和記憶的信息量,它的取值范圍為0~1,越接近1,代表“記憶”下來的前一時刻節(jié)點(diǎn)信息越多;越接近0則代表“遺忘”的越多.zt計算表達(dá)式為:

zt=σ(Wz·[ht-1,xt])

(2)

σ為sigmoid函數(shù),這個函數(shù)使數(shù)據(jù)的取值范圍為0~1來表示成門控信號,重置門rt計算表達(dá)式為:

rt=σ(Wr·[ht-1,xt])

(3)

h′計算表達(dá)式為:

h′=tanh(W·[rt*ht-1,xt])

(4)

上述公式中Wz,Wr,W為權(quán)值矩陣,用于模型訓(xùn)練,xt表示當(dāng)前的輸入信息.我們通過上一個節(jié)點(diǎn)傳輸下來隱狀態(tài)的ht-1和當(dāng)前輸入的信息xt來得到更新門zt和重置門rt,然后使用重置門rt將重置之后的數(shù)據(jù)通過σ激活函數(shù)縮放到-1~1的范圍,最后由更新門zt對原本隱藏狀態(tài)的選擇性“遺忘”和對當(dāng)前信息選擇性“記憶”.

為了能夠捕獲詞語的前后特征,本研究采用雙向GRU(Bi-GRU)網(wǎng)絡(luò)作為模型的一部分來提高模型的性能,從而更好地進(jìn)行關(guān)系抽取.Bi-GRU的結(jié)構(gòu)如圖4所示.

圖4 Bi-GRU內(nèi)部結(jié)構(gòu)

在每一時刻,模型的輸入數(shù)據(jù)會同時經(jīng)過兩個方向相反的單向 GRU,而后通過它們進(jìn)行輸出.

2.3 句子層注意力使用遠(yuǎn)程監(jiān)督的方法構(gòu)建實(shí)例數(shù)據(jù)集中,自動獲取的實(shí)例有時候并不包含該關(guān)系,為了減少噪聲數(shù)據(jù)的影響,本文引入了句子層注意力機(jī)制.對于含有相同實(shí)體對的m個句子向量集合s={s1,s2,s3,…,sm},si為句子向量,句子向量為s中所有句子的加權(quán),其表達(dá)式T為:

(5)

其中,權(quán)重Ki表示句子Si與對應(yīng)關(guān)系R的相關(guān)程度,其表達(dá)式為:

ki=softmax(siAr)

(6)

其中,A為初始化的加權(quán)對角矩陣,r為對應(yīng)關(guān)系R的向量表示.

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)由于目前還沒有通用和權(quán)威的針對基礎(chǔ)教育信息技術(shù)這一領(lǐng)域的公開數(shù)據(jù)集,因此本研究基于教育部發(fā)布的教材教輔采用遠(yuǎn)程監(jiān)督的方法構(gòu)建了關(guān)系實(shí)例數(shù)據(jù)集.針對基礎(chǔ)教育知識圖譜的特性,本文中所構(gòu)建的語料包含2類屬性關(guān)系:“同級”“父級”,包含了106 332個關(guān)系實(shí)例.本研究實(shí)驗(yàn)隨機(jī)選取數(shù)據(jù)集80%的關(guān)系實(shí)例數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余的20%的關(guān)系實(shí)例作為測試數(shù)據(jù),圖5為關(guān)系實(shí)例數(shù)據(jù)集片段.

圖5 關(guān)系實(shí)例片段

3.2 評估標(biāo)準(zhǔn)本研究使用準(zhǔn)確率(PPrecision)、召回率(RRecall)、F值(F1-score)作為模型的評估標(biāo)準(zhǔn),來評估關(guān)系抽取模型的效果.其計算公式如式(7)~(9)所示:

(7)

(8)

(9)

其中,TP(true positive)表示測試集中該關(guān)系的正例被匹配到的數(shù)值,F(xiàn)P(false positive)表示測試集中該關(guān)系的正例未被匹配到的數(shù)值,F(xiàn)N(false negatives)表示測試集中該關(guān)系的負(fù)例被錯誤匹配的數(shù)值.

3.3 實(shí)驗(yàn)結(jié)果及分析為了驗(yàn)證本文中方法的有效性和適用性,設(shè)置3組實(shí)驗(yàn)進(jìn)行對比.

實(shí)驗(yàn)一:在遠(yuǎn)程監(jiān)督構(gòu)建數(shù)據(jù)的實(shí)驗(yàn)上,加入的句子層注意力機(jī)制能夠減少噪聲數(shù)據(jù),為了驗(yàn)證去噪數(shù)據(jù)和未去噪數(shù)據(jù)關(guān)系抽取效果,對于兩種關(guān)系類型,采用BIGRU與BIGRU+Attention模型進(jìn)行對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表2所示.

表2 BIGRU與BIGRU+Attention模型實(shí)驗(yàn)結(jié)果

從表2可以看出,加入了句子層注意力機(jī)制后,模型的實(shí)驗(yàn)結(jié)果指標(biāo)均有提高.主要原因是句子層注意力機(jī)制能夠減少訓(xùn)練語料的噪聲數(shù)據(jù),更有效地捕捉句子的特征,使得模型訓(xùn)練得更好,故關(guān)系抽取效果更好.

實(shí)驗(yàn)二:通過神經(jīng)網(wǎng)絡(luò)進(jìn)行遠(yuǎn)程監(jiān)督的關(guān)系抽取模型中,PCNN+ Attention模型通過加入句子層注意力來減少噪聲標(biāo)注,對于兩種關(guān)系類型,采用BIGRU+Attention與PCNN+Attention模型進(jìn)行對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表3所示.

表3 PCNN+Attention與BIGRU+Attention模型實(shí)驗(yàn)結(jié)果

從表3可以看出,在同樣加入句子層注意力機(jī)制的遠(yuǎn)程監(jiān)督方法中,相比于PCNN神經(jīng)網(wǎng)絡(luò),BIGRU神經(jīng)網(wǎng)絡(luò)模型有著更高的準(zhǔn)確率和召回率,模型提高了5%左右,這表明BIGRU模型能夠提升關(guān)系抽取的效果.

實(shí)驗(yàn)三:由于中文教育知識圖譜的實(shí)體關(guān)系不同于通用領(lǐng)域的實(shí)體關(guān)系,目前已知的一些中文教育領(lǐng)域知識圖譜實(shí)體關(guān)系使用支持向量機(jī)(SVM),條件隨機(jī)場(CRF)進(jìn)行關(guān)系抽取,為了驗(yàn)證本文中關(guān)系抽取模型對于構(gòu)建中文教育知識圖譜的適用性,在相同條件下,采用SVM和CRF模型進(jìn)行對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表4所示.

表4 SVM、CRF與本文中模型實(shí)驗(yàn)結(jié)果

從表4可以看出,本研究所提出的關(guān)系抽取模型在中文基礎(chǔ)教育數(shù)據(jù)中的關(guān)系抽取的F值更高,模型性能更好,適用性更強(qiáng).主要原因是本研究加入的句子層Attention機(jī)制能夠減少數(shù)據(jù)中的噪聲問題,同時雙向GRU能夠解決SVM模型在關(guān)系抽取的過程中丟失了詞語位置信息的缺點(diǎn).

4 結(jié)束語

本研究針對中文基礎(chǔ)教育知識圖譜中的實(shí)體關(guān)系,提出一種基于注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,為驗(yàn)證模型的性能,本研究以信息技術(shù)知識圖譜為例,構(gòu)建基于中文信息技術(shù)教材教輔的知識庫并進(jìn)行了對照試驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比于已知的知識圖譜中實(shí)體關(guān)系抽取方法,基于注意力機(jī)制的關(guān)系抽取模型能有效提高關(guān)系抽取的準(zhǔn)確率.后續(xù)工作將嘗試使用該模型參與中文基礎(chǔ)教育知識圖譜的構(gòu)建,提高知識圖譜構(gòu)建效率及準(zhǔn)確率,由于中文基礎(chǔ)教育領(lǐng)域的公開數(shù)據(jù)較少,數(shù)據(jù)前期處理工作量較大,本研究使用的數(shù)據(jù)不夠全面,模型還未達(dá)到理想的抽取效果,后期將考慮采用更多更全面的數(shù)據(jù),結(jié)合更豐富的人工特征,如詞性等來改進(jìn)模型.

猜你喜歡
實(shí)例圖譜實(shí)體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
主動對接你思維的知識圖譜
完形填空Ⅱ
完形填空Ⅰ
雜草圖譜
绥棱县| 富锦市| 新蔡县| 双江| 富阳市| 长丰县| 景德镇市| 措勤县| 栾川县| 安康市| 延津县| 凉城县| 濮阳市| 仁怀市| 巴里| 桦甸市| 天气| 沙田区| 洛扎县| 奇台县| 阜平县| 阳朔县| 江达县| 崇左市| 利辛县| 繁峙县| 岚皋县| 邵东县| 鸡西市| 东乌珠穆沁旗| 天祝| 东兴市| 公主岭市| 长治市| 织金县| 南昌市| 宁陕县| 鄂尔多斯市| 渭源县| 兴安盟| 正蓝旗|