国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MacBERT的徽派古建筑修繕文本實(shí)體識(shí)別方法研究

2023-12-25 03:25:04夏青石明鈞
電腦知識(shí)與技術(shù) 2023年31期
關(guān)鍵詞:知識(shí)圖譜

夏青 石明鈞

摘要:伴隨著中國(guó)幾十年的城市化進(jìn)程,越來越多的傳統(tǒng)建筑消失在歷史的長(zhǎng)河中。具有鮮明中國(guó)特色的徽派古建筑也難以幸免。當(dāng)前的徽派古建筑修繕知識(shí)常以紙質(zhì)書籍、電子書、數(shù)據(jù)庫(kù)等形式存儲(chǔ),并且專業(yè)名詞多,傳統(tǒng)搜索引擎很難滿足用戶精準(zhǔn)檢索知識(shí)的需求。文章提出基于MacBERT的命名實(shí)體識(shí)別方法,對(duì)徽派建筑修繕內(nèi)容進(jìn)行知識(shí)抽取,解決修繕實(shí)體界限不明顯、種類復(fù)雜的問題;基于Neo4j圖數(shù)據(jù)庫(kù)構(gòu)建徽派建筑修繕知識(shí)圖譜,將知識(shí)體系化管理,提出用戶自然語言問句查詢知識(shí)圖譜方法,實(shí)現(xiàn)知識(shí)效用最大化。

關(guān)鍵詞:知識(shí)圖譜;徽派古建筑;MacBERT;Neo4j;實(shí)體識(shí)別

中圖分類號(hào):TP399? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2023)31-0044-04

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :<G:\飛翔打包文件一\電腦2023年第三十一期打包文件\9.01xs202331\Image\image248.jpeg>

0 引言

徽派古建筑的修繕不同于現(xiàn)代建筑,它要求施工人員掌握復(fù)雜的修繕知識(shí),同時(shí)充分了解相關(guān)的歷史文化和當(dāng)?shù)厝宋娘L(fēng)俗。而這些對(duì)施工人員來說是一個(gè)巨大的挑戰(zhàn)?;ヂ?lián)網(wǎng)的出現(xiàn)給施工人員查找相關(guān)信息提供了一個(gè)巨大的平臺(tái),通過互聯(lián)網(wǎng)可以獲得大量的相關(guān)信息。而這些相關(guān)信息卻要人工篩查甄別,這無形中增加了繁重的工作量,這對(duì)緊迫的工期而言是相當(dāng)不利的。通過創(chuàng)建徽派建筑修繕知識(shí)圖譜幫助施工人員獲得準(zhǔn)確有用的信息,把施工人員從繁重的信息篩查任務(wù)中解放出來,保存足夠的精力去及時(shí)地完成園林修繕任務(wù)。目前徽派建筑修繕研究涉及建筑材料、建筑構(gòu)造和建筑修繕技術(shù)等方面。王婧等[1]研究徽派建筑根據(jù)灰磚的材料性能及其受潮老化的特點(diǎn),并提出新的抗老化材料;周亮等[2]利用三維激光掃描技術(shù)和BIM技術(shù)對(duì)宣城徽派建筑進(jìn)行數(shù)字化建模,并開發(fā)了修繕決策支持系統(tǒng)。

1 相關(guān)理論與技術(shù)

1.1 知識(shí)圖譜

知識(shí)圖譜是用于揭示知識(shí)之間關(guān)系圖形化數(shù)據(jù)庫(kù)。構(gòu)建知識(shí)圖譜分為6個(gè)部分:第一部分是知識(shí)抽取,從不同類型數(shù)據(jù)中抽取實(shí)體、關(guān)系和屬性信息。第二部分是知識(shí)融合,將多源異構(gòu)的知識(shí)進(jìn)行整合[3]。第三部分是知識(shí)表示,將知識(shí)客體中的知識(shí)通過含有語義關(guān)系的符號(hào)或圖形進(jìn)行表示。第四部分是知識(shí)推理,根據(jù)現(xiàn)有知識(shí)推斷出潛在內(nèi)容。第五部分是知識(shí)存儲(chǔ),將處理完成的數(shù)據(jù)存儲(chǔ)在圖數(shù)據(jù)庫(kù)。第六部分是知識(shí)計(jì)算與應(yīng)用。

知識(shí)圖譜依據(jù)知識(shí)的覆蓋面不同,可以劃分為兩種類型圖譜,一種為覆蓋知識(shí)面廣泛的通用型知識(shí)圖譜,如WordNet,數(shù)據(jù)來源廣泛,知識(shí)深度低;另一種為覆蓋領(lǐng)域知識(shí)的行業(yè)知識(shí)圖譜,如化工領(lǐng)域、建筑領(lǐng)域和消防領(lǐng)域等,面對(duì)不同行業(yè),實(shí)體類型需要單獨(dú)定義主要用于自定義的領(lǐng)域數(shù)據(jù)集,因?yàn)槠鋺?yīng)用的功能主要是智能問答、輔助決策。

1.2 預(yù)訓(xùn)練語言模型

在圖像識(shí)別領(lǐng)域,將圖片轉(zhuǎn)換為矩陣形式存儲(chǔ),然后在深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行卷積、池化、全連接等操作,最后進(jìn)行圖像分類。計(jì)算機(jī)對(duì)于文本的轉(zhuǎn)化,是采用詞向量的方式,將一個(gè)文字轉(zhuǎn)化為N×1的二維向量,對(duì)于一句話而言,包含若干個(gè)字詞,則將每個(gè)詞的向量,依次排列組成一個(gè)三維矩陣。

MacBERT(MLM as correction BERT) ,由哈爾濱工業(yè)大學(xué)SCIR實(shí)驗(yàn)室于2020年11月提出,從名字可以看出MacBERT 修改了BERT模型的MLM任務(wù)。MacBERT 模型通過用近義詞來掩蓋單詞,MacBERT 模型調(diào)整了 BERT 模型的掩碼語言模型預(yù)測(cè)任務(wù),一是對(duì)所有單詞都添加[mask]標(biāo)識(shí)符以及 Ngram masked 策略來選擇屏蔽的單詞[4]。二是對(duì)15%的單詞進(jìn)行屏蔽,15%的單詞中的80%替換為近義詞(使用Synonyms toolkit工具獲?。?,其余的20%中有一半替換為隨機(jī)的單詞,剩下的一半則為原來的單詞,可見這種方式在預(yù)訓(xùn)練時(shí)沒有[MASK]標(biāo)識(shí)符的身影,然后模型根據(jù)上下文進(jìn)行單詞預(yù)測(cè)。這種修改的MLM方法可以縮小訓(xùn)練階段與微調(diào)階段之間的差距,提升模型的性能。

2 基于MacBERT的徽派古建筑修繕文本實(shí)體識(shí)別

本文的命名實(shí)體識(shí)別任務(wù)就是將與徽派建筑修繕相關(guān)的文獻(xiàn)中存在的實(shí)體進(jìn)行識(shí)別。例如文中有這樣一句話:“門扇裂縫宜使用木條嵌補(bǔ)”。此時(shí)我們希望能夠識(shí)別的實(shí)體應(yīng)包括以下部分:徽派建筑修繕品類實(shí)體“門扇”,修繕狀態(tài)實(shí)體“裂縫”,修繕材料實(shí)體“木條”,修繕方法實(shí)體“嵌補(bǔ)”。

為了獲得更高的實(shí)體識(shí)別率,本文設(shè)計(jì)并使用MacBERT-BiLSTM-IDCNN-CA-CRF命名實(shí)體識(shí)別模型(簡(jiǎn)稱MBICC),其有以下幾點(diǎn)優(yōu)勢(shì):

1) 為了完成字向量特征提取,本文首先使用預(yù)訓(xùn)練語言模型MacBERT,通過絕對(duì)位置編碼與句子順序預(yù)測(cè)來訓(xùn)練文本數(shù)據(jù),從而捕獲到不同維度上包含上下文信息的字向量。然后通過BiLSTM模型提取字向量特征。上述操作流程強(qiáng)化了字向量對(duì)園林修繕實(shí)體的表達(dá),實(shí)現(xiàn)了字粒度特征向量提取。

2) 由于中文的部首同樣也蘊(yùn)含著大量字義信息,為了融合建筑修繕文本的部首特征。本文通過IDCNN模型,來完成建筑修繕文本的部首級(jí)別的特征向量提取。

3) 通過引入?yún)f(xié)同注意力機(jī)制CA (Co-Attention Network)來融合字粒度特征向量與部首粒度特征向量,生成<文字-部首>對(duì)的雙相關(guān)特征,最后CRF在特征整合層的輸出向量中選擇最優(yōu)的實(shí)體標(biāo)簽序列,于是就得到了最優(yōu)的預(yù)測(cè)結(jié)果[5]。

2.1 字粒度特征提取層

傳統(tǒng)的深度學(xué)習(xí)模型通常使用Word2Vec、Glo Ve等靜態(tài)語言模型對(duì)詞進(jìn)行編碼,而對(duì)于同一個(gè)詞,靜態(tài)語言模型無法依據(jù)不同的上下文語境表達(dá)出不同的含義。但在實(shí)際生活中,一詞多義現(xiàn)象十分普遍。因此,本研究采用動(dòng)態(tài)預(yù)訓(xùn)練語言模型MacBERT對(duì)閱讀理解問題進(jìn)行預(yù)測(cè)。

2.2 部首粒度特征提取層

中文的部首結(jié)構(gòu)擁有豐富的含義,為了從文字中提取部首信息并將其編碼為向量表征,本文選擇IDCNN作為部首特征提取的訓(xùn)練模型。選擇它的理由是:卷積神經(jīng)網(wǎng)絡(luò)CNN已經(jīng)被廣泛用于文本信息的提取,并且取得了不錯(cuò)的成果。但是其仍然有不足之處,卷積神經(jīng)網(wǎng)絡(luò)的末層神經(jīng)元在卷積操作中不能夠保證百分百地獲得全部的原始信息,此時(shí)只能通過在卷積神經(jīng)網(wǎng)絡(luò)添加卷積層、超參數(shù)等操作來獲取更多的信息,這樣做的代價(jià)就是模型計(jì)算量過大并且難以訓(xùn)練。

漢字是一種象形文字,文字的偏旁部首都有其獨(dú)特的象征意義。不同領(lǐng)域的文獻(xiàn)文本往往具有自身鮮明的部首特征。例如,與園林建筑修繕相關(guān)的文獻(xiàn)文本部首信息往往與土木、屋頂、房梁相關(guān)。而與醫(yī)學(xué)相關(guān)的文獻(xiàn)文本往往與疾病、藥材、癥狀等相關(guān)。因此可以充分地利用行業(yè)領(lǐng)域文字特有的部首特性,把與園林建筑修繕相關(guān)的文字部首特性與融合語義的字向量相結(jié)合,從多個(gè)方向去提升園林修繕文本的中文命名實(shí)體識(shí)別能力。

一般來說,一本描述建筑修繕相關(guān)的文本文獻(xiàn),肯定會(huì)大量出現(xiàn)土建類的專有名詞,這些專有名詞往往會(huì)涉及建筑類型、建筑材料、建筑功能、建筑風(fēng)格等。而這些專有名詞又是中文命名實(shí)體識(shí)別的重點(diǎn)對(duì)象。通過對(duì)建筑專有名詞的歸納總結(jié)不難看出它們?cè)跐h字的部首結(jié)構(gòu)上是存在共性的。舉例來說,在建筑文獻(xiàn)中一般會(huì)出現(xiàn)“房梁”“屋頂”“樓層”“樓道”“承重墻”“窗戶”“房門”“樓梯”等詞匯,通過分析這些詞匯可知出現(xiàn)了多個(gè)與土建類相關(guān)的部首分別是“戶”“木”“土”“穴”“門”。如果此時(shí)在《新華字典》里查詢這些部首不難發(fā)現(xiàn)建筑文獻(xiàn)的絕大多數(shù)名詞都是由這些部首組成。因此,選擇將中文部首作為建筑文獻(xiàn)文本的特征向量是有助于提高中文命名實(shí)體識(shí)別的準(zhǔn)確率。

2.3 特征整合層

Co-Attention 是一種使用協(xié)同注意力機(jī)制的多模態(tài)模型,對(duì)輸入的字粒度向量和部首粒度向量進(jìn)行并列操作,并聯(lián)合學(xué)習(xí)得到各自的注意力權(quán)重。本文同時(shí)捕獲建筑向量中的文字和部首信息并進(jìn)行融合,生成<文字-部首>對(duì)的雙相關(guān)特征,使用門控多模態(tài)融合模塊自適應(yīng)進(jìn)行特征融合,為了減少在多模態(tài)中引入噪聲的可能性,利用過濾門自適應(yīng)地過濾掉無用的多模態(tài)信息,最后根據(jù)不同模式的特征組合得到一個(gè)基于字特征和基于部首特征的新特征。

2.4 基于MacBERT的命名實(shí)體識(shí)別實(shí)驗(yàn)及分析

2.4.1 實(shí)驗(yàn)數(shù)據(jù)

由于徽派建筑修繕缺少公開的中文數(shù)據(jù)集,因此,本文針對(duì)研究任務(wù)自建徽派建筑修繕數(shù)據(jù)集。該數(shù)據(jù)集選用數(shù)據(jù)主要來源于百度百科、與園林建筑修繕相關(guān)圖書和安徽建筑大學(xué)徽派建筑數(shù)字圖書館的數(shù)據(jù)。為了保證數(shù)據(jù)的完整性,本次對(duì)數(shù)據(jù)進(jìn)行分詞、去重及數(shù)據(jù)清洗等一系列預(yù)處理操作,最后經(jīng)過人工標(biāo)注得到實(shí)驗(yàn)數(shù)據(jù)集[6]。該實(shí)驗(yàn)數(shù)據(jù)集總共包含了11 986條徽派建筑修繕領(lǐng)域的句子?;张山ㄖ蘅橆I(lǐng)域共9種實(shí)體類型,分別是修繕材料(materials) 、修繕工具(tool) 、修繕規(guī)則(regulation) 、修繕方法(method) 、損毀原因(disaster) 、建筑狀態(tài)(condition) 、建筑名稱(name) 、建筑類型(type) 、修繕部位(position) 。

本數(shù)據(jù)集按照7∶2∶1比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集[7],訓(xùn)練集8 390條,測(cè)試集2 397條,驗(yàn)證集1 199條。數(shù)據(jù)集中包含實(shí)體24 503個(gè),訓(xùn)練集中有材料3 261個(gè),工具1 205個(gè),災(zāi)害896個(gè),規(guī)則207個(gè),方法631個(gè),狀態(tài)497個(gè),名稱5 166個(gè),類型408個(gè),部位4 853個(gè)。

2.4.2 對(duì)比實(shí)驗(yàn)結(jié)果與分析

為了證明本章提出的中文命名實(shí)體識(shí)別方法的有效性,基于控制變量思想,選用ALBERT-BiLSTM-CRF、BERT-BiLSTM-CRF和MacBERT-BiLSTM-CRF三種模型與本章的模型進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)的具體結(jié)果如表1所示。

1) ALBERT-BiLSTM-CRF模型,朱鵬等[8]提出將通過ALBERT層學(xué)習(xí)字級(jí)別特征表達(dá)與BiLSTM層提取文本上下文語義特征,由CRF層獲得全局最優(yōu)標(biāo)記序列,更有效地識(shí)別并提取中文地名。

2) BERT-BiLSTM-CRF模型,謝騰[9]提出了一種基于BERT-BiLSTM-CRF模型的研究方法:首先通過BERT模型預(yù)處理生成基于上下文信息的詞向量,其次將訓(xùn)練出來的詞向量輸入BiLSTM-CRF模型做進(jìn)一步訓(xùn)練處理。該模型考慮了詞上下文的語義信息,對(duì)一詞多義進(jìn)行表征。

3) MacBERT-BiLSTM-CRF模型,焦凱南等[10]提出使用能減少預(yù)訓(xùn)練和微調(diào)階段差異的MacBERT來獲得動(dòng)態(tài)字向量表達(dá),并送入BiLSTM和條件隨機(jī)場(chǎng)CRF進(jìn)行上下文特征編碼和解碼最終得到最佳實(shí)體標(biāo)簽。

由表1可得出,模型較其他三種模型,準(zhǔn)確率、精確率、F1值都有所提高,其中F1值提高了更為顯著,這因?yàn)楸灸P蛯acBERT模型作為預(yù)訓(xùn)練語言模型,并且引入?yún)f(xié)同注意力機(jī)制,其在判別器預(yù)測(cè)階段,面向句子序列中token,較其他預(yù)訓(xùn)練模型,能夠更有效地進(jìn)行訓(xùn)練。

3 徽派建筑知識(shí)圖譜構(gòu)建

在構(gòu)建層,需要將模型訓(xùn)練層得到的實(shí)體與關(guān)系三元組存入Neo4j圖數(shù)據(jù)庫(kù)中,Neo4j提供本地存儲(chǔ)與遠(yuǎn)程連接兩種方式,本文選擇本地?cái)?shù)據(jù)庫(kù)。Neo4j使用Cypher語句進(jìn)行操作數(shù)據(jù),可以通過LOAD CSV方式批量導(dǎo)入數(shù)據(jù),將標(biāo)題信息、實(shí)體、關(guān)系三元組依次寫入。將CSV格式的實(shí)體數(shù)據(jù)文件放入數(shù)據(jù)庫(kù)中的import文件夾下,使用Cypher語句進(jìn)行批量存儲(chǔ)。根據(jù)實(shí)體類型共創(chuàng)建9種實(shí)體類節(jié)點(diǎn),分別是修繕材料(materials) 、修繕工具(tool) 、修繕規(guī)則(regulation) 、修繕方法(method) 、損毀原因(disaster) 、建筑狀態(tài)(condition) 、建筑名稱(name) 、建筑類型(type) ,修繕部位(position) 。將CSV格式的關(guān)系數(shù)據(jù)文件放入數(shù)據(jù)庫(kù)中的import文件夾下,使用Cypher語句進(jìn)行批量存儲(chǔ),三元組數(shù)據(jù)中的實(shí)體已經(jīng)創(chuàng)建完成,執(zhí)行添加關(guān)系語句即可。建筑實(shí)體間的關(guān)系類型包括位于、使用、修繕依據(jù)、組成、發(fā)生、比較等。構(gòu)建完成的知識(shí)圖譜在圖數(shù)據(jù)庫(kù)中如圖1所示。

以“邊金童柱身槽朽的修繕”為例,通過展示知識(shí)圖譜內(nèi)容,獲得修繕策略。具體而言,對(duì)于邊金童柱身槽朽的情況,可以采用以下修繕措施:首先,修繕應(yīng)該按照相關(guān)建筑修繕規(guī)定進(jìn)行操作;對(duì)于槽朽部分不超過五分之一,應(yīng)該實(shí)驗(yàn)剔補(bǔ)的修繕方法,后期維護(hù)上要重點(diǎn)注意潮濕對(duì)柱身的負(fù)面影響。例子如圖2所示。

4 結(jié)論

本文著手建立徽派建筑修繕知識(shí)圖譜,先從徽派建筑修繕文獻(xiàn)入手,整合徽派建筑的建筑特色、建筑風(fēng)格、建筑類型、建筑用材等專業(yè)知識(shí),進(jìn)行知識(shí)提取,進(jìn)而構(gòu)建徽派建筑領(lǐng)域知識(shí)圖譜應(yīng)用于建筑文獻(xiàn)信息化管理,為徽派建筑行業(yè)領(lǐng)域創(chuàng)造價(jià)值。

參考文獻(xiàn):

[1] 王婧,董新民,曹福亮,等.徽派建筑灰磚潮濕老化特性及預(yù)防措施研究[J].建筑材料學(xué)報(bào),2013,16(1):73-79.

[2] 周亮,呂志華,黃永生,等.基于激光掃描與BIM技術(shù)的徽派建筑數(shù)字化修繕研究:以宣城市文保單位王氏宗祠為例[J].城市建筑, 2016(10):54-59.

[3] 謝炎宏,王亮,董春,等.面向地震災(zāi)害防治的知識(shí)圖譜構(gòu)建方法研究[J].測(cè)繪科學(xué),2021,46(10):219-226.

[4] 王雪梅,陶宏才.基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[J].成都信息工程大學(xué)學(xué)報(bào),2020,35(3):264-270.

[5] 劉樂.深度學(xué)習(xí)模型在地理命名實(shí)體識(shí)別中的應(yīng)用研究[D].天津:天津師范大學(xué),2021.

[6] 陳曉宇.基于CCRF-AL方法的中文電子病歷命名實(shí)體識(shí)別研究[D].北京:北京化工大學(xué),2019.

[7] 張婕.基于語言模型的多視角分子屬性預(yù)測(cè)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2021.

[8] 朱鵬,石麗紅,焦明連,等.混合神經(jīng)網(wǎng)絡(luò)的中文地名識(shí)別方法[J].測(cè)繪科學(xué),2021,46(11):159-165.

[9] 謝騰.面向電磁情報(bào)的信息裝備知識(shí)圖譜構(gòu)建方法研究[D].長(zhǎng)沙:國(guó)防科技大學(xué),2020.

[10] 焦凱楠,李欣,葉瀚,等.基于MacBERT-BiLSTM-CRF的反恐領(lǐng)域細(xì)粒度實(shí)體識(shí)別[J].科學(xué)技術(shù)與工程,2021,21(29):12638-12648.

【通聯(lián)編輯:梁書】

猜你喜歡
知識(shí)圖譜
國(guó)內(nèi)外智庫(kù)研究態(tài)勢(shì)知識(shí)圖譜對(duì)比分析
國(guó)內(nèi)信息素養(yǎng)研究的知識(shí)圖譜分析
國(guó)內(nèi)圖書館嵌入式服務(wù)研究主題分析
國(guó)內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢(shì)
近十五年我國(guó)小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對(duì)策
基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
國(guó)內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
專家知識(shí)圖譜構(gòu)建研究
达尔| 奇台县| 五原县| 阜新| 南靖县| 高雄市| 丹江口市| 白山市| 东兰县| 麦盖提县| 姜堰市| 黄平县| 秦皇岛市| 阆中市| 阿拉尔市| 二连浩特市| 巴楚县| 红河县| 柏乡县| 迁安市| 金坛市| 南安市| 兰西县| 呼和浩特市| 扬中市| 东平县| 阜南县| 桦甸市| 阿拉善右旗| 财经| 衡东县| 丹凤县| 克什克腾旗| 同心县| 昌乐县| 江城| 龙口市| 金堂县| 措美县| 盐边县| 永安市|