国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向迭代的航空發(fā)動機試驗知識圖譜構(gòu)建方法研究

2023-03-26 00:34聰,梁丹,劉
燃氣渦輪試驗與研究 2023年3期
關(guān)鍵詞:圖譜實體航空

張 聰,梁 丹,劉 振

(中國航發(fā)四川燃氣渦輪研究院,四川 綿陽 621000)

1 引言

隨著現(xiàn)代航空發(fā)動機研制需求的不斷提高,對其研制活動中重要環(huán)節(jié)的試驗驗證也提出了更高的要求。一方面,需要進一步降低試驗成本和試驗風險,提升試驗對多樣化驗證要求的技術(shù)支撐和實施效率;另一方面,需要試驗環(huán)節(jié)獲取的信息能夠主動為正向研發(fā)提供系統(tǒng)性的知識支撐,助力推動發(fā)動機研制進程。

航空發(fā)動機試驗一般分為試驗設(shè)計和試驗實施兩部分。試驗設(shè)計包括試驗規(guī)劃、測試設(shè)計、試驗流程設(shè)計等環(huán)節(jié);試驗實施包括車臺改造、試驗件上臺、試驗準備、試驗現(xiàn)場測試執(zhí)行、試驗數(shù)據(jù)分析等環(huán)節(jié)。每個環(huán)節(jié)都會產(chǎn)生大量復(fù)雜信息數(shù)據(jù)。這些信息以試驗件為核心,涉及諸如人員、設(shè)備、工具、環(huán)境等人機協(xié)同的物理要素,關(guān)系錯綜復(fù)雜,數(shù)量日漸龐大。目前,信息存儲主要以傳統(tǒng)關(guān)系型數(shù)據(jù)庫、半結(jié)構(gòu)化文件和非結(jié)構(gòu)化文檔形式為主,分布在不同的信息化平臺甚至是本地終端,提供的信息獲取方式以關(guān)鍵字字面含義匹配為主。這一現(xiàn)狀使得數(shù)十年的試驗學(xué)科知識、業(yè)務(wù)經(jīng)驗積累與工程數(shù)據(jù)沒有形成相應(yīng)的知識體系和直觀形象的知識表達,從而無法滿足對發(fā)動機研制工作的有效支撐。

知識圖譜通過描述真實世界中的實體和概念及其關(guān)系,可以實現(xiàn)在機器層面對信息的語義理解。相較于列表和段落文字,知識圖譜對復(fù)雜知識體系的圖形化表達方式,更符合人類的認知習(xí)慣,可以有效輔助快速獲取關(guān)鍵知識信息。知識圖譜分為通用領(lǐng)域知識圖譜和行業(yè)領(lǐng)域知識圖譜,通用領(lǐng)域知識圖譜構(gòu)建技術(shù)較為成熟,代表性的成果有國外多語言的DBpedia[1]和經(jīng)過高質(zhì)量評估的YAGO[2],國內(nèi)的CN-Probase 和百度構(gòu)建的“知心”等。這類知識圖譜數(shù)據(jù)來源主要是開源百科和互聯(lián)網(wǎng)公開網(wǎng)頁資料,覆蓋范圍廣,但是知識深度較淺。行業(yè)領(lǐng)域知識圖譜構(gòu)建技術(shù)目前主要以民用金融和醫(yī)療領(lǐng)域為主,其特點是高度依賴行業(yè)領(lǐng)域數(shù)據(jù),知識范圍不廣但深度較深,以基于海量文本和深度學(xué)習(xí)的自動化構(gòu)建技術(shù)為主。近年來,軍用領(lǐng)域也開始積極探索知識圖譜構(gòu)建技術(shù),包括雷達情報裝備知識圖譜[3]、武器裝備信息知識圖譜[4-5]、裝備維修保障知識圖譜[6]等。該類知識圖譜信息主要來源,一部分是開源百科和網(wǎng)頁公開資料,一部分是行業(yè)專家手動構(gòu)建的本體,以及內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)庫,以傳統(tǒng)詞法分析和統(tǒng)計學(xué)習(xí)技術(shù)與本體論結(jié)合的半自動化構(gòu)建技術(shù)為主。

面向行業(yè)領(lǐng)域的知識圖譜技術(shù)是與行業(yè)知識特點和業(yè)務(wù)應(yīng)用深度結(jié)合的技術(shù),不同的知識范疇、業(yè)務(wù)應(yīng)用目的和信息來源需要探索不同的構(gòu)建技術(shù)。航空發(fā)動機試驗領(lǐng)域是具有一定保密性的大型協(xié)同工程科學(xué),相關(guān)有效信息難以公開、直接獲取,實體關(guān)系復(fù)雜度高、深度深,高度依賴特定的業(yè)務(wù)經(jīng)驗,導(dǎo)致上述常規(guī)自動化構(gòu)建技術(shù)難以實施。同時,涉及的很多經(jīng)驗型知識,由于存在大量隱含背景常識和業(yè)務(wù)專家理解不完全一致等特點,使得難以直接通過統(tǒng)一本體建模進行業(yè)務(wù)工程層面的知識指導(dǎo),導(dǎo)致上述軍用領(lǐng)域的以本體論為基礎(chǔ)的半自動化構(gòu)建技術(shù)同樣難以復(fù)用。

目前,航空發(fā)動機試驗領(lǐng)域還未形成適用于本領(lǐng)域的知識圖譜構(gòu)建方法及其相應(yīng)圖譜。為此,針對航空發(fā)動機試驗領(lǐng)域面向不同場景的業(yè)務(wù)應(yīng)用需求,基于試驗領(lǐng)域統(tǒng)一遵守的標準規(guī)范條文和權(quán)威手冊條目,結(jié)合業(yè)務(wù)過程中積累的大量數(shù)據(jù)表、技術(shù)文件,從知識圖譜構(gòu)建角度,對知識自動化獲取關(guān)鍵技術(shù)開展綜述研究。并在此基礎(chǔ)上提出基于雙向迭代的領(lǐng)域圖譜構(gòu)建技術(shù)方法,充分利用現(xiàn)有數(shù)字化資源,最小化減少人力投入,以便精準高效構(gòu)建知識圖譜用于有效輔助基層業(yè)務(wù)技術(shù)工作與發(fā)動機設(shè)計研發(fā)工作。

2 知識自動化獲取關(guān)鍵技術(shù)

知識自動化獲取技術(shù)主要用于從非結(jié)構(gòu)化文本中發(fā)現(xiàn)和識別實體與關(guān)系,以及補全現(xiàn)有知識網(wǎng)絡(luò),從而構(gòu)造結(jié)構(gòu)良好的大規(guī)模知識圖譜,以便于在實際工作中結(jié)合工程業(yè)務(wù)模型,提供可解釋性的智能知識服務(wù)。知識獲取關(guān)鍵技術(shù)主要包括實體發(fā)現(xiàn)技術(shù)、關(guān)系抽取技術(shù)和知識補全技術(shù)[7]。

2.1 實體發(fā)現(xiàn)技術(shù)

由實體發(fā)現(xiàn)技術(shù)根據(jù)不同的知識獲取目的,可分為實體識別、實體鏈接和實體對齊。實體識別(NER),主要是對文本中的實體角色確定邊界,是知識獲取的基礎(chǔ)。經(jīng)典實體識別技術(shù)主要分為3 類:第1 類基于規(guī)則和詞典,以語言學(xué)專家手工構(gòu)建模式和字符串匹配為主要手段[8],適用于規(guī)則明確,范圍單一,風格統(tǒng)一的領(lǐng)域文本提??;第2 類是基于統(tǒng)計的方法,利用人工標注的語料進行訓(xùn)練,代表性算法為基于隱馬爾可夫模型[9],基于條件隨機場[10]等。第3 類為基于規(guī)則和統(tǒng)計的多種類融合,通過借助規(guī)則知識,縮小統(tǒng)計方法的搜索空間,達到提升效率的目的[11]。由于中文在語言學(xué)特性上與英文差距大,因此國內(nèi)學(xué)者通過引入先驗概率[12],最大熵混合[13]等方法,用于提升中文實體識別準確率和召回率。

實體鏈接主要是將文本中的指稱(mention)鏈接到知識庫中對應(yīng)的實體(entity)上。實體鏈接需要解決兩方面的問題,分別是同一個實體有不同的指稱,以及同一個指稱在不同上下文表征不同的實體。傳統(tǒng)采用候選實體生成方法,主要基于百科、日志、人工標注構(gòu)建別名詞典,也是目前工業(yè)領(lǐng)域常用方法。而新一代實體消歧技術(shù)主要基于上下文獨立特征和上下文依賴特征,自動從文本中學(xué)習(xí)到指稱與實體的對應(yīng)性,主要分為3 類方法:排序法,概率法和基于圖的方法。近期較為代表性的學(xué)術(shù)成果是通過深度學(xué)習(xí)直接學(xué)習(xí)到知識庫實體的圖特征、上下文特征和先驗概率特征,綜合采用這3 類方法最終輸出指稱對應(yīng)于實體的概率排序[14]。

2.2 關(guān)系抽取技術(shù)

關(guān)系抽取技術(shù)主要用于從非結(jié)構(gòu)化文本中自動提取實體之間未知的關(guān)系事實,即構(gòu)建知識的語義聯(lián)系,是構(gòu)建大規(guī)模知識圖譜的關(guān)鍵,分為基于知識工程的方法和基于機器學(xué)習(xí)的方法。前者主要基于領(lǐng)域知識結(jié)合語言學(xué)知識抽取有效的關(guān)系信息,代表性的包括人工編寫規(guī)則進行匹配[15],謂語信息判定語義關(guān)系[16]以及句法分析結(jié)合人工標注識別復(fù)雜語義[17]等。后者則主要通過自動學(xué)習(xí)標注語料的特征訓(xùn)練模型提取有效的關(guān)系,根據(jù)對標注語料的依賴程度可分為有監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

有監(jiān)督學(xué)習(xí)將關(guān)系抽取視為分類問題,代表性的方法為通過啟發(fā)式方法選取多層次的語言學(xué)特征顯式構(gòu)造向量用于訓(xùn)練分類器[18],以及通過計算文本字符串或者句法分析樹結(jié)構(gòu)的相似度訓(xùn)練分類器[19]。弱監(jiān)督主要是基于自舉的思路:首先根據(jù)人工構(gòu)造少量關(guān)系實例作為種子集合,然后利用模式學(xué)習(xí)擴展迭代更多實例集合[20]。無監(jiān)督學(xué)習(xí)主要是采用聚類技術(shù)利用大規(guī)模預(yù)料的冗余性挖掘出潛在關(guān)系集合[21]。

2.3 知識補全技術(shù)

由于知識圖譜在構(gòu)建過程中存在固有的缺失性,因而需要知識補全技術(shù)添加新的三元組,包括兩項子任務(wù),分別是實體預(yù)測和關(guān)系預(yù)測。知識補全技術(shù)通常分為人工補全和機器自動化補全兩類。人工補全主要是通過構(gòu)建規(guī)則推理實現(xiàn)補全,機器自動化補全則是通過表征空間、打分函數(shù)、編碼模型和輔助信息構(gòu)建知識表征學(xué)習(xí)模型實現(xiàn)補全。目前機器自動化補全采用的表征空間是低維度的嵌入式表示,因此通常采用基于嵌入的方法,代表性方法是基于TransE 編碼模型計算替換了實體的三元組打分排序結(jié)果作為評價指標。

3 基于雙向迭代的航空發(fā)動機知識圖譜構(gòu)建技術(shù)

航空發(fā)動機試驗領(lǐng)域知識特征具有3 點特殊性:①航空發(fā)動機試驗領(lǐng)域具備一定的保密性,不具備大規(guī)模獲取開放性有效數(shù)據(jù)的資源環(huán)境;②航空發(fā)動機試驗領(lǐng)域既屬于較深層次的子領(lǐng)域,又屬于與其他學(xué)科專業(yè)深度結(jié)合的跨學(xué)科綜合獨立領(lǐng)域,淺層次的材料梳理和結(jié)構(gòu)化表單無法直接用于構(gòu)建知識體系;③航空發(fā)動機試驗領(lǐng)域是大型協(xié)同工程,知識信息的關(guān)鍵關(guān)聯(lián)來源于業(yè)務(wù)實踐經(jīng)驗,屬于隱性知識,通常離散分布在不同的信息系統(tǒng)和文檔中,難以先構(gòu)建統(tǒng)一的本體模型對知識體系進行規(guī)劃約束。這些特殊性導(dǎo)致垂直領(lǐng)域常用的人工構(gòu)建與通用領(lǐng)域常用的自動化構(gòu)建技術(shù)存在較大的應(yīng)用難度。為此,基于以上3 點特殊性,本文提出了面向航空發(fā)動機試驗領(lǐng)域的知識圖譜框架結(jié)構(gòu),并在此基礎(chǔ)上提出了基于雙向迭代的領(lǐng)域圖譜構(gòu)建技術(shù)。通過在線閉環(huán)反饋的人機協(xié)同機制,將自上而下的知識數(shù)據(jù)模式設(shè)計和自下而上的弱監(jiān)督自動化知識獲取結(jié)合,從而有效構(gòu)建航空發(fā)動機領(lǐng)域知識圖譜。

3.1 航空發(fā)動機試驗領(lǐng)域知識圖譜總體框架設(shè)計

基于不同的業(yè)務(wù)需求和數(shù)據(jù)特性,航空發(fā)動機試驗領(lǐng)域知識圖譜框架結(jié)構(gòu)如圖1 所示。主要由兩類知識圖譜構(gòu)成,分別是基礎(chǔ)知識圖譜和專題知識圖譜?;A(chǔ)知識圖譜用于表示面向各類試驗業(yè)務(wù)通用的基礎(chǔ)背景知識,主要分為術(shù)語詞匯概念知識、試驗標準規(guī)范知識和試驗專業(yè)系統(tǒng)背景知識。具體可橫向擴展不同圖譜庫,可包括航空渦輪噴氣與風扇發(fā)動機試驗詞匯概念圖譜庫、地面整機與高空模擬試驗標準規(guī)范圖譜庫、試驗中測試專業(yè)系統(tǒng)背景知識圖譜庫等。專題知識圖譜是面向具體的試驗業(yè)務(wù)工作開展和決策輔助需求,構(gòu)建更為細粒度和深層次的知識關(guān)聯(lián)體系,主要分為靜態(tài)主題和動態(tài)主題。該層圖譜可根據(jù)實際業(yè)務(wù)變化進行橫向或者縱向擴展,可包括試車臺資源實例圖譜庫,試車臺作業(yè)知識圖譜庫,面向參數(shù)有效性決策支持知識圖譜庫,面向某型號的故障跟蹤知識圖譜庫等。

圖1 航空發(fā)動機試驗領(lǐng)域知識圖譜總體框架結(jié)構(gòu)Fig.1 General framework of aero-engine test knowledge graph

每個知識圖譜庫組包括多個知識圖譜庫,每個知識圖譜庫內(nèi)部有多個關(guān)聯(lián)的知識圖譜。圖譜類型分為概念圖譜和實例圖譜,概念圖譜主要是用于表示型號、車臺設(shè)備、試驗任務(wù)中多類別多層級的術(shù)語概念、功能角色、屬性分類;實例圖譜主要用于表示指代對象和屬性值,可繼承概念圖譜的結(jié)構(gòu)進行擴展,也可獨立存在。總體而言,基礎(chǔ)知識圖譜以概念圖譜為主,專題知識圖譜以實例圖譜為主。因此,專題知識圖譜與基礎(chǔ)知識圖譜是監(jiān)督與補全的交互迭代構(gòu)建關(guān)系。即專題知識圖譜前期主要通過基礎(chǔ)知識圖譜的部分知識,以弱監(jiān)督形式結(jié)合其他數(shù)據(jù)源快速搭建框架,后期則可通過對庫組中具體圖譜內(nèi)容擴充的歸納總結(jié),為基礎(chǔ)知識圖譜提供知識補全。

3.2 基于領(lǐng)域文檔的航空發(fā)動機試驗知識自動化獲取技術(shù)方案

航空發(fā)動機試驗領(lǐng)域文檔隱含和積累了大量的知識要素,通過分析領(lǐng)域文檔的信息特征,提出了基于領(lǐng)域文檔的航空發(fā)動機試驗知識自動化獲取技術(shù)方案,如圖2 所示。方案主要由4 部分構(gòu)成,分別為外部采集、語料生成、預(yù)處理和知識要素獲取。領(lǐng)域文檔分為內(nèi)部資料和外部資料,內(nèi)部資料包括技術(shù)文件、內(nèi)部標準規(guī)范;外部資料包括公開標準規(guī)范、行業(yè)專家叢書和學(xué)術(shù)論文報告以及百科和公共詞庫。算法支持主要分為兩類,一類為規(guī)則解析,這類規(guī)則主要依賴人工及公開詞庫與百科進行初步發(fā)現(xiàn)和最后的組合計算;另一類為模型預(yù)測,主要采用深度神經(jīng)網(wǎng)絡(luò)智能模型進行閱讀理解或者實體識別與關(guān)系抽取。

圖2 基于文檔的航空發(fā)動機試驗領(lǐng)域知識自動化獲取技術(shù)方案Fig.2 Automatic acquisition technical proposal of aero-engine test knowledge graph based on document

外部采集主要是通過爬蟲技術(shù),從互聯(lián)網(wǎng)中自動獲取頁面上的領(lǐng)域相關(guān)文本內(nèi)容,具體而言采用了動態(tài)任務(wù)調(diào)度機制、基于驗證碼屏蔽的頁面檢測異常和文本類型識別。其中文本類型識別是用于判別該頁面內(nèi)容類別為長文本、富文本、表格、清單等種類。針對不同種類的預(yù)處理方法有所不同,預(yù)處理主要包括結(jié)構(gòu)化解析、模塊提取、分詞及其統(tǒng)計指標計算。其中結(jié)構(gòu)化解析、模塊提取主要針對富文本進行層次化的結(jié)構(gòu)處理。分詞是基于正則表達式等規(guī)則進行的初步指代詞識別,并對其統(tǒng)計指標進行計算從而獲取該詞匯的統(tǒng)計特征屬性。語料生成主要用于智能模型的訓(xùn)練集與測試集構(gòu)造,以及對規(guī)則模板的構(gòu)造與匹配,包括分句、語義標注、數(shù)據(jù)增強和正負樣本構(gòu)造。知識要素獲取主要是基于深度神經(jīng)網(wǎng)絡(luò)智能模型對文本語義片段和語義三元組進行自動化獲取,主要包括詞匯挖掘-關(guān)系抽取流水線處理技術(shù)、抽取式閱讀理解、端到端三元組抽取和組合計算匹配。其中詞匯挖掘-關(guān)系抽取流水線處理技術(shù),主要采用遠程監(jiān)督技術(shù)利用外部百科和公共詞庫對領(lǐng)域文本進行新詞發(fā)現(xiàn)和關(guān)系抽??;抽取式閱讀理解主要是針對長文本的語義問答知識進行識別;端到端三元組抽取主要是采用語義框架和值抽取技術(shù)提取形式化的知識要素;組合計算匹配主要采用就近匹配原則,將提取到的知識元素進行初步的重構(gòu)形成顯性的知識要素。

3.3 基于雙向迭代的領(lǐng)域圖譜構(gòu)建方法

領(lǐng)域知識數(shù)據(jù)模式設(shè)計是領(lǐng)域知識圖譜構(gòu)建的前提。一般而言,自頂向下的模式設(shè)計方法為從頂層概念逐步向下細化形成分類學(xué)層次結(jié)構(gòu),并將文本中的指代實體鏈接到概念中。但是這種方法在大量隱性經(jīng)驗知識分散在文本中的多專業(yè)協(xié)同工程領(lǐng)域重構(gòu)代價很高,且難以統(tǒng)一。為此,提出了一種基于雙向迭代的航空發(fā)動機試驗領(lǐng)域知識圖譜構(gòu)建方法,如圖3 所示。該方法主要包括兩個部分的工作,分別是知識數(shù)據(jù)模式設(shè)計和領(lǐng)域知識自動化獲取。模式設(shè)計為概念圖譜和知識自動化獲取提供不同形式的知識表示,隨后知識自動化獲取在概念圖譜的指導(dǎo)下依次獲取文本中的指代實體、鏈接概念和對應(yīng)關(guān)系,并在此基礎(chǔ)上進行知識補全和知識糾錯,從而形成實例圖譜。專家根據(jù)機器自動獲取的實例圖譜比對原始文本進行模式設(shè)計的完善和優(yōu)化等更新工作。即首先是自上而下地通過預(yù)定義的數(shù)據(jù)模式獲取了一定的指代實體,再通過機器學(xué)習(xí)泛化抽取的指代實體自下而上地歸納抽象、補充完善、優(yōu)化數(shù)據(jù)模式。

圖3 基于雙向迭代的航空發(fā)動機試驗領(lǐng)域知識圖譜構(gòu)建方法Fig.3 Construction method of aero-engine knowledge graph based on bi-directional iteration

知識數(shù)據(jù)模式設(shè)計是根據(jù)文本內(nèi)容特征和該圖譜使用目的進行的。根據(jù)圖1 所示的航空發(fā)動機試驗領(lǐng)域圖譜,總體框架包括了基礎(chǔ)術(shù)語/主題概念關(guān)聯(lián)結(jié)構(gòu)、試驗業(yè)務(wù)活動流程結(jié)構(gòu)、專業(yè)系統(tǒng)運行邏輯約束、事實要素劃分和典型句式模板。具體的表示形式分為結(jié)構(gòu)、規(guī)則、標簽、表格和文本模板。結(jié)構(gòu)在本文中主要指樹狀的層次結(jié)構(gòu),標簽主要指類別標簽,文本模板主要是句式結(jié)構(gòu)簡單的短文本。結(jié)構(gòu)可直接作為概念圖譜內(nèi)容,其余知識表示形式可作為知識自動化獲取工作部分中的監(jiān)督標簽、先驗條件、處理邏輯和預(yù)定義模板,因此知識自動化獲取現(xiàn)在可以結(jié)合概念圖譜進行實體發(fā)現(xiàn)、關(guān)系抽取和知識補全。關(guān)系抽取包括了同義關(guān)系、分類學(xué)關(guān)系、屬性關(guān)系、結(jié)構(gòu)關(guān)系和基于模板的約束關(guān)系。其中,分類學(xué)關(guān)系主要用于表示上下位層次關(guān)系;結(jié)構(gòu)關(guān)系體現(xiàn)整體-部分關(guān)系;屬性關(guān)系是多維度的關(guān)系概念,某個概念實例可以作為另一個概念實例的屬性值進行關(guān)聯(lián);基于模板的約束關(guān)系則是為了匹配不屬于上述任何一種關(guān)系的特定描述。

4 方法驗證及試驗效果

本文以渦扇發(fā)動機的整機試驗測試相關(guān)知識及其文檔資料為試驗對象,進行方法驗證和圖譜效果演示。

4.1 渦扇發(fā)動機整機試驗測試知識數(shù)據(jù)模式設(shè)計

根據(jù)圖1 的框架可知,在基礎(chǔ)知識圖譜中構(gòu)建渦扇發(fā)動機整機試驗相關(guān)的術(shù)語詞匯概念知識結(jié)構(gòu),以及以測試專業(yè)為例的背景知識結(jié)構(gòu)。圖4 給出了部分結(jié)構(gòu)設(shè)計示例,該部分主要是表示型號術(shù)語、車臺術(shù)語、試驗技術(shù)術(shù)語、關(guān)聯(lián)的國軍標等知識。在專題知識圖譜中選擇構(gòu)建面向某型號臺份試驗的參數(shù)有效性決策信息圖譜,部分結(jié)構(gòu)設(shè)計示例如圖5 所示。

圖4 渦扇發(fā)動機整機試驗的知識數(shù)據(jù)模式示例Fig.4 Schema example of turbofan engine test domain

圖5 試驗參數(shù)有效性專題圖譜的知識數(shù)據(jù)模式示例Fig.5 Schema example of the thematic graph of aero-engine test parameter for validity evaluation

4.2 基于領(lǐng)域文檔的整機試驗測試知識自動化獲取驗證結(jié)果

根據(jù)圖2 的自動獲取技術(shù)方案和上文設(shè)計的數(shù)據(jù)模式可知,用于驗證的領(lǐng)域文檔主要包括專家技術(shù)叢書《高空模擬試驗技術(shù)》,國軍標《航空渦輪噴氣與渦輪風扇發(fā)動機通用規(guī)范》、《航空燃氣渦輪動力裝置術(shù)語與符號》和《航空渦輪噴氣和渦輪風扇發(fā)動機高空模擬試驗要求》,某車臺的作業(yè)指導(dǎo)書和某型號臺份試驗的試驗測試相關(guān)的技術(shù)文件。方法驗證過程及其結(jié)果如下。

首先進行文本預(yù)處理,主要是結(jié)構(gòu)化解析,根據(jù)目錄結(jié)構(gòu)信息構(gòu)建文檔結(jié)構(gòu)樹,再將段落和字句作為單位掛載在結(jié)構(gòu)樹節(jié)點上,形成JSON 形式,如圖6 所示。然后進行知識要素獲取,主要采用了端到端三元組抽取。由于上述文件均屬于富文本和長文本,并且缺少有效的標注信息,因此采用了針對特定關(guān)系的尾實體標注模塊,并在語料生成部分進行分句處理。針對國軍標的術(shù)語概念抽取結(jié)果如圖7 所示。

圖6 文檔結(jié)構(gòu)化解析Fig.6 Structural transformation of document

圖7 國軍標的術(shù)語概念抽取結(jié)果Fig.7 Extraction results of terms of national military standard

4.3 試驗測試知識圖譜演示效果

根據(jù)整機試驗測試相關(guān)的模式設(shè)計,通過文檔樹構(gòu)建—實體識別和關(guān)系抽取-實體鏈接形成完整的知識三元組。圖8 展示了某車臺設(shè)備能力相關(guān)知識信息三元組示例。

圖8 圖譜的知識三元組示例Fig.8 Example of subject-predication-object

根據(jù)本文設(shè)計的動態(tài)主題圖譜的數(shù)據(jù)模式和相關(guān)試驗測試技術(shù)文件,對面向某試驗的參數(shù)有效性支持知識漫游進行了演示效果驗證。結(jié)果表明該知識點可擴展漫游至相關(guān)的車臺知識、專業(yè)系統(tǒng)知識、關(guān)聯(lián)異常事件信息等。

5 結(jié)論

針對航空發(fā)動機試驗領(lǐng)域的知識特征所具有的封閉性、層次結(jié)構(gòu)深且多學(xué)科交叉以及分散的隱性知識三大應(yīng)用難點,構(gòu)建了面向航空發(fā)動機試驗領(lǐng)域的知識圖譜框架結(jié)構(gòu)。結(jié)合知識自動化獲取關(guān)鍵技術(shù)研究,提出了基于雙向迭代的領(lǐng)域圖譜構(gòu)建方法。以渦扇發(fā)動機整機試驗相關(guān)知識及其文檔作為方法驗證對象,實現(xiàn)了從不同類別知識圖譜數(shù)據(jù)模式設(shè)計,到雙向迭代構(gòu)建的主題圖譜漫游效果演示,驗證了基于雙向迭代的領(lǐng)域圖譜構(gòu)建方法的可行性。

下一步將持續(xù)深入開展有關(guān)航空發(fā)動機試驗領(lǐng)域的多種知識表示技術(shù)研究,進一步迭代完善知識圖譜框架體系;基于業(yè)務(wù)發(fā)展現(xiàn)狀擴充知識服務(wù)場景,積累更多數(shù)據(jù)資源,并設(shè)計開發(fā)形成生態(tài)閉環(huán)的工具系統(tǒng);以切實提升試驗效率,助力航空發(fā)動機試驗數(shù)字化轉(zhuǎn)型和智能化升級。

猜你喜歡
圖譜實體航空
“閃電航空”來啦
“閃電航空”來啦
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實體
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
主動對接你思維的知識圖譜
達美航空的重生之路