□ 周文杰 □ 余軍合 □ 王 瑞 □ 鄧慧君 □ 范存慶
1.寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院 浙江寧波 3152112.寧波大學(xué) 信息科學(xué)與工程學(xué)院 浙江寧波 315211
在信息化發(fā)展過程中,企業(yè)的工程案例數(shù)據(jù)隨著時間的推移越來越龐大。這些知識資源是企業(yè)極具價值的財富,有效利用這些知識資源有助于驅(qū)動企業(yè)產(chǎn)品創(chuàng)新設(shè)計,使企業(yè)在不斷變化的市場中保持競爭力。隨著企業(yè)工程業(yè)務(wù)的不斷發(fā)展,知識資源的復(fù)雜性不斷提高,側(cè)重點分散,各自針對單一問題。而工程機(jī)械應(yīng)用場景具有多樣化特點,需要采用非結(jié)構(gòu)化模式進(jìn)行存儲表達(dá),如文本、圖像等。傳統(tǒng)的存儲表達(dá)方式在面對高復(fù)雜性知識資源和非結(jié)構(gòu)化模式時無法適應(yīng),導(dǎo)致知識資源得不到有效、統(tǒng)一表征,嚴(yán)重影響知識重用率。
隨著大數(shù)據(jù)、云計算、人工智能的迅猛發(fā)展,采用大數(shù)據(jù)手段解決知識重用及知識挖掘問題成為主流。其中,知識圖譜技術(shù)是研究熱點,在知識統(tǒng)一表征方面日益受到關(guān)注和青睞。知識圖譜的本質(zhì)是構(gòu)建具備語義處理能力和開放互聯(lián)能力的知識庫,對現(xiàn)實世界的概念、關(guān)系等進(jìn)行形式化描述[1],已成為各領(lǐng)域廣泛使用的一種提高知識重用率的方法。李秀玲等[2]提出一種面向工藝重用的工藝知識圖譜構(gòu)建方法,用于解決工藝知識重用和共享方面的難題。楊玉基等[3]提出四步法構(gòu)建領(lǐng)域知識圖譜,將其應(yīng)用于基礎(chǔ)學(xué)科教育,構(gòu)建地理學(xué)科知識圖譜。Long Jiawei等[4]構(gòu)建股票市場及其交易信息知識圖譜,通過深度學(xué)習(xí)對股價進(jìn)行預(yù)測。Zhang Chao等[5]提出一種基于知識圖譜的知識重用方法,用于支持新產(chǎn)品開發(fā)過程中的知識驅(qū)動決策。Yuan Jianbo等[6]提出一種基于非結(jié)構(gòu)化生物醫(yī)學(xué)領(lǐng)域特定上下文的最小監(jiān)督知識圖譜構(gòu)建通用方法。劉梓權(quán)等[7]提出利用現(xiàn)有電力設(shè)備缺陷記錄語料,構(gòu)建電力設(shè)備缺陷知識圖譜的方法。張海濤等[8]提出構(gòu)建重大突發(fā)事件領(lǐng)域的事理圖譜,研究并揭示重大突發(fā)事件演變的規(guī)律與邏輯。Fang Weili等[9]將計算機(jī)視覺算法與本體模型相結(jié)合,開發(fā)出能夠在遵守安全法規(guī)的同時自動準(zhǔn)確識別危險的知識圖譜。郭榕等[10]基于電網(wǎng)故障處置文本,提出一種自頂向下和自底向上相結(jié)合的電網(wǎng)故障處置知識圖譜構(gòu)建方法,實現(xiàn)了可視化,并對其在智能信息檢索和輔助故障診斷中的應(yīng)用進(jìn)行了分析。
從以上各領(lǐng)域知識圖譜的構(gòu)建和應(yīng)用中可以看到,隨著信息技術(shù)的不斷發(fā)展,知識圖譜技術(shù)日趨成熟,越來越多的高質(zhì)量領(lǐng)域知識圖譜被構(gòu)建和應(yīng)用。構(gòu)建知識圖譜,一般采用自頂向下或自底向上的方法。自頂向下的方法指預(yù)先定義模式層本體模型,然后從數(shù)據(jù)源中抽取實體關(guān)系屬性,填充至本體模型。自底向上的方法指先從數(shù)據(jù)源中抽取實體關(guān)系屬性,在對所得的知識類型定義審查之后加入知識庫。在工程機(jī)械裝備領(lǐng)域,案例庫數(shù)據(jù)規(guī)模較小且封閉,工程機(jī)械裝備使用場景不一,業(yè)務(wù)關(guān)系復(fù)雜,知識結(jié)構(gòu)復(fù)用難度較高,知識圖譜的構(gòu)建有一定難度。筆者擬采用自頂向下和自底向上相結(jié)合的方法來構(gòu)建工程機(jī)械裝備案例庫知識圖譜,研究基于案例庫的業(yè)務(wù)查詢及可視化、基于知識圖譜推薦兩個應(yīng)用點。自頂向下和自底向上相結(jié)合的方法指在模式層中采用自頂向下的方法,在數(shù)據(jù)層中采用自底向上的方法,用模式層中定義的本體模型映射數(shù)據(jù)源中抽取的知識類型,進(jìn)而構(gòu)建工程機(jī)械裝備案例庫知識圖譜。
工程機(jī)械裝備案例庫知識圖譜屬于特定領(lǐng)域知識圖譜,是企業(yè)工程案例庫數(shù)據(jù)基于概念節(jié)點及關(guān)系的實體擴(kuò)充與豐富,是一種結(jié)構(gòu)化語義知識庫。工程機(jī)械裝備案例庫存儲工程案例知識,一般意義上的工程案例知識范圍很廣,內(nèi)容也非常豐富。為保證工程案例知識能夠被精準(zhǔn)表示和重用,將工程案例知識分為三類。
第一類為工程場景類知識,指描述工程場景的知識,是融合多種要素、多項知識的綜合規(guī)劃知識,主要來源是工程項目中的外部知識,如工程領(lǐng)域、工程地理位置、施工單位、施工對象等,是工程案例知識中較為宏觀的部分。
第二類為工程業(yè)務(wù)類知識,指在工程施工中產(chǎn)生的業(yè)務(wù)知識,主要來源是工程項目中的各項數(shù)據(jù),如項目名稱、設(shè)備名稱、設(shè)備參數(shù)等,是工程項目中真實發(fā)生的知識數(shù)據(jù),目前主要存儲于企業(yè)文本表格或數(shù)據(jù)庫中,其本質(zhì)是個性化實例知識。
第三類為工程規(guī)則類知識,是基于技術(shù)角度描述工程業(yè)務(wù)得以實現(xiàn)的依據(jù),代表工程項目中的技術(shù)準(zhǔn)則,主要來源是技術(shù)指導(dǎo)手冊、業(yè)內(nèi)常識、專家經(jīng)驗知識等,是已經(jīng)驗證過的正確的知識,目前主要依賴于人工總結(jié),對工程決策具有重要的指導(dǎo)意義。
工程機(jī)械裝備案例庫知識圖譜從語義角度出發(fā),以三元組形式描述工程案例知識。工程機(jī)械裝備案例庫知識圖譜在邏輯上可以分為模式層和數(shù)據(jù)層兩個層次。模式層是工程機(jī)械裝備案例庫知識圖譜的核心,其本質(zhì)是建立工程機(jī)械裝備案例庫知識模式,存儲的是實體、關(guān)系、屬性三者之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)層對工程機(jī)械裝備案例庫中的知識進(jìn)行處理,在模式層的引導(dǎo)下,轉(zhuǎn)換為結(jié)構(gòu)化知識圖譜。
工程機(jī)械裝備案例庫知識圖譜構(gòu)建流程如圖1所示,主要包括三個核心步驟。
第一步,模式層構(gòu)建采用自頂向下的方法,對三類工程案例知識通過領(lǐng)域本體設(shè)計的方法進(jìn)行梳理,對業(yè)務(wù)和功能需求進(jìn)行分析,預(yù)先定義模式層中的實體集合、實體屬性集合、實體關(guān)系集合,形成清晰明確的層次結(jié)構(gòu)。
第二步,數(shù)據(jù)層構(gòu)建采用自底向上的方法,對數(shù)據(jù)庫數(shù)據(jù)、云平臺數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識進(jìn)行清洗和預(yù)處理,并對目標(biāo)數(shù)據(jù)進(jìn)行實體、屬性、關(guān)系抽取,對抽取得到的形式化知識進(jìn)行實體對齊、鏈接、消歧,在模式層的引導(dǎo)下完成構(gòu)建。
第三步,生成工程機(jī)械裝備案例庫知識圖譜,具體包括設(shè)計知識圖譜的存儲方式,建立多層次實體關(guān)聯(lián)關(guān)系,實現(xiàn)模式層到數(shù)據(jù)層的映射。
工程機(jī)械裝備案例庫知識圖譜模式層的本質(zhì)是建立工程機(jī)械裝備案例庫知識模式,相當(dāng)于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu),存儲經(jīng)過提煉的工程知識實體及實體間的關(guān)聯(lián)關(guān)系,是工程機(jī)械裝備案例庫知識圖譜中的核心部分。為了保證模式層能夠準(zhǔn)確、完整地表達(dá)工程案例知識,使用自頂向下的方法,從宏觀角度出發(fā)進(jìn)行模式定義。模式層概念關(guān)系如圖2所示。
針對三類工程案例知識,確定本體的專業(yè)領(lǐng)域和范疇,了解應(yīng)用的背景和需求,明確模式定義的目的、范圍、用途等??紤]復(fù)用現(xiàn)有模式的可能性,基于三類工程案例知識,逐步向下進(jìn)行細(xì)化,以形成準(zhǔn)確的層次結(jié)構(gòu)。分析業(yè)務(wù)邏輯,包括對象梳理、流程梳理、業(yè)務(wù)優(yōu)化、邏輯建模四個部分,核心是以業(yè)務(wù)場景為分析對象,理清場景和業(yè)務(wù)對象的關(guān)聯(lián)關(guān)系,可以充分運用專家知識,結(jié)合場景目標(biāo),梳理業(yè)務(wù)對象和業(yè)務(wù)流程,并對業(yè)務(wù)進(jìn)行優(yōu)化,最終對業(yè)務(wù)場景實現(xiàn)邏輯建模和本體建模,根據(jù)業(yè)務(wù)需求完成實體集合定義和實體屬性定義。圖2中,實體類概念部分為模式層中的概念層,基于三類工程案例知識進(jìn)行擴(kuò)展得到。實體屬性值部分為定義實體概念的屬性值。通過評估分析,選擇擁有迫切需求、知識基礎(chǔ)良好、業(yè)務(wù)邏輯清晰明了的業(yè)務(wù)場景,規(guī)避基礎(chǔ)較差、非結(jié)構(gòu)數(shù)據(jù)多、信息化不完善的場景,從整體角度進(jìn)行功能需求解讀,完成關(guān)系集合的定義。
模式層概念關(guān)系圖譜模型如圖3所示。
工程機(jī)械裝備案例庫知識圖譜數(shù)據(jù)層的作用是在模式層的引導(dǎo)下,將工程案例知識轉(zhuǎn)換為結(jié)構(gòu)化的工程機(jī)械裝備案例庫知識圖譜。數(shù)據(jù)層采用自底向上的方法構(gòu)建,主要包括知識抽取、知識融合、知識存儲表達(dá)三個步驟。
基于錯綜復(fù)雜的數(shù)據(jù)庫數(shù)據(jù)、云平臺數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識構(gòu)建工程機(jī)械裝備案例庫知識圖譜,首先要進(jìn)行知識抽取,目的是從源數(shù)據(jù)中提取特定類型的信息,如實體、屬性、關(guān)系,并將特定類型的信息以特定的形式進(jìn)行表示和存儲。以上三類特定類型的信息是工程案例知識的重要組成元素,工程機(jī)械裝備案例庫知識圖譜的優(yōu)劣由知識抽取結(jié)果直接決定。數(shù)據(jù)在整體上表現(xiàn)出多源異構(gòu)多模態(tài)特征,因此要將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分開處理。結(jié)構(gòu)化數(shù)據(jù)包括數(shù)據(jù)庫數(shù)據(jù)、云平臺數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包括文本表格數(shù)據(jù)、專家知識。
數(shù)據(jù)庫數(shù)據(jù)和云平臺數(shù)據(jù)是工程案例知識中的顯性知識,描述了工程機(jī)械裝備的應(yīng)用場景,具體如設(shè)備庫、設(shè)備數(shù)據(jù)、項目信息等,屬于結(jié)構(gòu)化數(shù)據(jù),具有固定的格式和顯式表達(dá)結(jié)構(gòu),邏輯清晰,知識表達(dá)好,存儲類型一般為關(guān)系型數(shù)據(jù)庫、鏈?zhǔn)酱鎯Y(jié)構(gòu)等。對于關(guān)系型數(shù)據(jù)庫,知識抽取方法為建立數(shù)據(jù)庫中概念與模式層中本體的對應(yīng)關(guān)系,實現(xiàn)自動獲取實體、屬性、關(guān)系。使用D2RQ平臺將數(shù)據(jù)庫中的各個表映射為知識圖譜的某個類型,同時將表格中的列設(shè)置為對應(yīng)類型的屬性,每一行代表一個實體,實體間的相互關(guān)系通過表鏈接模式來表達(dá)。對于鏈?zhǔn)酱鎯Y(jié)構(gòu),使用圖映射的方法即可完成轉(zhuǎn)換。
文本表格數(shù)據(jù)和專家知識是工程案例知識中的隱性知識,描述了工程機(jī)械裝備的應(yīng)用規(guī)則,具體如技術(shù)手冊、專家報告、施工說明書等,屬于非結(jié)構(gòu)化數(shù)據(jù)。對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識抽取,關(guān)鍵在于從目標(biāo)文本表格數(shù)據(jù)和專家知識中對命名實體進(jìn)行檢測并分類,挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系,搭建實體與實體之間的語義橋梁,并識別出實體的屬性,對實體進(jìn)行補充,使實體更加完整。一般采用監(jiān)督學(xué)習(xí)的知識抽取方法,通過已知的實體對未知的實體進(jìn)行自動標(biāo)注,但文本表格數(shù)據(jù)和專家知識通常較為封閉、稀疏,傳統(tǒng)的知識抽取方法并不適用,因此還需要設(shè)計合適的知識抽取方法對文本表格數(shù)據(jù)和專家知識進(jìn)行實體、屬性、關(guān)系的抽取。
通過知識抽取,初步實現(xiàn)從數(shù)據(jù)庫數(shù)據(jù)、云平臺數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識中抽取實體、屬性,以及實體與實體的關(guān)系。當(dāng)然,工程案例知識繁雜,質(zhì)量良莠不齊,不同數(shù)據(jù)源的實體容易產(chǎn)生歧義,并且實體間的關(guān)系較為模糊,想要得到合理的數(shù)據(jù)層,還需要進(jìn)行知識融合,對近義詞進(jìn)行整合,對歧義詞實現(xiàn)消除,確保知識的質(zhì)量。
知識融合主要包括實體鏈接和實體對齊兩個步驟。實體鏈接指將知識抽取之后的實體鏈接至正確的實體類別中的方法,如將“沖擊錘”鏈接至“鉆頭名稱”這一實體類別中。工程機(jī)械裝備案例庫知識圖譜使用構(gòu)建語義模型的方法,構(gòu)造基于語義特征的實體和實體分類集合的特征向量,計算實體和實體分類集合間的余弦相似度,得到精確的相似度,再基于實體與實體分類集合的相似度進(jìn)行實體鏈接[11]。
在現(xiàn)實世界中,一個實體往往有多種稱呼,例如“西紅柿”和“番茄”,代表著同樣的客觀事物。在工程機(jī)械裝備案例庫知識圖譜中,也會存在這種現(xiàn)象,引發(fā)實體沖突、指向不明問題。通過實體對齊,可以消除異構(gòu)數(shù)據(jù)中實體沖突、指向不明的問題。工程機(jī)械裝備案例庫知識圖譜采用局部集體實體對齊的方式,通過pagerank算法計算實體間的權(quán)重,加權(quán)求和后獲得實體間的相似度,基于實體間的相似度進(jìn)行實體對齊。
知識融合后,可以得到初步的本體雛形。要形成高質(zhì)量的知識,還需要進(jìn)一步進(jìn)行知識加工。工程機(jī)械裝備案例庫知識圖譜屬于領(lǐng)域知識圖譜,數(shù)據(jù)具有一定的封閉性,大部分?jǐn)?shù)據(jù)未公開公布。對此,使用人工編輯的方法,將獲取的知識映射至模式層,再由數(shù)據(jù)層完成工程機(jī)械裝備案例庫知識圖譜的構(gòu)建,采用基于圖模型的Neo4j數(shù)據(jù)庫進(jìn)行知識存儲表達(dá)。
選擇某鉆井公司樁基施工案例庫進(jìn)行工程機(jī)械裝備案例庫知識圖譜的應(yīng)用分析。這一鉆井公司需要針對不同鉆井場景,選擇合適裝備和工藝參數(shù)進(jìn)行鉆井操作。在樁基施工案例庫中,將鉆井裝備、鉆頭、施工案例的數(shù)據(jù)作為試驗數(shù)據(jù),主要涉及鉆頭、項目信息、地層信息、控制參數(shù)、施工工效等。試驗數(shù)據(jù)在結(jié)構(gòu)上呈現(xiàn)多源異構(gòu)形式。
該鉆井公司的業(yè)務(wù)場景主要為樁基施工。針對業(yè)務(wù)場景,確定將鉆頭作為工程機(jī)械裝備案例庫知識圖譜的核心,構(gòu)建鉆頭名稱、鉆頭類別、項目、地層信息、控制參數(shù)、施工工效的業(yè)務(wù)耦合關(guān)系。因為地層特征信息雜亂冗余且不規(guī)范,所以將地層信息分為多個地層屬性,主要包括顏色、結(jié)構(gòu)、硬度、塑性、韌性等,然后自頂向下構(gòu)建本體模型作為模式層。模式層構(gòu)建結(jié)果如圖4所示,模式層節(jié)點包括鉆頭名稱、鉆頭類別、項目、地層信息、地層屬性。鉆頭名稱的節(jié)點屬性有鉆頭特征、鉆頭種類、適用范圍,地層信息的節(jié)點屬性有地層詳描、施工工效。模式層的關(guān)系包括鉆頭名稱和鉆頭類別名稱的歸屬關(guān)系、鉆頭名稱和項目的應(yīng)用關(guān)系、項目和地層信息的包含關(guān)系、鉆頭名稱和地層信息的施工關(guān)系、地層屬性和地層信息的構(gòu)成關(guān)系。
在試驗數(shù)據(jù)中,鉆頭名稱、鉆頭類別、項目等為結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)庫中已有定義,因此以模式層為基礎(chǔ),應(yīng)用D2RQ平臺將其轉(zhuǎn)換為鉆頭名稱集合、鉆頭類別集合、項目集合、鉆頭名稱與鉆頭類別關(guān)系集合、鉆頭名稱與項目關(guān)系集合、地層詳描屬性集合、施工工效屬性集合。
地層信息為非結(jié)構(gòu)化數(shù)據(jù),并且描述不規(guī)范,有大量雜質(zhì)和冗余,因此需要設(shè)計合適的知識抽取方法對地層信息進(jìn)行實體、關(guān)系、屬性抽取。實體抽取的任務(wù)主要包括:提取地層信息的主體特征,作為地層信息的節(jié)點名稱;提取地層信息的部分特征,作為地層屬性節(jié)點;提取地層信息與地層屬性的關(guān)系。對地層信息文本表格數(shù)據(jù)進(jìn)行分詞處理和詞性標(biāo)注,構(gòu)建地層信息集合、地層屬性集合、地層信息與地層屬性關(guān)系集合、項目與地層信息關(guān)系集合。知識抽取的部分實體見表1,知識抽取的部分關(guān)系見表2,知識抽取的部分屬性見表3。
表1 知識抽取的部分實體
表2 知識抽取的部分關(guān)系
表3 知識抽取的部分屬性
通過Neo4j數(shù)據(jù)庫實現(xiàn)三元組數(shù)據(jù)的存儲,通過可視化的方式構(gòu)建出最終的工程機(jī)械裝備案例庫知識圖譜,部分內(nèi)容如圖5所示。
工程機(jī)械裝備案例庫知識圖譜構(gòu)建規(guī)范、結(jié)構(gòu)簡潔、數(shù)據(jù)質(zhì)量高,因此相較于傳統(tǒng)的查詢搜索,基于工程機(jī)械裝備案例庫知識圖譜的業(yè)務(wù)查詢提供了更為豐富的語義特征和結(jié)構(gòu)化的表示形式,可以對項目或者鉆頭名稱等實體進(jìn)行可視化查詢。Cypher語言是基于Neo4j數(shù)據(jù)庫的一種描述性圖形查詢語言,具有豐富的表現(xiàn)力和較高的查詢效率。在進(jìn)行業(yè)務(wù)查詢時,將Cypher語言轉(zhuǎn)換為查詢子圖,與整個工程機(jī)械裝備案例庫知識圖譜進(jìn)行匹配。工程機(jī)械裝備案例庫知識圖譜識別檢索式中的實體,并對實體間的結(jié)構(gòu)關(guān)系進(jìn)行查詢擴(kuò)展與推理。最后,工程機(jī)械裝備案例庫知識圖譜對檢索處理的結(jié)果進(jìn)行相關(guān)性排序,向用戶返回圖形化知識結(jié)構(gòu)。
基于工程機(jī)械裝備案例庫知識圖譜的業(yè)務(wù)查詢過程如圖6所示。針對給定的項目“陽江風(fēng)電”,利用文本分類模型識別出給定的實體,規(guī)范實體名稱。利用Cypher語言對已確定的實體名稱進(jìn)行搜索,可以查詢出與該項目相關(guān)的實體,如“截齒筒鉆”“球齒滾刀鉆頭”“全風(fēng)化花崗巖”等。通過點擊節(jié)點,多級擴(kuò)展圖譜信息,形成以“陽江風(fēng)電”為核心的知識網(wǎng)絡(luò),向關(guān)聯(lián)知識擴(kuò)展,擴(kuò)大業(yè)務(wù)查詢的范圍??梢暬瘶I(yè)務(wù)查詢結(jié)果如圖7所示。
個性化推薦是工程機(jī)械裝備案例庫知識圖譜在工程領(lǐng)域的應(yīng)用場景之一,可以根據(jù)用戶的檢索請求提供相關(guān)對應(yīng)實體的建議,以幫助用戶更好地獲取所需要的知識。在新的項目工程中,面對新的施工條件,鉆頭的選型依賴于設(shè)計人員的專業(yè)知識和設(shè)計經(jīng)驗。應(yīng)用工程機(jī)械裝備案例庫知識圖譜,可以在鉆頭選型過程中根據(jù)所存儲的知識和關(guān)聯(lián)關(guān)系,給予當(dāng)前的業(yè)務(wù)進(jìn)程輔助推薦和決策,降低對設(shè)計人員的強(qiáng)依賴性,提高選型效率,降低選型風(fēng)險。
將鉆頭與地層信息的業(yè)務(wù)關(guān)系轉(zhuǎn)換為鉆頭名稱與地層屬性的業(yè)務(wù)關(guān)系,利用向量空間模型K1~Kn形式化表示鉆頭名稱與地層屬性的業(yè)務(wù)關(guān)系,為:
(1)
式中:ti為第i個地層屬性;si為第i個鉆頭名稱;ωi為ti相對于si的重要程度;n為實體數(shù)量;m為樁基施工案例數(shù)量。
ωi的計算采用詞頻-逆文本頻率方法得到,計算式為:
ωi=Tilog(S/t+β)
(2)
式中:Ti為第i個地層屬性與鉆頭名稱的業(yè)務(wù)頻率,即該地層屬性與鉆頭名稱產(chǎn)生業(yè)務(wù)的次數(shù)與鉆頭名稱總業(yè)務(wù)數(shù)量之比;S為地層屬性與鉆頭名稱業(yè)務(wù)關(guān)系總量;t為地層屬性業(yè)務(wù)數(shù)量;β為經(jīng)驗常數(shù),通常情況取0.01、0.1、1。
通過式(2)可以得到施工條件與設(shè)備名稱基于業(yè)務(wù)的關(guān)聯(lián)矩陣Kn×m,為:
(3)
為解決矩陣稀疏性,還要對其進(jìn)行歸一化處理,最終基于迪杰斯特拉算法進(jìn)行路徑計算,根據(jù)需求查詢與檢索節(jié)點最短路徑的節(jié)點,完成節(jié)點的推薦。由于迪杰斯特拉算法是從一個頂點到其余各頂點的最短路徑算法,解決的是有權(quán)圖中最短路徑問題,而歸一化后的權(quán)重體現(xiàn)的是相關(guān)性,因此還要用1減去歸一化后的權(quán)重,成為不相關(guān)性,再將其輸入工程機(jī)械裝備案例庫知識圖譜。最終得到的不相關(guān)矩陣R為:
(4)
不相關(guān)矩陣的行表示地層屬性,列表示鉆頭名稱,不相關(guān)矩陣中的內(nèi)容表示地層屬性相對于鉆頭名稱的反向重要度。將構(gòu)建的不相關(guān)矩陣轉(zhuǎn)換為鉆頭名稱-權(quán)重-地層屬性三元組,存儲至Neo4j數(shù)據(jù)庫。
基于工程機(jī)械裝備案例庫知識圖譜的鉆頭推薦過程如圖8所示。面對新的地層信息時,可以通過簡單的人工抉擇,將地層信息分為多個地層屬性輸入推薦條件,如“厚層狀”“砂質(zhì)結(jié)構(gòu)”“裂隙發(fā)育”等。使用迪杰斯特拉算法對地層屬性與所有鉆頭的權(quán)重進(jìn)行計算,通過排序得到最相關(guān)的一個或多個鉆頭,為施工人員提供選擇,完成推薦。
鉆頭推薦示例如圖9所示,圖中數(shù)字為地層屬性與鉆頭名稱的權(quán)重。
在各個領(lǐng)域的知識重用中,知識圖譜已成為舉足輕重的角色。目前,知識圖譜在互聯(lián)網(wǎng)、醫(yī)療、金融等領(lǐng)域都具有不俗的表現(xiàn)。領(lǐng)域知識圖譜具有行業(yè)壁壘高、專業(yè)性強(qiáng)的特點,針對工程領(lǐng)域知識,提出工程機(jī)械裝備案例庫知識圖譜的構(gòu)建方法,分析基于某鉆井公司樁基施工案例庫的工程機(jī)械裝備案例庫知識圖譜應(yīng)用,嘗試工程機(jī)械裝備案例庫知識圖譜在工程領(lǐng)域垂直深化的可能性,為工程案例知識重用提供新的解決方向。在工程領(lǐng)域,對大量非結(jié)構(gòu)化數(shù)據(jù)、表單、圖片進(jìn)行自動化識別處理,以及將知識圖譜更好融入業(yè)務(wù)場景,仍然存在挑戰(zhàn),相信在不久的將來,知識圖譜在工程領(lǐng)域的應(yīng)用會越來越可靠和成熟。