梁泉 林妍
(中國電信股份有限公司廣東分公司 廣東·廣州 510000)
在企業(yè)運(yùn)營過程中,會產(chǎn)生海量的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并且這些運(yùn)營數(shù)據(jù)分為人為核心數(shù)據(jù)和運(yùn)維數(shù)據(jù)兩大類,其中運(yùn)維數(shù)據(jù)包括設(shè)備運(yùn)行狀態(tài)、故障數(shù)據(jù)、設(shè)施設(shè)備管理等以機(jī)器為核心的數(shù)據(jù)。目前,企業(yè)智能運(yùn)維越來越復(fù)雜、企業(yè)業(yè)務(wù)對智能運(yùn)維的依賴程度越來越深,智能運(yùn)維從早期關(guān)注網(wǎng)絡(luò)和基礎(chǔ)硬件設(shè)備發(fā)展到了對各方面綜合管理的程度,智能運(yùn)維面臨著巨大的壓力,如:業(yè)務(wù)系統(tǒng)、運(yùn)維人員、運(yùn)行環(huán)境等。為了持續(xù)、穩(wěn)定、保持各類系統(tǒng)安全可靠運(yùn)行,利用知識圖譜,可以快速響應(yīng)需求、靈活調(diào)整系統(tǒng)以及個性化運(yùn)維服務(wù),為系統(tǒng)運(yùn)維人員提供解決方案參考,促進(jìn)智能運(yùn)維的可持續(xù)發(fā)展。
知識圖譜是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,是圖書情報(bào)界知識域可視化或知識領(lǐng)域映射地圖,可以幫助用戶更快更簡單地發(fā)現(xiàn)新的信息和知識。知識圖譜是互聯(lián)網(wǎng)語義網(wǎng)絡(luò)發(fā)展的產(chǎn)物,在其發(fā)展歷程中,知識圖譜極大地推動了語義網(wǎng)、自然語言處理、數(shù)據(jù)庫等相關(guān)技術(shù)的發(fā)展,是目前知識庫構(gòu)建和搜索領(lǐng)域最為熱門、最為領(lǐng)先的技術(shù)與發(fā)展趨勢,可以廣泛支持知識檢索、智能問答、決策支持等智能應(yīng)用。通過知識圖譜對海量數(shù)據(jù)進(jìn)行挖掘、抽取、清晰、融合、推理等,可以用圖的形式,將無序數(shù)據(jù)變?yōu)橹R網(wǎng)絡(luò),從而以更加直觀的形式展示知識網(wǎng)絡(luò),反應(yīng)出現(xiàn)實(shí)中實(shí)體及實(shí)體間的關(guān)系。一般情況下,知識圖譜包括實(shí)體、屬性、關(guān)系等重要元素,其中節(jié)點(diǎn)表示“實(shí)體”,用邊將信息連接形成關(guān)系網(wǎng)絡(luò),表示實(shí)體間的“關(guān)系”,將抽象的信息用可視化圖形方式展現(xiàn)出來。利用知識圖譜,人們不但可以獲得分析和解決問題的能力,還可以快速地獲得知識和知識之間的邏輯關(guān)系,從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動應(yīng)用。
知識圖譜具有以下幾點(diǎn)優(yōu)點(diǎn):第一,語義表達(dá)能力豐富。知識圖譜源于語義網(wǎng)絡(luò),對于知識服務(wù)應(yīng)用任務(wù)具有重要的支持作用,是一階謂詞邏輯的簡化形式。并且知識圖譜能夠描述概念、事實(shí)、規(guī)則等各種層次的知識,在實(shí)際應(yīng)用中,通過定義大量的概念和關(guān)系類型,能夠有效組織和描述人類在自然環(huán)境和社會活動中形成的海量數(shù)據(jù),能夠極大地豐富語義網(wǎng)絡(luò)內(nèi)涵,為各類人工智能應(yīng)用系統(tǒng)奠定知識基礎(chǔ);第二,知識圖譜表示方法對計(jì)算機(jī)友好、支持高效推理。以往,在知識推理時(shí),傳統(tǒng)的推理方法很難快速地進(jìn)行知識處理,復(fù)雜度很高,很難實(shí)現(xiàn)知識表現(xiàn)得目標(biāo)。而知識圖譜的表示形式是結(jié)合圖論相關(guān)算法,以圖結(jié)構(gòu)為基礎(chǔ)的前沿技術(shù),通過利用對節(jié)點(diǎn)和路徑的遍歷搜索,可以極大地降低計(jì)算機(jī)處理成本,有效提升推理效率;第三,知識圖譜描述形式統(tǒng)一,能夠方便不同類型知識的集成與融合。知識圖譜可以通過對齊、匹配等操作,以語義網(wǎng)的資源描述框架規(guī)范形式,對異構(gòu)知識進(jìn)行集成和融合,統(tǒng)一表示知識體系和實(shí)例數(shù)據(jù),從而促使知識服務(wù)更加靈活,支撐更加豐富;第四,知識圖譜方便計(jì)算機(jī)系統(tǒng)存儲與檢索,是基于圖結(jié)構(gòu)的數(shù)據(jù)格式,能夠更容易推廣數(shù)據(jù)的標(biāo)準(zhǔn)化,其以三元組為基礎(chǔ),結(jié)合圖數(shù)據(jù)庫技術(shù)以及語義網(wǎng)描述體系、標(biāo)準(zhǔn)和工具,能夠使相應(yīng)的工具更加方便數(shù)據(jù)統(tǒng)一,為計(jì)算機(jī)系統(tǒng)存儲與檢索大規(guī)模知識系統(tǒng)提供技術(shù)保障。
對于知識服務(wù)來說,知識圖譜能夠?qū)鹘y(tǒng)基于淺層語義分析的信息服務(wù)凡是提升到基于深層語義的知識服務(wù),具有非常重要的支撐作用。而智能運(yùn)維是通過融合IT數(shù)據(jù)、打破數(shù)據(jù)信息孤島,使IT能夠更好地支撐業(yè)務(wù),對監(jiān)控、自動化、服務(wù)臺進(jìn)行支持,是利用大數(shù)據(jù)技術(shù)以及機(jī)器學(xué)習(xí)技術(shù)、機(jī)器學(xué)習(xí)技術(shù),來回答單從IT口徑無法回答的問題,或者回答以前很多單從業(yè)務(wù)口徑。
知識圖譜是人工智能基礎(chǔ)設(shè)施,智能運(yùn)維需要依托人工智能技術(shù)。也可以說,沒有知識圖譜,智能運(yùn)維難有建樹,擁有知識圖譜,智能運(yùn)維就會更進(jìn)一步,知識圖譜能夠完善智能運(yùn)維的現(xiàn)有體系。如在競爭日趨激勵的市場環(huán)境中,為了向DevOps提供持續(xù)反饋,AlOps以創(chuàng)造商業(yè)價(jià)值為導(dǎo)向,持續(xù)洞察IT運(yùn)營以及業(yè)務(wù)運(yùn)營,加快了企業(yè)數(shù)字化轉(zhuǎn)型的步伐。從全球ALOps廠商來看,其時(shí)序指標(biāo)流派和事件流派是目前兩大最熱門的流派:一方面,時(shí)序指標(biāo)流派利用時(shí)序數(shù)據(jù)作為ALOps的數(shù)據(jù)源、落地場景多為單指標(biāo)時(shí)序預(yù)測、多指標(biāo)時(shí)序預(yù)測、單指標(biāo)異常檢測、多指標(biāo)異常檢測,國外的Appdynamic、Newrelic、Datadog,國內(nèi)聽云、云智慧等都選擇這個路線來做監(jiān)控系統(tǒng);另一方面,事件流派主要是采用文本型數(shù)據(jù)作為ALOps平臺的數(shù)據(jù)源,在事件降噪、事件發(fā)現(xiàn)、事件抑制等領(lǐng)域集中落地場景。并且在事件根因分析、異常事件發(fā)現(xiàn)、事件解決方案推薦等也會嘗試做一些高級功能。國外Splunk、國內(nèi)的日志易、擎創(chuàng)等都選擇這個路線來做日志分析。但無論采用哪種方式做ALOps,都會遇到一些瓶頸,這是由于落地場景不斷深入造成的。如由于用戶數(shù)據(jù)種類繁多、特征各異,運(yùn)用時(shí)序指標(biāo)來做 ALOps的廠商是不可能只使用某種單一算法來解決的。因此,在實(shí)際生產(chǎn)中,為了大幅提升效率,可以利用知識圖譜描述形式統(tǒng)一的特點(diǎn),集成和融合不同類型知識,快捷地講時(shí)序指標(biāo)和算法精準(zhǔn)地結(jié)合起來。知識圖譜基于圖結(jié)構(gòu)的數(shù)據(jù)格式,能夠快速提供生產(chǎn)系統(tǒng)中應(yīng)用和組件之間的關(guān)聯(lián)、承載關(guān)系,可以促使結(jié)果數(shù)據(jù)更為精準(zhǔn),日志分析廠商就是通過日志數(shù)據(jù)來做事件根因分析的。
知識圖譜豐富的語義表達(dá)能力和對計(jì)算機(jī)友好的表示方法,可以幫助企業(yè)不斷收集基于實(shí)際生產(chǎn)環(huán)境的運(yùn)維知識沉淀,建立企業(yè)自己的知識圖譜,進(jìn)一步看到數(shù)據(jù)背后的真實(shí)含義和相互關(guān)系,如硬件屬性信息、應(yīng)用拓?fù)潢P(guān)系、系統(tǒng)配置信息等。
構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)現(xiàn)有經(jīng)驗(yàn)數(shù)據(jù),通過自動抽取資源的方式,可以促使現(xiàn)有的知識庫豐富和完善。
首先,知識抽取與挖掘。為了提取出知識以及知識間的相互關(guān)系,需要從各種類型的數(shù)據(jù)源中進(jìn)行知識抽取,并形成網(wǎng)狀知識結(jié)構(gòu)。知識抽取是構(gòu)建知識圖譜的基礎(chǔ),一般情況下,企業(yè)設(shè)備運(yùn)維數(shù)據(jù)的分析與應(yīng)用是圍繞著一些核心主題對象的屬性及關(guān)系信息進(jìn)行的。如:在設(shè)備運(yùn)維中從業(yè)務(wù)數(shù)據(jù)中抽取各類數(shù)據(jù)源中存在的核心對象,通過關(guān)系識別,形成網(wǎng)狀知識結(jié)構(gòu)。并為了提升知識抽取的準(zhǔn)確率和效率,可以通過數(shù)據(jù)挖掘手段,來發(fā)現(xiàn)各類數(shù)據(jù)源中的蘊(yùn)含關(guān)聯(lián)。
獲得新知識之后,應(yīng)通過整合的方法,消除知識間的矛盾和歧義。除了海量的結(jié)構(gòu)化數(shù)據(jù)外,龐大、形式多樣的智能運(yùn)維數(shù)據(jù)還有大量的、以視頻、圖片等本結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式存儲。這些數(shù)據(jù)無法直接為上層應(yīng)用提供支撐,處于零散的狀態(tài)。因此,為了形成更加全面的信息,需要通過消歧、指代消歧等數(shù)據(jù)處理過程來整合不同數(shù)據(jù)源中的實(shí)體,通過知識推理進(jìn)行隱含知識的深度挖掘,通過知識質(zhì)量評估將正確的知識放入知識圖譜中,實(shí)現(xiàn)知識圖譜的質(zhì)量保證。經(jīng)過融合和加工后,知識形成關(guān)系、有序的知識網(wǎng)絡(luò),能夠更加有效、智能地進(jìn)行知識深度挖掘,并以規(guī)范化存儲在知識庫中生成索引。
進(jìn)入21世紀(jì)以來,智能信息服務(wù)應(yīng)用發(fā)展迅速,知識圖譜實(shí)現(xiàn)了業(yè)務(wù)邏輯性保存,對數(shù)據(jù)組織、存儲方式的改變具有很大的影響,已經(jīng)在智能搜索、智能問答、個性化推薦等領(lǐng)域廣泛運(yùn)用,能夠讓知識被用戶訪問到(搜索)、被查詢(問答)、可被支持行動(決策)。由此,本文嘗試通過識別數(shù)據(jù)源、知識抽取、融合、加工的過程,以知識圖譜方法論為指導(dǎo),構(gòu)建了項(xiàng)目實(shí)施和運(yùn)維知識庫。面對系統(tǒng)功能在不同單位間的復(fù)制推廣、個性化需求調(diào)整,系統(tǒng)層面?zhèn)戎赜诮鉀Q方案的提煉、審核、應(yīng)用和迭代,解決了方案對新業(yè)務(wù)的適配,以及與之相關(guān)的管理辦法和流程;面對不斷有新客戶的進(jìn)入、操作、重復(fù)性問題較多的情況,用戶層探討了語義識別研究、智能客服開發(fā)以及模糊關(guān)鍵字的設(shè)置與調(diào)整等,側(cè)重于常見問題的梳理(圖1)。
圖1:知識圖譜構(gòu)建流程
完善的知識圖譜能夠?qū)崿F(xiàn)知識的網(wǎng)狀結(jié)構(gòu)存儲,目前,知識圖譜已經(jīng)廣泛應(yīng)用于智能搜索、智能問答、個性化推薦等領(lǐng)域。其中智能搜索和智能問答是知識圖譜主要應(yīng)用方向。首先,智能搜索是面向內(nèi)部顧問的應(yīng)用,應(yīng)用實(shí)現(xiàn)簡單、效果顯著。搜索答案時(shí),內(nèi)部運(yùn)維顧問會提出精準(zhǔn)的問題。而智能搜索根據(jù)問題的關(guān)鍵字以及其貼合度,能夠快速找出符合要求的答案,并對答案進(jìn)行排序,展示與該問題答案知識相關(guān)度較高的其他知識鏈接。同時(shí),為了方便顧問關(guān)注到與該知識相關(guān)的其他知識及屬性,通過知識與知識網(wǎng)狀關(guān)系的展示,可以快速找出可復(fù)用的巨額方案,更加直觀、完整的了解系統(tǒng)全貌。其次,智能問答是面向外部客戶的應(yīng)用,能夠降低一線運(yùn)維人員工作強(qiáng)度,滿足一部分客戶簡單、初級的操作咨詢請求,提升運(yùn)維工作效率。但同時(shí),問答系統(tǒng)還需要運(yùn)營自然語義處理相關(guān)技術(shù),將客戶口語化描述轉(zhuǎn)換成系統(tǒng)能理解的程式化語言,具有問題精準(zhǔn)識別的難題。并且在操作過程中,智能問答還需要客戶直接將界面截圖并發(fā)布在問答系統(tǒng)上,需要提前對所有錯誤和提示進(jìn)行編號。當(dāng)客戶發(fā)出問題截圖說明時(shí),識別提示對應(yīng)的問題編號還需要通過圖像識別技術(shù),才能反饋給客戶相應(yīng)的答案,從逐步開展客戶智能問答試點(diǎn)。
21世紀(jì)是一個大數(shù)據(jù)時(shí)代,知識的表達(dá)和組織方式成了各個專業(yè)領(lǐng)域的研究熱點(diǎn),各行業(yè)中知識都面臨著爆炸式增長。而知識圖譜能夠?qū)崿F(xiàn)有效的知識組織、管理和利用,是以圖的形式存儲實(shí)體機(jī)實(shí)體間關(guān)系的知識庫,可以提升知識體系的標(biāo)準(zhǔn)化和完備程度,優(yōu)化知識體系,使業(yè)務(wù)流程和處理過程圖形化、可視化,是跨計(jì)算機(jī)、圖形學(xué)、人工智能多學(xué)科的前沿技術(shù)。在智能運(yùn)維中運(yùn)用知識圖譜知識很小的一把付恩,為了提升員工工作效率、客戶滿意度,在未來,知識圖譜應(yīng)與實(shí)際業(yè)務(wù)、大數(shù)據(jù)分析相結(jié)合,才能促進(jìn)企業(yè)運(yùn)營的可持續(xù)發(fā)展。