石雅茹
(中車青島四方機車車輛股份有限公司,山東青島 266111)
運維管理系統(tǒng)(OMS)是針對電信運營商的網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)中心、機房等基礎(chǔ)設(shè)施,提供從監(jiān)測、運維到故障處理的端到端管理平臺。OMS 可以為電信運營商提供一個集中的、面向用戶的自動化管理平臺,從而使其能夠?qū)W(wǎng)絡(luò)設(shè)備、數(shù)據(jù)中心、機房等基礎(chǔ)設(shè)施進行高效管理。
傳統(tǒng)的故障處理是在機房內(nèi),由網(wǎng)絡(luò)工程師進行故障判斷,由于運維人員和網(wǎng)絡(luò)工程師在經(jīng)驗、技術(shù)上存在較大差異,難以保證故障處理的準確性。智能運維平臺協(xié)同過濾信息推薦系統(tǒng)利用云計算、大數(shù)據(jù)技術(shù),將故障處理的流程數(shù)字化,使故障處理更具可預(yù)測性、可預(yù)見性。智能運維平臺協(xié)同過濾信息推薦系統(tǒng)通過對各專業(yè)運維數(shù)據(jù)的采集分析,將電信運營商的基礎(chǔ)設(shè)施和網(wǎng)絡(luò)設(shè)備狀態(tài)全面、準確、及時地呈現(xiàn)出來。在故障發(fā)生后,系統(tǒng)自動將故障告警發(fā)送給相關(guān)專業(yè)人員,由專業(yè)人員對問題進行分析,并制定相應(yīng)的解決方案。此外,系統(tǒng)還可以自動生成相關(guān)工單,由人工進行審核和處理。智能運維平臺協(xié)同過濾信息推薦系統(tǒng)可幫助電信運營商實現(xiàn)網(wǎng)絡(luò)的全面監(jiān)測和全流程自動化管理,提高故障處理效率和質(zhì)量,有效降低網(wǎng)絡(luò)維護成本。
傳統(tǒng)的運維管理主要是針對設(shè)備的性能、業(yè)務(wù)系統(tǒng)、安全等方面進行管理,缺少對運維人員的管理和支持。隨著企業(yè)信息化建設(shè)的推進,企業(yè)內(nèi)部的IT 系統(tǒng)越來越多,導(dǎo)致數(shù)據(jù)量日益增大。對于傳統(tǒng)運維管理方式而言,IT系統(tǒng)架構(gòu)復(fù)雜、種類繁多,為運維管理帶來了極大的挑戰(zhàn)。因此,企業(yè)在構(gòu)建智能運維平臺時,要建立統(tǒng)一的數(shù)據(jù)采集、存儲和分析體系,基于不同IT 系統(tǒng)的特點,將采集到的數(shù)據(jù)進行統(tǒng)一處理和管理。利用智能運維平臺對所有IT 系統(tǒng)進行統(tǒng)一采集和管理,形成統(tǒng)一的數(shù)據(jù)格式、數(shù)據(jù)存儲和分析體系。此外,還要建立完善的運維人員管理機制和培訓(xùn)機制,提升運維人員對系統(tǒng)架構(gòu)、應(yīng)用架構(gòu)、網(wǎng)絡(luò)架構(gòu)等方面的了解。同時,還可以借助數(shù)據(jù)挖掘技術(shù)、機器學(xué)習(xí)技術(shù)等,對數(shù)據(jù)進行深度分析和挖掘,為信息推薦系統(tǒng)設(shè)計提供依據(jù)。
智能運維平臺協(xié)同過濾信息推薦系統(tǒng)中的推薦算法主要是利用用戶和項目的歷史評分數(shù)據(jù),通過相關(guān)系數(shù)計算,得出兩者之間的相似度,從而為用戶推薦與其歷史評分相似度較高的項目。然而,由于智能運維平臺中數(shù)據(jù)量龐大,采用的相似度計算方法并不準確,會導(dǎo)致推薦結(jié)果出現(xiàn)較大誤差。例如,在用戶評分數(shù)據(jù)中,有很多項目都是相同類型的,但是由于不同用戶使用不同類型的設(shè)備,導(dǎo)致每個用戶使用的設(shè)備類型不一致,就會出現(xiàn)大量相似度較高的項目被推薦出來。此外,智能運維平臺中大量相似度較高的項目也會導(dǎo)致推薦結(jié)果過于樂觀,從而影響其他用戶對該項目的評分。因此,為了提高推薦結(jié)果的準確性,必須對推薦算法進行改進。
在智能運維平臺中,運維數(shù)據(jù)分為兩部分,一部分是智能監(jiān)控系統(tǒng)采集到的基礎(chǔ)數(shù)據(jù),包括設(shè)備名稱、物理位置、網(wǎng)絡(luò)拓撲、IP 地址等;另一部分是系統(tǒng)采集到的運維數(shù)據(jù),包括CPU、內(nèi)存、硬盤等物理設(shè)備的配置信息和服務(wù)日志信息。這些數(shù)據(jù)都是通過系統(tǒng)收集和分析得到的,往往具有一定的噪聲和缺失,需要進行初步清洗才能滿足后續(xù)推薦算法的要求。
首先,對原始數(shù)據(jù)進行預(yù)處理。對采集到的基礎(chǔ)數(shù)據(jù)進行清洗,去除噪聲和缺失數(shù)據(jù),按照一定標(biāo)準轉(zhuǎn)換為標(biāo)準格式,進行標(biāo)準化處理,并按照一定的規(guī)則對標(biāo)準化后的基礎(chǔ)數(shù)據(jù)進行歸一化處理,歸一化后的基礎(chǔ)數(shù)據(jù)能夠保證不同設(shè)備之間具有可比性。其次,對系統(tǒng)采集到的運維數(shù)據(jù)進行初步清洗。如果采用統(tǒng)一格式的采集方法,會產(chǎn)生大量相同或相似的運維信息,難以滿足推薦算法對于異構(gòu)信息處理的要求。如果采用不同的處理方法,可能會產(chǎn)生大量冗余信息,降低推薦算法的效率。因此,在系統(tǒng)設(shè)計之初就要考慮如何將不同設(shè)備上采集到的基礎(chǔ)數(shù)據(jù)進行整合和規(guī)范。
協(xié)同過濾推薦算法是目前應(yīng)用最廣泛的一種信息推薦算法,根據(jù)用戶之間的歷史交互記錄,分析用戶對某一類或多類物品的偏好,從而為用戶推薦類似的物品。協(xié)同過濾算法可以分為兩大類,即基于物品協(xié)同過濾算法和用戶協(xié)同過濾算法。首先輸入用戶對某一類或多類物品的偏好信息,然后利用該用戶對該類或多類物品的歷史交互信息計算用戶對該類或多類物品的偏好信息,最終根據(jù)用戶與該類或多類物品之間的相似度,為其推薦類似商品?;谟脩魠f(xié)同過濾推薦系統(tǒng)是一種針對用戶特征進行個性化推薦的系統(tǒng)。利用用戶對某一類或多類物品的偏好信息計算用戶對該類或多類物品的偏好信息,根據(jù)這些偏好信息對目標(biāo)用戶進行個性化推薦。與物品協(xié)同過濾相比,用戶協(xié)同過濾不需要考慮如何提取歷史交互記錄中的特征信息,因為這些特征信息在歷史交互記錄中已經(jīng)存在[1],可以直接使用。與物品協(xié)同過濾不同的是,用戶協(xié)同過濾需要考慮如何將目標(biāo)用戶和目標(biāo)產(chǎn)品之間進行匹配,具體實現(xiàn)過程中涉及多個關(guān)鍵算法,如相似性度量算法、推薦算法、排序算法等。
協(xié)同過濾信息推薦系統(tǒng)主要解決的是用戶之間的協(xié)同問題,而不是給用戶推薦商品。在推薦策略中,通常需要根據(jù)用戶的歷史行為數(shù)據(jù)預(yù)測用戶對商品的偏好,這種方法在一定程度上能滿足用戶需求,但在實際使用中往往存在一定的問題。
首先,用戶歷史行為數(shù)據(jù)的獲取比較困難。用戶在使用智能運維平臺時,會產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)對于協(xié)同過濾信息推薦系統(tǒng)來說是一種潛在的“冷啟動”資源。由于這些數(shù)據(jù)都是由運維人員手動記錄下來的,其中包含大量的無效或不完整數(shù)據(jù),因此在處理這些數(shù)據(jù)時,需要投入大量的人力和時間成本。其次,用戶歷史行為數(shù)據(jù)可能并不能真正地反映用戶真正喜歡的商品。雖然推薦系統(tǒng)應(yīng)該盡量貼近真實情況,但由于智能運維平臺上存在著大量相似或者相同的商品,可能會出現(xiàn)“推薦不準確”或“推薦與實際情況不符”等情況。最后,推薦系統(tǒng)中推薦算法和模型太多。例如,常見的協(xié)同過濾算法主要包括基于內(nèi)容、基于項目、基于內(nèi)容與協(xié)同過濾相結(jié)合、基于內(nèi)容與項目相結(jié)合4 種方法。其中,基于項目算法是最基本,也是最常用的一種方法,可以直接應(yīng)用于各種推薦系統(tǒng),而基于內(nèi)容與協(xié)同過濾相結(jié)合則是近年來研究較多的一種算法,因為其他算法具有一定的局限性,所以很少單獨使用。用戶歷史行為數(shù)據(jù)不足導(dǎo)致的數(shù)據(jù)稀疏性問題,可以考慮使用基于內(nèi)容與協(xié)同過濾相結(jié)合的算法,但是這種方法存在冷啟動問題。在該方法中,由于用戶歷史行為數(shù)據(jù)不足導(dǎo)致用戶無法找到自己喜歡或感興趣的商品,因此很難確定用戶到底喜歡什么商品。針對這一問題,可以考慮在該算法中引入?yún)f(xié)同過濾推薦模塊或混合推薦模塊。
根據(jù)上述分析可知,協(xié)同過濾推薦系統(tǒng)在設(shè)計時,要充分考慮智能運維平臺上存在的大量相同、相似商品或服務(wù)。在具體設(shè)計時,需要根據(jù)實際情況進行適當(dāng)調(diào)整。例如,在推薦策略中引入?yún)f(xié)同過濾算法,并不意味著可以完全不考慮其他推薦算法。具體來說,可根據(jù)實際情況對推薦系統(tǒng)進行相應(yīng)的調(diào)整,以滿足用戶需求。一些特別小眾或者個性化較強的商品或服務(wù)不適合直接引入?yún)f(xié)同過濾算法,這類商品或服務(wù)可以考慮采用混合推薦策略提高推薦效率[2]。為達到更好推薦效果,可以針對不同情況對推薦系統(tǒng)進行適當(dāng)調(diào)整,以滿足不同用戶的需求。
協(xié)同過濾算法的選擇主要有3 個方面,分別是計算成本、數(shù)據(jù)稀疏性、算法復(fù)雜度。計算成本是指算法的計算開銷,通常推薦系統(tǒng)的推薦策略分為在線和離線兩種,在線推薦需要保證算法的可擴展性,所以算法的選擇也是系統(tǒng)設(shè)計中需要考慮的因素之一。離線情況下,協(xié)同過濾算法一般是基于項目本身的信息進行推薦,計算量較小,且易于實現(xiàn)。在選擇協(xié)同過濾算法時,需要充分考慮其可擴展性。數(shù)據(jù)稀疏性是指系統(tǒng)中存在大量未標(biāo)記的數(shù)據(jù),由于數(shù)據(jù)稀疏性問題,傳統(tǒng)協(xié)同過濾算法中使用的矩陣分解技術(shù)很難達到預(yù)期效果。近年來,深度學(xué)習(xí)技術(shù)在推薦領(lǐng)域得到了廣泛應(yīng)用,使基于深度學(xué)習(xí)的推薦技術(shù)成為一種重要的選擇。因此,在智能運維平臺中設(shè)計協(xié)同過濾信息推薦系統(tǒng)時,應(yīng)充分考慮自身實際情況和應(yīng)用場景的特點和需求。協(xié)同過濾算法是一種基于用戶/項目評分數(shù)據(jù)進行預(yù)測推薦的方法[3]。對于傳統(tǒng)協(xié)同過濾算法而言,由于用戶/項目評分數(shù)據(jù)較少且維度較低,其推薦效果往往不能滿足實際需要,所以在進行協(xié)同過濾算法選擇時應(yīng)充分考慮這一因素。
協(xié)同過濾信息推薦系統(tǒng)主要由3 部分組成,分別是用戶畫像、信息推薦引擎以及基于內(nèi)容的推薦引擎。用戶畫像部分用于描述用戶的基本信息,例如姓名、性別、年齡、工作崗位等;信息推薦引擎主要用于推薦系統(tǒng)中使用的各種故障信息,包括應(yīng)用服務(wù)的異常報警、應(yīng)用系統(tǒng)告警、應(yīng)用服務(wù)性能指標(biāo)等。用戶畫像部分是整個系統(tǒng)的核心部分,為整個系統(tǒng)提供了豐富的數(shù)據(jù)來源。例如,可以根據(jù)用戶以往的故障報告、日志等數(shù)據(jù)生成用戶畫像,根據(jù)用戶在使用應(yīng)用服務(wù)過程中產(chǎn)生的行為數(shù)據(jù),如日志記錄中產(chǎn)生的網(wǎng)絡(luò)連接數(shù)、CPU 使用率等,生成用戶畫像;還可以根據(jù)用戶使用應(yīng)用服務(wù)的行為特征,如網(wǎng)絡(luò)請求頻率、網(wǎng)絡(luò)流量大小等,生成用戶畫像。協(xié)同過濾信息推薦引擎是整個系統(tǒng)的核心部分,可以根據(jù)系統(tǒng)中存在的數(shù)據(jù)和算法模型,生成推薦結(jié)果,推薦結(jié)果可以分為3 類。第一,由系統(tǒng)推薦給用戶的結(jié)果,即推薦給用戶的推薦信息。第二,由系統(tǒng)推薦給其他相關(guān)人員(運維人員、開發(fā)人員)的結(jié)果,即協(xié)同過濾算法生成的推薦信息。第三,由其他運維人員(系統(tǒng)運維人員)直接生成的結(jié)果?;趦?nèi)容的推薦引擎可以提供更加豐富的數(shù)據(jù)來源,在協(xié)同過濾算法生成的推薦信息中還可以添加一些額外特征和屬性[4]。例如,根據(jù)應(yīng)用服務(wù)的網(wǎng)絡(luò)連接數(shù)、CPU 使用率等描述應(yīng)用服務(wù)發(fā)生的異常情況;根據(jù)應(yīng)用服務(wù)時間描述應(yīng)用服務(wù)發(fā)生的異常情況;根據(jù)應(yīng)用服務(wù)負載描述應(yīng)用服務(wù)發(fā)生的異常情況等。
系統(tǒng)主要由數(shù)據(jù)管理、協(xié)同過濾、信息推薦和用戶管理模塊構(gòu)成。數(shù)據(jù)管理模塊提供了用戶基本信息管理、性能信息管理等功能,為用戶提供基礎(chǔ)的運維數(shù)據(jù)支持,協(xié)同過濾模塊提供了故障信息推薦功能,通過建立用戶-故障關(guān)系,為用戶推薦可能感興趣的故障信息,信息推薦模塊提供了用戶偏好信息的推薦,包括對故障處理結(jié)果和處理時間的推薦、對故障處理結(jié)果的排序推薦,用戶管理模塊主要實現(xiàn)了系統(tǒng)管理員對系統(tǒng)的配置、修改、刪除、監(jiān)控等功能。協(xié)同過濾是基于用戶歷史行為數(shù)據(jù)的個性化推薦。數(shù)據(jù)預(yù)處理是通過數(shù)據(jù)清洗模塊對用戶歷史行為數(shù)據(jù)進行清洗和過濾,去除噪聲[5]。此外,系統(tǒng)還支持將清洗后的數(shù)據(jù)進行聚類處理,以提高算法精度。改進的協(xié)同過濾算法是將經(jīng)典協(xié)同過濾算法和新的改進算法相結(jié)合。
在當(dāng)前時代背景下,合理設(shè)計智能運維平臺協(xié)同過濾信息推薦系統(tǒng)有重要的意義。因此,需要結(jié)合當(dāng)前實際情況,了解智能運維平臺協(xié)同過濾信息推薦系統(tǒng)的優(yōu)勢和問題,并掌握系統(tǒng)架構(gòu)、功能設(shè)計、算法設(shè)計等一系列設(shè)計要點,保證智能運維平臺協(xié)同過濾信息推薦系統(tǒng)設(shè)計的有效進行,推動系統(tǒng)的可持續(xù)發(fā)展和進步。