中航工業(yè)成都飛機工業(yè)(集團)有限責(zé)任公司 趙 力
作為我國航空工業(yè)的骨干企業(yè),中航工業(yè)成飛多年來成功參與了多個飛機的研制任務(wù),其中,中航工業(yè)成飛的數(shù)字化工程建設(shè)工作功不可沒。中航工業(yè)成飛協(xié)同工作平臺經(jīng)過多年的持續(xù)建設(shè),以及在多個飛機型號上的工程實踐,得以逐步完善并實現(xiàn)了對中航工業(yè)成飛現(xiàn)行業(yè)務(wù)模式的基本覆蓋,為型號飛機的成功研制提供了巨大保障。在現(xiàn)有協(xié)同工作平臺的支持下,中航工業(yè)成飛的主要核心業(yè)務(wù)(技術(shù)準(zhǔn)備、生產(chǎn)準(zhǔn)備、采購、財務(wù)等)均可以圍繞協(xié)同工作平臺提供的3個BOM(EBOM/PBOM/MBOM)來展開工作,其工作效率、質(zhì)量、成本控制等方面均得到了巨大改善。
隨著各個型號的深入研制,參研型號的不斷增加,協(xié)同工作平臺中的產(chǎn)品數(shù)據(jù)及業(yè)務(wù)數(shù)據(jù)呈幾何式爆炸性增長,對協(xié)同工作平臺的運行性能和使用效能提出了更高的要求。到目前為止,納入?yún)f(xié)同工作平臺的飛機型號已經(jīng)達到10個,協(xié)同工作平臺內(nèi)的產(chǎn)品數(shù)據(jù)已超過4TB,且以10G/每周的速度增長,這將對當(dāng)前的協(xié)同工作平臺造成極大的挑戰(zhàn)。在近10年的協(xié)同工作平臺持續(xù)建設(shè)和工程化應(yīng)用過程中,曾出現(xiàn)過因產(chǎn)品數(shù)據(jù)不斷增加而導(dǎo)致的系統(tǒng)使用性能下降等問題,例如2013年5月,就出現(xiàn)了一次因數(shù)據(jù)量劇增,導(dǎo)致系統(tǒng)性能下降,并致使系統(tǒng)出現(xiàn)周期性的宕機,嚴(yán)重影響型號正常研制工作的事件。
面對這些問題,一般性的處理措施就是通過提升硬件配置,以及軟、硬件廠商共同參與進行性能調(diào)優(yōu)來改善系統(tǒng)的運行性能?;诖?,最近5年從IT基礎(chǔ)設(shè)施改造、應(yīng)用系統(tǒng)調(diào)優(yōu)等方面展開了一系列的工作,取得了較好的效果。但隨著系統(tǒng)內(nèi)產(chǎn)品數(shù)據(jù)的進一步擴增,以支撐環(huán)境優(yōu)化調(diào)整的手段開始難于奏效;放眼未來,即便是通過硬件升級改造,應(yīng)用系統(tǒng)性能調(diào)優(yōu)以及負(fù)載均衡等傳統(tǒng)手段都將很難保證復(fù)雜系統(tǒng)的可靠性及持續(xù)性。
為此,業(yè)界提出一種觀點:從產(chǎn)品數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)自身出發(fā),分析數(shù)據(jù)的業(yè)務(wù)類別、作用范圍及其使用頻度,從而在系統(tǒng)中智能化地支持?jǐn)?shù)據(jù)的管理、檢索和使用。通過數(shù)據(jù)的活躍程度來假定(推測)數(shù)據(jù)的使用可能性這一基本思想來邏輯性地縮減候選數(shù)據(jù)范圍,從而提高數(shù)據(jù)的檢索和使用效率。該思想目前暫時被稱之為“復(fù)雜系統(tǒng)數(shù)據(jù)活躍度管理”。該方法能較大程度上減輕數(shù)據(jù)搜索和使用的性能,解決了系統(tǒng)性能的瓶頸問題。數(shù)據(jù)復(fù)雜程度如圖1所示,近10年活躍數(shù)據(jù)比變化趨勢如圖2所示。
圖1 數(shù)據(jù)復(fù)雜程度示意圖
圖2 近10年活躍數(shù)據(jù)比變化趨勢
進入2012年以來,大數(shù)據(jù)(Big Data)一詞越來越多地被提及與使用,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù)。隨著數(shù)字化工程在制造企業(yè)的深化應(yīng)用,企業(yè)中的各種數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來的問題隱患,但是隨著時間的推移,它已經(jīng)在逐漸影響人們的工作模式和工作效率。最終,人們將越來越多地意識到大數(shù)據(jù)對企業(yè)的重要性。大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。全球知名咨詢公司麥肯錫在研究報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來[1]。
據(jù)全球最具權(quán)威的IT研究與咨詢公司Gartner統(tǒng)計,今后每5年數(shù)據(jù)量將增長10倍以上,且其中85%將來源于期間產(chǎn)生的新數(shù)據(jù)類型。2012年,大數(shù)據(jù)就帶動了全球280億美元的IT支出,至2016年,這一數(shù)字將達到2320億美元。全球IT巨頭都已意識到了大數(shù)據(jù)時代的來臨,也意識到了大數(shù)據(jù)的重要意義。包括EMC、惠普、IBM、微軟在內(nèi)的全球IT巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實現(xiàn)技術(shù)整合,亦可見其對大數(shù)據(jù)的重視。大數(shù)據(jù)發(fā)展趨勢如圖3所示[1]。
大數(shù)據(jù)主要有如下3個特征[1]。(1)數(shù)據(jù)類型繁多:包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。(2)數(shù)據(jù)價值密度相對較低:如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。(3)處理速度快、時效性要求高:這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
對于實施PLM的企業(yè)來說,隨著產(chǎn)品數(shù)量的增加及應(yīng)用的深入,大數(shù)據(jù)的問題也日益顯現(xiàn),隨之而來的是系統(tǒng)架構(gòu)的復(fù)雜性、應(yīng)用的復(fù)雜性、實施的難度等都成為制造企業(yè)所無法回避的問題。重視大數(shù)據(jù)問題,探求適合本企業(yè)的大數(shù)據(jù)管理解決方案,包括系統(tǒng)架構(gòu)、數(shù)據(jù)挖掘和分析等,提前為大數(shù)據(jù)時代做好準(zhǔn)備,將是未來制造企業(yè)所面臨的前所未有的一大機遇[1]。
因此,對企業(yè)而言,大數(shù)據(jù)是對現(xiàn)有數(shù)據(jù)管理模式的挑戰(zhàn),同時也是一種全新機遇,對海量數(shù)據(jù)的分析、運用將成為未來企業(yè)競爭和增長的基礎(chǔ)[1]。
大數(shù)據(jù)時代面臨著這樣的問題:如何從海量規(guī)模、多樣性和快速流量的數(shù)據(jù)集中抽取有用的信息。
(1)數(shù)據(jù)挖掘技術(shù)[2]。
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,從而產(chǎn)生了大量的數(shù)據(jù)。為了給決策者提供一個統(tǒng)一的全局視角,在許多領(lǐng)域建立了數(shù)據(jù)倉庫,但大量的數(shù)據(jù)往往使人們無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運而生,數(shù)據(jù)挖掘技術(shù)也正是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。但是并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(Information Retrieval)領(lǐng)域的任務(wù)。
圖3 大數(shù)據(jù)發(fā)展趨勢
數(shù)據(jù)挖掘以數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化4大支柱技術(shù)為基礎(chǔ)。描述或說明一個算法設(shè)計分為3個部分:輸入、輸出和處理過程。數(shù)據(jù)挖掘算法的輸入是數(shù)據(jù)庫,算法的輸出是要發(fā)現(xiàn)的知識或模式,算法的處理過程則涉及具體的搜索方法。從算法的輸入、輸出和處理過程3個角度,可以確定數(shù)據(jù)挖掘主要涉及3個方面:挖掘?qū)ο?、挖掘任?wù)、挖掘方法。挖掘?qū)ο蟀ㄈ舾煞N數(shù)據(jù)庫或數(shù)據(jù)源,例如關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、歷史數(shù)據(jù)庫,以及萬維網(wǎng)(WEB)等。挖掘方法可以粗分為:統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細(xì)分為:回歸分析、判別分析等。機器學(xué)習(xí)可細(xì)分為:遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析方法等。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)的過程,它是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點是對數(shù)據(jù)庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)(KDD)過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns),并不是用規(guī)范的數(shù)據(jù)庫查詢語言(如SQL)進行查詢,而是對查詢的內(nèi)容進行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報表處理只是得到事件發(fā)生的結(jié)果,并沒有深入研究發(fā)生的原因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對未來進行預(yù)測,用來為決策行為提供有利的支持[2]。
活躍度數(shù)據(jù)管理模型從根本上即為數(shù)據(jù)挖掘的一種算法,與傳統(tǒng)算法相比融入了產(chǎn)品研發(fā)數(shù)據(jù)的多維度屬性,從而獲取有用信息供用戶使用[2]。
(2)結(jié)合實際情況的活躍度概念提出。
協(xié)同工作平臺經(jīng)過長期的應(yīng)用后,數(shù)據(jù)量越來越大,數(shù)據(jù)庫中有效數(shù)據(jù)的比例越來越低,系統(tǒng)檢索性能也逐漸加大,結(jié)合數(shù)據(jù)的實際應(yīng)用情況,客戶提出采用數(shù)據(jù)活躍度的概念提取系統(tǒng)中的有效信息,納入到活躍數(shù)據(jù)庫管理,提升系統(tǒng)的使用效率。
協(xié)同工作平臺采用J2EE標(biāo)準(zhǔn)的3層架構(gòu):客戶層/服務(wù)器層/數(shù)據(jù)庫層。
(1)客戶層主要的應(yīng)用為:協(xié)同工作平臺數(shù)據(jù)的創(chuàng)建/查詢/統(tǒng)計/流程簽審,該工作主要在IE上進行操作;CATIA設(shè)計數(shù)據(jù)的提交,該工作設(shè)計人員在CATIA集成設(shè)計環(huán)境中完成設(shè)計,通過集成模塊WGM將設(shè)計數(shù)據(jù)提交到協(xié)同工作平臺。
(2)服務(wù)器層的主要服務(wù)為:Apache服務(wù),主要應(yīng)用于用戶認(rèn)證,負(fù)載均衡的配置等;Tomcat服務(wù),編譯JSP源頁面,接收用戶的訪問請求并返回用戶訪問結(jié)果;WindchillDS服務(wù),輕量級目錄訪問協(xié)議(LDAP),用戶管理用戶認(rèn)證信息、用戶群組信息;Windchill服務(wù),用戶執(zhí)行用戶訪問后的具體業(yè)務(wù)邏輯,并通過對數(shù)據(jù)庫的訪問進行數(shù)據(jù)的讀寫操作。
(3)數(shù)據(jù)庫層的主要應(yīng)用為:外部電子倉庫,存儲用戶上載的業(yè)務(wù)數(shù)據(jù)的電子文檔,是協(xié)同工作平臺最主要的數(shù)據(jù)存儲方式;Oracle數(shù)據(jù)庫,存儲業(yè)務(wù)數(shù)據(jù)的基本信息,提供用戶的讀寫訪問。
考慮到系統(tǒng)中型號數(shù)據(jù)量雖然繁多復(fù)雜,但針對不同時期或時間段所關(guān)注的數(shù)據(jù)具有一定的單一性,即可以區(qū)分出數(shù)據(jù)的活躍度。通過針對活躍數(shù)據(jù)的管理,能降低系統(tǒng)的負(fù)載壓力。
總體解決思路為:基于型號、型號生命周期、數(shù)據(jù)類型、關(guān)注程度等多個維度的動態(tài)數(shù)據(jù)活躍度定義,見圖4。
圖4 多維度的動態(tài)數(shù)據(jù)活躍度定義
基于協(xié)同工作平臺的動態(tài)活躍數(shù)據(jù)管理系統(tǒng)架構(gòu)分為應(yīng)用層、數(shù)據(jù)分析挖掘?qū)?、基礎(chǔ)數(shù)據(jù)庫層,未來還可以根據(jù)業(yè)務(wù)需要,發(fā)展基于ERP、MES等多系統(tǒng)的綜合動態(tài)活躍數(shù)據(jù)管理平臺,見圖5。
應(yīng)用層:基于已定義并提出的活躍數(shù)據(jù)庫,優(yōu)化檢索查詢、文件管理、報表管理等整體應(yīng)用性能。
數(shù)據(jù)分析挖掘?qū)樱和ㄟ^數(shù)據(jù)活躍度定義、分析,綜合多維度數(shù)據(jù)活性定義,挖掘、提取、清理活躍數(shù)據(jù),使活躍數(shù)據(jù)庫能夠動態(tài)更新,是動態(tài)活躍數(shù)據(jù)管理系統(tǒng)的“發(fā)送機”。
基礎(chǔ)數(shù)據(jù)層:包括完整數(shù)據(jù)庫、動態(tài)活躍數(shù)據(jù)庫、全文檢索庫等基礎(chǔ)應(yīng)用數(shù)據(jù)層。
產(chǎn)品數(shù)據(jù)的活躍度是指在一定期間內(nèi)該數(shù)據(jù)被訪問的頻度。在實際應(yīng)用過程中,往往還需要考慮該數(shù)據(jù)所處的上下文環(huán)境以及數(shù)據(jù)本身所具備的業(yè)務(wù)價值等,因此廣義的數(shù)據(jù)活躍度是綜合考慮數(shù)據(jù)重要性、價值和訪問頻度的一個衡量指標(biāo)。
活躍度數(shù)據(jù)管理就是要求基于活躍值,提出一個綜合的衡量計算模型,能準(zhǔn)確、有效地定義數(shù)據(jù)的活躍程度。這是典型的多屬性決策算法,而本算法的最大難點在于屬性的不確定性,且各屬性屬于不同的度量空間。
3.1 活躍度參數(shù)集定義
式中,Ip為產(chǎn)品重要度;Tp為業(yè)務(wù)對象重要度標(biāo)志;Pp為數(shù)據(jù)的成熟度;Up為用戶重要核心程度;Op為操作關(guān)鍵度標(biāo)志;Vd為同一業(yè)務(wù)對象在持續(xù)一段時間內(nèi)的數(shù)據(jù)平均訪問次數(shù)。
根據(jù)實際情況,活躍度參數(shù)初始定義如表1所示。
表1 活躍度參數(shù)及其對應(yīng)的值
3.2 活躍度參數(shù)集權(quán)重定義
考慮到不同參數(shù)對活躍度的影響程度會有所不同,因此為每個屬性設(shè)定了相應(yīng)的權(quán)重,以體現(xiàn)各參數(shù)對活躍度的影響程度。活躍度參數(shù)集權(quán)重集定義如下:
3.3 數(shù)學(xué)模型定義
基于上述因素,采用加權(quán)平均算法,得出活躍度數(shù)學(xué)模型:
3.4 活躍數(shù)據(jù)基準(zhǔn)系數(shù)δ
由于系統(tǒng)中歷史數(shù)據(jù)的訪問次數(shù)是無法評估的,因此,為了判斷數(shù)據(jù)的活躍度,設(shè)定被訪問次數(shù)超過5次以上的數(shù)據(jù)才是活躍數(shù)據(jù),從而給出活躍數(shù)據(jù)的基準(zhǔn)系數(shù):δ=5?;鶞?zhǔn)系數(shù)根據(jù)實際情況定義,可根據(jù)實際業(yè)務(wù)情況進行調(diào)整。
確定為活躍的產(chǎn)品數(shù)據(jù)及該產(chǎn)品數(shù)據(jù)所關(guān)聯(lián)的業(yè)務(wù)對象將轉(zhuǎn)存入活躍數(shù)據(jù)庫的各索引區(qū),提供業(yè)務(wù)應(yīng)用。
根據(jù)時間的推移,數(shù)據(jù)的活躍度將不斷地進行重新計算演化。其邏輯框圖如圖6所示。
產(chǎn)品數(shù)據(jù)的活躍度管理過程見圖7。
數(shù)據(jù)活躍度的管理從用戶訪問出發(fā),采集用戶的日常訪問信息(日常操作+用戶的關(guān)鍵操作),作為數(shù)據(jù)活躍度的基礎(chǔ)數(shù)據(jù)源。
圖5 基于動態(tài)活躍數(shù)據(jù)管理的3層系統(tǒng)架構(gòu)
圖6 邏輯框圖
圖7 處理流程圖
建立數(shù)據(jù)訪問記錄庫,用來存儲用戶對業(yè)務(wù)數(shù)據(jù)對象的訪問信息,并計算每次用戶訪問的活躍值。
通過活躍值的累加計算,某個對象的活躍值>1后,系統(tǒng)將自動將這些數(shù)據(jù)加入到活躍數(shù)據(jù)庫中。
活躍數(shù)據(jù)庫中記錄了所有主要業(yè)務(wù)對象的基本信息,可用來作為用戶快捷搜索的數(shù)據(jù)來源。
活躍數(shù)據(jù)庫建立后,用戶的日常查詢訪問,如文檔查詢、ECP查詢、ECO查詢、全局查詢等就可以使用活躍數(shù)據(jù)庫進行,以快速返回用戶的查詢結(jié)果。
協(xié)同產(chǎn)品數(shù)據(jù)的活躍度管理的實施,將作為公司在大數(shù)據(jù)管理應(yīng)用的探索和研究,為未來大數(shù)據(jù)管理的深化應(yīng)用提供了理論基礎(chǔ)和實踐經(jīng)驗。
(1)定義動態(tài)活性數(shù)據(jù)規(guī)則庫,通過數(shù)據(jù)活躍度定義和數(shù)據(jù)活躍度分析,定義協(xié)同工作平臺活躍數(shù)據(jù)與惰性數(shù)據(jù);(2)通過對活性數(shù)據(jù)定義、標(biāo)識,形成獨立存儲的活躍數(shù)據(jù)庫,極大提升了數(shù)據(jù)檢索、下載等應(yīng)用效率;(3)通過數(shù)據(jù)活躍度的管理實施,區(qū)分出系統(tǒng)中活躍數(shù)據(jù)與惰性數(shù)據(jù),并對活躍數(shù)據(jù)進行統(tǒng)一管理;(4)通過改變應(yīng)用層對后臺數(shù)據(jù)的訪問層級,提升系統(tǒng)的操作響應(yīng)能力;(5)實現(xiàn)活躍數(shù)據(jù)庫的定期清理,大大降低了活躍數(shù)據(jù)庫急劇膨脹的風(fēng)險;(6)基于動態(tài)活躍數(shù)據(jù)庫的應(yīng)用層擴充改造,提升應(yīng)用性能,擴大檢索范圍;基于動態(tài)活躍數(shù)據(jù)庫的多維度數(shù)據(jù)展示活躍度。
未來有望在以下幾個方面進行探索和深化應(yīng)用:
(1)商業(yè)智能BI的全面深化應(yīng)用,為未來移動終端的推廣提供堅實的基礎(chǔ);(2)通過數(shù)據(jù)分析改善現(xiàn)有管理模式,實現(xiàn)向大數(shù)據(jù)環(huán)境下的全新產(chǎn)品數(shù)據(jù)管理模式的轉(zhuǎn)變,以提高產(chǎn)品和服務(wù)質(zhì)量;(3)以分析型型號數(shù)據(jù)為基礎(chǔ),優(yōu)化現(xiàn)有產(chǎn)品組織模式,科學(xué)配置制造資源,構(gòu)建產(chǎn)品研制數(shù)據(jù)監(jiān)控分析模型;(4)建立各種針對產(chǎn)品研制的系統(tǒng)性算法模型庫,發(fā)掘數(shù)據(jù)中存在的隱藏關(guān)系,為各級決策者提供多維的、直觀的、全面的、深入的分析預(yù)測性數(shù)據(jù),進而主動把握市場動態(tài),采取適當(dāng)?shù)牟呗?,獲得更大的企業(yè)效益。
[1] 邁爾·舍恩博格,庫克耶. 大數(shù)據(jù)時代.杭州:浙江人民出版社, 2013.
[2] Tan P N, Steinbach M, Kumar V, et al.Introduction to Date Mining. 北京:人民郵電出版社, 2006.