国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

日志驅(qū)動的跨域數(shù)據(jù)融合與可視化方法

2020-10-10 01:02:46郭帥童王曉東侯瑞春初佃輝
制造業(yè)自動化 2020年9期
關(guān)鍵詞:跨域日志關(guān)聯(lián)

陶 冶,郭帥童,王曉東,侯瑞春,初佃輝

(1.青島科技大學 信息科學技術(shù)學院,青島 266071;2.中國海洋大學 信息科學與工程學院,青島 266000;3.哈爾濱工業(yè)大學,威海 264209)

0 引言

在大規(guī)模定制的過程中,通常需要整合跨平臺、跨企業(yè)、跨領(lǐng)域的異質(zhì)異構(gòu)數(shù)據(jù)[1,2],為業(yè)務融合、交互共享與服務集成提供基礎(chǔ)支持。研究跨域異構(gòu)數(shù)據(jù)與資源的融合技術(shù),有助于發(fā)現(xiàn)各類實體之間的隱藏關(guān)聯(lián)關(guān)系,為業(yè)務協(xié)同、流程優(yōu)化與資源調(diào)度提供客觀依據(jù)[3]。

通常,各類業(yè)務系統(tǒng)建設(shè)持續(xù)時間長,在初始設(shè)計階段往往對數(shù)據(jù)標準、信息開放等方面需求考慮不足,信息孤島現(xiàn)象普遍存在,另外,伴隨系統(tǒng)功能的拓展與更改,原有關(guān)聯(lián)關(guān)系也發(fā)生改變,導致全局數(shù)據(jù)空間構(gòu)建的過程中,實體之間的關(guān)聯(lián)關(guān)系難以發(fā)現(xiàn),無法形成有效知識圖譜。

關(guān)系型數(shù)據(jù)是大規(guī)模定制生產(chǎn)過程中產(chǎn)生主要數(shù)據(jù)類型[4],一般采用實體-關(guān)系模型(Entity-Relationship Diagram,ERD)表達實體之間的關(guān)聯(lián)。盡管直觀易懂,但也存在一些局限:一是ERD只表達實體之間固有的、靜態(tài)的關(guān)聯(lián)關(guān)系;二是難以發(fā)現(xiàn)實體之間的隱藏關(guān)聯(lián)關(guān)系,在概念模式設(shè)計不完備的情況下,除通過外鍵顯式描述外,實體之間存在大量隱藏關(guān)聯(lián)無法充分體現(xiàn)。

挖掘關(guān)系型數(shù)據(jù)庫各實體之間的關(guān)聯(lián)關(guān)系是基于語義的數(shù)據(jù)融合的關(guān)鍵步驟,相關(guān)研究工作主要集中在以下兩個方面:一是建立輔助手段與現(xiàn)有的數(shù)據(jù)庫相互結(jié)合或者優(yōu)化訪問方式,實現(xiàn)對圖結(jié)構(gòu)數(shù)據(jù)的快速高效的操作,M.Paradies等[5]通過對關(guān)系數(shù)據(jù)庫增加圖框架來改善在關(guān)系型數(shù)據(jù)庫中查詢涉及到的圖操作,對內(nèi)部高度關(guān)聯(lián)的數(shù)據(jù)查詢時涉及到的多表聯(lián)合查詢,J.F.Sinnott Jr在[6]中提出查詢中設(shè)置多表之間的最佳連接順序和最小成本的路徑規(guī)劃的方案,J.Chhugani等[7]展示了改善圖遍歷算法可以加快對圖結(jié)構(gòu)數(shù)據(jù)的訪問;二是通過將結(jié)構(gòu)化數(shù)據(jù)遷移到非結(jié)構(gòu)化系統(tǒng)中[8]實現(xiàn),例如,可將關(guān)系型數(shù)據(jù)庫的元組映射為圖數(shù)據(jù)[9]中的節(jié)點,將外鍵映射為邊,S.Bordoloi和B.Kalita[10]通過從源數(shù)據(jù)庫的模式圖或進行逆向工程得到數(shù)學模型,根據(jù)數(shù)學模型建立圖模型,R.De Virgilio等[11]通過在源關(guān)系型數(shù)據(jù)庫上定義的完整性約束來構(gòu)建圖數(shù)據(jù)庫,同時將源數(shù)據(jù)庫上的查詢命令高效的轉(zhuǎn)換成圖數(shù)據(jù)庫上的查詢命令。若能在數(shù)據(jù)遷移同時發(fā)掘?qū)嶓w間的跨域深層關(guān)聯(lián),并通過可視化手段呈現(xiàn),則有助于建立基于異構(gòu)關(guān)系型數(shù)據(jù)庫之上的邏輯數(shù)據(jù)空間。

在大多數(shù)制造業(yè)信息化系統(tǒng)中,日志文件包含豐富信息[12],通常詳細記錄了用戶、動態(tài)事件、數(shù)據(jù)庫查詢操作等。除了性能優(yōu)化[13]、故障檢測[14]、安全審計[15]外,隨著數(shù)據(jù)規(guī)模的增加和處理能力的提高,對日志功能擴展的研究越來越多,例如;應毅等[16]提出根據(jù)分析結(jié)果對現(xiàn)有業(yè)務進行改善并提供定制化服務。若能在一般意義上的系統(tǒng)日志的基礎(chǔ)上,通過對日志信息中涉及的數(shù)據(jù)庫訪問條目進行深度挖掘,可發(fā)現(xiàn)多維異構(gòu)數(shù)據(jù)庫中數(shù)據(jù)之間的動態(tài)聯(lián)系,實現(xiàn)對ERD表達方式的有益補充。

本文提出一種基于日志信息挖掘的跨域數(shù)據(jù)融合與可視化方法,針對目前大規(guī)模定制業(yè)務系統(tǒng)中廣泛應用的關(guān)系型數(shù)據(jù),通過分析不同系統(tǒng)的訪問日志,動態(tài)發(fā)現(xiàn)跨域?qū)嶓w間的關(guān)聯(lián)關(guān)系,并給出其隨時間推移的演化模型,利用圖數(shù)據(jù)庫與知識圖譜工具驗證其可行性,主要創(chuàng)新包括:1)相較于傳統(tǒng)ERD,由日志驅(qū)動的關(guān)聯(lián)挖掘方法生成的關(guān)聯(lián)模型可體現(xiàn)各實體間的內(nèi)在隱藏關(guān)系;2)針對跨域?qū)嶓w聚類與關(guān)聯(lián),給出了關(guān)聯(lián)量化特征及可視化表示方法;3)能夠體現(xiàn)實體關(guān)聯(lián)關(guān)系隨時間推移的動態(tài)演化過程;4)針對不同業(yè)務角色,呈現(xiàn)動態(tài)實體關(guān)聯(lián)熱點,輔助資源動態(tài)分配和業(yè)務協(xié)同。

1 數(shù)據(jù)融合模型

本節(jié)提出基于日志的數(shù)據(jù)融合模型,通過分析關(guān)系型數(shù)據(jù)庫的SQL查詢?nèi)罩荆㈥P(guān)系模型到圖模型的實體與數(shù)據(jù)的關(guān)聯(lián)映射。

1.1 模型定義

假設(shè)l是日志L中的一個條目,r代表關(guān)系數(shù)據(jù)庫概念模型R中的一個關(guān)系,a表示r中的某一屬性,v和?v分別表示圖模型G中與r和a對應的實體節(jié)點與屬性節(jié)點,e代表節(jié)點之間的邊,φ與ω分別代表節(jié)點與邊的權(quán)重,建立圖模型的過程就是通過遍歷L,找到從R到G的一組映射并確定相應的參數(shù),即:

圖1為一模型映射實例,將r1,r2,r3,r4代表的4個關(guān)系分別映射為圖模型中的v1,v2,v3,v4代表的4個節(jié)點,將各屬性aij分別映射為所代表的頂點。

圖1 關(guān)系模型-圖模型映射示意

與傳統(tǒng)的ERD不同,該模型通過分析一定時間內(nèi)的數(shù)據(jù)庫日志,依據(jù)不同實體和屬性的訪問頻次和連接關(guān)系,計算頂點權(quán)重φ與邊權(quán)重ω,在圖模型的可視化過程中,φi體現(xiàn)為vi所代表的節(jié)點圓半徑,ωi體現(xiàn)為ei所代表的邊的線寬。

1.2 映射函數(shù)

在ERD描述的基礎(chǔ)上,通過分析日志中的SQL查詢語句建立映射函數(shù),主要處理以下兩種情況。

1)顯式連接關(guān)系的映射

如果SQL查詢?nèi)罩局械倪B接關(guān)系是顯式表達的(也包括存在表別名或列別名的情況),只需要查找對應關(guān)系的關(guān)聯(lián)方式便可生成圖模型中的相應參數(shù),如圖2所示。

圖2 顯式連接關(guān)系映射

2)隱式連接關(guān)系的映射

如果SQL查詢?nèi)罩局卸鄬忧短椎倪B接關(guān)系,需要將等價關(guān)系中的信息經(jīng)過多次映射才能發(fā)現(xiàn)實際關(guān)聯(lián),如圖3所示。由于臨時表r3在實際模型中并不存在,因此,在映射過程中需要將其轉(zhuǎn)換為r1和r2,才能反映實際映射關(guān)系信息。

圖3 隱式連接關(guān)系映射

1.3 參數(shù)計算

可視化模型中,頂點權(quán)重φ與邊權(quán)重ω主要與日志條目中對相關(guān)實體與屬性的訪問頻次相關(guān),且隨選取日志的時間變化而動態(tài)變化,參數(shù)確定的方法由算法1描述。

算法1:參數(shù)計算方法

首先根據(jù)關(guān)系數(shù)據(jù)庫概念模式R生成初始ERD,在此基礎(chǔ)上,逐條讀取日志記錄l,提取關(guān)聯(lián)實體間的連接操作及相關(guān)屬性。若該連接操作所涉及的實體已在圖模型中生成相應節(jié)點,則增加該節(jié)點與邊的權(quán)重,否則在圖模型中創(chuàng)建相應的節(jié)點與邊。

2 ERD增強可視化方法

本節(jié)通過對比傳統(tǒng)ERD與日志驅(qū)動生成的圖模型,給出實體聯(lián)系模型的增強可視化方法。ERD通常在數(shù)據(jù)庫的概念設(shè)計階段完成,是從現(xiàn)實中數(shù)據(jù)之間的顯式關(guān)系入手創(chuàng)建的數(shù)據(jù)關(guān)聯(lián),而通過上一節(jié)提出的日志驅(qū)動的模型生成算法也可刻畫數(shù)據(jù)庫中數(shù)據(jù)之間的關(guān)系,以下對兩種生成方式的特點進行對比。

針對同一關(guān)系模型,圖4(a)是根據(jù)具體的由數(shù)據(jù)定義語言(Data Definition Language,DDL)描述的概念模型中的主外鍵關(guān)聯(lián)關(guān)系直接生成的ERD模型;圖4(b)是根據(jù)前述算法生成的圖模型;圖4(c)則是融合了ERD與日志驅(qū)動生成的圖模型,對實體與關(guān)聯(lián)關(guān)系的權(quán)重數(shù)據(jù)進行了可視化,體現(xiàn)的信息更為豐富。

2.1 隱式關(guān)聯(lián)關(guān)系發(fā)現(xiàn)

ERD通過主外鍵描述顯式表達實體間關(guān)聯(lián),但實際應用中,這種關(guān)聯(lián)關(guān)系的表達通常都不完備。例如,根據(jù)DDL描述,圖4(a)中藍色節(jié)點①所代表的role實體中,id是主鍵,其他實體通過外碼roleid與之建立關(guān)聯(lián)。

在實際操作中,還有一些關(guān)聯(lián)是DDL中沒有定義的,例如:圖4(b)中的深藍色節(jié)點①所代表的role_capabilities實體與橙色節(jié)點②所代表的role_allow_switch實體之間則是通過roleid與allowswitch兩個屬性關(guān)聯(lián)的。但由于這個關(guān)聯(lián)并未在DDL中定義,因此,也就無法體現(xiàn)在傳統(tǒng)的ERD中,而日志驅(qū)動的模型構(gòu)建方法不受DDL約束,可以挖掘類似的隱式關(guān)聯(lián)關(guān)系。

2.2 權(quán)重參數(shù)可視化

數(shù)據(jù)庫設(shè)計階段主要考慮實體和關(guān)聯(lián)的靜態(tài)屬性,但給定時間內(nèi),實體和屬性的查詢頻率、訪問次數(shù)等隨時間變化的動態(tài)因素則無法通過傳統(tǒng)ERD進行刻畫。圖4(a)中節(jié)點之間的大小以及節(jié)點之間的邊都是統(tǒng)一大小的,無法表達不同實體和屬性的訪問頻率。但是在實際應用中不同數(shù)據(jù)的訪問量經(jīng)常是不同的,難以對“熱點”部分進行聚焦。

圖4 實體聯(lián)系模型的增強可視化

但在圖4(b)中,節(jié)點半徑(對應模型參數(shù)φ)、節(jié)點之間邊的線寬(對應模型參數(shù)ω)可直觀表達權(quán)重信息,例如:深綠色④對應的role_allow_view節(jié)點比深藍色①對應的role_capabilities節(jié)點半徑小,表明在給定的時間內(nèi),對關(guān)系role_capabilities的訪問比對關(guān)系role_allow_view的訪問更為頻繁。另外,連接深藍色節(jié)點①roleid與淺藍色節(jié)點③id之間的邊的線寬明顯偏大,表明關(guān)系role_capabilities與關(guān)系role之間的連接操作更為頻繁。

3 增強ERD模型的時間演化

由日志驅(qū)動生成的圖模型還可展示關(guān)聯(lián)關(guān)系隨時間的演變過程。如圖5所示,以某家電制造企業(yè)的內(nèi)部培訓系統(tǒng)日志為例,呈現(xiàn)30天內(nèi)日志條目數(shù)量的增長變化情況。顯然,日志條目數(shù)量與時間正相關(guān),可采用日志條目數(shù)量代表時間推移,從而體現(xiàn)對時間維度敏感的數(shù)據(jù)融合操作。

圖5 日志條目數(shù)量隨時間推移而變化

圖6分別是由500條、3000條和10000條日志生成的圖模型。通過分析模型隨時間的演變過程,可以發(fā)現(xiàn):

1)熱點實體的動態(tài)變化

圖6 (a)中的“熱點”實體(φ值較大)主要集中在深藍色節(jié)點①所對應的context節(jié)點。隨著時間推移,“熱點”實體由圖6(a)中的①遷移到圖6(b)中的②所示的course_modules節(jié)點。

2)隱藏關(guān)聯(lián)的動態(tài)變化

隨著時間推移,圖6(b)中淺綠色節(jié)點③所代表的user實體與紅色節(jié)點③所代表forum_discussions實體產(chǎn)生了關(guān)聯(lián),而這是此前生成的圖6(a)所未能展現(xiàn)出的。

3)全景數(shù)據(jù)視圖的整體呈現(xiàn)

通過對30天日志的全面分析,圖6(c)體現(xiàn)了更加全面和豐富的整體信息??梢?,數(shù)據(jù)訪問主要是以淺綠色節(jié)點①所對應的user實體為中心,向外延伸。此外淺藍色節(jié)點②所對應的course實體使圖6(b)中的孤立節(jié)點群①,②產(chǎn)生了關(guān)聯(lián)。與全景視圖相比,前兩個階段生成的圖模型僅反映了局部實體和關(guān)聯(lián)信息,而隨著時間推移,日志數(shù)量不斷增長,全景視圖才逐漸完整地呈現(xiàn)出來。

綜上,三幅子圖中節(jié)點群間的連接隨日志條目的增加而改變,展示了基于日志的跨域數(shù)據(jù)融合隨時間的演變的圖模型對數(shù)據(jù)分析方面的具體應用。

圖6 由日志驅(qū)動生成的圖模型隨時間演化示意圖

4 不同角色的模型可視化

通過對不同用戶的操作對應的日志記錄建立圖模型,可實現(xiàn)對不同角色或特定用戶的畫像分析,并通過可視化方式呈現(xiàn)用戶行為習慣,有針對性對跨域資源和業(yè)務流程進行優(yōu)化。通過過濾選取不同時段、不同用戶、不同角色的訪問日志(L),采用算法1對各類用戶(群)的行為軌跡進行挖掘,通過關(guān)聯(lián)多個實體,提高用戶畫像的查詢性能,降低構(gòu)建難度。

圖7是在一系列日志條目之上的目標用戶圖模型,圖7(a)中的目標用戶是普通用戶,而圖7(b)則是管理員用戶,可以發(fā)現(xiàn):

1)實體差異

例如:普通用戶主要是以圖7(a)中節(jié)點群①、②和③所對應的實體user、course_modules和context為中心,向外擴展;而管理員用戶則是以圖7(b)中的節(jié)點群①所對應的實體role為起點,形成一個回路。

2)關(guān)聯(lián)差異

例如:圖7(a)中熱點之間的連接更加復雜,多是通過不同實體節(jié)點(如橙色節(jié)點群④所對應的實體assign_submissing)產(chǎn)生間接關(guān)聯(lián);而圖7(b)中與其對應的實體之間則是直接關(guān)聯(lián),關(guān)系更加直接密切。

圖7 由不同用戶(角色)的日志生成的圖模型

上述分析表明,基于日志的跨域數(shù)據(jù)融合能夠依據(jù)不同用戶群體的操作之間的差異性,直接建立圖模型對用戶進行具體分類,此外,通過對用戶操作深入分析,實現(xiàn)根據(jù)同類中已有的情況推測某用戶的演變趨勢。因此,在角色切換時,可通過圖模型預加載或緩存相應資源,提高訪問效率。

5 結(jié)語

本文提出了一種基于日志分析的跨域多源異構(gòu)數(shù)據(jù)融合方法,通過分析日志中的數(shù)據(jù)庫訪問條目,豐富和拓展了傳統(tǒng)ERD,形成了增強的“實體-關(guān)系”圖模型,支持隱藏關(guān)聯(lián)信息的可視化和對不同用戶/角色的動態(tài)時變分析,并以大規(guī)模定制領(lǐng)域的業(yè)務系統(tǒng)日志為例,呈現(xiàn)了圖模型的可視化結(jié)果。

后續(xù)研究將通過對數(shù)據(jù)庫中數(shù)據(jù)之間的相似性分析與當前已實現(xiàn)的跨域數(shù)據(jù)分析相結(jié)合,對數(shù)據(jù)之間建立關(guān)聯(lián),形成更為全面的關(guān)系數(shù)據(jù)知識圖譜,實現(xiàn)對多源異構(gòu)數(shù)據(jù)更精細、更準確的融合。

猜你喜歡
跨域日志關(guān)聯(lián)
跨域異構(gòu)體系對抗聯(lián)合仿真試驗平臺
基于多標簽協(xié)同學習的跨域行人重識別
為群眾辦實事,嶗山區(qū)打出“跨域通辦”組合拳
讀報參考(2022年1期)2022-04-25 00:01:16
一名老黨員的工作日志
華人時刊(2021年13期)2021-11-27 09:19:02
G-SRv6 Policy在跨域端到端組網(wǎng)中的應用
科學家(2021年24期)2021-04-25 13:25:34
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
“一帶一路”遞進,關(guān)聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
游學日志
智趣
讀者(2017年5期)2017-02-15 18:04:18
渝中区| 淮南市| 西安市| 旬阳县| 疏勒县| 许昌市| 大埔区| 五河县| 阿坝县| 木兰县| 东山县| 德庆县| 秀山| 交城县| 建瓯市| 屏南县| 安义县| 岳阳县| 汝阳县| 射阳县| 台湾省| 繁峙县| 陈巴尔虎旗| 济宁市| 铁岭县| 丰城市| 襄垣县| 合山市| 家居| 稻城县| 斗六市| 县级市| 沁源县| 松阳县| 昌都县| 准格尔旗| 林芝县| 白水县| 蓝田县| 信宜市| 临高县|