国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖數(shù)據(jù)庫(kù)技術(shù)發(fā)展趨勢(shì)研究

2021-06-02 09:53:40
信息通信技術(shù)與政策 2021年5期
關(guān)鍵詞:引擎頂點(diǎn)分布式

(中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所,北京100191)

0 引言

當(dāng)前,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、金融等領(lǐng)域中積累了海量的數(shù)據(jù),數(shù)據(jù)間的關(guān)聯(lián)可以產(chǎn)生重要的價(jià)值。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,如何匯集各個(gè)領(lǐng)域數(shù)據(jù)、通過(guò)數(shù)據(jù)間的關(guān)聯(lián)與分析挖掘海量數(shù)據(jù)的價(jià)值成為了各行業(yè)關(guān)注的重點(diǎn)。在技術(shù)的探索中,圖處理技術(shù)為數(shù)據(jù)賦能提供了新的方式,可驅(qū)動(dòng)行業(yè)更好地發(fā)展。

圖數(shù)據(jù)通過(guò)將實(shí)體與關(guān)系點(diǎn)變化的方式將知識(shí)結(jié)構(gòu)化保存,是一種基于事務(wù)關(guān)聯(lián)關(guān)系的模型表達(dá),具有數(shù)據(jù)天然可解釋性,備受學(xué)術(shù)界和工業(yè)界推崇。在數(shù)據(jù)的關(guān)聯(lián)分析中,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)需要進(jìn)行大量的關(guān)聯(lián)操作,在小規(guī)模數(shù)據(jù)的情況下這樣的操作還可以接受,但是當(dāng)數(shù)據(jù)規(guī)模逐漸增大,關(guān)聯(lián)操作會(huì)造成性能呈指數(shù)級(jí)下降。圖數(shù)據(jù)庫(kù)相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù),其豐富完整的關(guān)系表達(dá)提供了高效的關(guān)聯(lián)查詢和完備的實(shí)體信息。

大型互聯(lián)網(wǎng)公司很早便開(kāi)始創(chuàng)建自己專有的圖處理技術(shù)及圖數(shù)據(jù)庫(kù)系統(tǒng),用于社交關(guān)系挖掘、網(wǎng)頁(yè)檢索與排序、推薦系統(tǒng)等,并獲得了巨大的商業(yè)成功。目前,通信、互聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)絡(luò)和物聯(lián)網(wǎng)等領(lǐng)域中積累了大量的圖數(shù)據(jù),其規(guī)模巨大并且不斷增長(zhǎng):Facebook的社交網(wǎng)絡(luò)規(guī)模在2011年已超過(guò)8億頂點(diǎn);而騰訊QQ的社交網(wǎng)絡(luò)目前在10億個(gè)頂點(diǎn)的規(guī)模;在電信行業(yè)中,廣州市僅一個(gè)月內(nèi)由電話呼叫方和被呼叫方組成的圖的規(guī)模就超過(guò)4.5千萬(wàn)個(gè)頂點(diǎn)、1.5億條邊;而ClueWeb[1]數(shù)據(jù)包含海量的網(wǎng)頁(yè),其于2012年公布的數(shù)據(jù)集已經(jīng)達(dá)到10億個(gè)頂點(diǎn)、425億條邊的規(guī)模,僅是存儲(chǔ)邊的列表文件就超過(guò)400 GB。

但是,相比其他的數(shù)據(jù)庫(kù)技術(shù),目前圖數(shù)據(jù)庫(kù)還處于起步階段,各方面的技術(shù)概念還未統(tǒng)一,應(yīng)用場(chǎng)景仍在探索,選型實(shí)施資料較少。本文將首先圍繞圖數(shù)據(jù)庫(kù)技術(shù)給出圖數(shù)據(jù)庫(kù)相關(guān)定義,從技術(shù)路線和性能進(jìn)行圖數(shù)據(jù)庫(kù)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的對(duì)比研究;然后,介紹國(guó)內(nèi)外圖數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與應(yīng)用場(chǎng)景;最后,根據(jù)產(chǎn)業(yè)現(xiàn)狀給出圖數(shù)據(jù)庫(kù)的一些未來(lái)發(fā)展趨勢(shì)研判。

1 圖數(shù)據(jù)庫(kù)概述

圖數(shù)據(jù)庫(kù)以圖論為理論基礎(chǔ),使用圖模型,將關(guān)聯(lián)數(shù)據(jù)的實(shí)體作為頂點(diǎn)存儲(chǔ),關(guān)系作為邊存儲(chǔ),解決了數(shù)據(jù)復(fù)雜關(guān)聯(lián)帶來(lái)的嚴(yán)重隨機(jī)訪問(wèn)問(wèn)題。在分類上,圖數(shù)據(jù)庫(kù)可歸類為NoSQL數(shù)據(jù)庫(kù)。

1.1 圖模型

圖是一組對(duì)象的集合,由頂點(diǎn)和邊構(gòu)成,頂點(diǎn)表示實(shí)體或?qū)嵗?,如人、賬號(hào)、組織、業(yè)務(wù)等,它們可以類比于關(guān)系型數(shù)據(jù)庫(kù)里的記錄或行,或文檔數(shù)據(jù)庫(kù)里的文檔;邊是連接頂點(diǎn)的線,表示頂點(diǎn)之間的關(guān)聯(lián)關(guān)系。邊是圖數(shù)據(jù)庫(kù)中的關(guān)鍵概念,在關(guān)系型數(shù)據(jù)庫(kù)或文檔存儲(chǔ)數(shù)據(jù)庫(kù)中,沒(méi)有對(duì)邊的抽象概念進(jìn)行直接實(shí)現(xiàn)。圖模型主要包含屬性圖、資源描述框架(Resource Description Framework, RDF)圖兩種(見(jiàn)圖1)。

圖1 圖模型示意圖

1.2 圖數(shù)據(jù)庫(kù)定義

圖數(shù)據(jù)庫(kù)基于圖模型,對(duì)圖數(shù)據(jù)進(jìn)行存儲(chǔ)、操作和訪問(wèn),與關(guān)系型數(shù)據(jù)庫(kù)中的聯(lián)機(jī)事務(wù)處理(Online Transactional Processing,OLTP)數(shù)據(jù)庫(kù)是類似的, 支持事務(wù)、可持久化等特性。圖數(shù)據(jù)庫(kù)根據(jù)底層存儲(chǔ)實(shí)現(xiàn)的不同,可分為原生圖數(shù)據(jù)庫(kù)和非原生圖數(shù)據(jù)庫(kù)兩種。

(1)原生圖數(shù)據(jù)庫(kù):使用圖模型進(jìn)行數(shù)據(jù)存儲(chǔ),可以針對(duì)圖數(shù)據(jù)做優(yōu)化,從而帶來(lái)更好的性能,例如Neo4j。

(2)非原生圖數(shù)據(jù)庫(kù):底層存儲(chǔ)使用非圖模型進(jìn)行存儲(chǔ),在存儲(chǔ)之上封裝圖的語(yǔ)義,進(jìn)行圖處理,其優(yōu)點(diǎn)是易于開(kāi)發(fā),適合產(chǎn)品眾多的大型公司,形成相互配合的產(chǎn)品棧,例如Titan、JanusGraph底層采用KV存儲(chǔ)非圖模型。

相較關(guān)系型數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)基于圖模型存儲(chǔ)和處理的方式主要有以下優(yōu)勢(shì)。

(1)萬(wàn)物互聯(lián),圖數(shù)據(jù)可以更直觀地表達(dá)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。

(2)圖數(shù)據(jù)有強(qiáng)兼容性,可以更容易地存儲(chǔ)、擴(kuò)展多種類型的數(shù)據(jù)。

(3)對(duì)關(guān)系數(shù)據(jù)的處理效率是關(guān)系型數(shù)據(jù)庫(kù)的2~3個(gè)數(shù)量級(jí)。

Ian Robinson等[2]曾經(jīng)在5000萬(wàn)點(diǎn)和邊的數(shù)據(jù)規(guī)模下,對(duì)比了Neo4j與關(guān)系型數(shù)據(jù)庫(kù)在關(guān)聯(lián)查詢的時(shí)間消耗(見(jiàn)表1),隨著關(guān)聯(lián)查詢深度的增加,關(guān)系型數(shù)據(jù)庫(kù)性能消耗呈指數(shù)倍增長(zhǎng)甚至無(wú)法執(zhí)行。

表1 Neo4j與某關(guān)系型數(shù)據(jù)庫(kù)在關(guān)聯(lián)查詢的性能對(duì)比

1.3 圖數(shù)據(jù)庫(kù)技術(shù)架構(gòu)

當(dāng)前,市場(chǎng)上主流的圖數(shù)據(jù)庫(kù)主體架構(gòu)如圖2所示,分為存儲(chǔ)層、計(jì)算層和接口層。

圖2 圖數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)

(1)存儲(chǔ)層:圖數(shù)據(jù)庫(kù)有原生和非原生兩種存儲(chǔ)方式,這些數(shù)據(jù)通過(guò)圖存儲(chǔ)引擎進(jìn)行圖數(shù)據(jù)結(jié)構(gòu)、索引邏輯上的管理。例如,原生圖數(shù)據(jù)庫(kù)中常使用鏈表或者B+樹(shù)、LSM樹(shù)(Log-Structured Merge-Tree,日志結(jié)構(gòu)合并樹(shù))等樹(shù)狀結(jié)構(gòu)存儲(chǔ)圖數(shù)據(jù);而非原生圖數(shù)據(jù)庫(kù)一般復(fù)用外部NoSQL數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),然后通過(guò)存儲(chǔ)引擎將實(shí)際的數(shù)據(jù)以圖數(shù)據(jù)的邏輯進(jìn)行管理。

(2)計(jì)算層:提供對(duì)操作的處理和計(jì)算,主要工作是基礎(chǔ)圖算法的實(shí)現(xiàn),其次也包括數(shù)據(jù)庫(kù)通用的語(yǔ)法解析、任務(wù)調(diào)度、事務(wù)管理、優(yōu)化器等組件。目前,大多數(shù)圖數(shù)據(jù)庫(kù)只能提供基礎(chǔ)圖算法,復(fù)雜的全圖分析可能需要圖處理引擎對(duì)接進(jìn)行。

(3)接口層:提供了查詢語(yǔ)言接口、API、SDK、可視化組件等對(duì)外提供服務(wù)。當(dāng)前,圖數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一的查詢語(yǔ)言,因此圖數(shù)據(jù)庫(kù)產(chǎn)品在提供其原有查詢語(yǔ)言外,也可能會(huì)提供Cypher、Gremlin等主流查詢語(yǔ)言接口便于用戶使用。此外,圖數(shù)據(jù)的天然可解釋性使得大多數(shù)圖數(shù)據(jù)庫(kù)產(chǎn)品也會(huì)提供一定的可視化能力,在數(shù)據(jù)庫(kù)層面直觀地為用戶展現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)情況。

2 圖數(shù)據(jù)庫(kù)的計(jì)算

圖數(shù)據(jù)庫(kù)的使用場(chǎng)景主要為實(shí)時(shí)查詢,包括本地查詢、鄰居查詢和局部遍歷。用戶通過(guò)圖查詢語(yǔ)言在圖上進(jìn)行遍歷、過(guò)濾和統(tǒng)計(jì)等操作,以滿足實(shí)時(shí)的需求。

此外,用戶常常會(huì)提出比實(shí)時(shí)查詢更為復(fù)雜的分析需求以挖掘圖數(shù)據(jù)中的潛在價(jià)值。在圖算法的實(shí)現(xiàn)上,最理想化的選擇是在圖數(shù)據(jù)庫(kù)上直接實(shí)現(xiàn)圖算法,但由于圖數(shù)據(jù)庫(kù)更側(cè)重于高并發(fā)和海量存儲(chǔ),全圖算法更側(cè)重于迭代計(jì)算,因此目前更為常見(jiàn)的選擇是提供另外的圖處理引擎與圖數(shù)據(jù)庫(kù)集成(見(jiàn)圖3):從圖數(shù)據(jù)庫(kù)對(duì)接或?qū)霐?shù)據(jù)到圖處理引擎中進(jìn)行離線分析,結(jié)合其更為強(qiáng)大的計(jì)算能力對(duì)全圖進(jìn)行迭代計(jì)算,尋找某種特定模式(社區(qū)發(fā)現(xiàn)或欺詐模式)或者路徑,滿足數(shù)據(jù)挖掘的應(yīng)用需求。

圖3 圖數(shù)據(jù)庫(kù)實(shí)時(shí)查詢與離線分析

2.1 實(shí)時(shí)查詢

數(shù)據(jù)庫(kù)為實(shí)時(shí)查詢提供了兩類常用的圖算法。

(1)圖遍歷:也被稱為圖搜索,是指訪問(wèn)圖中每個(gè)頂點(diǎn)的過(guò)程,對(duì)圖的訪問(wèn)和更新都以圖遍歷為基礎(chǔ)。圖遍歷常見(jiàn)算法包括廣度優(yōu)先搜索和深度優(yōu)先搜索。

(2)路徑發(fā)現(xiàn):用以識(shí)別最符合大型網(wǎng)絡(luò)中兩點(diǎn)之間某些條件下的最短路徑。路徑發(fā)現(xiàn)常見(jiàn)算法包括最短路徑、最小權(quán)重生成樹(shù)和兩兩最短路徑。

2.2 離線分析

離線分析需要較長(zhǎng)的時(shí)間來(lái)完成,分析的算法也相對(duì)復(fù)雜,可根據(jù)解決問(wèn)題的目的不同分為以下幾類。

(1)中心性:是社交網(wǎng)絡(luò)分析中常用的一個(gè)概念,用以表達(dá)社交網(wǎng)絡(luò)中一個(gè)點(diǎn)或者一個(gè)人在整個(gè)網(wǎng)絡(luò)中所在中心的程度。通過(guò)知道一個(gè)頂點(diǎn)的中心性,可以用來(lái)了解和判斷該頂點(diǎn)在網(wǎng)絡(luò)中所占據(jù)的重要性。中心性常見(jiàn)算法包括佩奇排名、中介中心性、緊密度中心性和調(diào)和中心性。

(2)社群發(fā)現(xiàn):用以劃分復(fù)雜網(wǎng)絡(luò)的社群結(jié)構(gòu)。在復(fù)雜網(wǎng)絡(luò)的研究中,如果網(wǎng)絡(luò)的頂點(diǎn)可以被容易地分組成頂點(diǎn)集,且使得每組頂點(diǎn)在內(nèi)部密集連接,則稱網(wǎng)絡(luò)具有社群結(jié)構(gòu)。這意味著社群內(nèi)的點(diǎn)的連接更為緊密,社群間的連接較為稀疏。社群發(fā)現(xiàn)常見(jiàn)算法包括Louvain算法和標(biāo)簽傳播算法。

(3)圖挖掘:是基于圖的數(shù)據(jù)挖掘,用來(lái)發(fā)現(xiàn)數(shù)據(jù)的模式。通過(guò)分析圖數(shù)據(jù),發(fā)現(xiàn)有趣、意外、有用的模式是非常必要的,可以用來(lái)幫助理解數(shù)據(jù)或作出決策,在社交網(wǎng)絡(luò)、醫(yī)藥化學(xué)、交通運(yùn)輸網(wǎng)絡(luò)等諸多領(lǐng)域中有著重要意義。常用的圖挖掘算法包括頻繁子圖和數(shù)三角形。

隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等算法也可通過(guò)圖處理引擎分析圖數(shù)據(jù)庫(kù)中的數(shù)據(jù)價(jià)值。當(dāng)前國(guó)際主流的圖處理引擎包括GraphX、GraphLab、Giraph等(見(jiàn)表2)。

表2 3類圖處理引擎

3 國(guó)內(nèi)外圖數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展現(xiàn)狀

根據(jù)第三方機(jī)構(gòu)db-engines.com[3]的統(tǒng)計(jì)數(shù)據(jù),近年來(lái)各類別數(shù)據(jù)庫(kù)中圖數(shù)據(jù)庫(kù)受歡迎程度可謂是水漲船高,在學(xué)術(shù)界和工業(yè)界均是討論熱點(diǎn)。

在工業(yè)界,自2007年第一款圖數(shù)據(jù)庫(kù)Neo4j問(wèn)世開(kāi)始,圖數(shù)據(jù)庫(kù)技術(shù)便不斷更新迭代并涌現(xiàn)了大批競(jìng)爭(zhēng)者,到如今發(fā)展不過(guò)短短十余年,就已經(jīng)歷了底層存儲(chǔ)、架構(gòu)等技術(shù)方面的重大變革,由最初的單機(jī)圖數(shù)據(jù)庫(kù)向分布式大規(guī)模圖數(shù)據(jù)庫(kù)發(fā)展。

(1)Graph 1.0:小規(guī)模原生圖存儲(chǔ)

Graph 1.0時(shí)代(2007—2010年),以Neo4j為代表,采用原生圖的方式實(shí)現(xiàn)圖存儲(chǔ),獲得了比關(guān)系型數(shù)據(jù)庫(kù)快得多的復(fù)雜關(guān)聯(lián)數(shù)據(jù)查詢性能。然而,當(dāng)時(shí)在軟件架構(gòu)設(shè)計(jì)上只支持單機(jī)部署,圖數(shù)據(jù)庫(kù)產(chǎn)品性能和業(yè)務(wù)擴(kuò)展能力有限。

(2)Graph 2.0:分布式大規(guī)模圖存儲(chǔ)

Graph2.0時(shí)代(2010年至今),隨著大數(shù)據(jù)和物聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)本身的豐富程度增加,數(shù)據(jù)之間的關(guān)聯(lián)性增多,擴(kuò)展性成為數(shù)據(jù)庫(kù)行業(yè)共同的痛點(diǎn),分布式架構(gòu)的興起催生了很多的分布式圖數(shù)據(jù)庫(kù)項(xiàng)目。在這一發(fā)展階段,支持分布式大規(guī)模圖存儲(chǔ)是關(guān)注的重點(diǎn),圖存儲(chǔ)是否以原生的方式實(shí)現(xiàn),不再是那么重要的問(wèn)題,例如OrientDB選擇了支持原生圖存儲(chǔ),自研了分布式圖數(shù)據(jù)存儲(chǔ)模塊,而JanusGraph則是在其他數(shù)據(jù)庫(kù)(Cassandra、HBase等)之上封裝實(shí)現(xiàn)圖的語(yǔ)義。通過(guò)支持在通用硬件上進(jìn)行水平擴(kuò)展,分布式圖數(shù)據(jù)庫(kù)具備了在海量關(guān)聯(lián)關(guān)系數(shù)據(jù)的存儲(chǔ)與實(shí)時(shí)深度查詢上絕佳的性能,但是在全圖分析等需要迭代計(jì)算的場(chǎng)景下仍需要結(jié)合圖處理引擎進(jìn)行離線計(jì)算與分析。

目前,國(guó)外圖數(shù)據(jù)庫(kù)市場(chǎng)上開(kāi)源、商用圖數(shù)據(jù)庫(kù)并駕齊驅(qū),其中開(kāi)源圖數(shù)據(jù)庫(kù)有Neo4j、JanusGraph、ArangoDB等,商用圖數(shù)據(jù)庫(kù)有Neptune(亞馬遜)、Cosmos(微軟)、TigerGraph等。而我國(guó)圖數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展也隨著時(shí)代的更替而蓬勃發(fā)展,產(chǎn)品形態(tài)豐富??傮w來(lái)看,國(guó)內(nèi)數(shù)據(jù)庫(kù)產(chǎn)品在大數(shù)據(jù)時(shí)代起步發(fā)展,有向分布式發(fā)展的需求與趨勢(shì),強(qiáng)調(diào)對(duì)實(shí)時(shí)復(fù)雜圖查詢的性能要求,多使用自研的查詢語(yǔ)言,部分產(chǎn)品支持Cypher或Gremlin等查詢語(yǔ)言。

經(jīng)中國(guó)信息通信研究院的詳細(xì)調(diào)研及初步估計(jì),當(dāng)前國(guó)內(nèi)的圖數(shù)據(jù)庫(kù)已有20余款產(chǎn)品,主要由4類研發(fā)主體發(fā)起,其特點(diǎn)如下。

(1)各大高校實(shí)驗(yàn)室、研究所在圖數(shù)據(jù)庫(kù)發(fā)展初期研究開(kāi)發(fā)的數(shù)據(jù)庫(kù)產(chǎn)品,主要聚焦于支持RDF圖模型的圖數(shù)據(jù)庫(kù)。

(2)大型互聯(lián)網(wǎng)企業(yè)由于自身積累的海量數(shù)據(jù)以及業(yè)務(wù)需求,催生了相關(guān)的數(shù)據(jù)庫(kù)產(chǎn)品。這些產(chǎn)品考慮到企業(yè)原有數(shù)據(jù)系統(tǒng)的情況,結(jié)合原有數(shù)據(jù)系統(tǒng)而開(kāi)發(fā)的非原生圖數(shù)據(jù)庫(kù)不在少數(shù),但絕大多數(shù)使用分布式架構(gòu)以供企業(yè)內(nèi)部使用,產(chǎn)品迭代較快,當(dāng)前也有部分產(chǎn)品實(shí)現(xiàn)了商業(yè)化。

(3)新興創(chuàng)業(yè)公司的圖數(shù)據(jù)庫(kù)產(chǎn)品,其最大特點(diǎn)是完全自主研發(fā),強(qiáng)調(diào)高性能與數(shù)據(jù)庫(kù)的事務(wù)性,但是產(chǎn)品版本更新迭代相對(duì)較少,目前也在往分布式架構(gòu)發(fā)展。

(4)傳統(tǒng)IT服務(wù)商在圖數(shù)據(jù)庫(kù)的發(fā)展浪潮下,也加快了圖數(shù)據(jù)庫(kù)產(chǎn)品的研發(fā)步伐,并且通常與企業(yè)已有的其它產(chǎn)品(例如知識(shí)圖譜工具)一同對(duì)外輸出。

4 圖數(shù)據(jù)庫(kù)發(fā)展趨勢(shì)

目前,圖數(shù)據(jù)庫(kù)正處于飛速發(fā)展的狀態(tài),隨著概念的普及、需求的變化,圖數(shù)據(jù)庫(kù)正在向如下方向發(fā)展。

4.1 查詢語(yǔ)言統(tǒng)一化

目前,圖數(shù)據(jù)庫(kù)市場(chǎng)查詢語(yǔ)言不一,有使用Gremlin、Cypher、SPARQL的,也有使用自己開(kāi)發(fā)定義的查詢語(yǔ)言。用戶在業(yè)務(wù)中使用圖數(shù)據(jù)庫(kù)時(shí)學(xué)習(xí)成本高,對(duì)圖數(shù)據(jù)庫(kù)產(chǎn)品的推廣帶來(lái)一定的阻礙。同時(shí),國(guó)際上ISO/IEC的GQL制定耗時(shí)4年,與當(dāng)前圖數(shù)據(jù)庫(kù)市場(chǎng)的發(fā)展速度嚴(yán)重不匹配。如何解決這一問(wèn)題已是廠商與用戶共同關(guān)注的問(wèn)題。

4.2 圖數(shù)據(jù)庫(kù)與圖處理引擎融合化

現(xiàn)今圖數(shù)據(jù)庫(kù)只能提供較簡(jiǎn)單的圖算法進(jìn)行實(shí)時(shí)查詢,不能獨(dú)立完成復(fù)雜的全圖迭代計(jì)算,需要與圖處理引擎結(jié)合,增加了額外的處理過(guò)程,加重了系統(tǒng)負(fù)擔(dān)。當(dāng)前,分布式圖數(shù)據(jù)庫(kù)支持了更大規(guī)模的數(shù)據(jù),同時(shí)通過(guò)優(yōu)化保證了查詢的高性能,未來(lái)與圖處理引擎深度融合從而為用戶提供更簡(jiǎn)單、更復(fù)雜的計(jì)算能力是圖數(shù)據(jù)庫(kù)廠商的研發(fā)方向。此外,圖神經(jīng)網(wǎng)絡(luò)理論與技術(shù)的飛速發(fā)展也值得關(guān)注。

4.3 軟硬件一體化

圖數(shù)據(jù)庫(kù)數(shù)據(jù)非規(guī)則訪問(wèn)的特性一直是性能提升的重要瓶頸,隨著圖切分、圖算法的不斷提升,圖數(shù)據(jù)庫(kù)對(duì)底層硬件的需求愈加迫切,將來(lái)可以通過(guò)軟硬件協(xié)同設(shè)計(jì)的方式,比如采用NVM(非易失性存儲(chǔ)器)減少持久化存儲(chǔ)的開(kāi)銷,使用RDMA(遠(yuǎn)程直接數(shù)據(jù)存取)增強(qiáng)通信效率,或者將事務(wù)的部分要求交給硬件(例如HTM)來(lái)控制、簡(jiǎn)化軟件設(shè)計(jì)等。

5 結(jié)束語(yǔ)

本文給出了圖數(shù)據(jù)庫(kù)的基本定義和通用架構(gòu),介紹了圖數(shù)據(jù)庫(kù)的數(shù)據(jù)處理方式和相關(guān)算法,通過(guò)調(diào)研對(duì)國(guó)內(nèi)外圖數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展進(jìn)行了梳理和闡述,同時(shí)提出了產(chǎn)業(yè)側(cè)未來(lái)的一些發(fā)展趨勢(shì)?,F(xiàn)在,圖數(shù)據(jù)庫(kù)產(chǎn)品還在起步初期,技術(shù)能力還在飛速變革,應(yīng)用市場(chǎng)也在不斷的探索擴(kuò)展。當(dāng)前,圖數(shù)據(jù)庫(kù)在知識(shí)圖譜、社交網(wǎng)絡(luò)、金融領(lǐng)域等均有不俗表現(xiàn),隨著5G時(shí)代的到來(lái),萬(wàn)物互聯(lián)的概念越發(fā)深入人心,圖數(shù)據(jù)正是這種關(guān)聯(lián)方式最直接的表達(dá)。但是,圖數(shù)據(jù)庫(kù)產(chǎn)業(yè)的發(fā)展仍需要標(biāo)準(zhǔn)化工作來(lái)找尋正確的方向,普及觀點(diǎn)、規(guī)范產(chǎn)品能力依然是產(chǎn)業(yè)當(dāng)前的重中之重。

猜你喜歡
引擎頂點(diǎn)分布式
過(guò)非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
關(guān)于頂點(diǎn)染色的一個(gè)猜想
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
藍(lán)谷: “涉藍(lán)”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
基于DDS的分布式三維協(xié)同仿真研究
無(wú)形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開(kāi)發(fā)
西門子 分布式I/O Simatic ET 200AL
數(shù)學(xué)問(wèn)答
云安县| 淄博市| 开鲁县| 周口市| 古浪县| 玛沁县| 潼关县| 龙口市| 锦州市| 和平区| 米易县| 福清市| 昆明市| 玉田县| 彩票| 赤水市| 汾西县| 天峨县| 中宁县| 漳州市| 平原县| 远安县| 固始县| 始兴县| 台前县| 文登市| 绍兴市| 大同县| 镶黄旗| 富蕴县| 涪陵区| 文登市| 张家川| 泽库县| 仪征市| 民勤县| 东丰县| 海宁市| 建瓯市| 安化县| 修武县|