聞高
根據(jù)Gartner的數(shù)據(jù),到2025年,80 %的數(shù)據(jù)和分析創(chuàng)新都將使用圖技術(shù),比2021年的10 %將有大幅增長。Katana Graph是希望在這個(gè)蓬勃發(fā)展的市場中分得一杯羹的公司之一,它正在通過開發(fā)一個(gè)能夠利用分布式硬件的進(jìn)步來壓縮大型圖形工作負(fù)載的圖數(shù)據(jù)庫平臺(tái),為自己開辟一個(gè)位置。
Katana Graph由德克薩斯大學(xué)奧斯汀分校的2位計(jì)算機(jī)科學(xué)教授、首席技術(shù)官Chris Rossbach和首席執(zhí)行官Keshav Pigali于2020年共同創(chuàng)立。Rossbach曾是VMware研究小組的成員,他的學(xué)術(shù)研究集中在虛擬化、加速器和并行架構(gòu)等領(lǐng)域,而Pigali專門從事并行編程和分布式計(jì)算。
雖然這家位于奧斯汀的公司相當(dāng)年輕,但Katana Graph的圖數(shù)據(jù)庫技術(shù)來源于其聯(lián)合創(chuàng)始人幾十年前的研究,該公司的首席業(yè)務(wù)官Farshid Sabet說:“公司的價(jià)值體現(xiàn)在數(shù)據(jù)較大時(shí),當(dāng)必須做非常深入的分析時(shí),當(dāng)通過節(jié)點(diǎn)并做更深的跳轉(zhuǎn)時(shí),計(jì)算強(qiáng)度會(huì)呈指數(shù)增長?!?/p>
Katana Graph的分布式并行計(jì)算框架由3個(gè)部分組成,包括1個(gè)流式分區(qū)器、1個(gè)圖計(jì)算引擎和1個(gè)通信引擎。分區(qū)器負(fù)責(zé)將數(shù)據(jù)分配到集群的各個(gè)節(jié)點(diǎn),而計(jì)算引擎負(fù)責(zé)協(xié)調(diào)和安排各節(jié)點(diǎn)的工作,通信引擎使各節(jié)點(diǎn)能夠有效地完成工作。
在加入Katana Graph之前,Sabet曾在Movidius和英特爾工作過,他說,該公司對如何更好地建立一個(gè)分布式圖形數(shù)據(jù)庫的問題有了新的認(rèn)識(shí)。他表示這使得Katana Graph能夠以圖形競爭對手無法比擬的規(guī)模和速度工作。
“很多人在劃分圖形方面采取了一種簡單的方法?!盨abet說:“但隨著圖的規(guī)模越來越大,新的案例不斷出現(xiàn),其中一些假設(shè)并不成立?!?/p>
Sabet介紹,公司的核心知識(shí)產(chǎn)權(quán)存在于框架的圖通信部分,這一層面的進(jìn)步使Katana Graph能夠高速運(yùn)行非常大的圖形工作負(fù)載。它們還使該平臺(tái)能夠以數(shù)據(jù)流風(fēng)格同時(shí)運(yùn)行不同的工作負(fù)載,類似于Databricks的運(yùn)作方式。
Katana Graph提供了4種查詢圖中數(shù)據(jù)的方式,包括:上下文搜索(Graph Queries)、路徑查找(Graph Analytics)、中心性和社區(qū)檢測)、模式發(fā)現(xiàn)(Graph Mining)以及預(yù)測(Graph AI)。
開發(fā)人員可以在Katana Graph中使用Cypher對工作流程進(jìn)行編程,Cypher是最初由Neo4j開發(fā)的圖編程語言,后來被開源。許多圖數(shù)據(jù)庫供應(yīng)商支持Cypher,Katana Graph還支持Python和C++。
據(jù)Sabet介紹,Katana Graph可以利用不同類型的硬件,包括CPU、GPU、FPGA和ARM芯片。該軟件還可以支持英特爾的Optane內(nèi)存和加速器。但Katana Graph的分布式性質(zhì)使它與眾不同。
“我們在過去九年里做了很多工作……能夠利用分布式內(nèi)存,甚至一些不同類型的內(nèi)存?!盨abet說:“這些圖形環(huán)境中的大多數(shù)只在CPU上運(yùn)行,在這個(gè)存儲(chǔ)器中,Nvidia有一些東西可以在一個(gè)GPU和一臺(tái)機(jī)器中運(yùn)行。如果你想把這些結(jié)合在一起以實(shí)現(xiàn)可擴(kuò)展性,那么唯一的方法是不僅要支持多種硬件,還要支持統(tǒng)一處理圖形的分布式硬件。”
Katana Graph的核心技術(shù)最初是在UT-Austin的高性能計(jì)算(HPC)基礎(chǔ)設(shè)施上開發(fā)和測試的。這些機(jī)器有大量的內(nèi)存,這在十年前是非常昂貴的,但對于解決高端科學(xué)和技術(shù)問題是必要的。
隨著內(nèi)存成本的下降,特別是在公有云環(huán)境中,它為用戶運(yùn)行分析和人工智能工作負(fù)載提供了新的可能性,而這些工作負(fù)載在以前的商業(yè)領(lǐng)域成本高昂。這對Katana Graph有利,它已被證明可以擴(kuò)展到256個(gè)節(jié)點(diǎn)和超過35億個(gè)節(jié)點(diǎn)和1 280億條邊的圖形(該公司說,它被設(shè)計(jì)為可以擴(kuò)展到1萬億條邊)。
“圖形確實(shí)是計(jì)算密集型的,”Sabet說:“10年前、12年前的超級計(jì)算機(jī),就是我們今天的服務(wù)器,這就是為什么公司在這方面做得非常好?!笔畮啄昵?,許多開發(fā)人員都在研究如何降低應(yīng)用程序的CPU內(nèi)存。Sabet說:“這在12年前是正確的決定,但是這些人(Rossbach和Pigali)并沒有這種限制。他們考慮的是我們需要什么才能解決這個(gè)問題?!?/p>
“Katana Graph的一個(gè)優(yōu)勢是開發(fā)人員能夠?qū)⑺麄円呀?jīng)使用XG Boost和PyTorch等框架構(gòu)建的機(jī)器學(xué)習(xí)和AI模型納入Katana Graph平臺(tái)?!盨abet說:“我們可以將所有這些結(jié)合起來,而不需要改變?nèi)魏螙|西或重新修改算法。你使用那些現(xiàn)有的框架,現(xiàn)有的庫,并在機(jī)器學(xué)習(xí)之上添加,要確保開發(fā)人員對他們所擁有的環(huán)境感到滿意。”
圖形神經(jīng)網(wǎng)絡(luò),或稱GNN,結(jié)合了深度學(xué)習(xí)和圖數(shù)據(jù)庫的力量,是目前一個(gè)特別令人感興趣的領(lǐng)域。與訓(xùn)練卷積或遞歸神經(jīng)網(wǎng)絡(luò)來識(shí)別圖像或字串中的模式不同,GNN可以識(shí)別和利用構(gòu)成圖數(shù)據(jù)元素的連接性模式。
GNN的準(zhǔn)確性、性能和成本優(yōu)勢目前正在獲得大量的追隨者。例如,生物醫(yī)學(xué)研究人員可以使用在Katana Graph中運(yùn)行的GNN來識(shí)別新的蛋白質(zhì),這些蛋白質(zhì)在圖數(shù)據(jù)庫中被表達(dá)為一個(gè)錯(cuò)綜復(fù)雜的分子集合?!翱梢杂?xùn)練它去尋找那個(gè)蛋白質(zhì)組?!盨abet說。
據(jù)Sabet介紹,除了生物醫(yī)學(xué)研究人員之外,Katana Graph還吸引了金融服務(wù)領(lǐng)域的興趣。欺詐檢測是一個(gè)典型的圖數(shù)據(jù)庫用例,Katana Graph在這些領(lǐng)域中占有一定的份額。“有很多技術(shù)可用于欺詐檢測。但這個(gè)可以預(yù)測可能發(fā)生的欺詐行為,而且準(zhǔn)確度更高?!彼f:“他們想要機(jī)器學(xué)習(xí)算法的更新版本,如XGBoost和其他技術(shù)”。
Katana Graph的第3個(gè)重點(diǎn)領(lǐng)域是網(wǎng)絡(luò)安全。由于互聯(lián)網(wǎng)上有如此多的信號在飛舞,圖形分析帶來了一個(gè)強(qiáng)大的工具,可以幫助人們連接這些點(diǎn),并讓不懷好意者保持警惕。Sabet說該公司的成立,部分得益于與DARPA的合作將這些信號整合在一起。
Katana Graph有一些付費(fèi)客戶,并有一個(gè)不錯(cuò)的渠道,可以獲得更多的客戶。該公司在2021年完成了2 850萬美元A輪融資,據(jù)Sabet說,這使公司在一年內(nèi)從不到20名員工發(fā)展到近100名員工?!拔覀冇衼碜圆煌I(lǐng)域的專家加入公司?!彼f:“大多數(shù)員工都是工程方面的,但商業(yè)方面也一直在增長,我們已經(jīng)能夠從競爭對手,如TigerGraph、Neo、谷歌和微軟那里聘請到非常有能力的人?!?/p>
據(jù)了解,該公司的軟件目前只在云端使用,公司計(jì)劃很快推出云端管理產(chǎn)品。