国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能可視化與可視分析

2023-06-20 10:14:50陶鈞張宇陳晴劉燦陳思明袁曉如
中國圖象圖形學(xué)報 2023年6期
關(guān)鍵詞:圖表可視化智能

陶鈞,張宇,陳晴,劉燦,陳思明,袁曉如,6*

1.中山大學(xué)計算機學(xué)院國家超級計算廣州中心,廣州 510006;2.牛津大學(xué)計算機系,牛津 OX13QD,英國;3.同濟大學(xué)設(shè)計創(chuàng)意學(xué)院,上海 200092;4.北京大學(xué)智能學(xué)院機器感知與智能教育部重點實驗室,北京 100871;5.復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院,上海 200433;6.北京大學(xué)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家工程實驗室,北京 100871

0 引言

可視化與可視分析已成為大數(shù)據(jù)時代分析理解數(shù)據(jù)的重要手段。其中,可視化通過視覺編碼將數(shù)據(jù)映射至視覺通道,使用戶能迅速利用視覺系統(tǒng)從可視化結(jié)果中獲取海量數(shù)據(jù)多維度的信息,而可視分析則在此基礎(chǔ)上通過交互式可視界面,構(gòu)建數(shù)據(jù)與用戶之間的交互閉環(huán),促進用戶對復(fù)雜數(shù)據(jù)分析推理。然而,隨著數(shù)據(jù)規(guī)模日益增長、結(jié)構(gòu)日趨復(fù)雜,豐富的信息已經(jīng)遠超屏幕空間的表達能力及人類視覺感知的處理能力,簡單的視覺編碼已無法有效傳遞數(shù)據(jù)信息。此外,大規(guī)模復(fù)雜數(shù)據(jù)也給交互探索帶來了極大挑戰(zhàn),用戶難以基于經(jīng)驗或?qū)?shù)據(jù)的簡單觀察確定探索方向,很可能陷于耗時的試錯而無法發(fā)掘數(shù)據(jù)中隱含的深層聯(lián)系。因此,借助人工智能方法,分析、理解和總結(jié)數(shù)據(jù),提取數(shù)據(jù)中的關(guān)鍵結(jié)構(gòu)和關(guān)聯(lián),簡化可視化內(nèi)容,優(yōu)化視覺表現(xiàn)形式中的信息傳遞,為交互探索提供指導(dǎo)與方向,成為可視化與可視分析領(lǐng)域的常見手段。

隨著以深度學(xué)習(xí)為代表的智能方法的發(fā)展,機器智能對復(fù)雜數(shù)據(jù)及變換的擬合、分析和推理能力不斷增強,為人工智能跨越多模態(tài)數(shù)據(jù)間的異質(zhì)鴻溝,理解可視化中的數(shù)據(jù)、用戶意圖和視覺表達等要素并建立其間的復(fù)雜聯(lián)系提供了可能。因此,如何利用人工智能方法增強可視化及可視分析系統(tǒng)的能力成為近年來的熱點研究問題。此類研究既包括使用深度學(xué)習(xí)等智能方法提升傳統(tǒng)可視化中計算任務(wù)的性能,也拓展了可視化方法的邊界,從而催生了新的研究方向。例如,可視化創(chuàng)建中,通過學(xué)習(xí)對數(shù)據(jù)特征及用戶意圖進行準確建模,可自動創(chuàng)建用戶感興趣的關(guān)鍵信息的可視化,降低了對專業(yè)可視化技能的依賴,也減輕了用戶操作上的負擔(dān);在科學(xué)可視化中,通過對大量模擬成員的觀察,可在交互中快速生成不同模擬參數(shù)、可視化參數(shù)下的渲染結(jié)果,而無需重啟耗時的模擬或復(fù)雜的渲染;在交互中,通過機器學(xué)習(xí)方法擴展和提升了交互手段,降低了用戶對交互系統(tǒng)的學(xué)習(xí)及使用成本,擴大了可視化與可視分析的用戶范圍;在可視分析中,通過對用戶觀察分析習(xí)慣的學(xué)習(xí)及對數(shù)據(jù)的分析,可以在交互中建議交互操作,減少試錯成本,提升探索效率。

本文旨在對近年來人工智能方法在可視化領(lǐng)域的應(yīng)用及發(fā)展進行闡述及討論,涵蓋范圍主要包括可視化中的4 項關(guān)鍵任務(wù),即面向可視化的數(shù)據(jù)管理、可視化創(chuàng)建、交互探索和可視分析。數(shù)據(jù)管理關(guān)注如何表示管理大規(guī)模集成數(shù)據(jù)從而支撐后續(xù)的高精度渲染;可視化創(chuàng)建與生成關(guān)注如何將數(shù)據(jù)映射至可視化表現(xiàn)形式;交互探索討論用戶如何與可視化表達互動;可視分析側(cè)重如何結(jié)合可視化與交互輔助完成對數(shù)據(jù)的分析,從而涵蓋了從數(shù)據(jù)到可視化呈現(xiàn)并最終形成認知的全過程。此外,以圖表數(shù)據(jù)為例介紹智能可視化與可視分析的應(yīng)用。最后從以上方面討論智能可視化與可視分析的發(fā)展趨勢,并展望未來研究方向。在人工智能方法上,本文主要關(guān)注以深度學(xué)習(xí)為代表的新一代智能方法在可視化領(lǐng)域的應(yīng)用,而不再對傳統(tǒng)的優(yōu)化方法、聚類分析等進行贅述。

1 可視化中的智能數(shù)據(jù)管理

可視化中的智能數(shù)據(jù)管理常用于處理大規(guī)??茖W(xué)數(shù)據(jù)。隨著基礎(chǔ)科學(xué)研究的發(fā)展進入數(shù)據(jù)驅(qū)動的第四范式時代,計算機在科研中的應(yīng)用已經(jīng)不再局限于既定假設(shè)下的數(shù)值模擬,而拓展至利用人工智能從大規(guī)模數(shù)據(jù)中進行科學(xué)發(fā)現(xiàn)。當(dāng)然,在當(dāng)前階段,人工智能在科學(xué)推理上的能力依然十分有限,因此通過人工智能與可視化結(jié)合,共同輔助人類對數(shù)據(jù)進行探索與發(fā)現(xiàn)仍然是最可行的途徑。其中要解決的第一個問題就是如何管理數(shù)據(jù),從而能面對日益增長的數(shù)據(jù)規(guī)模及高性能算力與存儲能力之間越來越大的差距。本文從數(shù)據(jù)約減及數(shù)據(jù)管理兩個方面討論智能方法在可視化中的應(yīng)用。

為保證模擬的準確性,科學(xué)計算往往使用較高的空間及時間精度,因此在實踐中往往難以完整保存模擬產(chǎn)生的所有數(shù)據(jù),而需要對數(shù)據(jù)進行約減。傳統(tǒng)的對數(shù)據(jù)約減的方式包括對數(shù)據(jù)進行時間或空間上的采樣,對數(shù)據(jù)進行有損壓縮,甚至是只保留原位可視化結(jié)果用于較簡單的事后分析。然而,這些約減手段可能造成嚴重的信息損失,因此無法支持復(fù)雜的后分析。為解決這一問題,近年來研究人員將深度學(xué)習(xí)應(yīng)用于科學(xué)可視化中,從而在傳統(tǒng)手段約減的數(shù)據(jù)中恢復(fù)原始數(shù)據(jù),或提出更有效的數(shù)據(jù)約減方法,大致可分為以下幾類:1)從降采樣的數(shù)據(jù)中恢復(fù)高分辨率數(shù)據(jù)(超分辨率);2)從可視化中間數(shù)據(jù)中還原數(shù)據(jù)(重構(gòu));3)及通過深度網(wǎng)絡(luò)直接表示物理場(神經(jīng)表示)。

科學(xué)數(shù)據(jù)的超分辨率即從低分辨率的物理場中生成高分辨率數(shù)據(jù)。傳統(tǒng)計算常使用線性插值或三次樣條插值,在低分辨率數(shù)據(jù)的相鄰格點間估算高分辨率下格點上的數(shù)值。這些方法顯然無法很好地擬合數(shù)據(jù)中的復(fù)雜模式。深度學(xué)習(xí)方法則可以通過對原始數(shù)據(jù)降采樣產(chǎn)生大量成對的高分辨率與低分辨率數(shù)據(jù),從而訓(xùn)練網(wǎng)絡(luò)擬合從低分辨率數(shù)據(jù)到高分辨率數(shù)據(jù)之間的復(fù)雜變換。例如,Zhou 等人(2017)提出了基于卷積神經(jīng)網(wǎng)絡(luò)的體數(shù)據(jù)超分辨方法。該網(wǎng)絡(luò)使用多層3 維卷積神經(jīng)網(wǎng)絡(luò),輸入為單個低分辨率體數(shù)據(jù),輸出為對應(yīng)的高分辨率數(shù)據(jù),提高了體數(shù)據(jù)的空間分辨率。Xie 等人(2018)提出TempoGAN 進行時間維度上的超分辨率。該方法基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN),在判別器中同時考慮多個時間步上的數(shù)據(jù),從而判斷數(shù)據(jù)在時間維度上是否一致。Han 等人(2020)提出時間維度的超分辨率網(wǎng)絡(luò)TSR-TVD,通過卷積層建立數(shù)據(jù)的空間聯(lián)系,通過循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)建立時間聯(lián)系,從而在前向及反向兩個方向上預(yù)測特定時間步的高分辨率數(shù)據(jù),其判別器與Xie 等人(2018)的方法相似。此后,Han 等人(2022)進一步將卷積神經(jīng)網(wǎng)絡(luò)+生成對抗網(wǎng)絡(luò)的架構(gòu)擴展至體數(shù)據(jù)的時空超分辨率(如圖1 所示),此外,這一架構(gòu)也用于流場的超分辨率。Guo 等人(2020)使用3 個網(wǎng)絡(luò)分別對流場的3 個分辨率進行超分辨率,并在均方誤差的基礎(chǔ)上引入角度誤差作為損失函數(shù),但依然只考慮了流場的歐拉性質(zhì)而忽略了其拉格朗日特性。Sahoo 和Berger(2021)則進一步在誤差計算時考慮了粒子追蹤產(chǎn)生的軌跡差異,從而更好地保持了流場的拉格朗日特性不變。

圖1 Han等人(2022)提出的時空超分辨率網(wǎng)絡(luò)框架Fig.1 The structure of the spatial-temporal super resolution network proposed by Han et al.(2022)

使用可視化中間結(jié)構(gòu)重構(gòu)原始數(shù)據(jù)常用于從積分曲線中重構(gòu)流場。Han 等人(2019)基于流線重構(gòu)定常流場,使用傳統(tǒng)的梯度向量場將采樣點上的流向傳輸至低分辨率網(wǎng)格的格點,并通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方式修正低分辨率流場的流向,此后通過超分辨率產(chǎn)生高分辨率流場。在訓(xùn)練過程中,該方法通過評估生成流程是否能產(chǎn)生原始采樣流線,從而保持流場的拉格朗日特性。Gu 等人(2021)利用代表性流線減少了重建所需要的流線數(shù)量,從而基于在多個時間步上產(chǎn)生的流線重構(gòu)非定常流場,重建過程使用了深度去噪網(wǎng)絡(luò),從梯度向量場重建的低質(zhì)量流場中構(gòu)建高質(zhì)量流場。與此相似,林佳琦等人(2022)使用PointNet 網(wǎng)絡(luò)架構(gòu),從代表性流線的采樣點中預(yù)測格點上的流向,從而重構(gòu)流場。

神經(jīng)表示(neural representation)則通過網(wǎng)絡(luò)直接表示數(shù)據(jù)。具體來說,物理場可抽象為函數(shù),其輸入為3維空間或4維時空中的一個點,而輸出則是該點上的物理量取值(可為標量或向量)。神經(jīng)表示的過程可視為通過訓(xùn)練得到一組網(wǎng)絡(luò)參數(shù),從而使得網(wǎng)絡(luò)近似于函數(shù)。此類方法常使用簡單的多層感知機(multi-layer perceptron,MLP)擬合函數(shù),而避免使用超分辨率或去噪網(wǎng)絡(luò)中常見的卷積神經(jīng)網(wǎng)絡(luò)或生成對抗網(wǎng)絡(luò)中的大規(guī)模參數(shù),達到壓縮數(shù)據(jù)的目的。Lu 等人(2021)最早將此類方法引入科學(xué)可視化用于體數(shù)據(jù)表示。該方法的關(guān)鍵在于使用SIREN(sinusoidal representation network)周期激活函數(shù),從而更好地擬合高頻特征。實驗表明,當(dāng)壓縮比較高(上百乃至數(shù)百倍)時,該方法在多個數(shù)據(jù)集上的信噪比都高于當(dāng)前廣泛使用的TTHRESH 壓縮方法。Weiss 等人(2022)則借鑒了神經(jīng)輻射場(neural radiance field,NeRF)中的位置編碼,使用正弦函數(shù)對坐標進行編碼,從而在輸入層面引入了高頻信號。Sahoo等人(2022)將這一思路應(yīng)用于流圖(flow map)的隱神經(jīng)表示。該網(wǎng)絡(luò)以粒子起始位置及時間作為輸入,通過多層感知機預(yù)測固定追蹤時間后的粒子位置,使用歐幾里得距離度量預(yù)測粒子位置與實際追蹤位置之間的誤差,從而保證該多層感知機能產(chǎn)生相應(yīng)的流圖。深度學(xué)習(xí)對數(shù)據(jù)內(nèi)在關(guān)聯(lián)的刻畫也可以用于指導(dǎo)數(shù)據(jù)管理,尤其是并行粒子追蹤中對數(shù)據(jù)的組織管理及對任務(wù)的調(diào)度。Hong 等人(2019)通過長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對粒子軌跡進行建模,可以更準確地預(yù)測粒子對數(shù)據(jù)塊的訪問,從而提高大規(guī)模粒子追蹤算法的效率。該方法將粒子軌跡轉(zhuǎn)化為粒子訪問的數(shù)據(jù)塊序列,并通過網(wǎng)絡(luò)從歷史訪問記錄中預(yù)測粒子此后可能訪問的數(shù)據(jù)塊,從而指導(dǎo)對數(shù)據(jù)塊的預(yù)取。Xu 等人(2022)則將強化學(xué)習(xí)引入了大規(guī)模并行粒子追蹤中以實現(xiàn)負載均衡。該方法的代理(agent)通過計算節(jié)點間移動數(shù)據(jù)塊,從而減少粒子追蹤的時間及通信開銷。

2 可視化中的智能創(chuàng)建與生成

數(shù)據(jù)可視化的創(chuàng)建與生成過程很大程度上依賴設(shè)計師及可視化從業(yè)者的知識與經(jīng)驗,包括對信息的提煉技術(shù)、對數(shù)據(jù)的總結(jié)能力及對數(shù)據(jù)可視化的設(shè)計與表達能力。研究人員通過從大量案例中總結(jié)經(jīng)驗,并借助各種智能算法應(yīng)用于可視化的創(chuàng)建環(huán)節(jié),以實現(xiàn)自動化、智能化的可視化生成。人工智能技術(shù)參與數(shù)據(jù)可視化的創(chuàng)建過程大體上是:用戶向工具下達指令,工具根據(jù)場景和上下文推測用戶的交互意圖,隨后通過對數(shù)據(jù)進行智能分析并主動選擇合適的可視化形式將信息呈現(xiàn)給用戶。通過人工智能技術(shù)自動為數(shù)據(jù)完成可視化的制作,使普通用戶無需掌握專業(yè)的數(shù)據(jù)分析及可視化知識也可以基于原始數(shù)據(jù)快速完成或自動生成一個相對完整的可視化作品。在可視化創(chuàng)建與生成的整個過程中,從用戶的輸入數(shù)據(jù)到可視化圖表的輸出,并不是一件簡單的任務(wù),中間涉及了諸多技術(shù)難點。本節(jié)根據(jù)人工智能技術(shù)參與數(shù)據(jù)可視化的過程,從創(chuàng)建的前、中、后3 個階段出發(fā),探討現(xiàn)階段智能可視化生成的發(fā)展方向。

1)可視化創(chuàng)建前期。智能可視化技術(shù)與工具主要專注于對原始數(shù)據(jù)進行分析,并預(yù)測用戶的想法,或基于數(shù)據(jù)的特征提供可視化編碼的自動推薦。此類方法關(guān)鍵在于用戶上傳數(shù)據(jù)后,對數(shù)據(jù)進行分析處理,并推薦合適的可視化圖表,通過自動生成的結(jié)果供分析人員搜索和選擇來降低探索可視化的障礙。在早期研究中,SeeDB(Ke 等,2013)這樣的系統(tǒng)僅能幫助用戶識別數(shù)據(jù),做一些簡單的可視化推薦工作。隨著Voyager(Wongsuphasawat等,2016)、CompassQL(Wongsuphasawat 等,2016)和Voyager2(Wongsuphasawat 等,2017)等系統(tǒng)的出現(xiàn),所支持的數(shù)據(jù)種類變多,可以探索出一些用戶難以發(fā)現(xiàn)的潛在數(shù)據(jù)?;谶@些工作,ChartSeer(Zhao等,2022)進一步利用深度學(xué)習(xí)技術(shù)來描述分析師創(chuàng)建的數(shù)據(jù)圖表,以生成可視化總結(jié),隨后根據(jù)用戶交互可以進一步推薦合適的圖表。此外,還有VizML(Hu 等,2019)這類基于機器學(xué)習(xí)的可視化推薦方法,讓計算機代替用戶進行可視化設(shè)計決策,在用戶給定數(shù)據(jù)集后自動挑選可視化的形式(柱狀圖、折線圖和散點圖等),并且自動決定在x軸和y軸上分別放置什么數(shù)據(jù)。此類工具用以解決用戶面對大量數(shù)據(jù)時,如何選擇合適的可視化圖表的問題。

3)可視化創(chuàng)建中期。智能可視化技術(shù)與工具的側(cè)重點大致可以分為3 類。(1)專注于提升生成可視化的準確性,此類方法多關(guān)注于檢測可視化圖表創(chuàng)建是否存在問題。典型工作包括VisuaLint(Hopkins等,2020)、集自動檢測與修復(fù)于一體的Vizlinter(Chen 等,2022b)以及專門用于檢測annotated chart中折線圖創(chuàng)建是否有誤的工具(Fan 等,2022)。這些工作可以自動檢測可視化中的錯誤并提出修改建議,一方面降低了設(shè)計師尋找相應(yīng)可視化設(shè)計指南的難度,另一方面提升了創(chuàng)建可視化的準確度。(2)專注于提升可視化的生成效率。例如,Textto-Viz(Cui等,2020)基于預(yù)設(shè)方案的自然語言語句,通過語義解析和視覺生成兩個步驟來生成信息圖。Retrieve-Then-Adapt13(Qian 等,2021)則是模擬互聯(lián)網(wǎng)設(shè)計作品,通過檢索和匹配兩個步驟來自動生成信息圖。還有一些工具則與辦公軟件進行了集成。例如,InfoNice(Wang等,2018)和ChartReuse(Cui等,2022)可以幫助用戶創(chuàng)建條形圖。InfoMotion(Wang等,2021)通過提取信息圖的圖形屬性,分析其底層信息結(jié)構(gòu),然后按時間順序?qū)π畔D的視覺元素應(yīng)用動畫效果來生成數(shù)據(jù)視頻。這3 款工具都以插件的形式集成到了微軟的office 工具中。這些工具與辦公軟件集成,可以提高可視化創(chuàng)建的效率性。DataComicsJS(Zhao 等,2015)工具的所有功能也都可以復(fù)制到演示工具(如Microsoft powerpoint)和繪圖工具(如adobe illustrator)中。相較于其他的可視化創(chuàng)作工具,辦公軟件的用戶群體更加龐大,將智能工具的自然語言算法集成到辦公軟件中,可以接觸到最廣泛的受眾。(3)重點關(guān)注所創(chuàng)建圖表之間的敘事邏輯。例如,ChartStory(Zhao 等,2023)、DataShot(Wang 等,2020)和Calliope(Shi 等,2021b)可以自動生成具有敘事屬性的可視化數(shù)據(jù)故事。AutoClips(Shi 等,2021a)在用戶輸入一連串?dāng)?shù)據(jù)事實后也可以自動生成用于講述數(shù)據(jù)故事的數(shù)據(jù)視頻。

3)可視化創(chuàng)建后期。智能可視化生成技術(shù)聚焦于兩方面的研究。一方面是為了完善對于可視化圖表的描述;另一方面則是專注于提升可視化圖表的復(fù)用性。AutoCaption(Liu等,2020)使用深度神經(jīng)網(wǎng)絡(luò)來分析可視化元素之間的關(guān)系,識別可視化圖表的基本特征,最后生成對于可視化圖表的描述。在提升圖表復(fù)用性方面,根據(jù)工具創(chuàng)建圖表方式的不同,大致可以將其分為兩種方法。一種方法是創(chuàng)建圖表后,將數(shù)據(jù)信息隱式地嵌入到圖表圖像中,如圖2 所示,使數(shù)據(jù)成為圖表圖像的固有部分,當(dāng)需要二次編輯時,可以通過軟件將嵌入的信息進行提取,然后實現(xiàn)再次處理圖表的目的。這種方式的典型工具有VisCode(Zhang 等,2021a)和Chartem(Fu等,2021)。另一種方法則是通過算法將已有的可視化圖表變成可再次編輯的模版。最典型的是Chen等人(2020)提出的對時間軸信息圖進行解構(gòu)和重構(gòu)的方案。在解構(gòu)階段,將多任務(wù)深度神經(jīng)網(wǎng)絡(luò)用于解析時間軸上的局部與全局信息;在重構(gòu)階段,提出了一種通道技術(shù),將信息圖擴展為一個可編輯的模板。這兩種方式都極大縮短了設(shè)計者后期創(chuàng)建可視化的時間。

圖2 基于深度神經(jīng)網(wǎng)絡(luò)的可視化方法VisCode(Zhang等,2021a)Fig.2 The visualization method VisCode based on deep neural network(Zhang et al.,2021a)

此外,在科學(xué)可視化領(lǐng)域也出現(xiàn)了使用神經(jīng)網(wǎng)絡(luò)生成可視化渲染結(jié)果的方法。傳統(tǒng)科學(xué)可視化框架中,3維數(shù)據(jù)渲染成2維可視化圖像的過程將不可避免地帶來信息損失,因此難以在圖像域上直接修改可視化參數(shù)。使用深度網(wǎng)絡(luò)進行可視化生成,則可以學(xué)習(xí)數(shù)據(jù)及可視化參數(shù)到可視化圖像之間的復(fù)雜變換,從而通過網(wǎng)絡(luò)修改可視化結(jié)果。Berger 等人(2019)提出了基于生成對抗網(wǎng)絡(luò)的體渲染方法,該網(wǎng)絡(luò)以視角及傳輸函數(shù)為輸入,直接輸出可視化圖像。Hong 等人(2019)同樣基于生成對抗網(wǎng)絡(luò)學(xué)習(xí)可視化參數(shù)及其對應(yīng)渲染結(jié)果間的聯(lián)系,從而允許用戶直接在渲染圖像上修改可視化參數(shù)并更新可視化結(jié)果。He 等人(2020b)進一步在可視化參數(shù)外引入了仿真模擬參數(shù)作為輸入,從而允許用戶直接更改模擬參數(shù)并生成可視化圖像。Weiss 和Navab(2022)則使用了自編碼器架構(gòu),其中編碼器由多個網(wǎng)絡(luò)組成,分別對數(shù)據(jù)、消光系數(shù)等進行編碼,并由解碼器解碼為圖像。以上方法在對數(shù)據(jù)及圖像處理時使用的都是基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),而對于其他參數(shù)則使用多層感知機。Weiss 等人(2022)則使用了基于多層感知機的神經(jīng)網(wǎng)絡(luò)表示進行渲染,從而提升效率。

3 可視化中的智能交互

隨著機器學(xué)習(xí)方法的發(fā)展,新穎的交互方式與可視化結(jié)合。傳統(tǒng)的交互方式一般是以基于窗口和鼠標的圖形界面(WIMP(windows,icon,menu,pointer),基于窗口、圖標、菜單和鼠標的圖形用戶界面)。為更貼近人類用戶自然的習(xí)慣,Lee 等人(2021)提出了后WIMP 時代(post-WIMP)交互的概念,即通過自然語言、手勢和觸控等方式進行交互。其中,自然語言和直接操縱被認為更加自然、更符合用戶操作習(xí)慣。

智能自然語言交互旨在支持用戶通過文本、語音等媒介對數(shù)據(jù)、可視化進行構(gòu)建、操縱等交互。自然語言的優(yōu)勢體現(xiàn)在自然語言的使用門檻低、使用場景廣泛。傳統(tǒng)的交互方式往往需要人類用戶學(xué)習(xí)機器的規(guī)范,如程序代碼等,而這通常具有較陡峭的學(xué)習(xí)曲線。隨著自然語言處理能力的發(fā)展,許多工作將自然語言作為可視化的交互界面,以擴大可視化的用戶范圍。如 Yu 和Silva(2020)提出的Flow-Sense,在數(shù)據(jù)流系統(tǒng)上加入了自然語言交互的界面,提升了數(shù)據(jù)分析系統(tǒng)的可用性。Liu等人(2021)從表格數(shù)據(jù)出發(fā),允許用戶通過自然語言問題提出問題,構(gòu)建可視化結(jié)果。用戶在獲取答案的同時也獲得了更豐富的信息,可視化提供了獲取解答的可解釋性。此外,在科學(xué)可視化領(lǐng)域,Huang 等人(2023)面向流場數(shù)據(jù)可視化提出自然語言交互界面,如圖3所示,結(jié)合深度表示與自然語言解析,允許領(lǐng)域?qū)<彝ㄟ^自然語言查詢流場中的結(jié)構(gòu)特征。隨著自然語言處理和可視化交互的相關(guān)研究的推進,自然語言在多個方面提升了可視化的交互能力。

圖3 自然語言驅(qū)動的流場探索工具(Huang等,2023)Fig.3 The natural language-driven flow field exploration tool(Huang et al.,2023)

前述方法通過生成可視化的方式來回應(yīng)自然語言命令或問題,另一些方法則關(guān)注已有的可視化。Kim 等人(2021)提出了一種針對可視化圖表問答的方法,構(gòu)建了針對可視化問題的處理方法,通過構(gòu)建一個數(shù)據(jù)處理的框架,首先在Vega-Lite 的圖表中抽取數(shù)據(jù)和視覺編碼。在此基礎(chǔ)上,該框架能自動地將自然語言的問題和數(shù)據(jù)圖表關(guān)聯(lián)起來,通過機器學(xué)習(xí)的方法來尋找該問題所對應(yīng)的數(shù)據(jù)答案,并給予用戶解釋。Lai 等人(2020)則提出了一種自動的注釋方法,如圖4 所示。該方法以自然語言信息和圖像可視化作為輸入自動產(chǎn)生高亮和注釋。在獲取自然語言和可視化之后,匹配其中的對應(yīng)內(nèi)容,并自動對其進行高亮、注釋,從而提升用戶對可視化的理解。該方法采用深度神經(jīng)網(wǎng)絡(luò)模型 Mask R-CNN(region convolutional neural network)(Ren 等,2015)進行相應(yīng)內(nèi)容的識別,結(jié)合圖像處理技術(shù)提取識別可視化圖表中的各個實體標記及其視覺屬性,同時通過自然語言處理,獲取自然語言中存在的實體和數(shù)值內(nèi)容。將可視化中的實體與文本描述相應(yīng)內(nèi)容匹配之后,根據(jù)用戶給定可視化圖表及其對應(yīng)的描述能夠生成可視化注釋和高亮結(jié)果的一系列結(jié)果。這一系列結(jié)果順序播放生成動畫內(nèi)容可以有效地提供對可視化內(nèi)容的注釋并增強用戶對可視化的理解?;谙嗨频哪康?,即通過將可視化和自然語言綁定來降低用戶的認知成本,Latif 等人(2022)提出了Kori,能夠在用戶輸入自然語言文本的時候推薦鏈接。這種連接關(guān)系能夠降低用戶在進行可視化和文本之間進行上下文切換的認知負擔(dān)。Kori 將可視化中存在的所有可能的自然語言進行提取,同時將可視化元素綁定在數(shù)據(jù)之上,再通過預(yù)訓(xùn)練的詞向量技術(shù)將文本中的內(nèi)容和可視化中的內(nèi)容相匹配。

圖4 可視化的自動注釋示意(Lai等,2020)Fig.4 The visualization with automatic annotation(Lai et al.,2020)

不同的交互方式各有所長,將不同交互方式的優(yōu)勢相結(jié)合,可以提升用戶的交互有效性。2018 年的前沿可視界面(Lee 等,2018a)研討會即以數(shù)據(jù)可視化的多模態(tài)為題展開討論,其中結(jié)合自然語言的多模態(tài)交互是重要的方向。Valletto(Kassel和Rohs,2018)提出一種多模態(tài)的交互方式,用戶可以通過自然語言對話(包括鍵盤輸入和語音輸入)、觸控、或者傳統(tǒng)的WIMP 圖形用戶界面(graphical user interface,GUI)進行多模態(tài)的交互。類似地,Kim 等人(2021)在手機中展開多模態(tài)交互的研究。在大屏上,Srinivasan 等人(2020)提出InChorus 系統(tǒng),將自然語言(語音)和其他交互方式(觸摸、觸摸筆)更緊密地協(xié)同在一起,靈活地為用戶提供交互式探索數(shù)據(jù)的可視化界面。其中,交互動作包括操作(如綁定數(shù)據(jù)屬性至某個映射)、參數(shù)(如屬性、聚集層次)、目標(如軸、圖例、標記)、工具(如標記、比例尺)和自然語言中的關(guān)鍵詞。并且,在處理自然語言信息時也考慮上下文的信息,更加靈活自然地表示用戶的需求。針對單元式的可視化,該團隊開發(fā)了一個類似的系統(tǒng)DataBreeze(Srinivasan 等,2020)來處理單元可視化的交互。針對軟件領(lǐng)域,Seipel 等人(2019)提出一種理解軟件可視化的多模態(tài)交互模式,將自然語言與增強現(xiàn)實(augmented reality,AR)交互模式結(jié)合在一起。

4 智能可視分析

可視分析是以交互式的可視化界面為基礎(chǔ)進行分析和推理的一門科學(xué)。它將人類智慧與機器智能聯(lián)結(jié)在一起,使人類獨有的優(yōu)勢在分析過程中能夠充分發(fā)揮。也就是說,人類可以通過可視化視圖進行人機交互,直觀高效地將海量信息轉(zhuǎn)換為知識并進行推理。近年來,隨著深度學(xué)習(xí)的突破性進展,深度學(xué)習(xí)驅(qū)動的可視分析研究也成為研究熱點之一。根據(jù)深度學(xué)習(xí)在可視分析的工作流程中的角色,相關(guān)研究可以分為3 個類別,即數(shù)據(jù)預(yù)處理與數(shù)據(jù)挖掘、人在回路(human-in-the-laop)的智能分析以及基于模型結(jié)果理解的決策。此外,由于科學(xué)數(shù)據(jù)本身的特殊性,本文對科學(xué)可視化中的智能可視分析進行單獨介紹。

4.1 數(shù)據(jù)預(yù)處理與數(shù)據(jù)挖掘

針對復(fù)雜數(shù)據(jù)及其中蘊含的復(fù)雜模式,利用深度學(xué)習(xí)技術(shù)能夠進行數(shù)據(jù)預(yù)處理,并從中挖掘關(guān)鍵信息,從而支持對復(fù)雜數(shù)據(jù)的可視分析任務(wù),這也是目前最常見的深度學(xué)習(xí)輔助可視分析系統(tǒng)的方式。不同數(shù)據(jù)有不同的深度學(xué)習(xí)模型,具體可分為7類。

1)時序數(shù)據(jù)。TacticFlow 提出了一種基于多變量序列模式挖掘算法(核心思想類似于生成對抗網(wǎng)絡(luò))的乒乓球戰(zhàn)術(shù)可視化系統(tǒng)(Wu 等,2022)。該系統(tǒng)提出有效的模式挖掘方法,自動檢測各種乒乓球動作策略,并從中發(fā)現(xiàn)不斷變化的戰(zhàn)術(shù)進展。

2)空間數(shù)據(jù)。COVID-view 集成了一種新的深度學(xué)習(xí)模型——多實例學(xué)習(xí)(multi-instance learning,MIL),能夠?qū)⒒颊叻诸悶殛栃?陰性COVID-19病例(Jadhav 等,2022)。系統(tǒng)為使用COVID-view 的放射科醫(yī)生提供了交互式的閱讀幫助,并提供了注意力熱圖作為模型輸出的解釋。

3)抽象數(shù)據(jù)。圖是一種復(fù)雜的抽象數(shù)據(jù)結(jié)構(gòu),存在廣泛的應(yīng)用領(lǐng)域。Song等人(2022)提出了基于圖學(xué)習(xí)的子圖模式搜索可視分析框架GraphQ,由于在使用圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNNs)的匹配結(jié)果中仍然難以獲得精確的一對一的節(jié)點對應(yīng)關(guān)系,因此提出一種用于節(jié)點對齊的新型GNN,即NeuroAlign,以促進查詢結(jié)果的簡單驗證和解釋。

4)文本數(shù)據(jù)。針對相似文獻存在的不同關(guān)鍵術(shù)語導(dǎo)致無法充分檢索的問題,VITALITY 提出使用Transformer 預(yù)訓(xùn)練語言模型進行文獻的文檔級表征,計算不同文獻之間的語義相關(guān)性,并允許用戶在給定的輸入文獻列表或文獻摘要的關(guān)鍵詞嵌入空間中進行交互式探索(Narechania等,2022)。

5)靜態(tài)圖像數(shù)據(jù)。針對時空圖像數(shù)據(jù),DDLVis提出一種新的字典學(xué)習(xí)方法,將時態(tài)密度圖編碼為小尺寸稀疏編碼,大幅提升了數(shù)據(jù)時空分布的實時可視化查詢的效率(Li等,2022)。

6)視頻數(shù)據(jù)。添加了可視化的增強視頻能夠有效傳達見解、闡述動作策略,但這一過程對于分析員來說是極大的挑戰(zhàn),VisCommentato 利用多個深度學(xué)習(xí)模型,如TTNet(Voeikov 等,2020),來提取球、球員、位置、動作、事件和擊打等關(guān)鍵數(shù)據(jù)(Chen 等,2022b)。該系統(tǒng)基于設(shè)計空間的可視化推薦極大地簡化了增強視頻的創(chuàng)作過程。

7)多模態(tài)數(shù)據(jù)??梢暦治鋈蝿?wù)中不乏對多模態(tài)數(shù)據(jù)的分析,探究不同模態(tài)之間存在的區(qū)別與聯(lián)系是一大研究熱點。E-ffective集成了不同模態(tài)的分析模型(Maher 等,2022),如利用情緒分類卷積神經(jīng)網(wǎng)絡(luò)提取面部情緒類型,采用區(qū)域CNN-LSTM(convolutional neural network——long short-term memory)模型來提取文本維度情感(Wang 等,2016),利用Mixedemotions 分析聲音維度的情緒特征(Buitelaar 等,2018),從而支持從不同模態(tài)來分析不同演講因素(波動性、連貫性等)對演講效果的貢獻。

4.2 人在回路的智能分析

在數(shù)據(jù)分析任務(wù)中,依靠人去識別數(shù)據(jù)集中的模式是非常耗時耗力的,然而在一些復(fù)雜任務(wù)中,如果缺少人的專業(yè)知識,由機器全自動地進行學(xué)習(xí)也很難達到較高的準確率。因此,人在回路的分析方法能夠有助于提升這些任務(wù)的準確性。根據(jù)分析對象的不同,可以分為交互式調(diào)整模型的標簽和調(diào)整模型的參數(shù)。

1)調(diào)整模型的標簽。VideoModerator 通過交互式可視化將人類知識與機器生成的見解深度集成(Tang 等,2022)。由于深度學(xué)習(xí)技術(shù)的出現(xiàn),采用最先進的模型來檢測視頻幀中的目標并從音頻內(nèi)容中翻譯語音。該框架采用了“邊審核邊學(xué)習(xí)”的策略,將新審核的視頻用做真實數(shù)據(jù),周期性地更新分類器的訓(xùn)練過程。通過比較實驗中報告的統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)人工參與的模型與純機器學(xué)習(xí)模型相比有顯著的改進。

2)調(diào)整模型的參數(shù)。Fujiwara 等人(2022)提出了一種交互式DR(dimensionality reduction)機器學(xué)習(xí)框架,將新的DR 方法ULCA(unified linear comparative analysis)與交互界面相結(jié)合來分析高維數(shù)據(jù)集之間的異同。ULCA 統(tǒng)一了判別分析和對比學(xué)習(xí)兩種DR 方案,以支持各種比較分析任務(wù)。在用戶了解參數(shù)的作用并進行調(diào)整后,為進一步幫助參數(shù)選擇,開發(fā)了一種向后算法,可以在可視化結(jié)果中找到類似用戶操作的變化的參數(shù),使分析人員能夠交互式地改進ULCA結(jié)果。

3)調(diào)整模型的標簽和參數(shù)。聲學(xué)數(shù)據(jù)可以檢測和理解電機制造中以前未知的錯誤。IRVINE 利用交互式聚類(self-organizing map,SOM)和數(shù)據(jù)標記技術(shù),允許用戶分析具有相似聲波頻率的引擎集群并選擇感興趣的引擎(Eirich 等,2022)。此外,IRVINE 允許為引擎和聚類分配標簽,并標注錯誤的原因。

4.3 基于模型結(jié)果理解的決策

使用可視分析系統(tǒng)向非機器學(xué)習(xí)領(lǐng)域的專家解釋模型結(jié)果與分析任務(wù)之間的關(guān)系,有助于這些領(lǐng)域?qū)<易龀龈訉I(yè)的決策。從可視分析的流程來說,深度學(xué)習(xí)模型的結(jié)果相當(dāng)于是可視分析系統(tǒng)的數(shù)據(jù)來源。使用的分析方法通常是一些機器學(xué)習(xí)解釋方法,如SHAP(shapley additive explanations)值等。Vbridge(Cheng 等,2022)將深度學(xué)習(xí)納入臨床醫(yī)生的決策工作流程,將模型解釋與患者的病情記錄進行視覺關(guān)聯(lián),包括基于貢獻的特征解釋的分層顯示,以及連接機器學(xué)習(xí)特征、解釋和數(shù)據(jù)之間的交互等,可以幫助臨床醫(yī)生在做出臨床決策時更好地解釋和使用模型預(yù)測。

4.4 科學(xué)可視化中的智能分析與探索

深度網(wǎng)絡(luò)通過訓(xùn)練能捕捉數(shù)據(jù)中的分布,從而輔助分析與探索數(shù)據(jù)。此類方法目的不在于利用深度網(wǎng)絡(luò)直接輸出希望的計算結(jié)果,而是利用深度網(wǎng)絡(luò)在特定的訓(xùn)練任務(wù)下獲得的信息進行數(shù)據(jù)的分析,從而捕捉傳統(tǒng)方法(劉力,2022;閔睿朋 等,2022)無法描述的復(fù)雜關(guān)聯(lián)。典型的方法為基于自編碼器將流場數(shù)據(jù)(Han 等,2020)或標量場數(shù)據(jù)(Sun 等,2019)編碼為隱向量,然后通過隱向量之間的距離計算原始數(shù)據(jù)之間的距離,從而實現(xiàn)在隱空間下對數(shù)據(jù)進行聚類。Han 等人(2020)的方法表明,其聚類結(jié)果展示的流場結(jié)構(gòu)比基于原始空間的距離定義產(chǎn)生的聚類更為細致,更符合人類認知。此外,CECAV-CNN(He 等,2020a)通過訓(xùn)練一個基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的判別器計算兩組集成數(shù)據(jù)的Wasserstein距離。其CNN 判別器的輸出將集成數(shù)據(jù)中的成員映射到一個似然值,為判斷兩組集成數(shù)據(jù)中成員的一致性提供了依據(jù)。以上方法中的訓(xùn)練任務(wù)都與實際需要完成的任務(wù)不一致,其訓(xùn)練任務(wù)的設(shè)計只用于保證訓(xùn)練后網(wǎng)絡(luò)具備表示所需特征的能力。Huang 等人(2023)將此類編碼的隱向量用于流場的交互探索。該方法將用戶的自然語言查詢解析后映射至隱空間的區(qū)域,并定義了多種操作組合不同空間的區(qū)域,從而實現(xiàn)對流場特征的查詢。Tkachev 等人(2019)則提出另一種分析思路,基于CNN 使用數(shù)據(jù)點及其鄰域預(yù)測該數(shù)據(jù)點的函數(shù)值隨時間的變化。預(yù)測誤差大的區(qū)域意味著該區(qū)域的模式及變化趨勢與數(shù)據(jù)集整體不一致,以此找出值得關(guān)注的區(qū)域。

5 智能圖表挖掘及其應(yīng)用

可視化長期以來用于分析和交流數(shù)據(jù)。計算機時代之前,歷史可視化保存于紙質(zhì)印刷品中。進入計算機時代后,各種設(shè)計軟件與可視化庫使得可視化的創(chuàng)作變得更加便捷。從搜索引擎中可以輕易地獲取大量可視化,這些可視化以各種形式存儲,如位圖、矢量圖和代碼段等。因此,許多應(yīng)用中以這些易于獲得的可視化作為數(shù)據(jù)處理的對象,如信息檢索、設(shè)計復(fù)用和模式分析。本文將這些需要把可視化作為輸入進行處理的應(yīng)用統(tǒng)稱為圖表挖掘。由于智能圖表挖掘近年來發(fā)展迅速,有很大的商用價值,這里單獨列出一節(jié)介紹圖表挖掘的應(yīng)用場景(如圖5 所示)及其相關(guān)技術(shù)的進展。

圖5 智能圖表挖掘的相關(guān)工作Fig.5 The work related to intelligent chart mining

通過新技術(shù)從圖表挖掘中獲取的數(shù)據(jù)可用于數(shù)字圖書館和搜索引擎在內(nèi)的信息檢索系統(tǒng)的索引和問答。數(shù)據(jù)提取提供了豐富的可用于索引的信息。Chen 等人(2015)提出了針對PDF(portable document format)中統(tǒng)計圖表的搜索引擎DiagramFlyer,支持擴展查詢和基于TF-IDF 的相關(guān)性排序。從可視化中提取元數(shù)據(jù)用于檢索,如標簽、刻度、標題、圖例、圖像說明和圖表類型。提取的數(shù)據(jù)使一些高級搜索功能成為可能,如基于可視化內(nèi)容的問答。Carberry 等人(2006)使用貝葉斯網(wǎng)絡(luò)推斷存儲為XML(extensible markup language)的柱狀圖中的模式,以支持對預(yù)定義模式的問答,如極值和增減趨勢。FigureSeer(Siegel 等,2016)從折線圖位圖中使用CNN 提取數(shù)據(jù)、使用OCR(optical character recognition)引擎提取文本,以支持基于模板的問答。

當(dāng)現(xiàn)有的可視化無法滿足當(dāng)前使用場景的需求時,可以通過重新設(shè)計(redesign)圖表為用戶提供另一個角度,再設(shè)計可以為可視化背后的數(shù)據(jù)集分配新的視覺編碼(視覺編碼再設(shè)計),或者為可視化附加新的交互功能(交互再設(shè)計)。

視覺編碼再設(shè)計通過提取的數(shù)據(jù)集,重新設(shè)計數(shù)據(jù)集的呈現(xiàn)形式。再設(shè)計可用于可視化的無障礙化,或是按設(shè)計準則提高視覺編碼的有效性;也可以交由用戶在開發(fā)工具中創(chuàng)造性地進行再設(shè)計。

視覺編碼再設(shè)計對于可視化的無障礙化至關(guān)重要。對于有色覺障礙的用戶,重新設(shè)計顏色映射可以突出原本無法分辨的細節(jié)。Kuhn 等人(2008)提出了一種重新著色的技術(shù),使有色覺障礙的用戶可以區(qū)分可視化圖像中的顏色。他們通過重新著色突出有色覺障礙的用戶原本無法注意到的細節(jié),同時希望盡可能多地保留圖像的原始顏色,避免圖像在重新著色后看起來不自然。對于失明用戶,從現(xiàn)有可視化中提取數(shù)據(jù)并為數(shù)據(jù)重新設(shè)計一套音頻或觸覺編碼,可以幫助他們獲取現(xiàn)有可視化原本通過視覺通道傳達的信息。Choi等人(2019)使用一系列模型進行圖表類型分類、文本提取和基于圖表類型的數(shù)據(jù)提取。他們開發(fā)了一個瀏覽器插件,幫助失明用戶從網(wǎng)絡(luò)上的可視化位圖中提取數(shù)據(jù),并轉(zhuǎn)換為HTML 表格,使失明用戶可以用屏幕閱讀器訪問這些數(shù)據(jù)。

對于無視力障礙的受眾,視覺編碼再設(shè)計也可用于提高可視化的有效性。圖形感知研究建立了視覺通道有效性的排名。例如,眾包實驗表明,與使用角度或面積相比,使用位置編碼數(shù)值時,用戶對比例的判斷誤差更低(Heer 和Bostock,2010)。盡管有許多可視化設(shè)計準則基于此類圖形感知實驗,現(xiàn)實中可視化創(chuàng)作者創(chuàng)建的可視化未必遵循設(shè)計準則。因此,一些可視化數(shù)據(jù)提取系統(tǒng)會基于這類準則,為輸入的可視化自動優(yōu)化視覺編碼。ReVision(Savva等,2011)從餅圖和柱狀圖的位圖中提取數(shù)據(jù),并按照Mackinlay(1986)總結(jié)的視覺渠道有效性的準則生成一系列按有效性排序的備選再設(shè)計。Poco等人(2018)通過解析顏色圖例以提取可視化的顏色通道中編碼的數(shù)據(jù)。提取數(shù)據(jù)后,用戶可以改變顏色映射以提高可視化的可讀性,如用紅白藍配色方案代替彩虹配色方案。Fan 等人(2022)提出了一個半自動注釋并修改具有欺騙性折線圖的系統(tǒng),從折線圖位圖中提取數(shù)據(jù)和規(guī)約,并檢查其是否符合設(shè)計準則,如y軸不能被截斷或上下顛倒。

一些可視化和信息圖表開發(fā)工具整合了數(shù)據(jù)提取功能,使用戶能以已有可視化為基礎(chǔ)進行創(chuàng)意設(shè)計。Kong和Agrawala(2012)使用從輸入的可視化位圖中提取的數(shù)據(jù),幫助用戶創(chuàng)建各種類型的信息疊加層,用于增強輸入的可視化。這些疊加層可以顯示網(wǎng)格線、信息高亮、重復(fù)編碼(如在柱狀圖上疊加折線圖)、匯總統(tǒng)計和注釋。Transmogrification 利用圖形學(xué)中基于骨架的圖像變形算法,以支持用戶進行基于變形的可視化再設(shè)計(如坐標轉(zhuǎn)換)和交互(如Table Lens(Brosz等,2013))。Harper和Agrawala(2014)開發(fā)了一個從D3.js 生成的可視化中提取數(shù)據(jù)、視覺對象及兩者間映射關(guān)系的反向工程工具。這個工具支持用戶通過增刪改數(shù)據(jù)與視覺對象的視覺屬性之間的映射關(guān)系以重新設(shè)計可視化。iVoLVER是一個用于開發(fā)可視化的圖形化編程工具(Méndez 等,2016),用戶能用現(xiàn)有可視化的位置、長度或面積屬性編碼的數(shù)據(jù)作為數(shù)據(jù)源來創(chuàng)建新的可視化。為了從現(xiàn)有可視化中提取數(shù)據(jù),用戶需要手工配置如何從視覺屬性值中解析數(shù)據(jù)。

除了視覺編碼再設(shè)計,數(shù)據(jù)提取也有助于重新設(shè)計可視化中的交互。利用前述的ReVision 系統(tǒng)(Savva 等,2011)提取的數(shù)據(jù),Kong 等人(2014)通過眾包提取可視化中的視覺對象和文本描述之間的對應(yīng)關(guān)系,以支持視覺鏈接和高亮交互。前述的Transmogrification 除了支持基于變形的可視化再設(shè)計,還能為可視化增加基于變形的交互功能。Interaction+是一個為現(xiàn)有基于SVG(scalable vector graphics)的可視化添加交互功能的工具包(Lu 等,2017),能為輸入的可視化自動綁定選擇、聚合、排列、比較、過濾和注釋等交互功能,以輔助的數(shù)據(jù)探索。前述的Poco 等人(2018)的工作通過提取顏色映射,除了支持顏色映射再設(shè)計以外,還支持顏色圖例和可視化之間的交叉過濾和高亮。

從龐大的可視化語料庫中提取的數(shù)據(jù)可以用于分析可視化的使用模式。Lee 等人(2018b)分析了PubMed 收錄的論文中數(shù)百萬幅圖像的使用模式。對包含多個子圖的論文圖像進行分割,對圖像類型進行分類,并將圖像與論文的書目數(shù)據(jù)關(guān)聯(lián)。他們發(fā)現(xiàn)圖像密度和圖像類型的分布取決于研究領(lǐng)域,并且基本不隨時間變化,且高影響力的出版物往往有更多的示意圖。Battle 等人(2018)分析了網(wǎng)絡(luò)上的可視化使用模式,從開發(fā)者發(fā)布可視化的主要網(wǎng)站(如bl.ocks.org 與Plotly)抓取了41 000 多個存儲為SVG 的可視化,發(fā)現(xiàn)網(wǎng)絡(luò)上多數(shù)可視化是柱狀圖、線狀圖、散點圖和地理地圖,且在不同的可視化開發(fā)社區(qū)中,最受歡迎的圖表類型不同。此外,他們發(fā)現(xiàn)地理地圖是用D3.js(Bostock 等,2011)創(chuàng)建的可視化中最流行的圖表類型,而散點圖是用Plotly創(chuàng)建的可視化中最流行的圖表類型。

圖表挖掘可以用于上述的許多下游應(yīng)用。這些應(yīng)用通常要求對圖表進行反向工程。其中,較為常見的一種反向工程任務(wù)是從圖表中進行數(shù)據(jù)提取,如圖6 所示,左側(cè)以Playfair 在18 世紀繪制的英國向德國的各年進入口貿(mào)易額的折線圖為輸入,右側(cè)的數(shù)據(jù)表格呈現(xiàn)了數(shù)據(jù)提取的輸出。

圖6 數(shù)據(jù)提取以可視化(通常存儲為位圖格式)為輸入,并輸出用于生成可視化的數(shù)據(jù)集Fig.6 The data extraction takes as input a visualization(usually stored in bitmap format)and outputs the dataset used to generate the visualization

按是否需要人工介入以及人工介入形式,本文將圖表挖掘相關(guān)的數(shù)據(jù)提取方法分為手工度量、圖像處理、機器學(xué)習(xí)和混合驅(qū)動(mixed-initiative)4類。

1)手工度量。許多可視化反向工程工具通常提供手工進行數(shù)據(jù)提取的功能,作為通過自動或半自動方法進行數(shù)據(jù)提取失敗時的后備選項。比如為從折線圖中提取數(shù)據(jù),需要用戶手工定位坐標軸,指定坐標軸的比例尺,并標注折線上的轉(zhuǎn)折點。

2)圖像處理。圖像處理算法可以用于從統(tǒng)計圖表中自動檢測視覺對象。這些算法通常是基于待處理的可視化的視覺特征設(shè)計的啟發(fā)式方法。Savva等人(2011)用雙邊濾波平滑圖像,并使用帶容錯閾值的連通分量檢測以尋找候選視覺對象,根據(jù)連通分量與矩形的相似性、大小和顏色,對檢測到的連通分量進行啟發(fā)式過濾,最后使用過濾后的連通分量的屬性從柱狀圖和餅圖中提取數(shù)據(jù)。Nair 等人(2015)提出了一個從掃描文件中的折線圖中提取數(shù)據(jù)的處理流程,對圖像計算HOG(histogram of oriented gradient)和LBP(local binary pattern)特征,并訓(xùn)練SVM(support vector machine)以區(qū)分折線圖與其余圖像。對于折線圖,他們用Hough 變換提取軸,通過文本檢測提取圖例,并根據(jù)顏色和運動方向追蹤線條。這類啟發(fā)式的圖像處理方法一般僅適用于從簡單常用的統(tǒng)計圖表中提取數(shù)據(jù),因為它們對可視化的視覺特征設(shè)定了各種假設(shè)和約束。

3)機器學(xué)習(xí)。設(shè)計啟發(fā)式圖像處理算法對于開發(fā)者很困難,而且啟發(fā)式算法很容易出錯。為了避免手工設(shè)計啟發(fā)式算法,機器學(xué)習(xí)常用于構(gòu)建提取數(shù)據(jù)的算法模型。手工設(shè)計的算法需要開發(fā)者硬編碼參數(shù)值,而機器學(xué)習(xí)模型則從標注數(shù)據(jù)集中學(xué)習(xí)參數(shù)值。機器學(xué)習(xí)方法常用于圖表類型分類和視覺對象分類。

圖表類型分類結(jié)果可以直接用于下游應(yīng)用,也可以作為中間結(jié)果,以便后續(xù)處理(如數(shù)據(jù)提取)可以按圖表類型分類討論。Savva 等人(2011)使用根據(jù)LBP 和HOG 特征訓(xùn)練的SVM 將對可視化位圖進行10 分類。Poco 和Heer(2017)用圖表圖像的標注數(shù)據(jù)集,對預(yù)訓(xùn)練的AlexNet 進行微調(diào)后進行10分類。

視覺對象分類模型可用于區(qū)分編碼數(shù)據(jù)的視覺對象與不相關(guān)的圖像元素,也可用于區(qū)分視覺對象的類型。Huang 和Tan(2007)用手工設(shè)計的特征訓(xùn)練決策樹,對文本元素按作用進行分類(如標題、數(shù)據(jù)標簽和圖例標簽),并與柱狀圖、餅狀圖和線形圖中的圖形元素綁定。Siegel 等人(2016)將從線形圖中提取線條的問題建模為尋路問題,使用CNN 優(yōu)化尋路問題中的能量函數(shù)提取線條。Al-Zaidy 和Gile(2017)使用決策樹和隨機森林對圖形元素和文本元素的作用進行分類,以便從柱狀圖中提取數(shù)據(jù)。Poco 和Heer(2017)用位置和長寬比等手工設(shè)計的特征訓(xùn)練SVM,用于按作用分類文本元素,并利用文本元素的作用和文本內(nèi)容復(fù)原了圖表的規(guī)約。

4)混合驅(qū)動。一些數(shù)據(jù)提取系統(tǒng)支持算法和用戶的協(xié)作,使用半自動方法來平衡數(shù)據(jù)提取的準確率和用戶負擔(dān)。根據(jù)Horvitz(1999)的定義,這些數(shù)據(jù)提取系統(tǒng)可歸類為混合驅(qū)動系統(tǒng)。iVoLVER支持用戶從多個數(shù)據(jù)來源提取和轉(zhuǎn)換數(shù)據(jù),并構(gòu)建新的可視化(Méndez 等,2016),使用標準的圖像處理算法(如連通分量檢測和形態(tài)學(xué)操作)來提取視覺對象。然后,用戶需要手動指定提取的視覺對象的屬性(如位置、長度或面積)以映射到數(shù)據(jù)。ChartSense允許用戶調(diào)整圖像處理參數(shù)(Jung 等,2017)。對于5 類圖表,設(shè)計專門的交互式圖像處理流程。用戶可以指定關(guān)鍵的圖表特征和文本信息,提供給數(shù)據(jù)提取算法。MI3 系統(tǒng)(如圖7 所示)將數(shù)據(jù)提取建模為分類標注任務(wù),通過主動學(xué)習(xí)從用戶處獲取數(shù)據(jù)標注,通過機器學(xué)習(xí)算法與用戶協(xié)同進行數(shù)據(jù)提取,并通過主動學(xué)習(xí)和默認標注策略節(jié)省用戶的交互開銷(Zhang等,2021b)。

圖7 MI3系統(tǒng)(Zhang等,2021b)Fig.7 MI3 system(Zhang et al.,2021b)

通過這些例子可以發(fā)現(xiàn)用戶在混合驅(qū)動中干預(yù)的形式共有3 種模式,即調(diào)整算法參數(shù)、糾正算法輸出以及提供中間結(jié)果。在調(diào)整算法參數(shù)模式中,系統(tǒng)可能支持用戶調(diào)參后運行或重運行算法。用戶需要或多或少了解算法,才能有效調(diào)參。在糾正算法輸出模式中,系統(tǒng)可能支持用戶直接修正算法產(chǎn)出的不正確的中間結(jié)果或最終結(jié)果(即提取的數(shù)據(jù))。在ChartSense(Jung 等,2017)中,用戶可以編輯由矢量化創(chuàng)建的多邊形。在MI3(Zhang等,2021)中,用戶可以通過提供數(shù)據(jù)標注,編輯算法的輸出。在提供中間結(jié)果模式中,系統(tǒng)可能會將數(shù)據(jù)提取中算法難以處理的子任務(wù)留給用戶手工處理,要求用戶提供中間結(jié)果。例如,iVoLVER(Méndez 等,2016)要求用戶指定編碼數(shù)據(jù)的視覺通道。

6 發(fā)展趨勢與展望

目前,在數(shù)據(jù)管理方向上,以深度學(xué)習(xí)為代表的人工智能方法主要應(yīng)用于科學(xué)數(shù)據(jù)的約減、超分辨率及重構(gòu)。機器智能可以有效捕捉數(shù)據(jù)中的規(guī)律,并通過可視化結(jié)合專家的領(lǐng)域知識服務(wù)于科學(xué)假設(shè)的驗證及科學(xué)規(guī)律的發(fā)現(xiàn)。隨著科學(xué)智能AI4Science的發(fā)展,可以預(yù)見此類方法的應(yīng)用將更為廣泛。在技術(shù)路徑上,最新工作的骨干網(wǎng)絡(luò)逐漸從卷積神經(jīng)網(wǎng)絡(luò)向多層感知機轉(zhuǎn)變。原因自然包括卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量巨大,在面對體量本就龐大的高維科學(xué)數(shù)據(jù)時,需要更為輕量級網(wǎng)絡(luò)支撐有效訓(xùn)練及快速推理。但更為重要的是,結(jié)構(gòu)化網(wǎng)格本非對科學(xué)數(shù)據(jù)最優(yōu)的表示空間,采用多層感知機將數(shù)據(jù)變換至隱空間可以更有效地擬合數(shù)據(jù),從而提高計算任務(wù)的性能。計算空間的改進也給進一步研究如何提高網(wǎng)絡(luò)面向多變量、多個模擬集合成員,乃至多個變量、多類任務(wù)時的泛化性能提供了可能。

隨著智能化技術(shù)的發(fā)展,可視化的智能創(chuàng)建與生成受到學(xué)術(shù)界的大量關(guān)注。近幾年涌現(xiàn)出多種不同類型的智能可視化創(chuàng)建與生成工具,具有很強的發(fā)展?jié)摿?。為了輔助不同需求和背景的用戶進行可視化創(chuàng)作,智能可視化生成工具可以進一步分為智能輔助工具與智能自動生成工具(Chen 等,2022a)。智能輔助工具可以在用戶創(chuàng)作過程中為用戶提供一部分的推薦方案或引導(dǎo)用戶創(chuàng)建可視化。智能自動生成工具可以對數(shù)據(jù)進行自動化分析與處理,無需用戶干預(yù)即可自動生成一套完整的可視化設(shè)計方案。然而,現(xiàn)有的技術(shù)與工具還不能完全理解用戶意圖并提供具體敘事目標的可視化生成。在現(xiàn)有的研究基礎(chǔ)上,如何使用自然語言生成算法來加強用戶與智能工具之間的連接,如何使用數(shù)據(jù)驅(qū)動模型強化智能可視化工具,以及如何更有效地使智能可視化工具識別并預(yù)測用戶的設(shè)計意圖,都是未來重要研究方向。

在智能交互方向,國內(nèi)外可視化研究團隊針對多模態(tài)的可視化新型交互方式開展了廣泛研究,取得了一系列進展。這些智能系統(tǒng)使用相應(yīng)的機器學(xué)習(xí)方法對可視化交互中的圖像和語言信息進行處理,降低了可視化交互流程在構(gòu)建、查詢和展示方面的門檻。然而現(xiàn)有方法中仍有許多流程采用基于規(guī)則的方法,限制了其可擴展性。未來將發(fā)展更好的支持可視化表達、信息轉(zhuǎn)化的機器學(xué)習(xí)方法。

在可視分析中,深度學(xué)習(xí)模型近年來也扮演了重要角色。但是,目前大多數(shù)研究主要使用深度學(xué)習(xí)模型對數(shù)據(jù)進行預(yù)處理和數(shù)據(jù)挖掘,尤其是在對圖像文本等復(fù)雜數(shù)據(jù)的處理中??梢暦治銎渌K結(jié)合深度學(xué)習(xí)目前研究較少,盡管有一些工作嘗試與機器結(jié)合實現(xiàn)“人在回路”的迭代和更新,但由于深度學(xué)習(xí)模型訓(xùn)練時間長、過程復(fù)雜,能夠進行高效交互的場景仍然有限。特別地,除了交互式地對可視分析系統(tǒng)模型進行更新,通過深度學(xué)習(xí)推薦分析內(nèi)容也是一個重要的方向(Li 等,2022)。通過捕捉可視分析系統(tǒng)的交互信息能夠為新手用戶提供交互建議,增強了可視分析系統(tǒng)的易用性。

在應(yīng)用層面,以圖表數(shù)據(jù)為例,在上個世紀,文檔分析與識別領(lǐng)域就已經(jīng)開始了對于圖表挖掘的研究(Futrelle 等,1992)。隨著近年計算機視覺技術(shù)的快速發(fā)展,從圖像域進行圖表挖掘在算法層面的阻力越來越小,相信未來會有越來越多的智能圖表挖掘技術(shù)及其相關(guān)下游應(yīng)用涌現(xiàn)。此外,雖然可視化能以多種形式存儲,除圖像形式外還有代碼段、網(wǎng)頁等形式,但是如上文介紹,多數(shù)智能圖表挖掘技術(shù)考慮以位圖或矢量圖為輸入。對圖像以外的其他模態(tài)的可視化存儲形式的智能圖表挖掘技術(shù)目前較少涉及,有巨大的發(fā)展?jié)摿?。例如,結(jié)合軟件工程中的代碼分析技術(shù)對以代碼段形式存儲的可視化進行挖掘。隨著智能圖表挖掘技術(shù)的逐漸成熟,如何通過圖表挖掘技術(shù)輔助本文介紹的各類智能可視化技術(shù)將會日益重要。特別地,圖表的挖掘與生成互為逆過程,兩者緊密相關(guān)。圖表挖掘技術(shù)可以反哺可視化的智能創(chuàng)建與生成,例如挖掘可視化的常見設(shè)計模式用于指導(dǎo)自動化的可視化生成。

致 謝本文由中國圖象圖形學(xué)學(xué)會可視化與可視分析專業(yè)委員會組織撰寫,該專委會鏈接為http://www.csig.org.cn/detail/2546。

猜你喜歡
圖表可視化智能
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
雙周圖表
足球周刊(2016年14期)2016-11-02 10:54:56
雙周圖表
足球周刊(2016年15期)2016-11-02 10:54:16
孝义市| 石柱| 衡东县| 大余县| 平阳县| 米林县| 顺昌县| 汤原县| 武山县| 长汀县| 锦屏县| 博野县| 通化市| 平湖市| 莱西市| 东兴市| 锦屏县| 安岳县| 富民县| 阳山县| 吉安市| 常熟市| 孙吴县| 曲麻莱县| 商洛市| 灵宝市| 绥中县| 镇巴县| 成武县| 将乐县| 龙泉市| 大竹县| 伊金霍洛旗| 大兴区| 青州市| 纳雍县| 临夏县| 斗六市| 两当县| 隆回县| 金门县|