孫雨生 李沁蕓 朱禮軍
〔摘要〕本文介紹了可視化搜索引擎內(nèi)涵、核心內(nèi)容和研究框架,并從架構(gòu)體系、關(guān)鍵技術(shù)兩方面闡述了國(guó)內(nèi)可視化搜索引擎研究進(jìn)展。
〔關(guān)鍵詞〕可視化搜索引擎;架構(gòu)體系;關(guān)鍵技術(shù)
DOI:10.3969j.issn.1008-0821.2017.10.028
〔中圖分類號(hào)〕TP399;G202〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)10-0172-06
〔Abstract〕This article described the connotation,core content and research framework of visual search engine,and revealed its research development in China from two aspects ofarchitecture system and key technologies.
〔Key words〕visual search engine;architecture system;key technology
隨著網(wǎng)絡(luò)信息級(jí)數(shù)倍增、用戶檢索需求個(gè)性化,海量信息與有限用戶認(rèn)知能力間矛盾日益凸顯,客觀需要新型信息檢索技術(shù)提升個(gè)性化服務(wù)效率,在這種形勢(shì)下,可視化搜索引擎應(yīng)運(yùn)而生,其將可視化技術(shù)引入信息檢索領(lǐng)域[1],通過(guò)豐富界面視覺(jué)效果、連續(xù)[2-6]多維[7]揭示檢索詞與信息間關(guān)系及所隱藏信息關(guān)聯(lián)及規(guī)律[1]提升用戶檢索體驗(yàn)[8](通過(guò)整體、局部瀏覽直觀[9]判斷信息相關(guān)性并明晰用戶需求[10])、降低用戶認(rèn)知負(fù)擔(dān)(無(wú)需太高信息素養(yǎng)、檢索語(yǔ)言知識(shí)[8],變檢索過(guò)程為知識(shí)學(xué)習(xí)[10]過(guò)程)。
本文介紹可視化搜索引擎內(nèi)涵、核心內(nèi)容和研究框架,并從架構(gòu)體系、關(guān)鍵技術(shù)兩方面闡述國(guó)內(nèi)可視化搜索引擎研究進(jìn)展。
1可視化搜索引擎簡(jiǎn)介
11定義及內(nèi)涵
可視化搜索引擎依托可視化環(huán)境(含硬件(計(jì)算機(jī)系統(tǒng)配置圖像、視頻輸入輸出、音響設(shè)備)、軟件、可視化處理過(guò)信息資源(配有圖符庫(kù)、詞庫(kù)、資源特征庫(kù)索引、知識(shí)庫(kù)和全文、音頻、視頻資源庫(kù)))[11],將可視化技術(shù)[8,12]用于搜索引擎各環(huán)節(jié),基于信息可視化、數(shù)據(jù)挖掘[6,13]、圖形圖像學(xué)、認(rèn)知科學(xué)、人機(jī)交互等學(xué)科理論、方法[13-14]、技術(shù),將用戶需求[8,15]、檢索模型、信息資源管理(采集、組織、存儲(chǔ)、處理[15])及檢索過(guò)程中不可見(jiàn)內(nèi)部語(yǔ)義關(guān)系[10]、特征轉(zhuǎn)成圖像、圖形[9]、動(dòng)畫、視頻[13]等視覺(jué)形式[12,16-17]顯示在可視化空間供檢索[2-5,12,15-16,18-20]以實(shí)現(xiàn)網(wǎng)絡(luò)信息可視化索引、檢索、瀏覽[12,16-17,21]與人機(jī)交互[1,16-17],提升檢索溝通深度[9]及效果(準(zhǔn)確分析檢索需求、動(dòng)態(tài)調(diào)整檢索策略[1]、提升檢索結(jié)果信息量及可讀性[18,21](輔助用戶理解[12,16-17]、把握檢索方向并有效反饋[2,4-5,12,15])以便用戶決定瀏覽次序、找到所需信息)、改善用戶檢索體驗(yàn)[8](可視化表達(dá)信息內(nèi)容、線性及網(wǎng)狀[13]關(guān)系[5,8,16-17,22],高效處理信息[9]以提高檢索效率性能[3,16,18-20])。
12核心內(nèi)容及研究框架
分析現(xiàn)有文獻(xiàn),筆者認(rèn)為可視化搜索引擎核心研究架構(gòu)體系、關(guān)鍵技術(shù)、用戶測(cè)評(píng)、可視化資源組織、可視化機(jī)制、可視化表征、領(lǐng)域應(yīng)用與系統(tǒng)實(shí)現(xiàn)等,研究框架見(jiàn)圖1。
圖1可視化搜索引擎研究框架
2可視化搜索引擎研究進(jìn)展
為全面掌握國(guó)內(nèi)可視化搜索引擎研究狀況,筆者以中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)的學(xué)位論文、期刊論文庫(kù)及維普的期刊論文庫(kù)為信息源,用關(guān)鍵詞組合在題名中檢索相關(guān)文獻(xiàn)(截止2017年4月21日,以“可視化”、“搜索”為關(guān)鍵詞組合從知網(wǎng)獲碩博論文12篇、期刊論文26篇,從萬(wàn)方獲碩博論文13篇(新發(fā)現(xiàn)3篇)、期刊論文21篇(新發(fā)現(xiàn)0篇),從維普獲期刊論文28篇(新發(fā)現(xiàn)2篇);以“可視化”、“檢索”為關(guān)鍵詞組合從知網(wǎng)獲碩博論文14篇、期刊論文101篇,從萬(wàn)方獲碩博論文15篇(新發(fā)現(xiàn)6篇)、期刊論文89篇(新發(fā)現(xiàn)5篇),從維普獲期刊論文100篇(新發(fā)現(xiàn)3篇);合計(jì)172篇文獻(xiàn))。
縱觀現(xiàn)有成果,國(guó)內(nèi)可視化搜索引擎研究側(cè)重跟蹤國(guó)外動(dòng)態(tài)(介紹國(guó)外先進(jìn)技術(shù),如可視化檢索模型構(gòu)建、可視化技術(shù)、可視化檢索系統(tǒng)比較、可視化檢索應(yīng)用意義等,結(jié)合國(guó)內(nèi)情形較少且深度不夠[16],多為理論探討,尚未形成成熟理論與方法),應(yīng)用研究尚處初步階段(系統(tǒng)設(shè)計(jì)思想不成熟[18](如數(shù)字資源組織、系統(tǒng)體系結(jié)構(gòu)等問(wèn)題)、開(kāi)發(fā)很缺乏[15]且問(wèn)題多[23]),相關(guān)成果最早是王寧等1997年發(fā)表的《可視化信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》,學(xué)術(shù)研究集中在基本理論與技術(shù)(聚類[12-13,16,24-25]、映射[3,7,12,14-15,18-19,22,26-29]、可視化顯示[6,9,18,20,26-27,30-31]、可視化工具[2,5,14-15,17,22,32-33]);應(yīng)用研究集中在農(nóng)業(yè)[25,32]、學(xué)術(shù)[7-9,15,23,25]、電子商務(wù)[18]、社交平臺(tái)[9]等領(lǐng)域。
21架構(gòu)體系
211體系結(jié)構(gòu)
可視化搜索引擎多分為用戶檢索層、可視化實(shí)現(xiàn)層和信息采集層,詳見(jiàn)圖2。此外,崔潔[34]提出可視化搜索引擎多采用BS架構(gòu),由數(shù)據(jù)服務(wù)器(數(shù)據(jù)定義、更新、格式轉(zhuǎn)換等)、Web服務(wù)器(將用戶需求轉(zhuǎn)為查詢表達(dá)式并據(jù)匹配算法匹配數(shù)據(jù)庫(kù)中數(shù)據(jù),檢出滿足條件文檔并通過(guò)用戶界面返給用戶,涉及自動(dòng)標(biāo)引、概念空間生成與可視化顯示、結(jié)果文檔集提取等)和Web終端(用戶與系統(tǒng)交流媒介,通過(guò)用戶界面可視化展現(xiàn)檢索過(guò)程、結(jié)果)組成。
圖2可視化搜索引擎體系結(jié)構(gòu)endprint
212功能模塊
王恬[25]、李睿[35]等認(rèn)為可視化搜索引擎分信息抽?。ㄓ肳eb信息抽取技術(shù)獲取有效信息)、數(shù)據(jù)處理(改進(jìn)中文分詞法對(duì)抽取信息清洗、分詞,用關(guān)聯(lián)分析、聚類分析技術(shù)分析并存儲(chǔ)信息及其間關(guān)系)、可視化處理[35](將相關(guān)信息及其間關(guān)系分別映射到可視化結(jié)構(gòu)中[25],通過(guò)視圖變換轉(zhuǎn)換成可視化圖形,還包括用戶行為統(tǒng)計(jì)[35](聚類結(jié)果輸出后記錄用戶選擇方向,體系化輸出搜索結(jié)果知識(shí)))、用戶檢索(提供用戶檢索接口,返回檢索結(jié)果)、后臺(tái)管理(管理員維護(hù)系統(tǒng)數(shù)據(jù)[25])模塊。
213運(yùn)行機(jī)理
文燕平[21]、陳穎[23]、王恬[25]、王蓓[36]等認(rèn)為可視化搜索引擎多從Web資源獲取信息并預(yù)處理[25],確定數(shù)據(jù)集及其可視化對(duì)象[21,23,36](需顯示內(nèi)容(如文檔、數(shù)字圖書(shū)館、網(wǎng)站和超鏈接結(jié)構(gòu)等[23]),分析數(shù)據(jù)集內(nèi)部特點(diǎn)(語(yǔ)義結(jié)構(gòu)、鏈接、引用關(guān)系等),抽取結(jié)構(gòu)化、上下文信息、元數(shù)據(jù)、使用及語(yǔ)義信息等(支持可視化隱喻形式選擇[21]))并存入關(guān)系數(shù)據(jù)庫(kù)[25];其次,確定對(duì)象間邏輯關(guān)系(可視化模型構(gòu)建基礎(chǔ))、以何種關(guān)系(幾何圖形、自然實(shí)物、圖標(biāo)等[21,23])顯示可視對(duì)象[22-23,36];最后,構(gòu)造虛擬結(jié)構(gòu)(借助抽取、分析方法抽象產(chǎn)生,輔助用戶發(fā)現(xiàn)數(shù)據(jù)中隱藏規(guī)律及關(guān)聯(lián)信息(如相似度、含相同關(guān)鍵詞文檔))[21],定義可視化空間[4,21,36](基于信息可視化方法或文獻(xiàn)信息系統(tǒng)結(jié)構(gòu)[3]降維向量空間[3,21]以構(gòu)建低維可視化空間),確定可視化語(yǔ)義框架,用可視化映射方法將可視化對(duì)象及其邏輯關(guān)系映射到語(yǔ)義框架[22,36]并與用戶動(dòng)態(tài)交互,用視圖轉(zhuǎn)換視覺(jué)顯示可視化結(jié)構(gòu)并通過(guò)用戶界面將檢索結(jié)果返給用戶[25]。
22關(guān)鍵技術(shù)
可視化技術(shù)指用計(jì)算機(jī)數(shù)據(jù)分析、圖形構(gòu)造、圖像處理和人機(jī)交互技術(shù)將海量數(shù)據(jù)轉(zhuǎn)成圖形或圖像顯示在屏幕上[8]并允許通過(guò)交互[20]控制數(shù)據(jù)抽取和畫面顯示,直觀化數(shù)據(jù)中隱含[20]規(guī)律的理論、方法和技術(shù)[17,36],常按可視化對(duì)象、方式、目標(biāo)分類??梢暬阉饕婊诔S每梢暬夹g(shù)[12,20](傳統(tǒng)多涉及概念、空間地理、文獻(xiàn)、數(shù)據(jù)庫(kù)和多媒體等方面可視化技術(shù),當(dāng)前主要關(guān)注網(wǎng)絡(luò)及大規(guī)模信息資源檢索可視化、領(lǐng)域可視化、算法改進(jìn)等[7,15,17-18,37]),其中,關(guān)鍵技術(shù)包括聚類、可視化映射、可視化顯示、可視化工具等。
221聚類
1)粗糙集理論
武娜[13]基于分類機(jī)制,用知識(shí)庫(kù)中知識(shí)近似描述不精確(確定)知識(shí),用于機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、決策支持與分析等。
2)向量空間模型
又稱特征詞向量模型,向量化表示文本,最早用于檢索系統(tǒng)SMART,目前廣泛用于信息檢索[13]中文檔與提問(wèn)相關(guān)度度量并按相關(guān)度降序輸出[16]。孫巍[16]認(rèn)為優(yōu)點(diǎn)是用部分匹配策略實(shí)現(xiàn)算法層基于多值相關(guān)性判斷,用基于統(tǒng)計(jì)學(xué)詞加權(quán)處理模式改善檢索效果,用檢索結(jié)果排序輸出策略彈性、自由控制與調(diào)整檢索結(jié)果數(shù)量;缺點(diǎn)是標(biāo)引詞彼此獨(dú)立。
3)遺傳算法
從隨機(jī)產(chǎn)生或特定初始群出發(fā),按規(guī)則(如選擇、交叉、變異等)迭代并按個(gè)體適應(yīng)度優(yōu)勝劣汰以最優(yōu)化搜索過(guò)程,廣泛用于知識(shí)發(fā)現(xiàn)、組合優(yōu)化、機(jī)器學(xué)習(xí)、信號(hào)處理、自適應(yīng)控制等[13,24],武娜[13]認(rèn)為特點(diǎn)是搜索過(guò)程中自動(dòng)獲取優(yōu)化知識(shí)、自適應(yīng)調(diào)整搜索方向,有普適性、易擴(kuò)充性(簡(jiǎn)單修改即可用于其它問(wèn)題或加入領(lǐng)域知識(shí)、與已有算法結(jié)合)優(yōu)勢(shì)。此外,王勝惠[24]提出可視化交互式遺傳算法模型(允許用戶參與遺傳搜索過(guò)程并處主動(dòng)地位,通過(guò)在搜索過(guò)程加導(dǎo)向信號(hào)(添加處高適應(yīng)度區(qū)域個(gè)體)引導(dǎo)遺傳過(guò)程朝用戶主觀情感方向發(fā)展,能有效加快遺傳算法收斂速度、減輕用戶疲勞、高度實(shí)現(xiàn)圖像感性搜索)。
4)K-means算法
武娜[13]認(rèn)為K-means是最經(jīng)典、最常用基于劃分[25]聚類算法,效率很高,其以隨機(jī)k個(gè)對(duì)象為簇初始均值或中心,按與各簇均值距離把對(duì)象分為k個(gè)簇并不斷更新各簇均值以使簇內(nèi)相似度高、簇間相似度低,直到準(zhǔn)則函數(shù)(常為平方誤差準(zhǔn)則)收斂。常用于處理大數(shù)據(jù)集,局限是初始質(zhì)心難事先確定、選取較敏感(初始質(zhì)心隨機(jī)性影響聚類結(jié)果穩(wěn)定性、質(zhì)量)。王恬[25]提出基于最大距離法選取初始質(zhì)心K-means聚類算法(結(jié)合K-means聚類算法、凝聚層次聚類算法優(yōu)點(diǎn)最優(yōu)化聚類效率、效果:用K-means聚類法產(chǎn)生類以約束凝聚層次法凝聚空間,各類用凝聚層次聚類法生成聚類樹(shù)并合并為完整聚類樹(shù))。
222可視化映射
主流且應(yīng)用廣泛搜索引擎可視化映射技術(shù)有多參考點(diǎn)模型、歐幾里德空間特征模型、自組織圖、尋徑網(wǎng)絡(luò)、多維尺度分析[15,22,37]、潛在語(yǔ)義索引。
1)多重參考點(diǎn)模型
馮小琴[19]、張進(jìn)[22]認(rèn)為廣義參考點(diǎn)代表用戶信息需求及其相關(guān)信息(如興趣偏好、檢索歷史、用戶從屬關(guān)系和教育背景等)、特殊信息(如復(fù)雜提問(wèn)、瀏覽文檔或檢索詞)。一參考點(diǎn)常對(duì)應(yīng)一(組)檢索詞,用于輔助修正檢索請(qǐng)求以提升結(jié)果準(zhǔn)確性。多重參考點(diǎn)用兩個(gè)以上用戶需求信息形成低維視覺(jué)空間,按文檔與參考點(diǎn)聯(lián)系將其繪制在視覺(jué)空間以有效處理用戶復(fù)雜信息需求并靈活精確操作,按在視覺(jué)空間位置分多重固定參考點(diǎn)(Info Crystal(用二維空間可視化檢索結(jié)果))、多重可移動(dòng)參考點(diǎn)兩類。
2)歐幾里德空間特征模型
馮小琴[19]認(rèn)為歐幾里德空間基本元素是點(diǎn)、距離、角度,與基于向量空間信息檢索關(guān)聯(lián)特殊(其空間點(diǎn)與基于向量空間中文檔或參考點(diǎn)對(duì)應(yīng)時(shí)可用兩文檔(參考點(diǎn))間歐幾里德距離揭示相似性)。其用歐幾里德空間特征和信息檢索間自然關(guān)聯(lián)為用戶瀏覽、搜索信息構(gòu)造可視化環(huán)境[19],體現(xiàn)在檢索方向性(該類算法適用于比例性相似情形,如信息檢索Cosine向量模型,向量間夾角越小越相似)、距離性(該類算法適用于完全相似情形,距離越近越相似)[22]。馮小琴[19]、張進(jìn)[22]提出DARE(基于距離-角度)、TOFIR(基于角度-角度)和GUIDO(基于距離-距離[2-3])模型均在二維空間可視化展示方向、距離或兩者結(jié)合,多用KVP、AVP參考點(diǎn)構(gòu)建可視化空間。endprint
3)自組織圖
信息可視化領(lǐng)域較早采用算法[26](宏觀可視化領(lǐng)域知識(shí)效果較好但過(guò)程復(fù)雜[19]且數(shù)據(jù)量較大時(shí)效果隨學(xué)習(xí)次數(shù)增多而降低(學(xué)習(xí)過(guò)度)[27]),又稱Kohonen特征映射(SOM),是無(wú)監(jiān)督[27,29]可反饋[19]人工神經(jīng)網(wǎng)絡(luò)[14,18,26],由芬蘭TKohonen首先提出[29],常用于基于向量信息檢索模型[22],通過(guò)抽象、組織輸入數(shù)據(jù)或信號(hào)特征,歸類并揭示拓?fù)潢P(guān)系將高維輸入數(shù)據(jù)集映射到低維網(wǎng)格上節(jié)點(diǎn)[14]以用簡(jiǎn)單幾何關(guān)系表示[23]且盡可能保持原有數(shù)據(jù)關(guān)系[26-29],產(chǎn)生有序地圖以描述輸入數(shù)據(jù)和其間關(guān)系高度有序統(tǒng)計(jì)學(xué)特征[26],主要包括結(jié)構(gòu)、算法、標(biāo)識(shí),體系分輸入、輸出層[14,22],神經(jīng)元(對(duì)應(yīng)N維加權(quán)向量[27,29],存儲(chǔ)、記錄學(xué)習(xí)過(guò)程所獲知識(shí)、經(jīng)驗(yàn)[22])有序結(jié)構(gòu)可自動(dòng)處理輸入數(shù)據(jù)并生成網(wǎng)狀特征圖(神經(jīng)元常顯示在矩形或六邊形細(xì)胞狀二維網(wǎng)格結(jié)點(diǎn)上并相互作用,神經(jīng)元間距離決定交互度,數(shù)目決定算法結(jié)果映像度[29])且有處理模糊數(shù)據(jù)和復(fù)雜計(jì)算能力[22]。張學(xué)福[27]、孫巍[28]等提出根據(jù)出現(xiàn)頻率,為輸入向量分配節(jié)點(diǎn)數(shù)[27],強(qiáng)調(diào)領(lǐng)域、區(qū)域和臨近關(guān)系,易在圖形核心區(qū)域增加標(biāo)簽[28]但會(huì)損害頻率較低樣本,頻率較高樣本降維時(shí)會(huì)出現(xiàn)畸變(壓縮比越大,畸變度越大[27],使圖形顯現(xiàn)內(nèi)容與實(shí)際脫節(jié)[28])。
4)尋徑網(wǎng)絡(luò)
又稱探路者網(wǎng)絡(luò)(Pathfinder,PFNET),由Schvaneveldt和其他認(rèn)知科學(xué)家共同提出。根據(jù)經(jīng)驗(yàn)性數(shù)據(jù)評(píng)估概念或?qū)嶓w間聯(lián)系相似(異)度,用圖論中基本概念和原理生成特殊網(wǎng)狀模型(分層、聚類概念、實(shí)體以降維,通過(guò)節(jié)點(diǎn)和連接圖描述數(shù)據(jù)間關(guān)系以清楚顯示對(duì)象間鏈接關(guān)系),可一定程度模擬人腦記憶模型及聯(lián)想思維方式[7],是檢查數(shù)據(jù)關(guān)系、創(chuàng)造標(biāo)記最有效聯(lián)接路徑,其結(jié)構(gòu)化模式可直接將用戶注意力集中到最佳“相關(guān)路徑”[26],有效消除網(wǎng)絡(luò)中不清晰鏈接以降低計(jì)算負(fù)荷、提升效率[7,18,23,26-27]。多用于詞頻共現(xiàn)分析、信息搜索分析等[14],如陳超美用于可視化著者同被引分析[7]。
5)多維尺度分析
又稱相似度結(jié)構(gòu)分析[14],張學(xué)梅[7]認(rèn)為是用非線性變換降維數(shù)據(jù)以通過(guò)低維空間不同疏密散點(diǎn)近似表示高維數(shù)據(jù)間關(guān)系,旨在明確潛在維度(直接決定事物間距離),用較少變量解釋事物間相似性;歐亮[12]、張學(xué)福[27]認(rèn)為多用于處理代表事物間接近性觀察數(shù)據(jù),包括實(shí)際距離及主觀評(píng)判相似性等,分析各種距離或相似矩陣,評(píng)價(jià)文獻(xiàn)間、基于共頻引文對(duì)象間相似度等以在一組對(duì)象相似測(cè)度中找出其間結(jié)構(gòu)。缺點(diǎn)是無(wú)快速方法解釋降維后結(jié)果自然特性(常需局部細(xì)節(jié)和更多明晰結(jié)構(gòu)表示,影響MDS配置),僅能處理小型數(shù)據(jù)集[27]。
6)潛在語(yǔ)義索引
韓麗華[18]、周寧[26]、張學(xué)福[27]認(rèn)為是將矩陣奇異值分解用于文檔語(yǔ)義特征抽取以將文檔關(guān)鍵詞向量空間轉(zhuǎn)為語(yǔ)義概念空間,消除詞間相關(guān)性[12],在降維語(yǔ)義概念空間中計(jì)算查詢向量與文檔向量相似度并排序后返回[18],特點(diǎn)是在輸入數(shù)據(jù)中揭示“潛在”語(yǔ)義結(jié)構(gòu),常用于海量、高維數(shù)據(jù)處理[26]。
223可視化顯示
可視化顯示依賴是否接近用戶經(jīng)驗(yàn)、知識(shí)最佳描述[26],需據(jù)實(shí)合理選擇一種或組合多種顯示技術(shù)[27],目前可視化搜索引擎常用顯示技術(shù)見(jiàn)表1,郭衛(wèi)兵等[30]認(rèn)為還包括文檔透鏡、透視墻景圖等。
224可視化工具
信息檢索可視化無(wú)內(nèi)在固有結(jié)構(gòu)可繼承,造成可視化方法多樣性,因此開(kāi)發(fā)了多種可視化搜索引擎模型和工具[22]供用戶選擇[33],常用可視化工具見(jiàn)表2。
工具包簡(jiǎn)介實(shí)現(xiàn)語(yǔ)言
Prefuse具有數(shù)據(jù)建模、可視化和交互等功能,支持層次、網(wǎng)狀等數(shù)據(jù)結(jié)構(gòu)且提供系列可視化編碼、算法、組件以支持視圖布局、顏色、大小、形狀、變形、動(dòng)畫(通過(guò)系列活動(dòng)時(shí)序機(jī)制完成)等功能[32]Java
Gephi復(fù)雜網(wǎng)絡(luò)分析軟件,主要用于網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化與探測(cè)開(kāi)源工具,廣泛用于大學(xué)、公司和機(jī)構(gòu),如紐約時(shí)報(bào)全球連接性分析、Twitter網(wǎng)絡(luò)負(fù)荷分析等Java
OpenGL二維和三維圖形底層API,也稱計(jì)算機(jī)圖形匯編語(yǔ)言,有建模、變換、顏色模式設(shè)置、光照和材質(zhì)設(shè)置、紋理映射、位圖顯示和圖像增強(qiáng)、雙緩存動(dòng)畫功能,已成為事實(shí)行業(yè)標(biāo)準(zhǔn),基于此還有OpenGL Vizserver、OpenGL Performer、OpenGL Volumizer、OpenGL Multipipe SDK API、Open Inventor等高級(jí)圖形庫(kù),適應(yīng)不同應(yīng)用[33]跨編程語(yǔ)言
VTK開(kāi)源3D計(jì)算機(jī)圖形、圖像處理和可視化軟件系統(tǒng),支持多種可視化算法,包括標(biāo)量、矢量、張量、紋理等及高級(jí)模型技術(shù),包括固有模型、多邊形變形和剪輯等;三維圖形功能強(qiáng)大;用高速緩存、流水線處理大數(shù)據(jù)集;支持基于網(wǎng)絡(luò)工具且可移植[33]C++
JGraph交互性較好圖形結(jié)構(gòu)可視化組件,支持拖放、縮放、合并等操作,可用于圖結(jié)構(gòu)表示,如UML、圖機(jī)構(gòu)等[14]Java
GoogleMaps API可免費(fèi)開(kāi)發(fā)個(gè)性化地圖并嵌入網(wǎng)站,實(shí)現(xiàn)多種地圖展現(xiàn)、操作功能,如拖拽、縮放、限制有效活動(dòng)范圍和縮放級(jí)別、通過(guò)經(jīng)緯度精確定位并查看定點(diǎn)詳細(xì)信息[32]JavaScript
Infocrystal可視化表達(dá)所有可能二進(jìn)制及概念中連續(xù)關(guān)系。可隨意設(shè)定概念間相關(guān)度權(quán)重和閾值,允許用布爾邏輯表達(dá)式和圖形化向量空間查詢,創(chuàng)建任意復(fù)雜查詢表達(dá)式且形成塊圖形(正方形、三角形等晶體狀)或組織成層次化結(jié)構(gòu)[17]
WIDAS基于雙曲線樹(shù)理論[2,5]實(shí)現(xiàn)信息可視化和檢索功能集成,旨在提高用戶可視化檢索網(wǎng)絡(luò)信息準(zhǔn)確性和效率,被視作實(shí)現(xiàn)高效Web瀏覽輔助工具[5]endprint
23其他研究
231人機(jī)交互
信息檢索可視化(尤其檢索過(guò)程可視化)與用戶行為密不可分,用戶動(dòng)機(jī)是預(yù)測(cè)其使用搜索引擎目的關(guān)鍵要素,目前研究較缺乏[15]。改善人機(jī)交互可實(shí)現(xiàn)交互式檢索(如調(diào)整文獻(xiàn)顯示方式等)以幫助用戶理解文獻(xiàn)間語(yǔ)義關(guān)系、提高查準(zhǔn)率[2]。羅龍艷[3]提出可視化檢索提供有效用戶反饋機(jī)制,提出完善瀏覽、檢索途徑方法。
232可視化搜索引擎測(cè)評(píng)
孫巍[16]、王蓓[36]提出可視化搜索引擎模型評(píng)價(jià)檢查是否滿足用戶需求[16],可視化環(huán)境中確定對(duì)象、提取屬性、定義坐標(biāo)系、設(shè)計(jì)語(yǔ)義框架及開(kāi)發(fā)視覺(jué)信息檢索方法是否無(wú)縫合成,數(shù)據(jù)是否顯示充分、清晰準(zhǔn)確,是否全面表達(dá)重要屬性和原始數(shù)據(jù)集中突出關(guān)系,可視化顯示是否有意義、可翻譯、可解釋,交互式信息檢索方法是否較好融入可視化環(huán)境[36],信息檢索可視化工具和模型是否多樣化等;么新英[4]認(rèn)為可視化搜索引擎評(píng)價(jià)很少且難推進(jìn),主要是由于可視化模型多樣性(特有數(shù)據(jù)結(jié)構(gòu)、特性及數(shù)據(jù)處理,評(píng)價(jià)難度較大)、可視化環(huán)境復(fù)雜性(可視化環(huán)境下檢索過(guò)程較傳統(tǒng)復(fù)雜)、傳統(tǒng)評(píng)價(jià)不適應(yīng)性(可視化搜索引擎技術(shù)、原理成熟,網(wǎng)上信息量猛增,元數(shù)據(jù)成熟,商品化增長(zhǎng),需構(gòu)建統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn));潘慶超[37]認(rèn)為應(yīng)參照現(xiàn)有搜索引擎評(píng)價(jià)方案構(gòu)建可視化搜索引擎測(cè)評(píng)體系。
3結(jié)束語(yǔ)
綜上,本文介紹了可視化搜索引擎內(nèi)涵、核心內(nèi)容和研究框架,并從架構(gòu)體系、關(guān)鍵技術(shù)兩方面闡述了國(guó)內(nèi)可視化搜索引擎研究進(jìn)展:架構(gòu)體系包括體系結(jié)構(gòu)(多用BS結(jié)構(gòu)、引入數(shù)據(jù)挖掘)、功能模塊(多包括信息抽取、數(shù)據(jù)預(yù)處理、可視化處理、用戶檢索、后臺(tái)管理)、運(yùn)行機(jī)理(多為信息采集抽取、數(shù)據(jù)預(yù)處理、可視化映射、可視化搜索結(jié)果生成及顯示);關(guān)鍵技術(shù)主要包括聚類、可視化映射、可視化顯示、可視化工具等,現(xiàn)有可視化技術(shù)尚不成熟(缺乏堅(jiān)實(shí)理論基礎(chǔ)、系統(tǒng)研究,未充分考慮用戶需求、興趣等),尤其是高抽象度模型技術(shù),致使很多經(jīng)典可視化模型無(wú)法輕易應(yīng)用,嚴(yán)重影響檢索效率、用戶要求滿足度,阻礙檢索可視化應(yīng)用發(fā)展。接下來(lái),筆者將從可視化資源組織、可視化機(jī)制、可視化表征三方面系統(tǒng)分析國(guó)內(nèi)可視化搜索引擎研究進(jìn)展,以供相關(guān)研究及實(shí)踐參考。
參考文獻(xiàn)
[1]孫巍,張學(xué)福.基于引文的信息檢索可視化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)雜志,2008,27(6):70-72,76.
[2]秦雪梅,高凡,陳烈英.可視化情報(bào)檢索[J].圖書(shū)情報(bào)工作,2002,46(4):89-92.
[3]羅龍艷.基于可視化技術(shù)的信息檢索初探[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2002,(4):36-38,30.
[4]么新英.傳統(tǒng)信息檢索與可視化信息檢索之比較[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2003,13(3):1-2.
[5]曹錦丹,王麗偉,齊艷麗.可視化技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用[J].情報(bào)雜志,2005,24(8):113-116.
[6]孫潔麗,朱智清.基于數(shù)據(jù)挖掘技術(shù)的檢索可視化系統(tǒng)的研究[J].現(xiàn)代情報(bào),2008,28(3):106-109.
[7]張學(xué)梅,汪偉歆.基于本體的期刊論文可視化檢索系統(tǒng)研究[J].電子世界,2012(22):121-123.
[8]饒文星.可視化多語(yǔ)言目錄檢索平臺(tái)研究[D].南寧:廣西民族大學(xué),2013.
[9]蔚元方.文獻(xiàn)檢索的信息可視化技術(shù)研究[D].鄭州:中原工學(xué)院,2015.
[10]王蓓.淺議信息檢索可視化[J].企業(yè)導(dǎo)報(bào),2012,(8):249-249.
[11]周寧,文燕平,嚴(yán)亞蘭.信息檢索可視化初探[J].情報(bào)科學(xué).2004,22(2):138-142.
[12]歐亮.信息檢索可視化研究綜述[J].情報(bào)探索,2011,(3):83-87.
[13]武娜.視頻搜索結(jié)果分析及其可視化方法研究與應(yīng)用[D].上海:東華大學(xué),2009.
[14]王孟君.WWW信息檢索可視化研究及在信用領(lǐng)域的應(yīng)用[D].杭州:浙江工業(yè)大學(xué),2010.
[15]朱云霞.我國(guó)信息檢索可視化研究現(xiàn)狀與發(fā)展趨勢(shì)分析[J].情報(bào)探索,2012,(8):112-115.
[16]孫巍.基于引文的信息檢索可視化系統(tǒng)研究[D].哈爾濱:黑龍江大學(xué),2007.
[17]張學(xué)梅.期刊論文語(yǔ)義檢索與可視化導(dǎo)航系統(tǒng)研究[D].南京:南京農(nóng)業(yè)大學(xué),2010.
[18]韓麗華.信息檢索可視化效率若干問(wèn)題研究[D].哈爾濱:黑龍江大學(xué),2008.
[19]馮小琴.基于技術(shù)接受模型的信息檢索可視化研究[D].武漢:華中師范大學(xué),2009.
[20]李春旺.信息檢索可視化技術(shù)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2003,(6):44-46,49.
[21]文燕平.WWW信息檢索可視化實(shí)現(xiàn)原理研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005,(4):10-13,50.
[22]張進(jìn),袁澤林,陸偉.信息檢索可視化的主流路徑[J].圖書(shū)情報(bào)知識(shí),2008,(5):24-27.
[23]陳穎.基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)[D].哈爾濱:黑龍江大學(xué),2007.
[24]王勝惠,王上飛,王煦法.可視化交互式遺傳算法及其在圖像感性檢索中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(3):399-403.
[25]王恬.農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究[D].咸陽(yáng):西北農(nóng)林科技大學(xué),2015.
[26]周寧,劉瑋.可視化語(yǔ)音信息檢索模型研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2006,(2):46-49.
[27]張學(xué)福.信息檢索可視化基本問(wèn)題研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2006,32(3):37-40.
[28]孫巍,張學(xué)福.基于引文的信息檢索可視化相關(guān)系統(tǒng)比較分析[J].情報(bào)理論與實(shí)踐,2008,31(4):598-601.
[29]陳勇躍,周寧,夏火松.知識(shí)檢索中的知識(shí)抽取與可視化研究[J].情報(bào)科學(xué),2010,28(11):1719-1723.
[30]郭衛(wèi)兵,朱毅華.基于信息可視化的教學(xué)資源檢索與導(dǎo)航模型構(gòu)建與驗(yàn)證[J].現(xiàn)代教育技術(shù),2011,21(2):121-124.
[31]饒文星.國(guó)外可視化多語(yǔ)言檢索系統(tǒng)的特點(diǎn)與發(fā)展趨勢(shì)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2015,25(11):93-95,99.
[32]張陽(yáng).農(nóng)業(yè)搜索可視化平臺(tái)的研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2010.
[33]張學(xué)福.信息檢索可視化開(kāi)發(fā)工具[J].現(xiàn)代情報(bào),2005,25(11):38-41.
[34]崔潔.基于共詞分析原理的文檔可視化檢索系統(tǒng)研究[J].蘭臺(tái)世界,2009(S1):90-90.
[35]李睿,聶晨光,龍文磊,等.信息可視化技術(shù)在搜索引擎結(jié)果知識(shí)體系化輸出應(yīng)用方案設(shè)計(jì)[J].中國(guó)管理信息化,2015,18(13):211-213.
[36]王蓓.信息檢索可視化模型[J].成功(教育),2012,(6):229-229.
[37]潘慶超.近幾年國(guó)內(nèi)信息檢索可視化研究綜述[J].圖書(shū)館學(xué)研究,2010,(12):7-9,14.
(本文責(zé)任編輯:孫國(guó)雷)endprint