李可彤
(廣西城市職業(yè)大學(xué),廣西 崇左 532200)
科學(xué)技術(shù)在不停地發(fā)展,各個行業(yè)的數(shù)據(jù)信息量隨著互聯(lián)網(wǎng)信息技術(shù)的不斷普及和發(fā)展而急劇膨脹。人類社會需要人文社科不斷地推動,也許它顯示出來的作用沒有自然科學(xué)的那么明顯,但是卻是更加令人印象深刻、直指內(nèi)心深處,對人類的教育作用是無可替代的。
數(shù)據(jù)可視化技術(shù)通過將每一種數(shù)據(jù)映射為不同的圖形、符號和顏色等,同時使用計算機視覺以及界面,通過平面圖形顯示繪制不同的圖像來直觀地把生僻晦澀的大量、繁雜的數(shù)據(jù)形象生動并且清晰有效地表達(dá)出來,讓人們更容易從多維度了解錯綜復(fù)雜的數(shù)據(jù)。ECharts是國內(nèi)的一款十分優(yōu)秀的可視化圖表控件,它能給用戶提供一些同時兼具個性化高、交互性高、靈活快速而且直觀生動的優(yōu)點的數(shù)據(jù)可視化圖表。
對于人文社科的研究,國內(nèi)外一直在進(jìn)行著。2014年,Schich使用可視化技術(shù)針對歷史杰出人物的出生地點和逝世地點,關(guān)聯(lián)了當(dāng)時的歷史和文化,繪制了歐洲和北美的文化史圖,獲得了文化發(fā)展的趨勢[1]。近年來,國內(nèi)外更是增加了一些關(guān)于人文社科的新項目、新平臺,例如國家圖書館的“華夏記憶項目”、上海圖書館的“中文古籍聯(lián)合目錄及循證平臺”。由此可見,在社會的不斷進(jìn)步下,人們已經(jīng)從單純地追求物質(zhì)世界逐漸轉(zhuǎn)變?yōu)榫袷澜纾宋纳缈频牡匚辉诓粩嗌仙?,研究人文社科的?shù)據(jù)勢在必行。
信息可視化其實是對數(shù)據(jù)庫數(shù)據(jù)的一種壓縮并進(jìn)行展示,是對復(fù)雜現(xiàn)象的了解、復(fù)雜數(shù)據(jù)的詮釋的重要工具和途徑。它可以通過詳細(xì)而深入的理解,簡明而清晰地表示出海量的數(shù)據(jù)。
本項目圍繞的主題是人文社科中的“海上絲綢之路”“珠江-西江經(jīng)濟(jì)帶”“漓江廉政”“就業(yè)信息”,可視化數(shù)據(jù)的來源,一是從知網(wǎng)上爬取的與人文社科相關(guān)的文章名、作者、文章摘要、文章關(guān)鍵詞、發(fā)表日期;二是智聯(lián)招聘網(wǎng)中的招聘信息,包括每條招聘信息的城市、地點、招聘公司名稱、公司性質(zhì)、招聘職位、學(xué)歷要求、薪資以及招聘人數(shù)。
數(shù)據(jù)可視化的實現(xiàn)流程是從數(shù)據(jù)庫中的原始數(shù)據(jù)到圖表的生成的一系列過程。從數(shù)據(jù)庫取數(shù)據(jù),到數(shù)據(jù)預(yù)處理、判斷類型,再到Json編碼、前端解碼,最后寫入圖例數(shù)據(jù)、交互與顯示[2]。
3.3.1 餅圖(Pie Chart)
餅圖大多數(shù)應(yīng)用于統(tǒng)計學(xué)里,它的原理是將一個圓形切割成多個扇形,可以用來表示不同類型的數(shù)據(jù)占數(shù)據(jù)總量的百分比,同時,通過扇形的面積可以一眼看出它們之間的大小。
本次項目研究的是以人文社科為主題的與海上絲綢之路相關(guān)的文獻(xiàn),本次的餅狀圖展示了關(guān)鍵詞在文章中的頻率,以及在餅圖中的百分比,如下圖1所示。點擊右上角的下載圖標(biāo)可以保存圖。由此可以幫助人們清晰直觀地看出每個關(guān)鍵詞的比例。
圖1 餅圖
3.3.2 柱形圖(Bar Chart)
柱形圖別名長圖,它是由多個同一水平線上的長方形柱構(gòu)成[3],一般使用在數(shù)據(jù)的比較上。通常使用在坐標(biāo)系中,并且可以根據(jù)實際情景需要,將柱形圖表示在正負(fù)不同的坐標(biāo)系中,表示出不同的數(shù)據(jù)事件。本次垂直柱形圖數(shù)據(jù)是基于漓江廉政,展示了關(guān)鍵詞較高的詞語,同時展示了較高關(guān)鍵詞的總數(shù)。每個詞語之間的差距一眼便可以看出,同時當(dāng)鼠標(biāo)懸浮在上面時,可以提示出每個詞的詞頻,如圖2所示:點擊右上角可以折線圖、柱形圖切換,同時可以下載該圖。
圖2 垂直柱形圖
將數(shù)據(jù)庫中的數(shù)據(jù)輸出到后臺的過程中,首先對得到的數(shù)據(jù)編碼成K-V類數(shù)組,因為在圖例中的數(shù)據(jù)只存在于X軸或Y軸,Y軸對應(yīng)于K值,X軸對應(yīng)于V值,分布對應(yīng)使用3個數(shù)值存儲對應(yīng)的K、V、K-V值,循環(huán)輸出X-Y軸數(shù)值,并畫出表圖。然后再對圖例的控制值進(jìn)行自定義設(shè)置,完成后進(jìn)行展示。
3.3.3 詞云(WordCloud)
詞云是由美國大學(xué)的副教授里奇.戈登(Rich Gordon)推出的一種用于展示多種詞語及其所占比重的圖例。對多種詞語使用不同的顏色、位置、大小進(jìn)行排布,所占比重越大,其顯示在詞云中的大小也就越大。該圖例因其詞匯組成后類似云彩的樣子,又被稱為文字云。利用詞云,我們可以對文章進(jìn)行文字排布,得到文章的詞云,可以從中提煉出明顯的關(guān)鍵詞。
本次項目使用的是基于知網(wǎng)以海上絲綢之路為主題的文獻(xiàn),詞云展示的是文章當(dāng)中出現(xiàn)次數(shù)較多的詞語,如圖3所示。詞云通過文字的大小展示出數(shù)量的大小,讓人們一眼可以看出數(shù)量最多的詞語。通過不同的色彩讓詞云圖更加亮眼。
圖3 詞云圖
隨著信息科技的不斷發(fā)展,人們對界面的要求越來越高,不再滿足于簡單、單一的數(shù)據(jù)圖表。因此,數(shù)據(jù)可視化應(yīng)運而生。本論文根據(jù)人文社科數(shù)據(jù)的需要,研究Web可視化技術(shù),選擇了Echarts插件作為人文社科數(shù)據(jù)可視化的主要插件,研究了餅圖、柱形圖、詞云。