韓泉葉 張耀民
[摘 要]中華優(yōu)秀傳統(tǒng)文化數(shù)字化是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的路徑之一。本文介紹了中華優(yōu)秀傳統(tǒng)文化數(shù)字化的必要性,闡述了目前傳統(tǒng)文化數(shù)字化研究的現(xiàn)狀,在此基礎(chǔ)上構(gòu)建了傳統(tǒng)文化數(shù)字化框架,給出了構(gòu)成框架的三個(gè)主要部分功能,最后對(duì)實(shí)現(xiàn)數(shù)字化采集與海量存儲(chǔ)、公共服務(wù)與資源共享以及大數(shù)據(jù)分析與反饋功能的平臺(tái)部分進(jìn)行了詳細(xì)剖析。
[關(guān)鍵詞]傳統(tǒng)文化;數(shù)字化;框架體系
[中圖分類(lèi)號(hào)] TP311.132[文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)]1008-4649(2023)01-0088-06
Exploration on Digitalization and Framework System of Chinese Excellent Traditional Culture
Han Quanye,Zhang Yaomin
(The Open University of Shaanxi ,Xian 710119)
Abstract:Digitization of Chinese excellent traditional culture is one of the paths of creative transformation of traditional culture. This paper introduces the necessity of the digitalization of Chinese excellent traditional culture. The present situation of digital research on traditional culture is expounded. On these basis, the digital framework of traditional culture is constructed. The three main functions of the framework are give. Finally, the platform part of the framework is analyzed in detail. Which realizes digital collection & mass storage,public service & resource sharing, and big data analysis & feedback function etc.
Key words: Traditional Culture; Digitalization; Framework Systemn
中華文明數(shù)千年一系,蘊(yùn)藏博大豐厚的精神文化資源,浩瀚典籍里的文字佳篇,博物館里的精品,廣闊大地上的文化遺存,都是文明華彩樂(lè)章的歷史凝結(jié),已成為今天繁榮文化事業(yè)的“戰(zhàn)略性資源”。面對(duì)信息化、數(shù)字化發(fā)展大趨勢(shì),以社會(huì)主義核心價(jià)值觀為標(biāo)準(zhǔn),取其精華去其糟粕,將中華優(yōu)秀傳統(tǒng)文化數(shù)字化是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的路徑之一,運(yùn)用數(shù)字新技術(shù)、新應(yīng)用,大力發(fā)展數(shù)字文化新業(yè)態(tài),催生數(shù)字文化新產(chǎn)品。
一、優(yōu)秀傳統(tǒng)文化數(shù)字化的必要性
在互聯(lián)網(wǎng)信息技術(shù)風(fēng)靡全球的時(shí)代,利用數(shù)字技術(shù)賦能傳統(tǒng)文化轉(zhuǎn)化與傳承,將中華優(yōu)秀傳統(tǒng)文化數(shù)字化,通過(guò)傳統(tǒng)經(jīng)典再造,弘揚(yáng)主旋律,傳播正能量,打造具有中國(guó)特色、中國(guó)風(fēng)格的數(shù)字化產(chǎn)品,在內(nèi)容上符合精神文明需要,是新時(shí)代傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與傳承的偉大實(shí)踐,也是新時(shí)代優(yōu)秀傳統(tǒng)文化傳承與發(fā)展的必然。韓泉葉,等.中華優(yōu)秀傳統(tǒng)文化數(shù)字化與框架體系探索[J].陜西開(kāi)放大學(xué)學(xué)報(bào),2023,(1).
1.優(yōu)秀傳統(tǒng)文化數(shù)字化是時(shí)代發(fā)展的必然
近年來(lái),以數(shù)字技術(shù)為支撐、數(shù)據(jù)資源為關(guān)鍵要素的數(shù)字經(jīng)濟(jì)蓬勃興起,習(xí)近平總書(shū)記強(qiáng)調(diào),要“充分發(fā)揮海量數(shù)據(jù)和豐富應(yīng)用場(chǎng)景優(yōu)勢(shì),促進(jìn)數(shù)字技術(shù)和實(shí)體經(jīng)濟(jì)深度融合,賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),催生新產(chǎn)業(yè)新業(yè)態(tài)新模式,不斷做強(qiáng)做優(yōu)做大我國(guó)數(shù)字經(jīng)濟(jì)”[1]。
中華優(yōu)秀傳統(tǒng)文化數(shù)字化是新時(shí)代的一種新思維,日新月異的數(shù)字技術(shù),為弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化開(kāi)辟了新的空間和路徑。實(shí)現(xiàn)以數(shù)字技術(shù)為載體的中華優(yōu)秀傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展是大勢(shì)所趨。傳統(tǒng)文化的數(shù)字化能讓傳統(tǒng)文化傳播的更快更廣、產(chǎn)生更大影響,充分展示中華歷史之美、文化之美。
2.優(yōu)秀傳統(tǒng)文化數(shù)字化是文化沉淀與保護(hù)的需要
中華優(yōu)秀傳統(tǒng)文化運(yùn)用傳統(tǒng)方法進(jìn)行修復(fù)和保護(hù)有其一定的局限性,相較于傳統(tǒng)的紙質(zhì)保存方法,數(shù)字化和網(wǎng)絡(luò)存儲(chǔ)打破了時(shí)空限制,更容易進(jìn)行資料的歸納整理與實(shí)時(shí)更新,有助于永久保存文化資源,增加了收藏價(jià)值。運(yùn)用數(shù)字技術(shù),通過(guò)數(shù)碼顯微技術(shù)、三維虛擬技術(shù)等手段,能夠解決手工修復(fù)無(wú)法完成的難題。對(duì)于文獻(xiàn)典籍、非遺文化、古村落這類(lèi)不可再生的文化資源、文化遺產(chǎn),通過(guò)拍攝圖片、錄音、錄像、文字識(shí)別等方式組建數(shù)字化檔案,進(jìn)行數(shù)字化保護(hù),讓書(shū)寫(xiě)在古籍里的文字“活”起來(lái),讓古村落文化遺產(chǎn)得以沉淀和傳播,增加其可讀性和趣味性;數(shù)字化可以很好地保護(hù)現(xiàn)有的文化遺產(chǎn),后人可以隨時(shí)隨地地進(jìn)行查閱,而不必去實(shí)地考察文化遺物,也就避免了對(duì)文化遺物造成部分破壞和損害。
3.優(yōu)秀傳統(tǒng)文化數(shù)字化是大眾多元化文化需求的必然
隨著互聯(lián)網(wǎng)+應(yīng)用的迅速普及,人們學(xué)習(xí)生活方式的改變,網(wǎng)上文化需求的比例迅速增加,只留在文字典籍、博物館、旅游勝地里的傳統(tǒng)文化已不能滿(mǎn)足大眾需要,不同層次,不同群體對(duì)文化的需求多元化趨勢(shì)加快,人們期待著品種多樣、內(nèi)容豐富的精神文化產(chǎn)品的出現(xiàn),習(xí)慣于通過(guò)網(wǎng)絡(luò)追求更豐富、更方便、互動(dòng)性更好的文化生活,優(yōu)秀傳統(tǒng)文化也就自然地向數(shù)字世界進(jìn)軍,這與當(dāng)代人的閱讀習(xí)慣相適應(yīng),與大眾化的文化需求相適應(yīng)。
二、傳統(tǒng)文化數(shù)字化研究現(xiàn)狀
關(guān)于傳統(tǒng)文化數(shù)字化方面的研究,到目前為止,已取得了一些成績(jī),主要是利用現(xiàn)有的信息技術(shù),將有關(guān)傳統(tǒng)文化的內(nèi)容進(jìn)行數(shù)據(jù)資源的數(shù)字化處理、借助圖片、音頻、視頻等信息轉(zhuǎn)換、存貯、檢索和交互展示等方式,有效地將各類(lèi)傳統(tǒng)文化轉(zhuǎn)變?yōu)閿?shù)字化產(chǎn)品,這在某一時(shí)間段為傳統(tǒng)文化保護(hù)、傳承提供了一種思路,其對(duì)應(yīng)的數(shù)字化后的數(shù)據(jù)信息存儲(chǔ),是對(duì)結(jié)構(gòu)化數(shù)據(jù)的簡(jiǎn)單存儲(chǔ),更多半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如視頻等類(lèi)型數(shù)據(jù),利用不夠充分,更不涉及如何利用保存數(shù)據(jù)來(lái)產(chǎn)生信息、知識(shí),或者有價(jià)值軟件商品等方面的問(wèn)題。
隨著大數(shù)據(jù)時(shí)代的到來(lái),各種新媒體應(yīng)用的爆發(fā)式增長(zhǎng),原有的數(shù)字化方法不能應(yīng)對(duì)傳統(tǒng)文化數(shù)字化過(guò)程中產(chǎn)生的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),缺乏對(duì)海量數(shù)據(jù)的支持,特別是面向海量數(shù)據(jù)后如何挖掘傳統(tǒng)文化數(shù)據(jù)的模式、分析內(nèi)在的關(guān)系結(jié)構(gòu),從而指導(dǎo)未來(lái)復(fù)雜社會(huì)條件下開(kāi)展傳統(tǒng)文化數(shù)字化保護(hù)、傳承等方面的思考。這已不是圖片、音頻、視頻的簡(jiǎn)單存儲(chǔ)能解決的,而是需要一個(gè)包含數(shù)字化資源采集、數(shù)字資源存儲(chǔ)、數(shù)字資源管理、數(shù)字化生產(chǎn)、數(shù)字化展示、數(shù)字化傳播和數(shù)字消費(fèi)等在內(nèi)的數(shù)字化保護(hù)和開(kāi)發(fā)全生命周期的數(shù)字化共享和服務(wù)平臺(tái)[2]。
目前傳統(tǒng)文化與影視、動(dòng)畫(huà)、數(shù)字博物館的交叉研究相繼出現(xiàn)快速增長(zhǎng)。學(xué)術(shù)研究發(fā)展趨勢(shì)基本符合數(shù)字新媒體技術(shù)發(fā)展趨勢(shì),即從數(shù)字化、視聽(tīng)化發(fā)展到網(wǎng)絡(luò)化、移動(dòng)化、交互化。總體來(lái)說(shuō),目前國(guó)內(nèi)的研究,對(duì)新媒體創(chuàng)新的內(nèi)容研究多,對(duì)數(shù)字化技術(shù)的研究偏少,特別是具有保障功能的數(shù)字化體系研究不多信息安全技術(shù)類(lèi)的保障沒(méi)有;單一學(xué)科視角多,跨學(xué)科綜合研究少;創(chuàng)新傳播的系統(tǒng)性研究、特別是網(wǎng)絡(luò)傳播保障機(jī)制方面的研究偏少。
鑒于以上情況,下面對(duì)傳統(tǒng)文化數(shù)字化框架體系進(jìn)行詳細(xì)的研究與闡述。
三、構(gòu)建傳統(tǒng)文化數(shù)字化框架體系
優(yōu)秀傳統(tǒng)文化數(shù)字化是將優(yōu)秀傳統(tǒng)文化轉(zhuǎn)變?yōu)榭啥攘康臄?shù)據(jù),并加以處理的過(guò)程,包括數(shù)據(jù)采集、傳輸、存儲(chǔ)、計(jì)算和應(yīng)用。目的是把傳統(tǒng)文化形成數(shù)字模型,通過(guò)共享、呈現(xiàn)、優(yōu)化等方式展現(xiàn)在大眾面前,最終實(shí)現(xiàn)文化的轉(zhuǎn)化與傳承。
傳統(tǒng)文化的數(shù)字化是一個(gè)系統(tǒng)工程,是需要運(yùn)用海量存儲(chǔ)、光速傳輸、智能分析、精準(zhǔn)推送、云端共享等數(shù)字技術(shù),將優(yōu)秀傳統(tǒng)文化轉(zhuǎn)化為可儲(chǔ)存、管理、共享的數(shù)字形態(tài),包括在網(wǎng)絡(luò)環(huán)境下搭建智能化數(shù)字共享平臺(tái)、開(kāi)發(fā)數(shù)字軟件,同時(shí)將社會(huì)主義核心價(jià)值觀貫穿整個(gè)數(shù)字化轉(zhuǎn)化體系的每個(gè)環(huán)節(jié),達(dá)到進(jìn)一步實(shí)現(xiàn)傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化與傳承。
傳統(tǒng)文化數(shù)字化框架體系如圖1所示。主要由平臺(tái)部分、應(yīng)用/終端部分和兩翼保障部分組成。
圖1中,平臺(tái)部分用來(lái)完成傳統(tǒng)文化數(shù)字化轉(zhuǎn)化的核心功能,主要包括數(shù)字化采集與海量存儲(chǔ)、異構(gòu)系統(tǒng)整合與資源共享服務(wù)及數(shù)據(jù)分析與反饋三部分。
應(yīng)用/終端部分包括熱門(mén)應(yīng)用和手機(jī)電腦等終端設(shè)備。其功能是接收平臺(tái)部分推薦的資源、跟蹤用戶(hù)行為數(shù)據(jù)并提交給平臺(tái)部分的數(shù)據(jù)庫(kù)存儲(chǔ)、相應(yīng)用戶(hù)請(qǐng)求抽取平臺(tái)部分的資源。也就是說(shuō),一方面平臺(tái)部分將大數(shù)據(jù)分析得到推薦資源或熱度資源,推薦給熱門(mén)應(yīng)用,如抖音、B站、微信、MOOC等;另一方面,用戶(hù)通過(guò)手機(jī)、電腦等終端設(shè)備請(qǐng)求訪(fǎng)問(wèn)平臺(tái)部分或熱門(mén)應(yīng)用,并將訪(fǎng)問(wèn)瀏覽的行為數(shù)據(jù)信息存入平臺(tái)部分的數(shù)據(jù)庫(kù)。
兩翼保障[3-4]部分主要是為優(yōu)秀傳統(tǒng)文化數(shù)字化及其網(wǎng)絡(luò)傳播提供清朗的網(wǎng)絡(luò)空間、可行的制度保障和完備的社會(huì)保障。包括以社會(huì)主義核心價(jià)值觀為標(biāo)準(zhǔn)的左翼和右翼,即“網(wǎng)絡(luò)空間安全”和健全的“政府主導(dǎo)監(jiān)管、社會(huì)參與、市場(chǎng)運(yùn)作”機(jī)制。
四、平臺(tái)部分剖析
平臺(tái)部分用來(lái)完成傳統(tǒng)文化的數(shù)字化處理,包括:數(shù)字化采集與海量存儲(chǔ)、異構(gòu)系統(tǒng)整合與資源共享服務(wù)、數(shù)據(jù)分析與反饋三個(gè)部分。
(一)數(shù)字化采集與海量存儲(chǔ)
在傳統(tǒng)文化數(shù)字化系統(tǒng)體系中,傳統(tǒng)文化原始素材從來(lái)源上大致分為來(lái)自圖書(shū)館、來(lái)自博物館、來(lái)自美術(shù)館、來(lái)自各種旅游景點(diǎn)的實(shí)體實(shí)物和非物資文化遺產(chǎn)等文化遺存,因此根據(jù)傳統(tǒng)文化來(lái)源對(duì)傳統(tǒng)文化以文本、圖片、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)(信息)形式進(jìn)行分類(lèi)采集與梳理,數(shù)字化為相應(yīng)的數(shù)字圖書(shū)館、數(shù)字博物館、數(shù)字美術(shù)館、數(shù)字旅游景點(diǎn)和數(shù)字非物質(zhì)文化遺產(chǎn)遺存等數(shù)字資源。
數(shù)字化采集到的數(shù)據(jù)有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)(如二維表數(shù)據(jù))由于其數(shù)據(jù)量不大,采用塊存儲(chǔ)方式,如:SQL Server。非結(jié)構(gòu)化數(shù)據(jù)(如圖像、音頻、視頻、文本等)由于其占比越來(lái)越大,為滿(mǎn)足大容量、高吞吐的存儲(chǔ)要求,系統(tǒng)對(duì)非結(jié)構(gòu)化海量數(shù)據(jù)存儲(chǔ)有文件存儲(chǔ)和對(duì)象存儲(chǔ)兩種方式,相應(yīng)地,它們分別采用樹(shù)狀嵌套分層結(jié)構(gòu)和扁平結(jié)構(gòu),分布式多節(jié)點(diǎn)并發(fā)處理,以物理上分散、邏輯上集中的形式存儲(chǔ)。其非結(jié)構(gòu)化海量數(shù)據(jù)存儲(chǔ)框架如圖2所示。
圖2中,文件存取統(tǒng)一接口,封裝了系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)的讀寫(xiě)操作接口,其中Hadoop HDFS負(fù)責(zé)對(duì)大文件的存儲(chǔ),HBase負(fù)責(zé)對(duì)小文件的存儲(chǔ)。
對(duì)象存取統(tǒng)一接口,封裝了對(duì)象文件的元數(shù)據(jù)和接口命令,該元數(shù)據(jù)是獨(dú)立出來(lái)的,并不封裝在對(duì)象文件內(nèi)部,這樣可以大大提高對(duì)象的排序、分類(lèi)和查找速度。
針對(duì)文件存儲(chǔ)和對(duì)象存儲(chǔ)兩種非結(jié)構(gòu)化數(shù)據(jù)海量存儲(chǔ)方案,實(shí)際應(yīng)用中要根據(jù)具體情況而定,其適用場(chǎng)景及特點(diǎn)如表1所示。
所謂元數(shù)據(jù)(Metadata)指對(duì)象數(shù)據(jù)的標(biāo)簽,記錄著對(duì)象的各種描述信息。
(二) 異構(gòu)系統(tǒng)整合與資源共享服務(wù)
異構(gòu)系統(tǒng)整合與資源共享服務(wù)采用應(yīng)用虛擬和資源虛擬技術(shù),為數(shù)字圖書(shū)館、數(shù)字博物館、數(shù)字美術(shù)館、數(shù)字旅游景點(diǎn)、數(shù)字非物質(zhì)文化遺產(chǎn)等分散數(shù)字資源共享、服務(wù)整合和異構(gòu)系統(tǒng)之間互融互通,提供基于標(biāo)準(zhǔn)、面向服務(wù)、事件驅(qū)動(dòng)的數(shù)字化資源服務(wù)、共享,主要包括以下關(guān)鍵技術(shù):構(gòu)建統(tǒng)一的資源數(shù)據(jù)標(biāo)準(zhǔn),異構(gòu)系統(tǒng)的互融互通,資源共享模式與調(diào)度,數(shù)據(jù)質(zhì)量檢測(cè)和數(shù)據(jù)運(yùn)行監(jiān)控,推送各類(lèi)優(yōu)勢(shì)資源,統(tǒng)一應(yīng)用認(rèn)證。
其一是構(gòu)建統(tǒng)一的資源數(shù)據(jù)標(biāo)準(zhǔn),包括資源標(biāo)識(shí)符標(biāo)準(zhǔn)、資源元數(shù)據(jù)標(biāo)準(zhǔn)、資源互操作標(biāo)準(zhǔn)和資源目錄標(biāo)準(zhǔn)等?,F(xiàn)有的海量數(shù)字化資源,分散在不同地方,不同系統(tǒng)中,要實(shí)現(xiàn)資源共享,必須構(gòu)建統(tǒng)一的資源數(shù)據(jù)標(biāo)準(zhǔn),獨(dú)立于不同的應(yīng)用,才能進(jìn)行資源數(shù)據(jù)融合,完成資源數(shù)據(jù)的交換和集成,達(dá)到資源共享。
其中,資源數(shù)據(jù)標(biāo)準(zhǔn)中的數(shù)據(jù)源,要兼容支持各種類(lèi)型的數(shù)據(jù)庫(kù),既支持結(jié)構(gòu)化數(shù)據(jù)又支持非結(jié)構(gòu)化數(shù)據(jù),包括SQL Server、Oracle、MySQL、DB2,Cube數(shù)據(jù)集市、XML、SOAP服務(wù)、REST服務(wù)、RSS服務(wù)等。
其二是異構(gòu)系統(tǒng)的互融互通。通過(guò)異構(gòu)數(shù)據(jù)橋接方式,使用統(tǒng)一資源數(shù)據(jù)標(biāo)準(zhǔn),統(tǒng)一異構(gòu)系統(tǒng)之間的資源數(shù)據(jù),從而實(shí)現(xiàn)異構(gòu)系統(tǒng)的互融互通。異構(gòu)數(shù)據(jù)的橋接可提供上百種數(shù)據(jù)轉(zhuǎn)換的組件,用戶(hù)根據(jù)自己的數(shù)據(jù)轉(zhuǎn)換規(guī)則選擇相應(yīng)組件,完成復(fù)雜的數(shù)據(jù)轉(zhuǎn)換需求,用到的數(shù)據(jù)庫(kù)數(shù)據(jù)轉(zhuǎn)換組件有:字段拆分組件、字段組合組件、數(shù)據(jù)過(guò)濾組件、多字段計(jì)算組件、空處理組件、字段映射組件、數(shù)據(jù)類(lèi)型轉(zhuǎn)換組件、腳本轉(zhuǎn)換組件等,可實(shí)現(xiàn)異構(gòu)數(shù)據(jù)與數(shù)據(jù)交換網(wǎng)關(guān)的橋接,不需任何編碼即可實(shí)現(xiàn)資源的服務(wù)化共享(通過(guò)配置自動(dòng)生成REST/SOAP服務(wù))。
其三是資源共享模式與調(diào)度。從共享管理角度看,資源共享采用層次化方式,即,國(guó)家、省、市、縣或頂級(jí)節(jié)點(diǎn)、二級(jí)節(jié)點(diǎn)、三級(jí)節(jié)點(diǎn)……。其共享模式如圖3所示
圖3中,位于n層的每個(gè)節(jié)點(diǎn)內(nèi)保持了本節(jié)點(diǎn)的資源統(tǒng)一目錄、資源的元數(shù)據(jù)庫(kù)和部分熱門(mén)成品資源,該層節(jié)點(diǎn)將各自元數(shù)據(jù)提交到其上層所屬節(jié)點(diǎn),上層節(jié)點(diǎn)對(duì)其管轄的所有節(jié)點(diǎn)提交的元數(shù)據(jù)進(jìn)行審核,并保存通過(guò)審核的元數(shù)據(jù),同時(shí)將審核結(jié)果告知被管轄節(jié)點(diǎn);頂級(jí)節(jié)點(diǎn)保存其下屬所有節(jié)點(diǎn)的總目錄、總元數(shù)據(jù)和部分熱門(mén)資源;
資源共享時(shí),使用頂級(jí)節(jié)點(diǎn)的總目錄,根據(jù)資源元數(shù)據(jù)定位到該資源所在節(jié)點(diǎn),然后按照算法調(diào)整該資源的熱度值,同時(shí)按照相應(yīng)的調(diào)度策略,將該成品資源同步至頂級(jí)節(jié)點(diǎn);用戶(hù)通過(guò)頂級(jí)節(jié)點(diǎn)的統(tǒng)一目錄對(duì)資源進(jìn)行檢索和下載;用戶(hù)之間采用當(dāng)前廣泛應(yīng)用的IP電話(huà)、IP視頻、IP會(huì)議的國(guó)際標(biāo)準(zhǔn)的JXTA P2P端到端數(shù)據(jù)通信架構(gòu)來(lái)傳輸資源,端到端之間可以自動(dòng)根據(jù)帶寬創(chuàng)建多條并行數(shù)據(jù)傳輸通路,任何一條通路出現(xiàn)故障,均不影響端到端的數(shù)據(jù)傳輸,保證了端到端傳輸?shù)膶?shí)時(shí)性和高可靠性。
其四是數(shù)據(jù)質(zhì)量檢測(cè)和數(shù)據(jù)運(yùn)行監(jiān)控。使用DQC(Data Quality Control)和SLA(Service Level Agreement)工具進(jìn)行數(shù)據(jù)檢測(cè)與監(jiān)控,及時(shí)發(fā)現(xiàn)使用中不斷暴露的數(shù)據(jù)問(wèn)題,補(bǔ)全數(shù)據(jù)缺失、不準(zhǔn)、不穩(wěn)定等,完成數(shù)據(jù)清洗,去掉冗余數(shù)據(jù),構(gòu)建閉環(huán)的數(shù)據(jù)生態(tài),推動(dòng)資源數(shù)據(jù)質(zhì)量提升;
其五是主動(dòng)推送各類(lèi)優(yōu)勢(shì)資源。根據(jù)大數(shù)據(jù)分析與反饋的結(jié)果,將滿(mǎn)足各層次文化受眾體的傳統(tǒng)文化資源推送出去,將人們喜聞樂(lè)見(jiàn)易于理解的資源推送出去,人們通過(guò)手機(jī)、電腦、移動(dòng)終端發(fā)出服務(wù)需求后,共享平臺(tái)會(huì)通過(guò)瀏覽器向用戶(hù)提供資源和程序等。
其六是統(tǒng)一應(yīng)用認(rèn)證。各類(lèi)傳統(tǒng)文化應(yīng)用數(shù)量繁多,為了為各類(lèi)特色應(yīng)用提供統(tǒng)一的檢索、導(dǎo)航、不同終端訪(fǎng)問(wèn)接口等,需要統(tǒng)一應(yīng)用認(rèn)證。當(dāng)用戶(hù)訪(fǎng)問(wèn)平臺(tái)時(shí),輸入用戶(hù)名和密碼進(jìn)行登錄,賬號(hào)信息被保存,該用戶(hù)通過(guò)平臺(tái)訪(fǎng)問(wèn)其他應(yīng)用時(shí),被保存的賬號(hào)信息被傳遞給該應(yīng)用,從而實(shí)現(xiàn)統(tǒng)一應(yīng)用認(rèn)證。統(tǒng)一認(rèn)證流程如圖4所示
(三) 大數(shù)據(jù)分析與反饋
大數(shù)據(jù)分析的主要目的是精準(zhǔn)推送資源和輔助決策。
平臺(tái)采用HDInsight分布式計(jì)算,處理大量非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)并快速?gòu)闹蝎@得價(jià)值,整合業(yè)務(wù)分析工具Pig、Hive、Pivot、Map、Impala等,以實(shí)現(xiàn)精準(zhǔn)分析、精準(zhǔn)推送、精準(zhǔn)把握群眾文化需求,合理引導(dǎo)文化消費(fèi)。
1.通過(guò)大數(shù)據(jù)分析與反饋實(shí)現(xiàn)精準(zhǔn)服務(wù)
其一是個(gè)性化服務(wù)。通過(guò)數(shù)據(jù)分析處理用戶(hù)的行為數(shù)據(jù),挖掘用戶(hù)興趣,提供價(jià)值數(shù)據(jù),為用戶(hù)個(gè)性化推薦,包括數(shù)字化文化資源推薦、文化應(yīng)用軟件推薦、興趣群組推薦等個(gè)性化服務(wù),提供更精準(zhǔn)地投放文化內(nèi)容,更高效的提供文化服務(wù)。
其二是為遠(yuǎn)程學(xué)習(xí)者提供學(xué)習(xí)指導(dǎo)。通過(guò)數(shù)據(jù)分析處理學(xué)習(xí)者最感興趣的傳統(tǒng)文化是哪些,最想學(xué)習(xí)的傳統(tǒng)文化是哪些,或最合理的授課、時(shí)間安排、地點(diǎn)安排,以提高中華優(yōu)秀傳統(tǒng)文化傳播的受眾精準(zhǔn)性。
其三是方向性指導(dǎo)。通過(guò)數(shù)據(jù)分析文化熱點(diǎn),實(shí)現(xiàn)大眾主流文化需求的精準(zhǔn)推送,精準(zhǔn)對(duì)接大眾傳統(tǒng)文化需求,從而滿(mǎn)足大眾文化需求,貼近大眾審美趣味,有效增進(jìn)大眾參與度,吸引青年人主動(dòng)了解和傳播優(yōu)秀傳統(tǒng)文化。
其四是趨勢(shì)指導(dǎo)。分析大眾喜聞樂(lè)見(jiàn)的文化傳播形式,為文化轉(zhuǎn)化、傳播的展現(xiàn)形式研究及其他應(yīng)用軟件的開(kāi)發(fā)提供指導(dǎo)。開(kāi)發(fā)者根據(jù)反饋,在云系統(tǒng)的API基礎(chǔ)上不斷改進(jìn)、開(kāi)發(fā)出新的應(yīng)用產(chǎn)品。有利于管理者制定有針對(duì)性的、適合大眾需要的平臺(tái)服務(wù)來(lái)實(shí)現(xiàn)傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和傳播。豐富傳統(tǒng)文化的時(shí)代內(nèi)涵,為民族文化的創(chuàng)新和傳播提供更多的可能。
2.大數(shù)據(jù)分析工具的選取
不同的數(shù)據(jù)分析工具有著不同的適用場(chǎng)所,具體選擇根據(jù)實(shí)際需求來(lái)定。
表3中,在數(shù)據(jù)獲取階段,通過(guò)SQL從數(shù)據(jù)庫(kù)中提取數(shù)據(jù),也可通過(guò)python爬取數(shù)據(jù);數(shù)據(jù)處理階段,如果數(shù)據(jù)量不大,Excel方便快捷,在大數(shù)據(jù)量的情況下,使用SQL和Python更為常見(jiàn),在大量不可變數(shù)據(jù)的批處理作業(yè)中,Hive則最為合適;分析建模方面,Excel、BI工具用于簡(jiǎn)單分析,R、SPSS用于專(zhuān)業(yè)的統(tǒng)計(jì)分析,Python也是不錯(cuò)的選擇;做可視化時(shí),可以使用常見(jiàn)的BI工具Tableau、PowerBI、FineBI等,報(bào)表工程師更適合選擇專(zhuān)業(yè)的報(bào)表工具例如Finereport,開(kāi)發(fā)人員喜歡選擇開(kāi)源的可視化工具,如Echarts、Tagxedo。
Hadoop是對(duì)大量數(shù)據(jù)進(jìn)行分布式處理的軟件架構(gòu),能夠處理PB級(jí)數(shù)據(jù),且使用成本低,是進(jìn)行大數(shù)據(jù)分析的合理選擇。其上衍生的Hive、Pig和Impala三種分析工具,Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,其語(yǔ)法類(lèi)似SQL,適合于長(zhǎng)周期的、復(fù)雜的批處理查詢(xún)分析任務(wù),其最大缺點(diǎn)是慢,而Impala是基于Hive的大數(shù)據(jù)實(shí)時(shí)分析查詢(xún)引擎,適合于實(shí)時(shí)交互式SQL查詢(xún),數(shù)據(jù)庫(kù)管理人員使用。Impala是處理海量數(shù)據(jù)的高性能SQL引擎,它的查詢(xún)可以達(dá)到秒級(jí),甚至有些數(shù)據(jù)少的可以達(dá)到毫秒級(jí),延遲很低,比Hive、Pig或Map Reduce快10到50倍。Pig是一個(gè)基于Hadoop的大數(shù)據(jù)分析工具,其語(yǔ)法是類(lèi)似shell的數(shù)據(jù)流語(yǔ)言,運(yùn)維人員使用。
3.數(shù)據(jù)分析核心算法
為了幫助管理者輔助決策,實(shí)現(xiàn)資源的精準(zhǔn)推送,需要從用戶(hù)大量行為信息中挖掘用戶(hù)感興趣的內(nèi)容信息[3]、從大眾視角挖掘當(dāng)前社會(huì)熱點(diǎn)信息,圖5描述了第一種情況,圖6描述了第二種情況。
圖5是一個(gè)封閉的實(shí)時(shí)反饋圖,根據(jù)用戶(hù)m的歷史訪(fǎng)問(wèn)行為數(shù)據(jù),過(guò)濾出該用戶(hù)的訪(fǎng)問(wèn)行為偏好,采用內(nèi)容相關(guān)性算法和用戶(hù)相關(guān)算法,為該用戶(hù)推薦內(nèi)容或應(yīng)用,跟蹤用戶(hù)下一步實(shí)時(shí)訪(fǎng)問(wèn)行為,包括點(diǎn)擊、瀏覽時(shí)間、下載等,并將此實(shí)時(shí)訪(fǎng)問(wèn)行為數(shù)據(jù)記錄入該用戶(hù)的歷史訪(fǎng)問(wèn)行為數(shù)據(jù)中,同時(shí)刷新用戶(hù)的行為偏好,進(jìn)入下一輪實(shí)時(shí)反饋。
基于內(nèi)容相關(guān)性算法:
通過(guò)分析信息內(nèi)容的相關(guān)性,即,根據(jù)用戶(hù)瀏覽的信息內(nèi)容,向該用戶(hù)推薦與內(nèi)容關(guān)聯(lián)度最大的信息。
內(nèi)容關(guān)聯(lián)度計(jì)算公式如式(1)所示,最大關(guān)聯(lián)度公式如式(2)所示:
公式(1)(2) 中,RC值越大表明雙方內(nèi)容關(guān)聯(lián)度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示從不同角度判斷與信息X具有相關(guān)性的第n個(gè)信息,RCn表示X信息與信息Yn的相關(guān)度,在相關(guān)度集合{R1C,R2C,…RnC…}中,求出相關(guān)度的最大值RCmax,其對(duì)應(yīng)的Yi就是要推薦的信息。
基于用戶(hù)相關(guān)性推薦算法:
通過(guò)分析兩個(gè)用戶(hù)相似的偏好,計(jì)算他們之間的相似關(guān)聯(lián)度,關(guān)聯(lián)度越大者,他們的相似偏好越大,可以根據(jù)用戶(hù)甲的瀏覽行為,將其他相似度大的用戶(hù)瀏覽內(nèi)容推薦給用戶(hù)甲。
根據(jù)用戶(hù)年齡、性別、職業(yè)及其歷史瀏覽的內(nèi)容1、內(nèi)容2、……內(nèi)容i,構(gòu)建用戶(hù)偏好矩陣,并根據(jù)用戶(hù)再次的瀏覽下載等行為,動(dòng)態(tài)刷新更新此偏好矩陣,用Matrix(X)表示用戶(hù)X的偏好矩陣。用戶(hù)關(guān)聯(lián)度計(jì)算公式如式(3)所示:
公式(3)中,RU值越大表明用戶(hù)X與用戶(hù)Y的關(guān)聯(lián)度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示第n個(gè)用戶(hù),RnU表示用戶(hù)X與用戶(hù)Yn的關(guān)聯(lián)度,在用戶(hù)關(guān)聯(lián)度集合{R1U,R2U,……RnU…}中,如式(4)所示,求出關(guān)聯(lián)度的最大值RUmax,其對(duì)應(yīng)的用戶(hù)Yi的瀏覽信息偏好就是要推薦的。
基于內(nèi)容相關(guān)性算法和基于用戶(hù)相關(guān)性推薦算法皆是從用戶(hù)角度出發(fā),依據(jù)用戶(hù)個(gè)人喜好進(jìn)行內(nèi)容推薦,讓用戶(hù)得到自己感興趣的內(nèi)容,從用戶(hù)角度考慮很好的解決了用戶(hù)需求,但其也存在一些問(wèn)題,如:該用戶(hù)的喜好是否為大眾主流喜好,是否弘揚(yáng)社會(huì)主義核心價(jià)值觀等,為保障向用戶(hù)推薦的資源屬大眾主流喜好,或是弘揚(yáng)社會(huì)主義核心價(jià)值觀的資源,將大眾喜歡的內(nèi)容推薦給用戶(hù),從而使用基于熱度的資源推薦方法,如圖6所示。
圖6中,首先依據(jù)資源大類(lèi)將數(shù)字化內(nèi)容分為數(shù)字化圖書(shū)館類(lèi)、數(shù)字化博物館類(lèi)、數(shù)字化美術(shù)館類(lèi)、數(shù)字化旅游景點(diǎn)類(lèi)和數(shù)字化非物質(zhì)文化遺產(chǎn)遺存類(lèi),每類(lèi)資源下有其具體資源1、資源2、……、資源n,對(duì)于任選資源,該資源主要展現(xiàn)形式又分為文本類(lèi)、音頻類(lèi)、視頻類(lèi)、VR類(lèi)等,計(jì)算資源下具體展現(xiàn)資源的點(diǎn)擊量、駐留時(shí)間與內(nèi)容量之比、下載量等合成該展現(xiàn)資源的熱度,形成熱度值排序表。當(dāng)用戶(hù)登錄平臺(tái)瀏覽時(shí),根據(jù)用戶(hù)當(dāng)前瀏覽的展現(xiàn)資源向其推薦熱度值高的資源,熱度值計(jì)算如式(5)所示。
hot=αA+βB+γC(5)
A表示某資源的點(diǎn)擊量,B表示用戶(hù)在該資源上的駐留時(shí)間與容量之比,C表示該資源的下載次數(shù)。α,β,γ分別表示A,B,C的動(dòng)態(tài)可調(diào)整影響因數(shù)。
五、結(jié)束語(yǔ)
為了使中華優(yōu)秀傳統(tǒng)文化得到更廣泛的傳播,將傳統(tǒng)文化數(shù)字化是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化路徑之一,也是時(shí)代發(fā)展的必然趨勢(shì)。傳統(tǒng)文化數(shù)字化框架體系的構(gòu)建是文化與科技的融合,是傳統(tǒng)文化數(shù)字出版和服務(wù)方式的創(chuàng)新,能夠推動(dòng)移動(dòng)互聯(lián)時(shí)代個(gè)性化學(xué)習(xí),完善文化傳播體系,為加強(qiáng)精品數(shù)字文化的生產(chǎn)和傳播,提升我國(guó)文化軟實(shí)力,促進(jìn)文化產(chǎn)業(yè)的可持續(xù)發(fā)展提供技術(shù)支撐。
[參考文獻(xiàn)]
[1]“十四五”數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的行動(dòng)綱領(lǐng), http://theory.people.com.cn/n1/2022/0119/c40531-32334626.html
[2] 向江,等.楊毅全國(guó)公共數(shù)字文化共享云服務(wù)平臺(tái)研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(13):258-265.
[3] 韓泉葉,等.基于大數(shù)據(jù)的高職院校信息化建設(shè)框架體系研究[J].電子測(cè)試,2020(8).
[4] 韓泉葉,等.基于數(shù)據(jù)生命周期的智慧校園設(shè)計(jì)及原型實(shí)現(xiàn)[J].中國(guó)教育信息化,2021(6).
[5] 高丹,等.基于尾隨迭代分析的精準(zhǔn)內(nèi)容推薦方法[J].辦公自動(dòng)化雜志,2021(11):62-64.
[責(zé)任編輯 李 帆]
[收稿日期]2022-10-11
[作者簡(jiǎn)介]韓泉葉(1974— ),女,江蘇省睢寧市人,陜西開(kāi)放大學(xué)教育研究中心主任,教授,工學(xué)博士。張耀民(1976— ),陜西省藍(lán)田縣人,陜西開(kāi)放大學(xué)信息與智能技術(shù)學(xué)院院長(zhǎng),工程碩士。
*[基金項(xiàng)目] 陜西省高等教育理論與實(shí)踐研究項(xiàng)目“中國(guó)優(yōu)秀傳統(tǒng)文化數(shù)字化與傳播保障研究”(項(xiàng)目編號(hào)2022HZ0959)。陜西省“大思政課”建設(shè)試點(diǎn)項(xiàng)目“一室三會(huì)、兩支撐、四平臺(tái)”思想政治實(shí)踐育人體系的構(gòu)建與實(shí)施。