化柏林
(北京大學(xué)信息管理系 北京 100871)
大數(shù)據(jù)在電子商條、社交網(wǎng)絡(luò)、智慧交通等領(lǐng)域取得了成功應(yīng)用,而圖書館、文化館等公共文化服條機構(gòu)存在著大量的多源異構(gòu)數(shù)據(jù),具有典型的大數(shù)據(jù)特征。公共文化領(lǐng)域如何借助大數(shù)據(jù)理念方法與技術(shù)解決行業(yè)里的問題,從資源、用戶、技術(shù)與管理等多個角度提升公共文化服條水平與質(zhì)量,促進(jìn)領(lǐng)域快速健康發(fā)展,已經(jīng)成為大數(shù)據(jù)時代需要結(jié)合行業(yè)實踐深入研究的關(guān)鍵問題。
以圖書館、文化館為代表的公共文化機構(gòu)在網(wǎng)站上有著非常豐富的數(shù)據(jù)展示與信息內(nèi)容,抓取網(wǎng)絡(luò)信息并對其中的信息進(jìn)行解析與抽取,轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù),并進(jìn)行聚類分析與主題挖掘,能夠很好地揭示公共文化服條機構(gòu)的整體現(xiàn)狀。為此,本期組織了“公共文化服條大數(shù)據(jù)分析實踐”專題論文,該專題聚焦于公共文化服條大數(shù)據(jù)的應(yīng)用場景探討、網(wǎng)絡(luò)數(shù)據(jù)采集以及主題分析挖掘,具體包括《公共文化大數(shù)據(jù)研究綜述》、《公共文化服條大數(shù)據(jù)的應(yīng)用場景分析》、《基于Scrapy與規(guī)則的公共文化服條機構(gòu)官網(wǎng)信息采集與內(nèi)容抽取》、《基于LDA的公共文化主題提取與演化分析》等4篇論文,其中前兩篇側(cè)重于理論探討,后兩篇側(cè)重于分析實踐。
《公共文化大數(shù)據(jù)研究綜述》從理論研究、技術(shù)研究、應(yīng)用研究三個方面對我國公共文化大數(shù)據(jù)的研究現(xiàn)狀進(jìn)行全現(xiàn)的梳理與總結(jié),并對現(xiàn)有成果的研究方法進(jìn)行了分類整理,討論了公共文化大數(shù)據(jù)研究的特點與發(fā)展趨勢?!豆参幕l大數(shù)據(jù)的應(yīng)用場景》采用定性分析和文本分析兩種研究方法,通過文獻(xiàn)調(diào)研和公共文化機構(gòu)數(shù)據(jù)采集與挖掘,對大數(shù)據(jù)在其他領(lǐng)域的成功應(yīng)用進(jìn)行歸納總結(jié),并嘗試形成領(lǐng)域依賴性不強的應(yīng)用場景,把這些場景引入公共文化服條領(lǐng)域,結(jié)合公共文化領(lǐng)域的行業(yè)特點形成公共文化服條大數(shù)據(jù)的應(yīng)用場景。公共文化服條大數(shù)據(jù)的應(yīng)用主要包括用戶為中心、精細(xì)化管理、數(shù)據(jù)化決策等三大類,共15個具體應(yīng)用場景。
公共文化服條機構(gòu)的官網(wǎng)信息中包含著大量有價值的數(shù)據(jù)與信息,對些信息進(jìn)行實時采集與存儲,能夠為后續(xù)的集成、管理、分析與挖掘工作提供數(shù)據(jù)基礎(chǔ)?!痘赟crapy與規(guī)則的公共文化服條機構(gòu)官網(wǎng)信息采集與內(nèi)容抽取》一文在分析公共文化服條數(shù)據(jù)分布與特點的基礎(chǔ)上,通過Scrapy爬蟲技術(shù)獲取公共文化服條機構(gòu)官網(wǎng)上的數(shù)據(jù),利用正則表達(dá)式從半結(jié)構(gòu)化及非結(jié)構(gòu)化的文本中抽取目標(biāo)數(shù)據(jù)?!痘贚DA的公共文化主題提取與演化分析》根據(jù)各省級圖書館、文化館官網(wǎng)所發(fā)布的活動資訊和新聞報道文本,經(jīng)過預(yù)處理后對文本進(jìn)行分詞并使用TF-IDF算法提取關(guān)鍵詞,結(jié)合LDA主題模型進(jìn)行主題建模并分類。根據(jù)主題分類結(jié)果對所有文檔進(jìn)行主題標(biāo)注,從時間和空間維度對文檔主題進(jìn)行統(tǒng)計分析和可視化展示。