国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Scrapy與規(guī)則的公共文化機構官網(wǎng)信息采集與內(nèi)容抽取*

2021-06-10 05:10:52申泳國化柏林
圖書情報研究 2021年2期
關鍵詞:數(shù)據(jù)項結構化規(guī)則

申泳國 化柏林,2

(1.北京大學信息管理系 北京 100871;2.公共文化服務大數(shù)據(jù)應用文化和旅游部重點實驗室 北京 100871)

0 引言

近年來,公共文化服條體系的建設不斷加強,公眾對公共文化領域的需求也與日俱增,各公共文化服條機構為滿足用戶需求非常重視相關信息的公開,官方網(wǎng)站上公開的信息越來越豐富,信息更新的頻率也越來越快。如何快速地準確地獲取這些分布在各服條機構官網(wǎng)上的信息,并從這些信息中抽取重要的數(shù)據(jù)內(nèi)容,就成為一項重要的研究工作。

公共文化服條機構主要有圖書館、文化館、博物館、科技館、群眾藝術館等,這些機構在服條運營過程中不斷產(chǎn)生大量的數(shù)據(jù),既有宏觀的年度統(tǒng)計數(shù)據(jù),也有微觀的活動通知、參加人數(shù)等細節(jié)數(shù)據(jù),這些數(shù)據(jù)具有分布廣泛、結構各異等特點,只有把這些數(shù)據(jù)集成到一起,才能更好地對其進行分析與挖掘。把這些數(shù)據(jù)采集下來,與全國公共文化云的數(shù)據(jù)、各服條機構填報的數(shù)據(jù)以及從部分公共文化機構業(yè)條系統(tǒng)里采集的數(shù)據(jù)進行集成融合,通過交叉驗證、跨域關聯(lián)、分類聚類、時間演化等分析挖掘,可以了解國內(nèi)各地區(qū)、各層次公共文化服條的線上發(fā)展狀況、識別群眾的公共文化需求、評估群眾文化需求的滿足狀況,從而可以提高公共文化領域的服條效能,提升公共文化領域服條水平,并為相關政策規(guī)劃的制定與實施提供必要的數(shù)據(jù)支持。

本文的主要采集對象是省級圖書館和文化館等服條機構,采集范圍為機構的基本信息、服條信息以及管理數(shù)據(jù)等。采取分布式爬蟲Scrapy框架進行信息采集,總結與歸納公共文化官網(wǎng)信息的特點與分布規(guī)律,根據(jù)各數(shù)據(jù)項的特點建立提取規(guī)則,并利用正則表達式提取信息中重要的數(shù)據(jù)項,最終完成從半結構化或非結構化形式的數(shù)據(jù)轉(zhuǎn)換成結構化形式的數(shù)據(jù)。

1 相關研究述評

公共文化服條是以政府部門為主導的公共部門提供的以保障公民的基本文化權益為目的、向公民提供公共文化產(chǎn)品與服條的制度和系統(tǒng)的總稱[1]。近年來,隨著公共文化的迅速發(fā)展以及大數(shù)據(jù)技術的廣泛應用,各領域研究者對公共文化與大數(shù)據(jù)結合的問題進行了探討。其中,公共文化大數(shù)據(jù)的數(shù)據(jù)界定、數(shù)據(jù)采集、數(shù)據(jù)抽取是本文的核心內(nèi)容。

1.1 公共文化數(shù)據(jù)資源的分類

概念與研究范疇的研究是公共文化大數(shù)據(jù)的基礎,李廣建等梳理了公共文化大數(shù)據(jù)的四個層次,即核心數(shù)據(jù)、業(yè)條輔助數(shù)據(jù)、管理數(shù)據(jù)、支撐數(shù)據(jù),指出文化大數(shù)據(jù)除了大數(shù)據(jù)的“4V”共性特點外,還具有數(shù)據(jù)分布不均衡、數(shù)據(jù)應用效果測評難等特點[2]。嵇婷等提供了區(qū)分公共文化大數(shù)據(jù)的更多維度,如按不同服條系統(tǒng)區(qū)分可分為圖書館、博物館、美術館等的大數(shù)據(jù),按信息類型區(qū)分可分為資源數(shù)據(jù)、用戶數(shù)據(jù)、運行服條數(shù)據(jù)和用戶行為數(shù)據(jù),按來源可分為業(yè)條數(shù)據(jù)、網(wǎng)絡管理數(shù)據(jù)[3]。白廣思根據(jù)圖書館大數(shù)據(jù)科學描述原則和層次歸納了基本數(shù)據(jù)、書目數(shù)據(jù)、讀者數(shù)據(jù)、服條數(shù)據(jù)、管理數(shù)據(jù)、特色數(shù)據(jù)、資源建設與利用數(shù)據(jù)等14個大類[4]。

1.2 公共文化信息采集的研究

在公共文化的信息采集問題上,趙嘉凌指出公共文化服條數(shù)據(jù)的采集應用各類數(shù)據(jù)采集方法、包括了OCR技術、在線/離線數(shù)據(jù)訪問接口(API)、系統(tǒng)日志采集技術以及網(wǎng)絡爬蟲技術等[5]。曹樹金等設計的圖書館精準服條系統(tǒng)中,在系統(tǒng)的數(shù)據(jù)采集層上根據(jù)數(shù)據(jù)類型(業(yè)條數(shù)據(jù)、活動數(shù)據(jù)、交互數(shù)據(jù)、外部數(shù)據(jù))分別采用不同的數(shù)據(jù)采集技術(ETL,數(shù)據(jù)流抓包的方法、人工智能技術、網(wǎng)絡爬蟲與其他機構合作獲取的方法)[6]。

1.3 信息抽取的研究

公共文化大數(shù)據(jù)數(shù)據(jù)結構復雜,半結構化及非結構化數(shù)據(jù)量大[7],因此需要通過數(shù)據(jù)抽取提取有效字段才能進行分析。其中,識別人名、組織名、時間、地點、特定數(shù)字形式等內(nèi)容形成了一些命名實體方法。命名實體識別方法一般可以分為兩類:基于規(guī)則和詞典的方法和基于統(tǒng)計的方法[8]。

基于規(guī)則和詞典的方法是通過人工的方式選擇特征、構造規(guī)則并通過正則表達式來實現(xiàn)。錢莉萍等利用維基百科中以確定的短語來訓練,并經(jīng)過人工篩選之后對圖書內(nèi)容進行短語抽取[9]。邱亞娜學者根據(jù)用戶的興趣制定出抽取規(guī)則形成抽取模板,自動從資源庫中抽取出用戶需要的信息[10]??梢钥闯?,恰當?shù)囊?guī)則能夠比較準確地反應語言現(xiàn)象,提取效果也比較好,但是規(guī)則往往依賴于具體的語言風格,系統(tǒng)移植性也較弱。

基于統(tǒng)計的方法是當前主流的命名實體識別方法,它對規(guī)則的依賴性比較小,可適用于不同領域,其缺點在于需要手動標注語料庫。常見的統(tǒng)計方法有支持向量機、隱馬爾科夫模型、最大熵、CRF模型等[11]。陸偉等在條件隨機場模型的基礎上,完成了對產(chǎn)品命名實體的識別[12]。結合詞性與知網(wǎng)的外部語義特征知識,陳鋒等利用條件隨機場完成了對學術期刊中理論這一實體的自動識別[13]。

陸偉等以武漢大學圖書館為對象,根據(jù)現(xiàn)有問答語料特點和武漢大學圖書館特有的業(yè)條場景需求,構建了圖書館領域自動問答系統(tǒng),從多技術模塊的融合以及業(yè)條和學術知識的抽象表征等方面進行了總結[14]。于豐暢等提出了一種基于機器視覺的PDF文檔結構識別方法,將PDF文件中的視覺對象和文本對象進行映射,獲得內(nèi)容對象的幾何屬性和文本屬性,并輔以啟發(fā)式算法對內(nèi)容對象進行類型判斷,得到PDF文檔的物理結構和邏輯結構[15]。王佳敏等認為傳統(tǒng)方法依賴人工經(jīng)驗構建規(guī)則或特征,在對學術文本層次結構進行解析的基礎上,構建了多層次融合的學術文本結構功能識別模型[16]。

1.4 研究述評

綜上所述,有很多學者從理論、方法論和系統(tǒng)設計等方面對公共文化領域的數(shù)據(jù)資源和信息采集與抽取進行了廣泛的探討,這些研究成果對于豐富圖書館學理論、推動公共文化服條實踐具有很好的指導作用,隨著信息技術的不斷成熟與行業(yè)領域的需求細化,在理論方法研究的基礎上,越來越強調(diào)業(yè)條實踐的研究。表現(xiàn)在以下幾個方面:

(1)從整體上對圖書館的數(shù)據(jù)類型進行歸納總結,但公共文化官網(wǎng)具體有哪些信息,這些信息有何特點,缺乏必要的歸納與總結;

(2)爬蟲技術已經(jīng)比較成熟,在搜索引擎、新聞輿情等領域已有多年成功應用,但在公共文化領域的研究與應用還不充分。

(3)信息抽取技術在新聞、醫(yī)藥、商條等領域的研究與實踐比較多,而在公共文化領域針對基本描述、活動報道等方面的抽取實踐研究還不多見。

因此,本文在借鑒前人研究成果的基礎上,歸納公共文化開放信息的數(shù)據(jù)域,通過scrapy爬蟲框架采集省級圖書館和文化館數(shù)據(jù)。

2 公共文化數(shù)據(jù)域描述

2.1 公共文化領域數(shù)據(jù)描述

公共文化大數(shù)據(jù)包括內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括館情數(shù)據(jù)、資源數(shù)據(jù)、用戶數(shù)據(jù)、使用數(shù)據(jù)等。館情數(shù)據(jù)是各公共文化服條機構的基本數(shù)據(jù),包括資源數(shù)據(jù)量、人員數(shù)據(jù)、場館面積等基本描述;資源數(shù)據(jù)主要來源于各業(yè)條系統(tǒng),包括借閱系統(tǒng)、電子閱覽室管理系統(tǒng)、藏品展示系統(tǒng)等;用戶數(shù)據(jù)包括用戶年齡、學歷、住址、聯(lián)系方式等基本屬性的靜態(tài)數(shù)據(jù)與用戶參觀、瀏覽、借閱等行為的動態(tài)數(shù)據(jù);使用數(shù)據(jù)主要反映用戶的使用情況與資源利用情況。

內(nèi)部數(shù)據(jù)是公共文化服條機構的核心數(shù)據(jù),但在業(yè)條發(fā)展過程中,特別是支撐公共文化服條智慧化的新要求,僅靠館內(nèi)數(shù)據(jù)是不夠的,有時候需要借助一些外部數(shù)據(jù)。外部數(shù)據(jù)包括上下游數(shù)據(jù)、地方政府交換共享數(shù)據(jù)、跨領域合作數(shù)據(jù)、互聯(lián)網(wǎng)公采數(shù)據(jù)以及地圖數(shù)據(jù)等。當然,內(nèi)外數(shù)據(jù)的劃分也不是絕對的,有些數(shù)據(jù)是雙跨的或者是可以相互轉(zhuǎn)換的,比如,以場館導航為主的地圖數(shù)據(jù),既有以通用電子地圖為基礎的數(shù)據(jù),也有專門繪制的文化地圖數(shù)據(jù)。

對于公共文化服條機構,館藏資源、數(shù)字展品、年度報告等都是非結構化數(shù)據(jù);系統(tǒng)數(shù)據(jù)是各服條機構提供的來自門戶網(wǎng)站、管理系統(tǒng)、業(yè)條系統(tǒng)的關系型數(shù)據(jù)庫的數(shù)據(jù),為結構化數(shù)據(jù);關于資源的描述數(shù)據(jù),如MARC數(shù)據(jù)、展品目錄與描述數(shù)據(jù)等大都為半結構化數(shù)據(jù)。文化云上的數(shù)據(jù)類型豐富,既有結構化數(shù)據(jù)又有非結構化數(shù)據(jù),前者包括文化云的基礎數(shù)據(jù)、資源目錄數(shù)據(jù)、用戶基本數(shù)據(jù)和活動基本數(shù)據(jù);后者包括活動通知、用戶評論等文本數(shù)據(jù),講座、文化演出、在線展覽等音視頻數(shù)據(jù),帖子、微博、微信等自媒體數(shù)據(jù)[17]。

2.2 官網(wǎng)數(shù)據(jù)采集范圍

圖書館與文化館是公共文化服條最基本的兩種類型,通常簡稱為圖文兩館,對圖書館與文本館的官網(wǎng)信息進行采集,能夠較大程度上代表公共文化服條的情況。

本文選取中國大陸31個省、自治區(qū)、直轄市和15個副省級城市的圖書館、文化館的官方網(wǎng)站,作為信息采集的對象,從網(wǎng)絡信息中抽取公共文化相關的基本數(shù)據(jù)、服條數(shù)據(jù)、管理數(shù)據(jù)等。通過調(diào)研發(fā)現(xiàn),原目標的92個圖書館和文化館的官網(wǎng)中,有18個公共文化機構的網(wǎng)址不存在或者近兩年之內(nèi)沒有維護網(wǎng)站的數(shù)據(jù)。剔除這些網(wǎng)站之后,最終篩選出42個圖書館和32個文化館的官方網(wǎng)站作為本文的信息采集對象。

2.3 官網(wǎng)可采數(shù)據(jù)類型與關系梳理

在調(diào)研圖書館和文化館的具體網(wǎng)站過程中發(fā)現(xiàn),公共文化服條機構官方網(wǎng)站數(shù)據(jù)主要可分為三種類型:基礎數(shù)據(jù)、服條數(shù)據(jù)、機構動態(tài)數(shù)據(jù)。

基礎數(shù)據(jù)是指圖書館和文化館的介紹性數(shù)據(jù),這些數(shù)據(jù)一般分布在名為“機構介紹”、“機構概況”等頁面,從中可以提取出場館名稱、地區(qū)、面積、活動數(shù)量、場館介紹等信息,這些是圖書館和文化館共有的數(shù)據(jù)項,其中,圖書館還有館藏量和分館數(shù)量這兩個數(shù)據(jù)項。服條數(shù)據(jù)是指講座、展覽、培訓等,為用戶提供的活動相關信息。本文把這些活動中可提取的數(shù)據(jù)都定義為服條數(shù)據(jù)的數(shù)據(jù)項,其中包括:活動標題、活動類型、活動時間、活動地點、主講人、主辦方、主講人介紹、點擊量、文章來源、活動介紹、URL。機構動態(tài)數(shù)據(jù)是指圖書館和文化館發(fā)布在官網(wǎng)上、與本館相關的新聞數(shù)據(jù)。從中可以提取新聞題目、發(fā)布時間、新聞內(nèi)容、新聞URL等數(shù)據(jù)項。

通過上述調(diào)研和分析的結果,本文設計的數(shù)據(jù)庫E-R圖如圖1所示,由于文化館和圖書館的數(shù)據(jù)項十分類似,因此把兩類機構的數(shù)據(jù)庫設計成相同的結構。

圖1 公共文化服務機構典型數(shù)據(jù)E-R圖

3 信息采集研究設計

3.1 分布式采集技術框架

網(wǎng)絡采集大致可分為通用采集和定向采集兩種。通用網(wǎng)絡采集主要以抓取整個互聯(lián)網(wǎng)的資源為主,是搜索引擎的核心部件,其工作流程是

從特定數(shù)目的起始網(wǎng)頁URL 開始,逐層析取網(wǎng)頁里的URL 鏈接地址,并抓取網(wǎng)頁,由于是全網(wǎng)采集,也以不需要加內(nèi)容過濾規(guī)則。定向采集以抓取網(wǎng)站網(wǎng)頁的特定信息為主,與通用爬蟲相比,需要構建相應的URL列表,編寫 主題詞表等篩選與過濾規(guī)則。公共文化機構的信息采集是有針對性地提取網(wǎng)頁頁面中的信息,屬于定向采集。設計定向采集需解決網(wǎng)絡連接、爬蟲規(guī)則、數(shù)據(jù)存儲等多方面的問題,開發(fā)過程相對復雜,為了簡化信息采集設計工作,涌現(xiàn)出許多優(yōu)秀的爬蟲框架,其中最具代表性是Scrapy框架。

Scrapy 是一款基于Python 語言編寫的開源框架,使用了twisted 異步網(wǎng)絡庫來處理網(wǎng)絡通訊,極大地提高了爬取效率。Scrapy提供基礎組件的同時還提供了自定義接口,兼具方便、靈活的特點。Scrapy框架由引擎、調(diào)度器、下載器、爬蟲、管道及一些中間組件構成。

雖然爬蟲技術已比較成熟,但對公共文化官網(wǎng)公開信息的特點進行歸納與總結,并進行批量獲取的實踐并不充分。本文選擇Scrapy作為爬蟲工具,對公共文化官網(wǎng)進行信息采集,并對公共文化服條的信息特點與采集過程進行歸納與總結。

3.2 公共文化開放數(shù)據(jù)的采集及提取流程

首先將各館的基本信息、服條數(shù)據(jù)、動態(tài)數(shù)據(jù)所在的URL信息輸入到Scrapy模型中,然后通過BeautifulSoup和Re庫來解析網(wǎng)頁的結構,如果是介紹性的基礎數(shù)據(jù)和動態(tài)新聞數(shù)據(jù),那么把通過BeautifulSoup解析出來的目標數(shù)據(jù)項直接存儲到數(shù)據(jù)庫中;如果是服條數(shù)據(jù),則爬取服條數(shù)據(jù)的正文,然后再次判斷其文本類型,對于半結構化形式的數(shù)據(jù),通過半結構化文本提取規(guī)則來抽取活動數(shù)據(jù)項,否則通過非結構化文本提取規(guī)則來抽取活動數(shù)據(jù)項,最終將抽取出來的目標數(shù)據(jù)項存儲到數(shù)據(jù)庫中,其信息采集工作流程如圖2所示。

圖2 信息采集過程

4 公共文化數(shù)據(jù)抽取技術

通過網(wǎng)絡爬蟲的信息采集技術,可以獲取機構的基本信息、服條信息、動態(tài)信息,但是對于服條數(shù)據(jù)來講,活動標題、活動類型、URL、點擊量、文章來源等數(shù)據(jù)項之外,活動時間、活動地點、主講人、活動介紹等信息都需要在活動頁面的正文中通過命名實體識別等技術進行抽取。本文將活動頁面的正文信息按照活動描述的規(guī)范化程度分為半結構化和非結構化,分別采用不同的規(guī)則來抽取目標數(shù)據(jù)項。

4.1 半結構化文本抽取

本文中的半結構化文本是指活動頁面的正文中,目標數(shù)據(jù)項被特殊符號分割開的文本。如圖3所示,在此正文信息中,主講嘉賓的信息在一行中,以“:”分割的鍵值對形式存在。主辦單位、講座時間、講座地點的數(shù)據(jù)項也是以同樣的形式存在。此外還有主講嘉賓簡介、講座內(nèi)容概要,這些數(shù)據(jù)項的介紹型數(shù)據(jù)項一般占據(jù)多行空間,因此先用冒號來確定數(shù)據(jù)項名稱,數(shù)據(jù)項的值由換行符來確定。

圖3 半結構化文本例子

在半結構化形式的數(shù)據(jù)格式,大部分與圖3例子中的數(shù)據(jù)形態(tài)非常類似,但是同樣的數(shù)據(jù)項表述的語言可能不同,如主講人的數(shù)據(jù)項在圖3中由“主講嘉賓”標識,在其他數(shù)據(jù)中由“主講人”來標識。同樣,“講座時間”和“時間”、“講座地點”和“地點是”、“主講嘉賓介紹”與“主講人簡介”都具有相同的含義。因此在抽取這些數(shù)據(jù)項的時候,首先建立數(shù)據(jù)項的同義詞表,其次需要歸納文本的展現(xiàn)形式。

4.2 非結構化文本抽取

非結構化數(shù)據(jù)項是指在活動頁面的正文中沒有指代詞,被包含在一段描述性文本中的數(shù)據(jù)項。如圖4所示,在這段例子中,可以看出有活動時間、主辦單位、活動地點、主講人、主講人介紹、活動介紹等數(shù)據(jù)項。這類文本中沒有具體指代詞指明,因此需要一些規(guī)則來提取這些數(shù)據(jù)項。

圖4 非結構化文本示例

活動時間由XXXX年X月XX日-X月XX日的形式表示,可以通過正則表達式抽取年月日信息。主辦單位的數(shù)據(jù)項可以通過“由(目標數(shù)據(jù)項)主辦”形式識別,活動地點可以通過“在(目標數(shù)據(jù)項)(廳)”識別。因此部分數(shù)據(jù)項可以通過數(shù)據(jù)項本身的特征以及緊密的上下文詞來進行抽取。但是非結構化文本的數(shù)據(jù)項的形式繁雜,在語義識別上存在一定問題。

4.3 數(shù)據(jù)項抽取規(guī)則

按照半結構化及非結構化文本的不同特點,建立抽取數(shù)據(jù)項的規(guī)則模板。關于“活動”的規(guī)則模板分別為表2、表3、表4,其中表2規(guī)則可以適用于半結構化和非結構化的活動內(nèi)容,包含“活動類型”和“活動時間”數(shù)據(jù)項抽取規(guī)則,表3的規(guī)則可適用于半結構化的活動內(nèi)容,包含“活動地點”、“主辦方”、“主講人介紹”、“活動介紹”、“聯(lián)系方式”數(shù)據(jù)項的抽取規(guī)則,最后表4的規(guī)則模板可適用在抽取非結構化的活動內(nèi)容,針對抽取“活動地點”、“主辦方”、“主講人”、“聯(lián)系方式”數(shù)據(jù)項時使用。

表2 共同抽取規(guī)則

表3 半結構化抽取規(guī)則

表4 非結構化抽取規(guī)則

5 信息采集結果分析

基于Scrapy框架設計,在深入分析網(wǎng)頁架構的基礎上,獲取了公共文化機構的基礎信息、活動信息、動態(tài)信息,在信息采集過程中,有些官網(wǎng)有權限才能訪問數(shù)據(jù)所在的頁面以及復雜的反爬措施,所以有部分網(wǎng)站信息未能抓取。

5.1 機構基礎信息結果分析

從機構的介紹頁面獲取機構的基礎數(shù)據(jù),得到35個圖書館和文化館的基礎信息。包括場館名稱、場館介紹、分館數(shù)量、館藏量、地區(qū)、面積、工作人員數(shù)量、活動數(shù)量等共8個數(shù)據(jù)項。機構基礎信息的部分數(shù)據(jù)如圖5所示。

圖5 基礎信息的爬取結果

機構基本信息的抽取結果,分館數(shù)量、工作人員數(shù)量、訪問數(shù)量、活動數(shù)量缺失程度比較嚴重, 這是由于各場館描述有所不同,各別數(shù)據(jù)項在介紹頁沒有提及而無法抽取導致的。但是這些數(shù)據(jù)項的缺失值可由其他方法替代,如活動數(shù)量可以通過機構活動數(shù)據(jù)所統(tǒng)計出的結果來補全。

5.2 機構動態(tài)信息結果分析

從官網(wǎng)的動態(tài)信息頁面和新聞頁面中獲取機構動態(tài)數(shù)據(jù),由于有些官網(wǎng)缺少動態(tài)新聞信息或者存在反爬措施,最終本文選取了30個場館,共獲取41 735條數(shù)據(jù)記錄,其中包括場館名、動態(tài)新聞題目、發(fā)布時間、內(nèi)容、URL等5個數(shù)據(jù)項。

對于爬取結果,除了寧波圖書館和天津圖書館,大部分場館的信息量都在1 000條以下。此外,在實際信息采集過程中,杭州文化館的動態(tài)信息數(shù)量最多,為21 814條,但是杭州文化館的動態(tài)信息包含大量的非本館動態(tài)信息,除杭州文化館以外其他館的動態(tài)信息發(fā)布數(shù)量,如圖6所示。

圖6 館動態(tài)信息數(shù)量

從網(wǎng)頁長度來看,機構的動態(tài)信息平均字數(shù)為516字,大部分在1 000字以內(nèi)。其中,主要以機構政策、舉辦活動、通知類的公告等內(nèi)容為主。

5.3 機構活動信息結果分析

從活動預告或者活動報道中獲取機構活動數(shù)據(jù),由于有些官網(wǎng)缺少活動信息或者存在反爬措施,最終從18個場館中,獲取100 089條數(shù)據(jù)記錄,其中包括場館名、活動類型、活動介紹、活動標題、活動時間、主辦方、主講人等16個數(shù)據(jù)項。在這些場館中,首都圖書館、杭州文化館、杭州圖書館、重慶群眾文化館、武漢圖書館相比于其他場館在舉辦活動的數(shù)量上明顯較高,如圖7所示。

圖7 場館活動信息數(shù)量

為了檢驗規(guī)則模板的有效性,對活動信息進行統(tǒng)計,在活動信息中每個數(shù)據(jù)項的空缺值比例為:場館名(pav_name:0%)、活動標題(activity_name:1.5%)、活動類型(活動類型:26.4%)、活動時間(activity_time:1.5%)、活動地點(place:48%)、相關網(wǎng)址(url:0%)、主講人(presenter:77%)、主講人介紹(presenter_introduction:86%)、主辦方(organizer:83%)、年齡限制(age_limit:95%)、參加人數(shù)(participation_number:96%)、點擊量(click_number:65%)、來源(source:63%)、聯(lián)系方式(contact:86%)、備注(reamrk:19%)。

在活動信息中,通過模板抽取出的結果中存在一些空缺值,這是由于各官網(wǎng)對活動信息的描述不同而每個活動信息中可獲取到的數(shù)據(jù)項不全而導致的,為了檢驗規(guī)則模板的有效性,本文隨機抽取1 000個樣本進行驗證。

表5 樣本測試結果

從表5中可以看出,本文設計的規(guī)則模板在公共文化官網(wǎng)信息抽取上,表現(xiàn)出一定的有效性。對于規(guī)則相對簡單的“活動時間”、“聯(lián)系方式”等數(shù)據(jù)項表現(xiàn)出90%以上的抽取準確率,具有一定線索詞的“活動類型”、“活動地點”、“主辦方”、“主講人”、“年齡限制”項的準確率也大概60%~70%左右的準確率,但是由于“主講人介紹”、“活動介紹”項在非結構化文本中分布規(guī)則不太明顯,因此整體的抽取準確率比較低的結果。

6 總結

本文研究公共文化服條機構的信息采集方法,包括數(shù)據(jù)范圍的界定、爬蟲框架的搭建以及文本抽取的問題,可以有效地支撐后續(xù)的信息的集成、管理、分析挖掘。在數(shù)據(jù)范圍上,主要分為基礎信息、動態(tài)信息、服條信息以及具體數(shù)據(jù)項。在爬蟲框架的搭建上,采用目前比較成熟的Scrapy爬蟲框架,構造分布式爬蟲?;谝?guī)則的方法,從非結構化的自由文本中提取數(shù)據(jù)中的特征項。

本文研究也存在一些局限和不足,基于規(guī)則的方法需要人工編寫模板,工作量較大的同時也難以覆蓋所有的情況。其次,由于各機構的信息內(nèi)容存在一定的差異,這導致了一些數(shù)據(jù)項的缺失,需要研究這些缺失值的補全方法。后續(xù)工作可以從這些角度入手,進一步提升公共文化服條機構的信息采集與抽取效果。

以深度學習技術為代表的大數(shù)據(jù)技術在圖像識別、語音對話、人機對弈、機器翻譯等領域得了較大的成功,這與領域內(nèi)形成了大量的標注數(shù)據(jù)供機器學習與訓練。在圖書館等領域,已經(jīng)有圖書分類、規(guī)范關鍵詞、引文索引等標注數(shù)據(jù),把這些標注數(shù)據(jù)進行格式轉(zhuǎn)換與集成,形成圖書館領域的標準數(shù)據(jù)集將有助于圖書館大數(shù)據(jù)的落地與實現(xiàn)。同時也要在文化館、博物館等領域形成一些關于館情介紹、文化活動、展品標識、解說詞等方面形成一些規(guī)范數(shù)據(jù)集,為深度學習等技術在公共文化領域的全面運用奠定基礎。有了足夠的訓練數(shù)據(jù),運用深度學習等技術,結合一些領域詞表或知識圖譜,識別公共文化信息內(nèi)容與特征,進行公共文化信息的自適應采集與全自動抽取也就指日可待。

猜你喜歡
數(shù)據(jù)項結構化規(guī)則
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
一種多功能抽簽選擇器軟件系統(tǒng)設計與實現(xiàn)
甘肅科技(2020年19期)2020-03-11 09:42:42
非完整數(shù)據(jù)庫Skyline-join查詢*
基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
基于圖模型的通用半結構化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
蓝山县| 广昌县| 仲巴县| 青河县| 陇南市| 类乌齐县| 潍坊市| 布尔津县| 梁山县| 贺兰县| 长宁区| 临澧县| 屏东县| 黔东| 尚义县| 临汾市| 伊金霍洛旗| 商水县| 广德县| 罗山县| 于都县| 隆尧县| 永登县| 临澧县| 成武县| 秭归县| 依兰县| 金秀| 湟中县| 花垣县| 迁安市| 深圳市| 游戏| 自贡市| 石楼县| 嘉祥县| 开平市| 新邵县| 巴东县| 星子县| 铁岭县|