国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

公共文化搜索平臺的網(wǎng)絡建設(shè)

2016-11-12 07:55趙云華
長江叢刊 2016年15期
關(guān)鍵詞:本體網(wǎng)頁檢索

趙云華

公共文化搜索平臺的網(wǎng)絡建設(shè)

趙云華

文章從系統(tǒng)總體目標和功能需求兩個方面對公共文化搜索平臺展開需求分析,在此基礎(chǔ)上,提出了平臺的設(shè)計方案,最后論述了平臺開發(fā)所需要的技術(shù)支撐。

公共文化 搜索平臺 設(shè)計 開發(fā)

自改革開放已經(jīng),我國經(jīng)濟在不斷地發(fā)展,正在想“創(chuàng)新驅(qū)動,轉(zhuǎn)型發(fā)展”邁進,持續(xù)擴大了第三產(chǎn)業(yè)的比重[1],將極大地增強城市綜合服務功能,在經(jīng)濟社會中進一步提升文化的地位,對于廣大的人們來說,當保障了物質(zhì)生活之后,就逐漸增長了對精神文化的需求,進一步的對精神文化有所要求。本文基于實際應用,對公共文化推送系統(tǒng)的實際應用進行了詳細的探討,力爭達到公共文化服務信息中供需雙方的對接,推動文化市場繁榮發(fā)展。文化知識的普及、先進文化的傳播以及精神食糧的提供是由政府主導、社會參與的形式形成的,公共文化信息系統(tǒng)能經(jīng)一部提高供需信息的緊密度,使人民群眾的文化需求得到滿足,對其基本文化權(quán)益提供保障。

計算機技術(shù)和網(wǎng)絡技術(shù)在快速發(fā)展,同時在社會發(fā)展過程中也呈現(xiàn)出了大量化和多樣化的信息,互聯(lián)網(wǎng)上的信息擴大增長速度幾乎是按照幾何級數(shù)遞增的。大量化的信息有助于人們對信息的獲取,但是繁多的信息不僅能把便捷帶給人們,同時還把篩選信息的煩惱帶給人們[2]。公共文化搜索平臺引入的推送技術(shù)和搜索引擎技術(shù)都較為先進,通過語義化理解相關(guān)問題,針對用戶需求,尋求相關(guān)的科技資源,使提供給用戶的公共文化資源反饋更加精準和全面。

一、公共文化搜索平臺的需求分析

(一)系統(tǒng)總體目標

在文化信息資源共享工程中,基于網(wǎng)絡設(shè)施,在鎮(zhèn)村、街道文化站、各級公共圖書館以及社區(qū)文化活動室建設(shè)的基礎(chǔ)上,可以建設(shè)公共電子閱覽室,使構(gòu)建公共文化信息化體系具有技術(shù)先進、傳播快捷、內(nèi)容豐富以及覆蓋城鄉(xiāng)的特點把更加便捷和豐富的公共數(shù)字文化服務提供給廣大群眾,在信息技術(shù)環(huán)境下保障公共文化服務的基本型、便利性、公益性以及均等性[3]。公共文化搜索平臺的目標如下:首先確保開展的消息搜索具有多功能,公共文化搜索平臺在搜索消息的過程中能實現(xiàn)其多功能性,確保廣大群眾信息獲取的快捷和方便,同時體現(xiàn)出當代單位和新媒體信息獲取的智能化和科技化。各個媒體、單位以及政府通過應用公共文化搜索平臺,可以把多種公共文化消息推送出去,比如在最先的事件內(nèi)把需要廣大群眾參與的通告、通知、調(diào)研、變動信息以及政策條例等方便快捷的以多種現(xiàn)代化方式向廣大群眾推送,依托平臺強大的移動通信能力彌補傳統(tǒng)信息發(fā)布方式的缺憾。其次是通過多種手段和方式確保信息覆蓋的全面性,公共文化搜索平臺內(nèi),具有繁多的信息量,而且具有多樣性的信息推送方式,也即是說,信息推送平臺的“內(nèi)聯(lián)性”很強[4]。在大多數(shù)信息的推送過程中,多是以郵件方式進行的,廣大群眾可以選擇回復郵件或者其他處理方式,也可以通過設(shè)置郵件系統(tǒng),對接收的郵件通知進行自動的回復,回復方式包括傳真和短信兩種,有助于信息發(fā)布方與群眾之間的互動。同時郵件的功能還包括附件的上傳,上傳的附件可以為幾百兆大小,具有非常大的信息量。最后,通過信息化手段的應用,可以使信息獲取能力得到有效提高,減少紙張的使用。電子化信息處理和推送有助于對社會發(fā)展的促進和群眾信息獲取能力的提升。

總體目標是建設(shè)文化共享工程資源和廣泛分布的文化類網(wǎng)站群資源進行查詢檢索的統(tǒng)一入口,其中結(jié)構(gòu)化資源可以根據(jù)元數(shù)據(jù)字段準確檢索,同時結(jié)構(gòu)化數(shù)據(jù)與顯示形式無關(guān),可以支撐全媒體終端服務;其中海量非結(jié)構(gòu)化的網(wǎng)站信息進行抓取后,與其他結(jié)構(gòu)化數(shù)據(jù)資源進行整合,形成統(tǒng)一管理、索引、發(fā)布服務,實現(xiàn)結(jié)構(gòu)化元數(shù)據(jù)與非結(jié)構(gòu)化網(wǎng)絡資源的統(tǒng)一檢索。實時掌握各級單位數(shù)字文化資源建設(shè)情況,資源數(shù)量、文件格式、內(nèi)容分類、分布情況,隨時了解文化單位資源建設(shè)、保存、服務動態(tài),為大數(shù)據(jù)挖掘,提供再利用條件。

(二)功能需求

公共文化搜索平臺從功能上來說,在公共文化信息服務中是面向公眾的出行需求出發(fā)的,在互聯(lián)網(wǎng)站上通過網(wǎng)絡技術(shù)的應用在電子地圖可視化基礎(chǔ)上實現(xiàn)地理信息服務。平臺通過發(fā)布和推送公共文化信息內(nèi)容如農(nóng)業(yè)技術(shù)、益智游戲、紅色歷史以及社會公益標語廣告,公共文化信息的推動以及信息發(fā)布功能得以實現(xiàn),平臺主要通過主動積極的方式把公共文化信息推送給廣大用戶,包括紅色歷史、農(nóng)業(yè)技術(shù)、文化專題、實用技能、經(jīng)典影視[5]。特色資源以及舞臺藝術(shù)。公共文化搜索平臺的具體功能如下所示:首先是信息傳播推送,該子系統(tǒng)是把公共文化信息以一種主動積極的方式推送給廣大用戶,包括紅色歷史、文化專題、舞臺藝術(shù)、地方特色、農(nóng)業(yè)技術(shù)、經(jīng)典影視以及使用技能,同時對于參與互動的市民進行提倡和鼓勵,把雙向溝通的橋梁和渠道積極搭建起來,該子系統(tǒng)的具體模塊包括電子郵件推送、手機客戶端推送以及手機短信推送;其次是公共文化信息采集,主要由兩條收集系統(tǒng)信息的渠道,包括與公共文化信息相關(guān)的系統(tǒng)內(nèi)設(shè)置的網(wǎng)站,在設(shè)定的時間內(nèi)由網(wǎng)絡爬蟲完成信息的收集;信息管理員以手動形式添加的信息。對于公共文化信息來說,信息推送中的信息管理功能可以表現(xiàn)為信息服務系統(tǒng),尤其是針對城市公眾出行,通過注冊公共文化推送平臺并經(jīng)過認證的用戶,上述用戶并不特指單一的個體,而是包含了政府機構(gòu)、商家、公共媒體單位以及企業(yè)在內(nèi)。系統(tǒng)對這些信息收集完成之后,還會進行相應的分類處理。最后是后臺管理,根據(jù)具體要求后臺管理員可以完成系統(tǒng)的設(shè)置,最終實現(xiàn)用戶需求的滿足,為了便于系統(tǒng)后期的維護,盡量不對內(nèi)部代碼進行修改,系統(tǒng)最好實現(xiàn)多樣化以及多功能化的管理與配置功能,滿足個性化的管理需求。

二、公共文化搜索平臺的設(shè)計方案

依托現(xiàn)有的技術(shù),為了使用戶的個性化搜索需求得到滿足,本文設(shè)計的系統(tǒng)充分結(jié)合了現(xiàn)代化的本體技術(shù)、中文自然語義理解基于以及數(shù)據(jù)挖掘技術(shù)對搜索系統(tǒng)進行構(gòu)建,通過web平臺上的操作界面,按照用戶輸入的關(guān)鍵詞對關(guān)鍵詞關(guān)聯(lián)性較強的科技資源信息進行搜索。當用戶向系統(tǒng)中輸入某自然與關(guān)鍵詞時,系統(tǒng)首先要語義理解該問題關(guān)鍵詞,關(guān)于問題形成本體。再對本體間的關(guān)系進行充分的利用,把本體相關(guān)的所以本體項都找出來并指定為新的關(guān)鍵詞,通過檢索科技資源數(shù)據(jù)庫,把用戶搜索詞內(nèi)容相關(guān)的科技資源都搜索出來,最后按照組織、整理以及排序等操作反饋給用戶檢索的最終結(jié)果。

(一)平臺的體系結(jié)構(gòu)

利用本體,按照系統(tǒng)工作流程統(tǒng)一描述事物概念,為了便于計算機的理解,通過語義轉(zhuǎn)換把用戶提供的關(guān)鍵字變?yōu)闃藴试~庫的描述,通過本體間的關(guān)系對相關(guān)項進行搜索,檢索出關(guān)鍵詞相關(guān)資源。

在語義理解關(guān)鍵詞、搜索相關(guān)項以及索引的建立,需要對預先建立的資源本體庫進行調(diào)用,并對相關(guān)數(shù)據(jù)和信息進行處理。在語義理解的過程中,對于自然語句的詞匯,本體的類概念會進行相應的歸類和定義,使系統(tǒng)冗余得到有效減少,各種自然語言通過本體的概念化和形式化可以轉(zhuǎn)換成標準詞匯便于計算機的理解。在相關(guān)項搜索中,通過本體間關(guān)系的梳理,可以把相關(guān)的本體項找出,完成信息的查找和搜索。在語義標注環(huán)節(jié),按照本體庫可以實現(xiàn)科技資源的標注,匹配用戶提供的關(guān)鍵詞完成搜索。

(二)平臺的層次結(jié)構(gòu)

系統(tǒng)根據(jù)具體的執(zhí)行功能,可以分為圖1所示的四個層次:表示層、數(shù)據(jù)層、業(yè)務層以及實物層。

圖1 系統(tǒng)層次結(jié)構(gòu)

首先是表示層,在web頁面上通過用戶的操作,可以完成用戶需求的輸入以及結(jié)果的反饋;其次是數(shù)據(jù)層,構(gòu)建的本體概念、實例、關(guān)系以及子類等本體庫,并對科技資源的索引進行構(gòu)建和數(shù)據(jù)庫的建立;第三是業(yè)務層,在系統(tǒng)核心處理模塊的建設(shè)過程中,需要相互提供數(shù)據(jù)通信接口;最后是實物層,公共文化搜索平臺中的科技資源實體囊括了文獻論文、樣品標本、儀器設(shè)備以及科學數(shù)據(jù)等,首先要數(shù)字信息化這些科技資源,然后按照科技資源描述將關(guān)鍵信息搜集到資源數(shù)據(jù)庫中。

(三)搜索平臺的設(shè)計模型

圖2給出了在本體基礎(chǔ)上架構(gòu)的資源搜索平臺模型示意圖。由圖可知,在web基礎(chǔ)上通過JsP、Java等技術(shù)開發(fā)了查詢輸入接口;通過JenaAPI實現(xiàn)相關(guān)項信息的處理以及語義理解??萍假Y源在信息化之后存放在科技資源庫中,本體庫中存儲的文件是OWL形式的,描述科技資源庫的相關(guān)信息存放在語義元數(shù)據(jù)庫中。

圖2 收索平臺模型

三、公共文化搜索平臺開發(fā)所需的技術(shù)

(一)非結(jié)構(gòu)化數(shù)據(jù)搜索引擎

搜索引擎是把互聯(lián)網(wǎng)查詢服務提供給用戶的一種搜索工具。在互聯(lián)網(wǎng)中按照一定的策略可以搜索和發(fā)現(xiàn)信息,同時進行提取、組織和處理信息的操作,針對用戶,通過檢索服務的提供,發(fā)揮信息導航的作用。在互聯(lián)網(wǎng)上搜索引擎會主動對網(wǎng)頁信息進行搜索并按照一定的規(guī)則提供信息的索引,在可供查詢的數(shù)據(jù)庫中完成索引內(nèi)容的存儲,用戶在查詢過程中,只需要誰關(guān)鍵字,搜索引擎就把包含關(guān)鍵字的網(wǎng)址鏈接全部反饋給用戶。搜集、索引和檢索時搜索引擎體系框架之中的三個主要模塊。

首先是搜集模塊,通過互聯(lián)網(wǎng)中網(wǎng)絡蜘蛛的應用,可以實現(xiàn)對網(wǎng)頁的自動瀏覽,進而實現(xiàn)對信息的收集。網(wǎng)絡蜘蛛在B空間中能實現(xiàn)自動遍歷功能,可以對網(wǎng)頁上的內(nèi)容進行掃描,從一個網(wǎng)頁沿著網(wǎng)絡鏈接可以掃描到另一個網(wǎng)頁,通過鏈接的不斷傳遞可以把幾乎全部的網(wǎng)頁信息都收集起來;其次是索引模塊,陣地收集到的網(wǎng)頁,索引模塊可以完成分析操作,把頁面中的無用信息排除在外之后對網(wǎng)頁信息進行提取,比如頁面生成時間、網(wǎng)頁的URL地址、編碼類型、頁面的格式、與其余頁面鏈接的關(guān)系、頁面內(nèi)容含有的關(guān)鍵字及其位置等[6]。在每個頁面中,根據(jù)內(nèi)容與超鏈接關(guān)鍵字之間的相關(guān)度,采用復雜的算法可以計算出兩者之間的相關(guān)度,進而對網(wǎng)頁索引數(shù)據(jù)庫進行建設(shè);最后是檢索模塊,通過關(guān)鍵詞的輸入,用戶可以進行檢索,對用戶查詢時輸入的關(guān)鍵字進行分析,然后對建立好的索引進行訪問,在搜索引擎系統(tǒng)中,已經(jīng)計算得出所有網(wǎng)頁與輸入關(guān)鍵詞之間的相關(guān)度,系統(tǒng)要按照高低對相關(guān)度數(shù)值進行排序,搜索結(jié)果中的網(wǎng)頁關(guān)鍵信息和地址由頁面生成系統(tǒng)組織起來向用戶反饋就可以了。

(二)結(jié)構(gòu)化元數(shù)據(jù)搜索引擎

結(jié)構(gòu)化元數(shù)據(jù)搜索引擎是面向各級文化單位發(fā)布的結(jié)構(gòu)化文化信息資源采用的收割方式,處理流程包括收割和整合兩步。收割過程,即對分布在各地的元數(shù)據(jù)進行自動收集處理,該過程基于OAI-PMH協(xié)議,由中心收割服務器自動、定時對各級文化單位的加工層的元數(shù)據(jù)進行收割,元數(shù)據(jù)采用DublinCore格式,收割過程無需人工干預,系統(tǒng)按照既定設(shè)置自動運行。

整合,由于收割后的元數(shù)據(jù)內(nèi)容采用XML統(tǒng)一格式,這些元數(shù)據(jù)可以快速、透明、經(jīng)濟的進行整合,管理人員可以方便對各地分布式資源進行管理、檢索與統(tǒng)計。系統(tǒng)可以自動使相關(guān)資源產(chǎn)生關(guān)聯(lián),生成特色資源庫、專業(yè)門戶,對外提供元數(shù)據(jù)整合檢索。各中心數(shù)據(jù)庫通過門戶可以自動產(chǎn)生橫向關(guān)聯(lián),系統(tǒng)自動將相關(guān)數(shù)據(jù)同時發(fā)布,使得各中心資源形成有機整體。

(三)信息推送技術(shù)

作為一種公眾服務,信息推送提供的信息是可靠的,首先信息推送系統(tǒng)要具有可靠的信息,才能進一步的實現(xiàn)信息的推送。所以,信息推送平臺要把各類公共文化信息收集在一起,當然信息推送成員也可以自主添加這些信息。用戶要想接收到推送平臺發(fā)布的信息,首先要對自己的基本信息進行填寫,然后在平臺中對個性化的專屬主題進行定制,形成自己的檔案信息,主要包括信息的推送方式、推送內(nèi)容以及推送時間段等等。在數(shù)據(jù)庫中信息推送系統(tǒng)一旦檢索到用戶的需求信息,就會根據(jù)用戶填寫的興起愛好等基本信息,把符合條件的信息推送給用戶。圖3給出了具體的推送流程。

圖3 推送技術(shù)工作流程

四、結(jié)語

本文設(shè)計并實現(xiàn)的公共文化搜索平臺對網(wǎng)絡資源和結(jié)構(gòu)化元數(shù)據(jù)進行收割并存儲,可以直接搜索用戶提交的關(guān)鍵詞,是對相關(guān)以文化單位或互聯(lián)網(wǎng)上的文化信息資源的采集資源的搜索,用戶只需要指定搜索范圍并給出模糊的關(guān)鍵詞,就可以通過搜索引擎確定用戶需求的相關(guān)資源,理解用戶的搜索需求,同時,搜索平臺可以對認證用戶的搜索習慣進行記錄和分析,實現(xiàn)定向信息資源的推送,使公共文化搜索的查準率和查重率都得到有效提升。

[1]由麗萍,秦雅楠.框架與Petri網(wǎng)相結(jié)合的中文情境知識表示方法研究.信息系統(tǒng).2011,34:102~104.

[2]云健,王春霞.搜索引擎技術(shù)綜述[J].河西學院學報.2008(6):21~25.

[3]周琦.基于關(guān)鍵詞的語義搜索[D].上海:上海交通大學,2009.

[4]朱旭光,郭晶.雙重失靈與公共文化服務體系建設(shè)[J].經(jīng)濟論壇,2010(3):32~35.

[5]沈泉生.公共文化服務重在社會效益[N].中國文化報,2010(07)01.

[6]巫志南.現(xiàn)代服務型公共文化體制創(chuàng)新研究[J].華中師范大學學報(人文社會科學版),2008(10):55~59.

(作者單位:廣西壯族自治區(qū)圖書館)

趙云華(1971-),漢族,男,黑龍江依蘭人,副研究館員,本科,研究方向:圖書館信息化建設(shè)。

猜你喜歡
本體網(wǎng)頁檢索
基于MFI4OR標準的本體融合模型研究
眼睛是“本體”
基于HTML5與CSS3的網(wǎng)頁設(shè)計技術(shù)研究
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應用探討
瑞典專利數(shù)據(jù)庫的檢索技巧
2019年第4-6期便捷檢索目錄
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
英國知識產(chǎn)權(quán)局商標數(shù)據(jù)庫信息檢索
搜索引擎怎樣對網(wǎng)頁排序
專題