国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于社會(huì)計(jì)算的科普教育平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

2014-11-15 02:08:34
電子測試 2014年4期
關(guān)鍵詞:細(xì)粒度采集器分類器

薄 瑋

(陜西學(xué)前師范學(xué)院,西安,710100)

1 平臺(tái)的功能結(jié)構(gòu)設(shè)計(jì)

基于社會(huì)計(jì)算的科普教育平臺(tái)是一個(gè)面向科普領(lǐng)域的開放平臺(tái),主要由社會(huì)化科普信息搜索和科普Wiki兩大部分構(gòu)成,如圖1。面向科普領(lǐng)域的社會(huì)化搜索旨在向用戶提供精準(zhǔn)的科普信息檢索,具體包括用戶查詢、科普信息檢索、和社會(huì)化結(jié)果展示三部分??破誛iki模塊利用Wiki技術(shù),允許平臺(tái)中科普領(lǐng)域任何人添加和修改科普領(lǐng)域的術(shù)語詞條,從而日積月累逐漸形成一個(gè)完整嚴(yán)密的和相對權(quán)威的專業(yè)科普領(lǐng)域知識庫。該模塊包含用戶管理、問題提交、學(xué)習(xí)討論、協(xié)作共創(chuàng)、頁面管理、科普知識編輯等六部分。此平臺(tái)為用戶提供了網(wǎng)上學(xué)習(xí)交流、協(xié)作共創(chuàng)和問題解決的環(huán)境,更為透明的搜索服務(wù),允許用戶對搜索結(jié)果進(jìn)行評價(jià),通過對搜索結(jié)果進(jìn)行評分能夠影響對結(jié)果的排序。

圖1 平臺(tái)功能結(jié)構(gòu)圖

2 關(guān)鍵技術(shù)

2.1 社會(huì)化科普搜索引擎設(shè)計(jì)

本文提出的社會(huì)化科普搜索引擎主要強(qiáng)調(diào)兩方面設(shè)計(jì):(1)科普領(lǐng)域數(shù)據(jù)采集器的設(shè)計(jì);(2)社會(huì)化檢索機(jī)制設(shè)計(jì)。

2.1.1 科普數(shù)據(jù)采集器

科普數(shù)據(jù)采集器主要完成從網(wǎng)絡(luò)中抓取科普領(lǐng)域信息并入庫的工作,是一種面向領(lǐng)域的主題爬蟲。圖2所示為采集器架構(gòu)圖。其中,科普領(lǐng)域信息分類器是采集器的核心組件,負(fù)責(zé)主要的科普網(wǎng)頁分類工作。為提高爬取效率,本文同時(shí)添加種子域名判斷組件,用以實(shí)現(xiàn)站內(nèi)頁面預(yù)判,減少分類器開銷。

2.1.2 科普領(lǐng)域信息分類算法

科普領(lǐng)域信息覆蓋度大,內(nèi)容繁雜,比如天文、地理、自然、科技等類別均屬于科普信息。為處理如此粗粒度的分類問題,本文將科普領(lǐng)域信息進(jìn)行細(xì)粒度劃分,提出多細(xì)粒度分類器融合的集成分類方法。其基本思想是:給定一待分樣本,由科普領(lǐng)域細(xì)粒度分類器為其打分(0或1),最后匯總得分,分值高于某一閾值則認(rèn)為該樣本屬于科普領(lǐng)域。本文選擇支持向量機(jī)(SVM)作為細(xì)粒度分類器的分類算法,該算法是目前已知分類效果非常好的一種文本分類算法,具體實(shí)現(xiàn)上本文選用開源的LibSVM。

2.1.3 分類器準(zhǔn)確率實(shí)驗(yàn)

本文選擇百度百科作為細(xì)分科普領(lǐng)域信息的依據(jù)和訓(xùn)練樣本數(shù)據(jù)源。本次實(shí)驗(yàn)選擇其開放分類中的天文、歷史、地理、自然、科技等幾個(gè)大類作為科普細(xì)分類別,從百度百科中抽取各類別下子類的top-50的詞條用作訓(xùn)練樣本,共得到10000篇科普類樣本。對于細(xì)分非科普類,本文以搜狗互聯(lián)網(wǎng)分類語料庫中的非科普類子類目錄為依據(jù),從各子類中隨機(jī)選取非科普訓(xùn)練樣本,同樣得到 10000篇語料作為非科普類樣本集。兩者合計(jì)共20000篇用作實(shí)驗(yàn)的開放測試數(shù)據(jù)集。

本文選擇保持(Holdout)方法對各細(xì)分分類器進(jìn)行訓(xùn)練,其中訓(xùn)練集和檢驗(yàn)集的劃分比為2:1。選擇常用的準(zhǔn)確率、召回率和F-Measure作為科普分類器的評價(jià)指標(biāo)。經(jīng)計(jì)算,本系統(tǒng)科普領(lǐng)域分類器的各項(xiàng)指標(biāo)結(jié)果如下:

由此可知,本文基于多細(xì)粒度分類器融合的集成分類器具有較高的分類性能,準(zhǔn)確率和召回率均達(dá)90%以上。

2.1.4 基于Lucene的社會(huì)化檢索機(jī)制

Lucene是一個(gè)開放源代碼的全文檢索引擎工具包,提供了完整的查詢引擎和索引引擎,具有索引文件格式獨(dú)立于應(yīng)用平臺(tái)、優(yōu)秀的面向?qū)ο蠹軜?gòu)、分塊索引、語言和文件格式易于擴(kuò)展等諸多優(yōu)點(diǎn)?;贚ucene的檢索框架,本系統(tǒng)將社會(huì)化搜索的概念引入到科普信息檢索中,在Lucene的相關(guān)度評分機(jī)制上引入社會(huì)因子,使搜索結(jié)果更加社會(huì)化。社會(huì)因子起到人為調(diào)節(jié)結(jié)果權(quán)重的作用,允許用戶對搜索結(jié)果打分。這種評分機(jī)制,使得社會(huì)化科普信息搜索能夠更個(gè)性化地對結(jié)果排序,從而為用戶提供更好的檢索體驗(yàn)。

2.2 科普Wiki的實(shí)現(xiàn)

基于維基百科的理念,本系統(tǒng)采用JSPWiki引擎設(shè)計(jì)并實(shí)現(xiàn)科普Wiki模塊。JSPWiki本身自帶了身份認(rèn)證、版本控制等基本功能。在其基礎(chǔ)上,本文添加各項(xiàng)教育相關(guān)的子功能,如科普教學(xué)中的問題提交功能,允許注冊用戶提交各種科普問題,其他注冊或非注冊用戶可以對所瀏覽問題進(jìn)行回答。本系統(tǒng)以文本文件的形式存儲(chǔ)用戶產(chǎn)生的各種數(shù)據(jù),為了方便用戶權(quán)限管理,采用MySQL存儲(chǔ)用戶信息。

3 小結(jié)

基于社會(huì)計(jì)算,本文綜合運(yùn)用社會(huì)化搜索技術(shù)及Wiki技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向科普領(lǐng)域的教育平臺(tái)。該平臺(tái)主要包括社會(huì)化科普信息搜索和科普Wiki兩大模塊。在科普領(lǐng)域數(shù)據(jù)采集中,本文設(shè)計(jì)采用人工干預(yù)與先采集后過濾相結(jié)合的爬取策略,提出多細(xì)粒度分類器融合的集成分類方法進(jìn)行數(shù)據(jù)過濾。實(shí)驗(yàn)表明,該方法對于科普領(lǐng)域具有較高的分類性能。本文在檢索部分引入社會(huì)因子,允許用戶對搜索結(jié)果打分,從而為用戶提供更個(gè)性化的搜索服務(wù)。同時(shí)基于維基百科的理念,采用JSPWiki引擎實(shí)現(xiàn)一個(gè)科普Wiki,可供用戶添加、編輯、評論科普信息,自創(chuàng)科普資源,提升自主學(xué)習(xí)能力。本平臺(tái)對于推進(jìn)全民科普、提升素質(zhì)教育具有重要意義。

[1]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.

[2]Linda Schwartz,Sharon Clork,Mary Cossarin et al.Educational Wikis:Features and selection criteria.Technical Education Report 27-International Review of Research in Open and Distance Learning,Vol.5(1),2004.4.

[3]Anja Ebersbach,Markus Glaser,Richard Heigl.Wiki Web Collaboration.Springer.Verlag Berlin Heidelberg,2006.

[4]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1--27:27,2011.

猜你喜歡
細(xì)粒度采集器分類器
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
COVID-19大便標(biāo)本采集器的設(shè)計(jì)及應(yīng)用
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
基于ZigBee的大型公共建筑能耗采集器設(shè)計(jì)
基于LabVIEW的多數(shù)據(jù)采集器自動(dòng)監(jiān)控軟件設(shè)計(jì)與開發(fā)
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
东山县| 营口市| 临猗县| 南和县| 甘孜县| 夏河县| 潜山县| 曲沃县| 宜城市| 平武县| 哈巴河县| 封开县| 工布江达县| 昌宁县| 龙口市| 诸城市| 鄢陵县| 夏河县| 乡城县| 黔西县| 黑水县| 临澧县| 永泰县| 万全县| 墨脱县| 德格县| 连州市| 通榆县| 阿克陶县| 华宁县| 浦城县| 迭部县| 南召县| 东城区| 虞城县| 北海市| 旬邑县| 融水| 托里县| 行唐县| 明光市|