薄 瑋
(陜西學(xué)前師范學(xué)院,西安,710100)
基于社會(huì)計(jì)算的科普教育平臺(tái)是一個(gè)面向科普領(lǐng)域的開放平臺(tái),主要由社會(huì)化科普信息搜索和科普Wiki兩大部分構(gòu)成,如圖1。面向科普領(lǐng)域的社會(huì)化搜索旨在向用戶提供精準(zhǔn)的科普信息檢索,具體包括用戶查詢、科普信息檢索、和社會(huì)化結(jié)果展示三部分??破誛iki模塊利用Wiki技術(shù),允許平臺(tái)中科普領(lǐng)域任何人添加和修改科普領(lǐng)域的術(shù)語詞條,從而日積月累逐漸形成一個(gè)完整嚴(yán)密的和相對權(quán)威的專業(yè)科普領(lǐng)域知識庫。該模塊包含用戶管理、問題提交、學(xué)習(xí)討論、協(xié)作共創(chuàng)、頁面管理、科普知識編輯等六部分。此平臺(tái)為用戶提供了網(wǎng)上學(xué)習(xí)交流、協(xié)作共創(chuàng)和問題解決的環(huán)境,更為透明的搜索服務(wù),允許用戶對搜索結(jié)果進(jìn)行評價(jià),通過對搜索結(jié)果進(jìn)行評分能夠影響對結(jié)果的排序。
圖1 平臺(tái)功能結(jié)構(gòu)圖
本文提出的社會(huì)化科普搜索引擎主要強(qiáng)調(diào)兩方面設(shè)計(jì):(1)科普領(lǐng)域數(shù)據(jù)采集器的設(shè)計(jì);(2)社會(huì)化檢索機(jī)制設(shè)計(jì)。
2.1.1 科普數(shù)據(jù)采集器
科普數(shù)據(jù)采集器主要完成從網(wǎng)絡(luò)中抓取科普領(lǐng)域信息并入庫的工作,是一種面向領(lǐng)域的主題爬蟲。圖2所示為采集器架構(gòu)圖。其中,科普領(lǐng)域信息分類器是采集器的核心組件,負(fù)責(zé)主要的科普網(wǎng)頁分類工作。為提高爬取效率,本文同時(shí)添加種子域名判斷組件,用以實(shí)現(xiàn)站內(nèi)頁面預(yù)判,減少分類器開銷。
2.1.2 科普領(lǐng)域信息分類算法
科普領(lǐng)域信息覆蓋度大,內(nèi)容繁雜,比如天文、地理、自然、科技等類別均屬于科普信息。為處理如此粗粒度的分類問題,本文將科普領(lǐng)域信息進(jìn)行細(xì)粒度劃分,提出多細(xì)粒度分類器融合的集成分類方法。其基本思想是:給定一待分樣本,由科普領(lǐng)域細(xì)粒度分類器為其打分(0或1),最后匯總得分,分值高于某一閾值則認(rèn)為該樣本屬于科普領(lǐng)域。本文選擇支持向量機(jī)(SVM)作為細(xì)粒度分類器的分類算法,該算法是目前已知分類效果非常好的一種文本分類算法,具體實(shí)現(xiàn)上本文選用開源的LibSVM。
2.1.3 分類器準(zhǔn)確率實(shí)驗(yàn)
本文選擇百度百科作為細(xì)分科普領(lǐng)域信息的依據(jù)和訓(xùn)練樣本數(shù)據(jù)源。本次實(shí)驗(yàn)選擇其開放分類中的天文、歷史、地理、自然、科技等幾個(gè)大類作為科普細(xì)分類別,從百度百科中抽取各類別下子類的top-50的詞條用作訓(xùn)練樣本,共得到10000篇科普類樣本。對于細(xì)分非科普類,本文以搜狗互聯(lián)網(wǎng)分類語料庫中的非科普類子類目錄為依據(jù),從各子類中隨機(jī)選取非科普訓(xùn)練樣本,同樣得到 10000篇語料作為非科普類樣本集。兩者合計(jì)共20000篇用作實(shí)驗(yàn)的開放測試數(shù)據(jù)集。
本文選擇保持(Holdout)方法對各細(xì)分分類器進(jìn)行訓(xùn)練,其中訓(xùn)練集和檢驗(yàn)集的劃分比為2:1。選擇常用的準(zhǔn)確率、召回率和F-Measure作為科普分類器的評價(jià)指標(biāo)。經(jīng)計(jì)算,本系統(tǒng)科普領(lǐng)域分類器的各項(xiàng)指標(biāo)結(jié)果如下:
由此可知,本文基于多細(xì)粒度分類器融合的集成分類器具有較高的分類性能,準(zhǔn)確率和召回率均達(dá)90%以上。
2.1.4 基于Lucene的社會(huì)化檢索機(jī)制
Lucene是一個(gè)開放源代碼的全文檢索引擎工具包,提供了完整的查詢引擎和索引引擎,具有索引文件格式獨(dú)立于應(yīng)用平臺(tái)、優(yōu)秀的面向?qū)ο蠹軜?gòu)、分塊索引、語言和文件格式易于擴(kuò)展等諸多優(yōu)點(diǎn)?;贚ucene的檢索框架,本系統(tǒng)將社會(huì)化搜索的概念引入到科普信息檢索中,在Lucene的相關(guān)度評分機(jī)制上引入社會(huì)因子,使搜索結(jié)果更加社會(huì)化。社會(huì)因子起到人為調(diào)節(jié)結(jié)果權(quán)重的作用,允許用戶對搜索結(jié)果打分。這種評分機(jī)制,使得社會(huì)化科普信息搜索能夠更個(gè)性化地對結(jié)果排序,從而為用戶提供更好的檢索體驗(yàn)。
基于維基百科的理念,本系統(tǒng)采用JSPWiki引擎設(shè)計(jì)并實(shí)現(xiàn)科普Wiki模塊。JSPWiki本身自帶了身份認(rèn)證、版本控制等基本功能。在其基礎(chǔ)上,本文添加各項(xiàng)教育相關(guān)的子功能,如科普教學(xué)中的問題提交功能,允許注冊用戶提交各種科普問題,其他注冊或非注冊用戶可以對所瀏覽問題進(jìn)行回答。本系統(tǒng)以文本文件的形式存儲(chǔ)用戶產(chǎn)生的各種數(shù)據(jù),為了方便用戶權(quán)限管理,采用MySQL存儲(chǔ)用戶信息。
基于社會(huì)計(jì)算,本文綜合運(yùn)用社會(huì)化搜索技術(shù)及Wiki技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向科普領(lǐng)域的教育平臺(tái)。該平臺(tái)主要包括社會(huì)化科普信息搜索和科普Wiki兩大模塊。在科普領(lǐng)域數(shù)據(jù)采集中,本文設(shè)計(jì)采用人工干預(yù)與先采集后過濾相結(jié)合的爬取策略,提出多細(xì)粒度分類器融合的集成分類方法進(jìn)行數(shù)據(jù)過濾。實(shí)驗(yàn)表明,該方法對于科普領(lǐng)域具有較高的分類性能。本文在檢索部分引入社會(huì)因子,允許用戶對搜索結(jié)果打分,從而為用戶提供更個(gè)性化的搜索服務(wù)。同時(shí)基于維基百科的理念,采用JSPWiki引擎實(shí)現(xiàn)一個(gè)科普Wiki,可供用戶添加、編輯、評論科普信息,自創(chuàng)科普資源,提升自主學(xué)習(xí)能力。本平臺(tái)對于推進(jìn)全民科普、提升素質(zhì)教育具有重要意義。
[1]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.
[2]Linda Schwartz,Sharon Clork,Mary Cossarin et al.Educational Wikis:Features and selection criteria.Technical Education Report 27-International Review of Research in Open and Distance Learning,Vol.5(1),2004.4.
[3]Anja Ebersbach,Markus Glaser,Richard Heigl.Wiki Web Collaboration.Springer.Verlag Berlin Heidelberg,2006.
[4]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1--27:27,2011.