王春梅,孫占全,李 釗,楊 春
?
科研動(dòng)態(tài)搜索引擎的自動(dòng)分類方法研究
王春梅1,2,3,孫占全1,2,3,李 釗1,2,3,楊 春3
(1.山東省計(jì)算中心(國(guó)家超級(jí)計(jì)算濟(jì)南中心);2.山東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室;3.山東省電子政務(wù)大數(shù)據(jù)示范工程技術(shù)研究中心,濟(jì)南 250014)
摘要:隨著搜索引擎應(yīng)用的不斷深入,人們對(duì)搜索引擎的個(gè)性化需求越來(lái)越多,對(duì)搜索結(jié)果的要求也越來(lái)越越高,如何實(shí)現(xiàn)高精準(zhǔn)的垂直領(lǐng)域信息搜索和推薦是目前搜索領(lǐng)域所面臨的難題??蒲袆?dòng)態(tài)是科研工作者非常關(guān)心的信息,為提供更高效精準(zhǔn)的科研動(dòng)態(tài)信息,本文將基于半監(jiān)督的分類方法用于科研動(dòng)態(tài)信息的自動(dòng)分類,用于科研動(dòng)態(tài)搜索引擎系統(tǒng),實(shí)現(xiàn)科研動(dòng)態(tài)信息按用戶需求精準(zhǔn)搜索和推送,通過(guò)實(shí)例驗(yàn)證分類方法的有效性。
關(guān)鍵詞:文本分類;半監(jiān)督學(xué)習(xí);搜索引擎;科研動(dòng)態(tài)
隨著電子信息技術(shù)的快速發(fā)展,信息化辦公已成為當(dāng)前政府、科研機(jī)構(gòu)、企事業(yè)單位的主流形式,互聯(lián)網(wǎng)已成為查詢信息的主要渠道,搜索引擎成為工作人員的日常工具。常用的搜索引擎包括百度、谷歌、必應(yīng)、雅虎等水平搜索引擎,其搜索信息覆蓋面廣,信息量大,可滿足各類用戶的通用需求。但通用搜索引擎在提供豐富信息的同時(shí),也帶來(lái)一些問(wèn)題,如結(jié)果不準(zhǔn)確、實(shí)效性差等[1]。隨著搜索引擎應(yīng)用的不斷深入,人們對(duì)搜索引擎的個(gè)性化需求越來(lái)越多,對(duì)搜索結(jié)果的要求也越來(lái)越高,因此,針對(duì)一些特定領(lǐng)域的垂直搜索引擎得到廣泛的關(guān)注,垂直搜索引擎是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶,可為用戶提供更加“專、精、深”的搜索結(jié)果,現(xiàn)已形成很多行業(yè)搜索引擎,如購(gòu)物,旅游,汽車,工作,房產(chǎn),交友等行業(yè)[2]。垂直搜索的行業(yè)應(yīng)用越來(lái)越細(xì)分化,需求也越來(lái)越多。高??蒲性核浅jP(guān)注科研動(dòng)態(tài)信息,包括各級(jí)政府部門發(fā)布的科研政策、項(xiàng)目主管部門發(fā)布的項(xiàng)目指南等動(dòng)態(tài)信息,及時(shí)了解各種科研動(dòng)態(tài)信息對(duì)應(yīng)科研工作者的項(xiàng)目成功申報(bào)非常重要??蒲泄ぷ魅藛T關(guān)注的網(wǎng)站有幾十,甚至上百個(gè),每個(gè)網(wǎng)站瀏覽一遍,需要花費(fèi)大量的時(shí)間,為方便科研工作人員的科研動(dòng)態(tài)信息的方便快捷獲取,形成了科研動(dòng)態(tài)搜索引擎,可實(shí)現(xiàn)科研動(dòng)態(tài)信息的檢索和推送??蒲袆?dòng)態(tài)信息數(shù)量很多,包含的內(nèi)容也多種多樣,為實(shí)現(xiàn)科研動(dòng)態(tài)信息的精準(zhǔn)推送,需要文本分類方法對(duì)抓取信息進(jìn)行自動(dòng)分類。
文本分類已有大量的研究,高精度的文本分類模型通常需要大量的標(biāo)注樣本,而大量的樣本標(biāo)注通常需要通過(guò)人工標(biāo)注來(lái)實(shí)現(xiàn),需要花費(fèi)大量的時(shí)間,一般很難獲取大量的訓(xùn)練樣本[3、4]。針對(duì)少量有標(biāo)注樣本的文本分類,也有一些研究工作,主要是基于半監(jiān)督學(xué)習(xí)的分類方法[5、6]。本文將基于半監(jiān)督的分類方法用于科研動(dòng)態(tài)信息的自動(dòng)分類,實(shí)現(xiàn)科研動(dòng)態(tài)信息的精準(zhǔn)推送。
科研單位的科研工作者需要關(guān)注大量的科研動(dòng)態(tài)信息,如科技項(xiàng)目指南、科技獎(jiǎng)勵(lì)申報(bào)、科技活動(dòng)信息等,為實(shí)現(xiàn)相關(guān)信息的自動(dòng)采集,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),通過(guò)網(wǎng)頁(yè)種子設(shè)置,定向抓取相關(guān)網(wǎng)站信息;網(wǎng)頁(yè)信息通常是半結(jié)構(gòu)化信息,通過(guò)網(wǎng)頁(yè)結(jié)構(gòu)解析,將網(wǎng)頁(yè)主體內(nèi)容提取出來(lái),利用分布式NoSql數(shù)據(jù)庫(kù)Hbase對(duì)抓取的大量網(wǎng)頁(yè)信息進(jìn)行分布式存儲(chǔ);利用文本分析技術(shù),包括中文分詞、特征提取、建立索引等技術(shù),實(shí)現(xiàn)網(wǎng)頁(yè)信息的提取和快速檢索;根據(jù)提取的文本特征信息,對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行挖掘分析,實(shí)現(xiàn)網(wǎng)頁(yè)分類、搜索推薦等功能;以門戶網(wǎng)站和郵件推送的形式為科研工作者提供服務(wù)??蒲袆?dòng)態(tài)搜索引擎的系統(tǒng)結(jié)構(gòu)如圖所示。本文主要針對(duì)搜索引擎的網(wǎng)頁(yè)內(nèi)容自動(dòng)分類方法進(jìn)行研究,實(shí)現(xiàn)科研動(dòng)態(tài)信息的自動(dòng)分類。
圖1 科研動(dòng)態(tài)搜索引擎系統(tǒng)架構(gòu)
半監(jiān)督學(xué)習(xí)是對(duì)具有少量標(biāo)簽樣本的分類問(wèn)題的有效方法之一。針對(duì)半監(jiān)督學(xué)習(xí),提出了的很多模型,其中tri-training模型是對(duì)協(xié)同訓(xùn)練模型的改進(jìn),降低了對(duì)數(shù)據(jù)集兩個(gè)冗余視圖的條件,從而大大提供了模型的可應(yīng)用性。本文利用tri-training模型對(duì)科研動(dòng)態(tài)信息進(jìn)行分類,采用的分類器包括支持向量機(jī)、最近鄰規(guī)則分類和Bayes分類器,方法介紹如下。
3.1支持向量機(jī)
支持向量機(jī)首先將輸入單元映射到高維的特征空間,然后找一個(gè)分割超平面使得兩類之間的邊緣最大,邊緣最大化是個(gè)二次規(guī)劃問(wèn)題,通過(guò)引入拉格朗日乘子可以變換成對(duì)偶問(wèn)題來(lái)解決[7]。
分類任務(wù)通常包括一定樣本量的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),在每個(gè)訓(xùn)練樣本中都包含一個(gè)目標(biāo)值和多個(gè)因素,支持向量機(jī)的目的是生成一個(gè)在只知道測(cè)試數(shù)據(jù)的因素值就可以預(yù)測(cè)目標(biāo)值的模型。通過(guò)優(yōu)化計(jì)算求得后,用下面的決策函數(shù)實(shí)現(xiàn)分類分析
3.2KNN
最近鄰規(guī)則方法是按一定的相關(guān)測(cè)度,搜索與待分類向量最臨近的k個(gè)樣本,通過(guò)判斷k個(gè)樣本的所屬類別最多的一類來(lái)確定所屬類別[8]。本文根據(jù)歐氏距離來(lái)確定待分類向量與樣本之間的相關(guān)性,即
在計(jì)算完所有樣本與待分類向量的相關(guān)度后,選擇相關(guān)度最大即距離最小的k個(gè)樣本,然后,利用投票表決法,近鄰中哪個(gè)類別的點(diǎn)最多就分為該類。
3.3樸素Bayes網(wǎng)絡(luò)
樸素Bayes分類是一種簡(jiǎn)單的分類算法,對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,選擇概率最大的一類作為分類結(jié)果[9]。設(shè)為一個(gè)待分類項(xiàng),其中為特征變量維數(shù),為的一個(gè)特征屬性,類別集合,其中為類別數(shù)。首先,根據(jù)樣本計(jì)算各類的特征條件概率分布
假設(shè)各個(gè)特征屬性是條件獨(dú)立的,貝葉斯定理為
根據(jù)Bayes定理,對(duì)于待分類項(xiàng),通過(guò)下式確定該項(xiàng)的所屬類別。
利用上面介紹的三個(gè)分類器,對(duì)有標(biāo)簽的樣本進(jìn)行建模訓(xùn)練,分布得到相應(yīng)的分類器,對(duì)于任意一個(gè)無(wú)標(biāo)簽的樣本 ,用已訓(xùn)練好的分類器進(jìn)行分類,如果有兩個(gè)分類器的結(jié)果一致,則將其進(jìn)行標(biāo)注為該類,然后將其加入到另外一個(gè)分類其的訓(xùn)練樣本當(dāng)中。對(duì)所用無(wú)標(biāo)簽樣本進(jìn)行分類分析,更新各個(gè)分類器的訓(xùn)練樣本,然后對(duì)分類器進(jìn)行重新訓(xùn)練,直到分類器不再變化為止。
文本分類需要對(duì)文本進(jìn)行處理,提取出文本特征,從而進(jìn)行挖掘分析,分析過(guò)程如下。
(1)文本特征提取
首先利用分詞工具對(duì)抓取的網(wǎng)頁(yè)信息進(jìn)行分詞,然后利用TF-IDF方法對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,生成網(wǎng)頁(yè)特征向量。
(2) 特征選擇
文本生成的特征向量維數(shù)是根據(jù)所有分析文檔生成的分詞詞庫(kù)確定的,當(dāng)文本量很大時(shí),文本向量的維數(shù)會(huì)很高,如果用所有特征對(duì)文檔進(jìn)行分類分析,計(jì)算量會(huì)非常大,而且大多數(shù)的特征對(duì)于文檔分類并不起作用。為提高文檔分類的效率,需要對(duì)生成的文檔特征進(jìn)行特征選擇,選擇信息量最大的特征組合進(jìn)行文檔分類。本文采用無(wú)監(jiān)督的單詞貢獻(xiàn)度法對(duì)文本特征進(jìn)行選擇。單詞貢獻(xiàn)度認(rèn)為一個(gè)單詞的重要性取決于它對(duì)整個(gè)文本數(shù)據(jù)集相似性的貢獻(xiàn)程度,其計(jì)算公式為:
(3)文檔分類
在獲取網(wǎng)頁(yè)的文本特征后,根據(jù)第3節(jié)介紹的半監(jiān)督學(xué)習(xí)方法對(duì)文檔進(jìn)行分類分析,從而實(shí)現(xiàn)科研動(dòng)態(tài)網(wǎng)頁(yè)的自動(dòng)分類。
5.1數(shù)據(jù)源
針對(duì)山東省計(jì)算機(jī)領(lǐng)域科研部門的通用需求,利用科研動(dòng)態(tài)搜索引擎系統(tǒng)抓取了科技部、工信部、國(guó)家自然基金委、發(fā)改委、山東省科技廳、山東省經(jīng)信委、山東省發(fā)改委、濟(jì)南市科技局、濟(jì)南市經(jīng)信委等40多個(gè)網(wǎng)站的通知通告和科技動(dòng)態(tài)相關(guān)欄目網(wǎng)頁(yè)信息,共收集了30000多條數(shù)據(jù)。根據(jù)用戶對(duì)科研動(dòng)態(tài)信息需求的不同,將抓取信息分為三種類型:政策類、新聞?lì)?、?xiàng)目申報(bào)類。人工標(biāo)注每類1000個(gè),共3000個(gè)樣本,利用本文提出的半監(jiān)督分類方法,根據(jù)已采集的信息進(jìn)行分類建模,生成科技動(dòng)態(tài)信息的自動(dòng)分類模型,對(duì)新抓取的科技動(dòng)態(tài)信息自動(dòng)分類。
5.2文本處理
首先,利用中科院分析工具ICTCLAS,對(duì)已收集的30000個(gè)樣本進(jìn)行分詞,分別標(biāo)題和正文進(jìn)行分詞,分別生成8912和15032分詞向量維度。根據(jù)式(4)計(jì)算每個(gè)分詞在每個(gè)文檔的標(biāo)題和正文中的TF-IDF值,生成標(biāo)題和全文的文檔向量。根據(jù)單詞貢獻(xiàn)度計(jì)算公式(9),分別針對(duì)標(biāo)題向量和全文向量的每個(gè)分詞計(jì)算單詞貢獻(xiàn)度,分詞選擇300個(gè)和500個(gè)貢獻(xiàn)度最大的分詞作為選擇的特征用于文本的分類。
5.3文檔分類
根據(jù)已標(biāo)注的3000個(gè)樣本,利用選擇300個(gè)分詞的特征向量,對(duì)基于標(biāo)題的文檔分類模型進(jìn)行訓(xùn)練,包括支持向量機(jī)、KNN和Bayes網(wǎng)絡(luò);利用選擇的500個(gè)分詞的特征向量,對(duì)基于全文的文檔分類模型進(jìn)行訓(xùn)練,包括支持向量機(jī)、KNN和Bayes網(wǎng)絡(luò)。根據(jù)生成的6個(gè)分類模型,利用第3節(jié)介紹的半監(jiān)督分類方法,利用其余27000個(gè)無(wú)標(biāo)識(shí)的樣本對(duì)分類模型進(jìn)行訓(xùn)練,對(duì)無(wú)標(biāo)識(shí)樣本進(jìn)行自動(dòng)分類,生成科技動(dòng)態(tài)自動(dòng)分類模型,用于新抓取信息的自動(dòng)分類。
27000個(gè)未標(biāo)識(shí)樣本中,選擇1000個(gè)進(jìn)行人工驗(yàn)證,分類正確率達(dá)到85.4%,能夠滿足實(shí)際應(yīng)用的需求。
面向行業(yè)應(yīng)的垂直搜索引擎在各領(lǐng)域的需求越來(lái)越多,對(duì)獲取信息的精準(zhǔn)性、有效性要求越來(lái)越高,為實(shí)現(xiàn)更加高效、精準(zhǔn)的信息推送,將人工智能技術(shù)應(yīng)用到搜索引擎系統(tǒng)已成為必然,雖然在這方面已有大量的研究工作,但由于垂直搜索引擎的個(gè)性化要求太多,很多應(yīng)用領(lǐng)域的需求沒(méi)有解決。本文將半監(jiān)督學(xué)習(xí)的分類方法,應(yīng)用于科研動(dòng)態(tài)垂直搜索引擎系統(tǒng)中,解決了不同用戶對(duì)不同信息的需求問(wèn)題,得到了令人滿意的結(jié)果。在科研動(dòng)態(tài)搜索引擎領(lǐng)域還有很多需要進(jìn)一步研究的問(wèn)題,將結(jié)合更多的人工智能技術(shù)來(lái)提升系統(tǒng)性能是我們接下來(lái)的研究工作。
參考文獻(xiàn):
[1]程時(shí)端,郭亮,王文東. 社會(huì)搜索研究綜述[J]. 北京郵電大學(xué)學(xué)報(bào),2013,36(1): 1-12.
[2]王文鈞,李巍. 垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 情報(bào)科學(xué),2010,28(3): 477-480.
[3]文翰,肖南峰. 基于強(qiáng)類別特征近鄰傳播的半監(jiān)督文本聚類[J]. 模式識(shí)別與人工智能,2014,27(7): 646-654.
[4]Uysal,A. K.,and Gunal,S. A novel probabilistic feature selection method for text classification[J]. Knowledge- Based Systems,2012,36: 226-235.
[5]G. Li,K. Chang,S. C. H. Hoi. Multiview Semi-Supervised Learning with Consensus[J]. IEEE Transactions on Knowledge and Data Engineering,2012,24(11): 2040-2051.
[6]X. Cui,J. Huang,J. T. Chien. Multi-View and Multi-Objective Semi-Supervised Learning for HMM-Based Automatic Speech Recognition[J]. IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7): 1923-1935.
[7]丁世飛,齊丙娟,譚紅艷. 支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1): 2-9.
[8]郭躬德,黃杰,陳黎飛. 基于KNN模型的增量學(xué)習(xí)算法[J].模式識(shí)別與人工智能 2010,23(5): 701-707.
[9]劉嘯嘯. 基于Bayes算法的網(wǎng)頁(yè)文本分類研究[J]. 數(shù)字技術(shù)與應(yīng)用,2015,(12): 138-139.
(責(zé)任編輯:張 萌)
Study on Classification Methods of Scientific Research Search Engine
WANG Chunmei1,2,3,SUN Zhanquan1,2,3,LI Zhao1,2,3,YANG Chun3
(1.Shandong Computer Science Center(National Supercomputer Center in Jinan);2.Shandong Provincial Key Laboratory of Computer Networks;3.Shandong Demonstration Engineering Technology Research Center of E-government Big Data,Jinan 250014)
Abstract:With the development of searching engine,more and more personal requirement about searching comes into being. The requirement is higher than before. How to provide efficiency and accurate searching and recommending results is a difficult issue to be resolved. Scientific research trends is concerned by each research and different research has different requirement. For providing more accurate scientific research trends information,semi-supervised learning model is used to realize auto classification of scientific research related information. The classified information is recommended according to different personal requirement. The efficiency of the method is illustrated through practical analysis.
Keywords:Text classification;Semi-supervised learning;Searching engine;Scientific research trends
中圖分類號(hào):G254
文獻(xiàn)標(biāo)識(shí)碼 :A DOI∶10.3969/j.issn.1003-8256.2016.02.006
基金項(xiàng)目:國(guó)家自然基金項(xiàng)目(61472230)、山東省計(jì)算中心(國(guó)家超級(jí)計(jì)算濟(jì)南中心)內(nèi)部立項(xiàng)資助(2015-003)
作者簡(jiǎn)介:王春梅 (1974-),女,副研究員,研究方向:軟件工程技術(shù)、大數(shù)據(jù) 。