国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本語義的SA-LDA增量爬取圖書選擇與推介

2020-07-21 03:31:24
惠州學院學報 2020年3期
關鍵詞:主題詞增量網(wǎng)頁

藍 燕

(惠州學院 圖書館,廣東 惠州 516007)

隨著本體的應用不斷深入,人工智能、知識工程和圖書情報領域的研究大都集中于知識概念表示和知識組織體系方面的研究[1].然而,在圖書情報領域,本體通常關聯(lián)的是有關某一學科或某一領域的術語詞表,并描述術語之間關系的規(guī)范和說明,這為領域本體構建行業(yè)知識庫提供了保證.

傳統(tǒng)的網(wǎng)絡爬蟲較少從主題相關度與時間等去采集頁面,從而導致計算資源和網(wǎng)絡帶寬的能耗.主題網(wǎng)絡爬蟲則更加關注爬取與預先定義主題相關度較高的網(wǎng)頁,不但能節(jié)省網(wǎng)絡資源且能進一步提高整個數(shù)據(jù)爬取的效率[2].為快速而精準地響應圖書采購前推介服務的請求,全面提升計算效率,基于文本語義的增量爬取是關鍵[3].然而,實現(xiàn)語義Web的前提是透過本體語言OWL(Web Ontology Language)來描述特定領域中的概念及其關系與公理,通過對這些概念和關系交互與推理,更好地為實現(xiàn)語義信息搜索提供可靠的服務.因此探討一種能進行語義搜索與推理的知識庫就顯得非常關鍵,而本體層在提供語義級的Web共享與實現(xiàn)至關重要.到目前為止,關于語義Web相關的研究很多.有以識別網(wǎng)絡論壇中的敏感話題為目標,根據(jù)網(wǎng)絡敏感話題具有先驗知識和態(tài)度傾向性等特點,提出了基于傾向性詞典的特征提取方法,用于提高網(wǎng)絡敏感話題的識別;也有提出基于語義學習對象組合的框架和算法,涉及到本體的元數(shù)據(jù)且能更加易于計算的方式動態(tài)組合描述邏輯中的推理服務;還有提出了支持多媒體應用、上下文感知的個性化搜索的架構,用于內(nèi)容推薦[4].然而,針對當前語義檢索建立在已有本體的基礎之上,缺乏與當今不斷涌現(xiàn)的網(wǎng)絡資源自適應動態(tài)變化的過程,因此必須探討增量爬取的問題,研究如何在現(xiàn)有互聯(lián)網(wǎng)資源中針對行業(yè)領域術語爬取構建本體庫的問題.一般地,可通過定量地計算主題詞間的相關值確定它們的類屬關系,并能確保同一類中的各項指標盡可能相似,從而達到合理分類的目的[5].

目前圖書館的采購活動通常是依賴書商推介最新出版書目,缺乏對當前新技術、新領域的引導.隨著互聯(lián)網(wǎng)技術的進一步應用,以網(wǎng)絡大數(shù)據(jù)為基礎,透過主題關鍵詞的語義增量爬取進而實現(xiàn)書目的推介,構建領域專業(yè)技術語義庫,通過已有書目進行相似度、相關度的定量計算,最終實現(xiàn)多目標決策算法選擇差異性大且出版日期新的圖書.

1 文本語義增量學習模型

針對互聯(lián)網(wǎng)上實時動態(tài)變化的大數(shù)據(jù),增量爬取與更新當前語義庫數(shù)據(jù)就顯得非常重要.當前,研究人員相繼提出了多種增量式大數(shù)據(jù)特征學習模型.其中,在線學習的方式獲得了學術界的巨大關注[6].這類模型每學習一個實例便更新一次學習網(wǎng)絡的參數(shù),能不斷獲取新數(shù)據(jù)的特征.隨著網(wǎng)絡規(guī)模的擴大,學習模型必須考量訓練速度、學習能力和泛化能力幾大因素.因此必須選擇一種基于文本語義的增量學習模型,來改進文本語義歸屬的識別模型,通過收集用戶反饋數(shù)據(jù),提取其中有價值的信息來更新領域語義庫.由此,文本語義相似度計算就顯得至關重要.

通常,基于語法的相似度計算是建立在詞形比較的基礎上,實現(xiàn)的匹配較為淺顯,不能區(qū)分概念的實際語義,因此論文以自然語言本體為橋梁,通過對本體概念的語義解釋,實現(xiàn)基于語義的本體概念的相似度計算[4].

1.1 傳統(tǒng)TF-IDF方法

基于文本的檢索方法通常指的是查詢關鍵詞與文本之間的相關性.根據(jù)向量空間模型(vector space model),關鍵詞在web文檔中的重要性用該單詞的TFIDF值來度量.假設單詞w來自第i個web文檔di中,單詞w的TF-IDF值tfIdf(w)計算公式為[7]:

其中,freq(w,di)是單詞 w 在文檔 di中的詞頻,N是文檔的總數(shù),num(w)是web文檔中含有單詞w的總數(shù).由于TF-IDF方法來源于文本處理領域,tfIdf(w)并不能直接地度量單詞和主題之間的相關性.因此,需要進一步挖掘單詞和主題之間語義聯(lián)系.

1.2 自適應最優(yōu)LDA模型

近年來,統(tǒng)計主題模型在文本分類與信息檢索等領域獲得了廣泛的應用,主要是針對文本集合通過參數(shù)估計提取一個低維的多項式分布,從而計算詞的相關性 .Self-AdaptationLatent Dirichlet Allocation(SALDA)從Dirichlet分布中抽樣產(chǎn)生一個文本特定的主題多項式分布,然后對這些主題反復抽樣產(chǎn)生文本中的每個詞.通過采用圖的形式模擬LDA中主題的產(chǎn)生過程,發(fā)現(xiàn)新的主題通常由造成主題之間相關性的詞(主題分布的重疊區(qū)域)產(chǎn)生[8-10].然而,文中提及的行業(yè)術語正是構建主題的相關詞匯,因此完全可以借鑒基于HDP(Hierarchical Dirichlet Process)的最優(yōu)LDA模型選擇算法,統(tǒng)計主題詞的概率,選擇相關的詞實現(xiàn)增量爬取的過程.

LDA認為主題是固定詞表上的一個多項式分布,作為一種產(chǎn)生式模型,可用LDA提取隱含的語義結構和文檔表示.然而,在LDA中,主題服從Dirichlet分布,假定該分布建立在主題無關的基礎上,很多主題之間實際上是有關聯(lián)的.因此,這種假設與真實數(shù)據(jù)存在一定的距離,LDA將隨著主題數(shù)目K的改變較為靈敏,導致不能很好預測與其它主題相關的詞.Y.Teh運用HDP的非參數(shù)特性來解決LDA中主題數(shù)目的選?。?0].

設 di, dj為兩個文本,領域關鍵詞集合為{ k1, k2, k3,…wjk≤k≤n分別為di和dj的第 k個領域關鍵詞特征項的權重,則文本di和dj的領域關鍵詞的相似度為,

通常,主題詞相似度越小,模型最優(yōu).假定β矩陣中存在V維主題詞空間,用p( wvZi)表示主題向量,主題向量之間的相關性采用余弦距離計算,

1.3 主題增量爬取

伴隨著URL頁面數(shù)量不斷地增加,通過分類結構記錄關于某一主題的上下文與外鏈接網(wǎng)頁的數(shù)量.文章采用該方法不斷合并與產(chǎn)生新的類別,僅需增加一個可以采用URL分類的方法實現(xiàn)增量爬取的算法,能夠識別新的網(wǎng)頁與經(jīng)常變更的網(wǎng)頁的算法,并更新已保存在本地數(shù)據(jù)庫中的網(wǎng)頁,便于減少爬取的次數(shù),從而實現(xiàn)多行業(yè)主題次類別的學習,避免在龐大網(wǎng)絡中重復主題類別的學習,其結構圖如圖1所示.因此設計一個六元組:

{URL-type,URL,Topic,Status,crawl-time}

在指定爬取時間crawl-time,確定當前URL的狀態(tài)Status;且依據(jù)URL-type類型記錄搜索相關主題Topic的URL類型機器網(wǎng)址URL.

圖1 URL增量爬取網(wǎng)頁結構圖

增量爬算法根據(jù)URL類別爬取Web網(wǎng)頁,如果URL類型為葉子URL,而且Status是新網(wǎng)頁的,那么這個頁面就會被爬取,還會記錄這個爬取的時間.同時,計算剛被爬取下來的頁面和已經(jīng)被爬取下來存儲到當?shù)財?shù)據(jù)庫中的屬于同類型頁面的爬取時間間隔.因此增量爬取的關鍵針對葉子頁面的就是關于主題詞頁面選取過程,具體見前一節(jié)的文本語義相似度計算.

2 基于Entropy領域本體主題類的選擇與推介

眾所都知,組成行業(yè)領域本體的主題詞很多.針對每一個主題,為避免大量的相似度距離計算,可以將其映射成為一類節(jié)點分布,通過計算主題的Entropy值實現(xiàn)層次聚類[9].

定義2.1(本體信息熵)針對包含有W1,W2,…,Wn共n個詞匯的領域本體數(shù)據(jù)集S,設某詞匯V具有i個相互獨立的特征值{ v1, v2,… ,vi},主題詞vi在數(shù)據(jù)集S中出現(xiàn)的次數(shù)記為|vi|,屬于第 j類的實例個數(shù)記為|vij|,則本體詞匯vi的信息熵為:

其中,pij= | vij||vi|是指在某詞匯V上具有本體特征值vi的樣本屬于類Ci的概率比重.當|vi|=|vij|時,S( vi) = 0 .

定義2.2(平均相似度距離)設si,sj為任意兩個節(jié)點X,Y的領域本體集,si與sj具有n個獨立的特征值v1,v2,…,vn,則si與sj的相似度距離計算公式為:

d( Y, X ) 為任意兩個主題詞間相同主題間的平均信息熵,采用兩節(jié)點間相同主題間的信息熵來衡量其相似程度.

定義2.3(類屬可信度)假定Ci表示主題類別,R為需要識別的節(jié)點,在N個近鄰節(jié)點總數(shù)中,Xi屬于Ci類的節(jié)點,Ni為屬于Ci類的近鄰節(jié)點個數(shù).則 T ( Ci, R)為R對Ci的類屬可信度,計算公式為:

參考文獻[3],基于Entrop信息熵的領域本體聚類算法包含如下步驟:

(3)設定閾值范圍,合并距離范圍內(nèi)的主題節(jié)點為新的類別,新類屬子集為Cs={Ci∪ Ci+1};

(4)循環(huán)計算新生成的類屬與其他各類屬間的距離;

(5)通過聚類,確定各類屬節(jié)點為候選節(jié)點集.

現(xiàn)有4類不同主題詞的節(jié)點,圖2(a)所示中黑色方塊為類屬請求主題節(jié)點,針對主題詞計算其信息熵,并為各主題詞聚類做準備,圖2(c-f)為屬性聚類后的中間結果,紅色圓圈標示的主題節(jié)點為各屬性的可選項,最后生成的圖2(b)所示的4類不同屬性節(jié)點候選集進行推介.

圖2 主題詞聚類過程示例

3 實例驗證與結論

實驗過程從網(wǎng)頁爬取的角度出發(fā),通過計算指定的主題詞相關性,構建關于主題詞的領域本體集合.然后通過領域本體和主題詞基于Entropy進行聚類,確定類屬關系,形成候選集從而實現(xiàn)推介.

從Web上爬取與主題相關的數(shù)據(jù)資源,主要關注的是爬蟲獲取的主題資源的覆蓋率和主題資源的準確度[11].然而,考慮到預先無法預知各主題的分布情況,要準確計算關于主題搜索的覆蓋半徑存在一定的困難.因此,針對主題爬取實驗[12],可以把通過計算爬準率作為評價指標.

現(xiàn)從搜狗網(wǎng)實驗室[13]提供的網(wǎng)頁數(shù)據(jù)中抽取了5425個正文內(nèi)容來驗證前面提出的理論和算法,其中包括大數(shù)據(jù)主題的正文內(nèi)容數(shù)3625個,其它主題的文本數(shù)目一共有1800個.選取主題詞并計算相應的權值,對各網(wǎng)頁數(shù)據(jù)表示成向量空間;然后經(jīng)過以上領域主題的獲取方式,使用向量余弦距離度量大數(shù)據(jù)主題文本的相似度、向量間的相關性.以圖書采購的學科分類為例,針對學科類別,以各二級學科進行類屬劃分,與網(wǎng)頁數(shù)據(jù)中抽取主題詞進行比較,構建學科本體庫.將傳統(tǒng)TF-IDF與該文采用的AS-LDA主題提取方法進行比較,在提取的主題數(shù)為5時,各類屬主題頁面提取的準確度如表1所示,相對應的主題爬取精度隨著頁面數(shù)量的變化趨勢如圖3所示.

表1 學科類別相關主題類屬主題數(shù)為5的準確度

(續(xù)表1)

圖3 主題提取算法爬取精度比較

以語料庫為基礎的LDA文本建模,可以透過學科本體解析文本的主題,提取頁面主題.理論上LDA應該具有其他模型所具有的建模速度,但是要提高主題詞提取的效率,必須輔以主題詞聚類的方法.因此,在采購圖書時,指定主題詞關鍵字后,可對主題應該對學科類屬計算指定主題詞相似度、相關度從而進行聚類.通常,相似度計算主要反映的是關于主題關鍵字和樣本集中其他文本的相似程度,在設定的閾值范圍根據(jù)相似度實現(xiàn)類屬聚類,再通過Precision、Recall驗證計算方法的準確性.最后,將實驗結果按照召回率10%,20%,…,100%這十個點進行精確性統(tǒng)計,結果如表2所示.

表2 三種相似度計算的召回率和精確率

為更加直觀地描述相似度計算的關系,對上述數(shù)據(jù)進行分析,繪制了三種文本相似度計算的對比圖,如圖4所示.

圖4 三種文本相似度計算的對比

針對以上關于領域文本相似度計算的實驗,基于學科領域本體采用的AS-LDA算法相似度計算與傳統(tǒng)TF-IDF的主題詞的相似度計算在相同的召回率情況下,在文本相似度計算方面的準確率要高些.其主要是因為領域本體關鍵詞的向量空間模型和傳統(tǒng)的關鍵詞空間模型相比,更能表示領域文本的主題特征,可以降低特征向量的維數(shù),增加領域關鍵詞的權值;同時對領域關鍵詞向量進行上位概念的關鍵詞語義擴充,可縮小含有相同主題的文本的特征向量的距離,提高文本間的相似度.

猜你喜歡
主題詞增量網(wǎng)頁
提質(zhì)和增量之間的“辯證”
當代陜西(2022年6期)2022-04-19 12:12:22
“價增量減”型應用題點撥
基于CSS的網(wǎng)頁導航欄的設計
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
基于均衡增量近鄰查詢的位置隱私保護方法
電信科學(2016年9期)2016-06-15 20:27:25
網(wǎng)頁制作在英語教學中的應用
電子測試(2015年18期)2016-01-14 01:22:58
德州儀器(TI)發(fā)布了一對32位增量-累加模數(shù)轉換器(ADC):ADS1262和ADS126
我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
2014年第16卷第1~4期主題詞索引
航空| 罗甸县| 陆河县| 木兰县| 安义县| 深泽县| 菏泽市| 中卫市| 沧源| 疏附县| 穆棱市| 洪泽县| 兰西县| 乌兰浩特市| 合川市| 泸州市| 巨野县| 高邮市| 彩票| 大化| 台湾省| 城口县| 广昌县| 孝义市| 水富县| 长宁县| 庄河市| 大英县| 黔西| 准格尔旗| 甘洛县| 连城县| 重庆市| 泸溪县| 阿合奇县| 海阳市| 富顺县| 通江县| 偃师市| 南投市| 攀枝花市|