查晨 劉勝全
摘要:針對(duì)現(xiàn)有的本體學(xué)習(xí)方法難以適應(yīng)短文本類型新聞媒體資訊由原來(lái)的長(zhǎng)文本轉(zhuǎn)為短文本的情形。本文提出了一種“基于短文本的輿情本體概念的抽取方法”。短文本語(yǔ)料經(jīng)過詞頻統(tǒng)計(jì),其詞頻呈現(xiàn)數(shù)據(jù)稀疏現(xiàn)象,經(jīng)過詞頻調(diào)整后參加后續(xù)概念抽取過程。短文本的描述信息較差。如果采用向量空間模型來(lái)表征短文本會(huì)造成向量空間的語(yǔ)義缺失和高維稀疏,所以本文使用集合空間來(lái)計(jì)算文檔相似度,抽取與主題相關(guān)的核心概念。實(shí)驗(yàn)結(jié)果理想。
關(guān)鍵詞:輿情本體;概念抽??;短文本;集合
中圖分類號(hào):TP31 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)14-0219-02
Abstract: In view of the existing ontology learning method, it is difficult to adapt to short text type news media information from original long text to short text. This paper proposes a "short text based ontology concept extraction method". After word frequency statistics, short word frequency data show sparse data. After word frequency adjustment, it takes part in subsequent concept extraction process. The description information of short text is poor. If using vector space model to characterize short text will cause semantic loss and high dimension sparsity in vector space, this paper uses set space to calculate document similarity and extract the core concepts related to the subject. The results of the experiment are ideal.
Key words: public opinion ontology; concept extraction; short text; gather
1 引言
隨著信息技術(shù)的快速發(fā)展,人們對(duì)網(wǎng)絡(luò)信息的需求越來(lái)越旺盛,個(gè)人手機(jī)的普及促使短文本型新聞大量產(chǎn)生,成為網(wǎng)絡(luò)輿情的重要載體,將從短文本語(yǔ)料中抽取到的輿情知識(shí)形成輿情本體,可持續(xù)支持后期的輿情分析與監(jiān)管。
2 相關(guān)工作
由于計(jì)算機(jī)無(wú)法直接使用短文本的文字,所以計(jì)算機(jī)首先需要建立短文本表示模型來(lái)描述短文本特征。因短文本的實(shí)時(shí)特點(diǎn),基于向量空間模型的聚類方法應(yīng)用到社交網(wǎng)絡(luò)短文本時(shí)面臨著復(fù)雜度高、特征稀疏度高、噪聲干擾大等。所以本文使用集合空間替代向量空間來(lái)計(jì)算文檔相似度。
由于短文本的稀疏性,所以它的特征空間維數(shù)大。國(guó)外M Sahami TD Heilman等人使用搜索引擎返回的有關(guān)信息作為擴(kuò)展值[1];Danesh Irani等人擴(kuò)充twitter上的話題趨勢(shì)作為特征項(xiàng)[2];Xuan-HieuPhan使用主題模型的隱含主題作為特征項(xiàng)[3];Bharath Srkam用短文本的作者的個(gè)人注冊(cè)信息作為特征項(xiàng)[4]。國(guó)內(nèi)王鵬等利用依存關(guān)系抽取上下位詞擴(kuò)充短文本特征集合[5];寧亞輝等提出基于領(lǐng)域詞語(yǔ)本體的短文本分類[6];王細(xì)薇等人引入知網(wǎng)語(yǔ)義信息,用FP.Growth方法挖掘數(shù)據(jù)的擴(kuò)展關(guān)系來(lái)分類[7]。以上方法全是學(xué)者研究短文本的特征提取擴(kuò)展方式,但并沒有考慮到使用數(shù)學(xué)工具來(lái)調(diào)整統(tǒng)計(jì)詞頻的方式,以達(dá)到縮短特征項(xiàng)計(jì)算時(shí)間。
3 基于短文本的輿情本體概念抽取方法
本文受輿情本體概念的抽取研究[8]的啟發(fā),針對(duì)短文本的兩個(gè)問題,分別使用算法予以解決。
3.1短文本文檔相似度
短文本的實(shí)時(shí)性強(qiáng),數(shù)量龐大,這些都要求處理短文本的方法需要具有較高效率,這就要求短文本相關(guān)的計(jì)算具有很高的處理速度,為此本文提出簡(jiǎn)化算法。相似度主要取決于兩個(gè)短文本的共現(xiàn)詞語(yǔ)。如圖1,C為短文本A特征詞集合和短文本B特征詞集合的交集,集合C的元素個(gè)數(shù)即為共現(xiàn)數(shù)。
當(dāng)使用集合空間算法時(shí),計(jì)算短文本A和短文本B的共現(xiàn)數(shù)作為短文本A和短文本B的相似度的參數(shù),共現(xiàn)數(shù)是兩個(gè)集合交集的元素?cái)?shù)目,因?yàn)閚大于m,相似度為共現(xiàn)數(shù)除以m。集合空間的計(jì)算公式為
因?yàn)閚大于m,且n接近于m,所以向量空間算法的時(shí)間復(fù)雜度[O(3×m2)]遠(yuǎn)大于集合空間算法的時(shí)間復(fù)雜度[O(n×m)]。
3.2 短文本詞頻數(shù)據(jù)稀疏
短文本的長(zhǎng)度一般不超過200字,篇幅短小,缺失上下文,常產(chǎn)生維度災(zāi)難,難以有效的提取短文本特征項(xiàng)。存在數(shù)據(jù)稀疏現(xiàn)象[9]。Good-Turing估計(jì)是很多數(shù)據(jù)平滑技術(shù)的核心,本文提出:由于短文本字?jǐn)?shù)最大為200,中文詞組一般為兩個(gè)漢字,所以短文本出現(xiàn)的詞頻最多為100,最少為零,而0-100的數(shù)據(jù)跨度對(duì)于短文本來(lái)說還是太大。如果通過詞頻調(diào)整算法,將其數(shù)據(jù)跨度壓縮至1-11以內(nèi),從而完成后續(xù)的概念抽取。
數(shù)據(jù)平滑算法公式如下:
3.3 短文本語(yǔ)料庫(kù)
語(yǔ)料庫(kù)是按照規(guī)則,去收集的自然語(yǔ)言數(shù)據(jù)集合,主要服務(wù)于自然語(yǔ)言的研究。今日頭條是一個(gè)開放內(nèi)容并去中心化的平臺(tái)。它通過分析用戶的需求、興趣、位置、評(píng)論、性別、年齡、職業(yè)、學(xué)歷、收入、性格等特點(diǎn),通過特殊的引擎進(jìn)行個(gè)性化內(nèi)容推薦。該平臺(tái)具有以下4個(gè)特點(diǎn):(1)社交用戶的閱讀行為分析;(2)復(fù)雜中文自然語(yǔ)言處理;(3)機(jī)器學(xué)習(xí)的推薦引擎;(4)實(shí)時(shí)海量數(shù)據(jù)處理。
本文按抽取時(shí)間從網(wǎng)絡(luò)短文本流(今日頭條、一點(diǎn)資訊等)中抽取短文本形式的數(shù)據(jù),經(jīng)過數(shù)據(jù)處理,最后基于 Single-Pass聚類識(shí)別主題從而抽取主題概念。
4 結(jié)論
本文針對(duì)短文本的兩個(gè)特性,引進(jìn)兩個(gè)解決方案。使用集合空間來(lái)計(jì)算文檔相關(guān)度。使用數(shù)據(jù)平滑算法公式來(lái)調(diào)整統(tǒng)計(jì)詞頻。實(shí)驗(yàn)取得較好結(jié)果。下一步工作是進(jìn)一步減少本文算法消耗時(shí)間。
參考文獻(xiàn):
[1] Sahami M,Heilman T D.A web-based kernel function for measuring thesimilarity of short text snippets[C]//Proceedings of the 1 5th international conference on World Wide Web.ACM,2006:377—386.
[2] Phan X H,NguyenL M,Horiguchi S.Learning to classify short and sparse text&web; with hidden topics from large—scale data collections[C]//Proceedings of the1 7th international conference on W0rld Wide Web.ACM,2008:9 1—1 00.
[3] Sriram B,F(xiàn)uhry D,Demir E,et a1.Short text classification in twitter to improve informatieln filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,201 0:841.842.
[4] Irani D,Webb S,Pu C,et a1.Study of trend-stuffing on twitter through text classmcation[C]//Collaboration,Electronic messaging,Anti-Abuse and Spam Conference(CEAS).20 1 0.
[5] 王鵬,樊興華.中文文本分類中利用依存關(guān)系的實(shí)驗(yàn)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(3):131r133.
[6] 寧亞輝,樊興華,吳渝.基于領(lǐng)域詞語(yǔ)本體的短文本分類[J].計(jì)算機(jī)科學(xué),2009,36(3):142-145.
[7] 王細(xì)薇,樊興華,趙軍.一種基于特征擴(kuò)展的中文短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2009(3).
[8] 張學(xué)芳, 劉勝全, 劉艷. 輿情本體概念抽取研究[J]. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版) 2016,03(33),333-337.
[9] 王達(dá), 崔蕊. 數(shù)據(jù)平滑技術(shù)綜述[J]. 電腦知識(shí)與技術(shù), 2009 ,5(17).