何婕
摘要:語言節(jié)奏是語言中的重要特征,通過對(duì)語言節(jié)奏現(xiàn)象的分析,提出四種語言節(jié)奏:自然節(jié)奏,語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏。每種語言節(jié)奏都從相關(guān)方面反映了語言的特征,對(duì)語言特征進(jìn)行提取達(dá)到話題追蹤的目的。本文闡述了各種語言節(jié)奏的提取方法和節(jié)奏特征的提取方法。實(shí)驗(yàn)結(jié)果表面,在話題追蹤任務(wù)中應(yīng)用效果良好。
關(guān)鍵詞:文本分析;語言節(jié)奏;蹤系統(tǒng)流程
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)02-0127-01
現(xiàn)今,網(wǎng)絡(luò)中存在有豐富的信息和知識(shí),信息的來源和量已經(jīng)不是人們關(guān)心的主要問題了,如何在海量的信息和知識(shí)中,快速定位和挖掘到感興趣的內(nèi)容,已然成為當(dāng)前研究的一個(gè)熱點(diǎn)。本文在進(jìn)行話題追蹤任務(wù)時(shí),與以往的分析文本內(nèi)容和結(jié)構(gòu)的方法不同,是從語言中的另外一種特征入手——語言節(jié)奏[1-2]。具體分析了文本語言表達(dá)中,存在的各種語言節(jié)奏。闡述了語言節(jié)奏的獲取方法和特征提取方法,提出了基于語言節(jié)奏進(jìn)行話題追蹤的方法。
1 話題追蹤系統(tǒng)流程
話題追蹤任務(wù)的系統(tǒng)流程是,首先將待追蹤話題和待測(cè)報(bào)道文本進(jìn)行模型化,然后對(duì)二者的模型進(jìn)行相似度的比較,當(dāng)兩者的相似度滿足判定閾值要求時(shí),則可以判定待測(cè)文本屬于對(duì)應(yīng)的話題[3]。但是話題追蹤任務(wù)不同于簡(jiǎn)單的相似文檔比較。話題的主題內(nèi)容會(huì)隨著時(shí)間的發(fā)展而有所變化,因而,如何摒除內(nèi)容相似性比較在話題發(fā)展中的局限性。發(fā)現(xiàn)一定時(shí)間范圍內(nèi)同一話題的相關(guān)內(nèi)容,是當(dāng)前研究的難點(diǎn)重點(diǎn)。
2 語言節(jié)奏性
語言節(jié)奏是語言中固有的一種特征,是人們進(jìn)行語言文字表達(dá)相關(guān)內(nèi)容時(shí),其中蘊(yùn)含的有規(guī)律或者無規(guī)律的階段性的變化因素,既要能夠服務(wù)于抒發(fā)感情,表現(xiàn)主題,又要鏗鏘流暢,給人以共鳴。不僅語言文學(xué)藝術(shù)中存在紛繁復(fù)雜的語言節(jié)奏,在普通人的日常語言中也存在著語言節(jié)奏,狹義的語言節(jié)奏是指,語言中句子或者音節(jié)停頓的長(zhǎng)短,音調(diào)的輕重緩急,起伏跌宕,循環(huán)往復(fù),而產(chǎn)生的似音樂的節(jié)奏美感,多考慮的是語言的韻律[4]。
3 語言節(jié)奏的提取
語言節(jié)奏是文本的重要特征,能夠反映文本的多方面特征??焖倏茖W(xué)的從文本中,獲取各種語言節(jié)奏,是亟待解決的重要問題。在此,就如何進(jìn)行各種語言節(jié)奏的提取進(jìn)行了系統(tǒng)的討論。
3.1 文字序列
文字序列是語言的文本體現(xiàn),是由文字符號(hào)和非文字符號(hào)組成的。設(shè)任意長(zhǎng)度的文字序列是由兩部分內(nèi)容組成的,但含有文字符號(hào)(Word)和非文字符號(hào)(即標(biāo)點(diǎn)和段落標(biāo)記符號(hào)統(tǒng)稱為Punctuate),也就是說組成文字序列的符號(hào)wa取自兩種符號(hào)集合:Word,文字符號(hào)集合和Punctuate,非文字符號(hào)集合[5]。文字序列是由文字符號(hào)和非文字符號(hào)交替出現(xiàn)的,在文字序列中挖掘出一定的節(jié)奏特征,從而完成語言節(jié)奏的提取工作。
3.2 語言節(jié)奏獲取
語言節(jié)奏的獲取是對(duì)文字序列進(jìn)行操作的,現(xiàn)以語言自然節(jié)奏的獲取為例闡述語言節(jié)奏的獲取方法。在獲取的過程中,先對(duì)文字序列進(jìn)行掃描,若遇到非文字標(biāo)記符號(hào)時(shí),則構(gòu)建其自然節(jié)奏單元NRU,并修改當(dāng)前自然節(jié)奏碼NRC。到文章或者文字序列結(jié)束時(shí),完成其自然節(jié)奏碼NRC構(gòu)建,算法描述如下圖1所示。
因此,語言自然節(jié)奏碼實(shí)際上就是由一串?dāng)?shù)字以及停頓級(jí)別編碼構(gòu)成的。語言中的其他節(jié)奏:語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏都是語言表達(dá)過程中的重要內(nèi)容。文本序列中的非文字符號(hào),可以將語言中的自然節(jié)奏表達(dá)出來。文本中文字符號(hào)可以進(jìn)一步的將語言中其他方面的節(jié)奏信息表達(dá)出來。語言中的文字符號(hào)中包含有兩種類型的詞類:實(shí)詞和虛詞。實(shí)詞可以說表達(dá)了語言中大部分的語義信息,即語言中實(shí)際內(nèi)涵信息是由廣大實(shí)詞來表達(dá)的。語言中的虛詞是做什么用的呢?通過研究和分析。語言中的虛詞,完成了語言中一大部分的其他方面特征表達(dá)[6]。
3.3 語言節(jié)奏特征提取
文本表達(dá)的內(nèi)容和情感上存在眾多差異,每一篇文檔的語言節(jié)奏具有一定的唯一性。通過對(duì)文本中存在的語言節(jié)奏進(jìn)行分析,得知語言節(jié)奏是在時(shí)間序列上展開的,一篇文章中某一時(shí)刻語言節(jié)奏標(biāo)記或者語言節(jié)奏單元的出現(xiàn),是與之前所有出現(xiàn)過的語言節(jié)奏標(biāo)記和語言節(jié)奏單元概率相關(guān)的。因而,可以將語言節(jié)奏視為一個(gè)Markov過程,并進(jìn)一步提取語言節(jié)奏的特征。由于每一類語言節(jié)奏中的節(jié)奏標(biāo)記是有限的,所以在語言節(jié)奏Markov的過程中存在的狀態(tài)也是有限的,因此,狀態(tài)轉(zhuǎn)移矩陣的規(guī)模就不會(huì)很大,對(duì)于文本分析的工作是非常有利的,至此完成了語言節(jié)奏特征的提取過程。
4 結(jié)語
通過實(shí)驗(yàn)驗(yàn)證,語言節(jié)奏的特征分析在文章話題同一性發(fā)現(xiàn)中同樣具有良好的效果。通過將一個(gè)時(shí)間段的多個(gè)話題的多篇文檔,組織在一起,提取語言節(jié)奏并進(jìn)一步分析語言節(jié)奏特征。對(duì)于語言節(jié)奏而言,通過語法節(jié)奏、情感節(jié)奏等綜合特征可以大大提高文章話題同一性的發(fā)現(xiàn),實(shí)現(xiàn)不同文章的話題分類。
參考文獻(xiàn)
[1]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008(11):3256-3258.
[2]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005(2):291-297.
[3]楊華,姬東鴻,陳波.基于話題相關(guān)的文檔集的無向基本要素網(wǎng)絡(luò)的連通性探討[J].中文信息學(xué)報(bào),2015(4):103-110.
[4]鄧莎莎.支持決策研討的文本分析方法研究[D].上海交通大學(xué),2013.
[5]陳釩.語言節(jié)奏提取及其在文本分析中的應(yīng)用[D].天津大學(xué),2011.
[6]陳釩,馮志勇.語言自然節(jié)奏在文本分類中的研究與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2012(30):28-32.