国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于領(lǐng)域文法的微博輿情分析方法及其應(yīng)用

2016-09-08 10:30張露晨孫昊良曹存根
關(guān)鍵詞:文法貪腐語(yǔ)料

張露晨 張 良 孫昊良 方 芳 曹 陽(yáng) 曹存根

1(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心 北京 100029)2(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室 北京 100190)3(廣西師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院 廣西 桂林 541000)

?

基于領(lǐng)域文法的微博輿情分析方法及其應(yīng)用

張露晨1張良1孫昊良1方芳2曹陽(yáng)3曹存根2

1(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心北京 100029)2(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室北京 100190)3(廣西師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院廣西 桂林 541000)

傳統(tǒng)的輿情分析方法存在兩個(gè)缺陷:由于缺少對(duì)輿情文本必要的語(yǔ)義處理,傳統(tǒng)的基于關(guān)鍵詞或熱詞的網(wǎng)絡(luò)輿情分析方法往往分析結(jié)果不準(zhǔn)確,即漏判率和假陽(yáng)性比較高;在輿情發(fā)展初期,由于數(shù)據(jù)稀疏,一般不能及時(shí)發(fā)現(xiàn)輿情“苗頭”。針對(duì)這些問(wèn)題,提出一種基于領(lǐng)域文法的分析方法對(duì)微博文法進(jìn)行分析,并給出一套通用的領(lǐng)域文法的設(shè)計(jì)原則以及分析方法。基于領(lǐng)域文法的方法與統(tǒng)計(jì)方法相比主要的優(yōu)點(diǎn)和創(chuàng)新點(diǎn)包括:領(lǐng)域文法可以在數(shù)據(jù)稀疏的情況下依然可以很好的工作;領(lǐng)域文法的方式不需要對(duì)信息進(jìn)行統(tǒng)計(jì),不會(huì)受到距離的影響;領(lǐng)域文法的方法可以很好地提取真正有用的信息而不會(huì)像統(tǒng)計(jì)方法易受到詞搭配的影響。為論證該方法,選擇貪腐類(lèi)輿情作為一個(gè)驗(yàn)證應(yīng)用。實(shí)驗(yàn)表明,貪腐輿情文法很好地對(duì)貪腐類(lèi)微博輿情文本內(nèi)容進(jìn)行識(shí)別和提取,從而達(dá)到貪腐輿情監(jiān)控的目的。

微博輿情分析領(lǐng)域文法文法設(shè)計(jì)反貪腐領(lǐng)域

0 引 言

隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)輿情以輿論多元化為最大的特點(diǎn),而網(wǎng)絡(luò)輿情信息的豐富程度呈現(xiàn)“爆炸”的趨勢(shì)。造成這個(gè)現(xiàn)象的主要原因一是網(wǎng)絡(luò)輿情信息量非常龐大;二是輿情的類(lèi)別繁多;三是背景信息復(fù)雜[1,2]。

如今,微博已經(jīng)成為最流行的社交工具之一,它變成人們實(shí)時(shí)了解社會(huì)與獲取新聞的流行形式。而微博的起源是國(guó)外的Twitter[3],它的主要功能是實(shí)現(xiàn)即時(shí)的分享。隨著微博的產(chǎn)生,一些隱蔽的、不為人知的消息變得透明化[4]。如果可以有效地分析微博、博客以及論壇等內(nèi)容,不僅對(duì)及時(shí)掌握百姓的輿情具有重要的意義,而且對(duì)國(guó)家安全、政府官員行為、企業(yè)產(chǎn)品聲譽(yù)、個(gè)人形象等信息的及時(shí)掌握具有重要作用[5]。

目前,輿情分析的主要研究方法都是依靠關(guān)鍵字進(jìn)行測(cè)試驗(yàn)證,然而這種方法的準(zhǔn)確率較低[6]。為了提高對(duì)輿情文本內(nèi)容分析的準(zhǔn)確率,提出領(lǐng)域文法設(shè)計(jì)這一思想。該方法的主要目標(biāo)是對(duì)文本內(nèi)容進(jìn)行文法分析,建立形式文法到語(yǔ)義的一個(gè)映射,利用語(yǔ)義文法將無(wú)結(jié)構(gòu)的網(wǎng)絡(luò)輿情文本轉(zhuǎn)化成結(jié)構(gòu)化的網(wǎng)絡(luò)輿情語(yǔ)義表示[7,8]。

一般而言,常用的自然語(yǔ)言處理方法主要分為詞法分析、文法分析和語(yǔ)義分析等。其中,文法分析的主要工作是跟據(jù)語(yǔ)料總結(jié)文法以及它們之間的相互關(guān)系來(lái)產(chǎn)生一個(gè)文法庫(kù)。上下文無(wú)關(guān)文法CFG(Context Free Grammar)是被看作接近自然語(yǔ)言的表示形式。為了解決文法的歧義問(wèn)題,有人還提出了概率上下文無(wú)關(guān)文法和概率詞匯化上下文無(wú)關(guān)文法等方法[9-11]。

雖然上下文無(wú)關(guān)文法有很強(qiáng)的表達(dá)能力,但是一般文法的編寫(xiě)結(jié)構(gòu)是混亂的,文法之間也沒(méi)有聯(lián)系,缺乏語(yǔ)義理解的信息。因此,我們引入“領(lǐng)域文法”的概念。領(lǐng)域文法與候圣巒提出的語(yǔ)義文法[12]類(lèi)似,但是不同的是,領(lǐng)域文法強(qiáng)調(diào)某領(lǐng)域的文法,即在文法中加入領(lǐng)域的語(yǔ)義信息,可以給出文本中豐富的領(lǐng)域語(yǔ)義結(jié)構(gòu),得到豐富的領(lǐng)域信息。

領(lǐng)域文法與普通的文法相比有自己的特點(diǎn),主要特點(diǎn)包括:

(1) 領(lǐng)域文法的建立一定適合某個(gè)具體的領(lǐng)域

就像上述介紹的領(lǐng)域文法一樣,領(lǐng)域文法中包含特定的領(lǐng)域語(yǔ)義信息。因?yàn)椴煌念I(lǐng)域有自己的領(lǐng)域特點(diǎn),語(yǔ)句中也會(huì)有適合自己的特點(diǎn),因此對(duì)于不同領(lǐng)域建立特定的領(lǐng)域文法,可以突出各個(gè)領(lǐng)域的特點(diǎn)。

(2) 領(lǐng)域文法的建立是結(jié)合本體的思想,設(shè)計(jì)過(guò)程中突出該領(lǐng)域的語(yǔ)義,并且用非終結(jié)符表示出來(lái)

本體是人工智能領(lǐng)域提出的思想,是用來(lái)研究特定領(lǐng)域內(nèi)的知識(shí)的對(duì)象分類(lèi)、對(duì)象屬性及對(duì)象間關(guān)系,它為領(lǐng)域知識(shí)提供描述術(shù)語(yǔ)。一個(gè)領(lǐng)域本體對(duì)該領(lǐng)域進(jìn)行了一個(gè)清晰的、可共享的刻畫(huà),保持了語(yǔ)義上的一致[13]。一般文法的建立,通常采用的方法是巴科斯范式BNF[14,15]。我們?cè)贐NF中融入語(yǔ)義,與本體相結(jié)合。這是通過(guò)非終結(jié)符來(lái)體現(xiàn)的,即在非終結(jié)符命名中加入語(yǔ)義信息。

(3) 文法設(shè)計(jì)過(guò)程中,按照領(lǐng)域進(jìn)行文法設(shè)計(jì)任務(wù)分解

領(lǐng)域文法中領(lǐng)域語(yǔ)義與本體相結(jié)合,還可以按照領(lǐng)域?qū)ξ姆ㄔO(shè)計(jì)的任務(wù)進(jìn)行分解。也就是對(duì)文法進(jìn)行領(lǐng)域分析,對(duì)整個(gè)領(lǐng)域的特點(diǎn)和內(nèi)容進(jìn)行描述和劃分。

本文提到的基于領(lǐng)域文法的分析方式相較于統(tǒng)計(jì)的方法主要的優(yōu)點(diǎn)和創(chuàng)新點(diǎn)包括:

(1) 當(dāng)關(guān)鍵信息以及相關(guān)信息數(shù)據(jù)稀疏的情況下,領(lǐng)域文法的方式依然可以很好地監(jiān)測(cè)到,但是統(tǒng)計(jì)的方式卻因?yàn)閿?shù)據(jù)稀疏丟掉重要內(nèi)容。

(2) 領(lǐng)域文法的方式不需要對(duì)信息進(jìn)行統(tǒng)計(jì),這樣就可以避免相關(guān)信息內(nèi)容因?yàn)榫嚯x太遠(yuǎn)而不能找到的情況,同時(shí)領(lǐng)域文法可以更好地精確查找信息。

(3) 從搭配的角度來(lái)看,有些詞匯之間只有搭配起來(lái)使用才會(huì)起到一定的作用和意義,統(tǒng)計(jì)的方法會(huì)受到無(wú)用冗余信息的影響,而領(lǐng)域文法的方法可以很好地提取真正有用的信息。

但基于領(lǐng)域文法的方式也存在相應(yīng)的弱點(diǎn):

(1) 領(lǐng)域文法并不是萬(wàn)能的和開(kāi)放的,只是針對(duì)一個(gè)具體領(lǐng)域。

(2) 正是因?yàn)榈谝粭l,因此領(lǐng)域文法并不能解決所有領(lǐng)域的大規(guī)模數(shù)據(jù),但是卻可以通過(guò)并行解析,實(shí)行一個(gè)領(lǐng)域中的大規(guī)模數(shù)據(jù)分析。

(3) 由于是針對(duì)特定領(lǐng)域的(包括電子產(chǎn)品或是有行情等都進(jìn)行過(guò)嘗試和運(yùn)用),如果出現(xiàn)缺少文法的情況會(huì)影響分析率。因此我們正在研究文法的自動(dòng)學(xué)習(xí)算法,重點(diǎn)是對(duì)已經(jīng)形成的種子的文法而自動(dòng)產(chǎn)生新的文法。

在反貪腐領(lǐng)域的文法,在輿情分析中的主要作用是抓住輿情的苗頭,而不受到關(guān)注度以及轉(zhuǎn)發(fā)度、評(píng)論以及是否熱門(mén)的影響,從而達(dá)到最快抓住苗頭的目標(biāo)。

1 領(lǐng)域文法的設(shè)計(jì)原則

在文法設(shè)計(jì)的過(guò)程中,為了使文法更容易維護(hù)更健壯,且文法之間不會(huì)出現(xiàn)重疊,我們總結(jié)出以下文法設(shè)計(jì)原則。遵守以下原則,可以更容易地進(jìn)行文法設(shè)計(jì)工作。我們中間以貪腐主題語(yǔ)料的文法設(shè)計(jì)為例來(lái)解釋說(shuō)明每條原則。

1.1語(yǔ)料采集原則

在文法設(shè)計(jì)之前,為了使文法有更好準(zhǔn)確率和覆蓋面,語(yǔ)料的準(zhǔn)備和采集變得至關(guān)重要,因此在前期語(yǔ)料準(zhǔn)備工作中我們應(yīng)該遵守和參考以下原則:

① 語(yǔ)料采樣、覆蓋面要足夠廣。

在查找語(yǔ)料時(shí),要選擇盡量涉及不同類(lèi)別內(nèi)容的語(yǔ)料;語(yǔ)句也盡量涉及更多不同類(lèi)型、不同結(jié)構(gòu)。只有語(yǔ)料的選擇面、采樣面廣,才能使得文法的涉及面更廣,對(duì)領(lǐng)域分析帶來(lái)幫助。

② 語(yǔ)料要選擇對(duì)文法有意義的語(yǔ)句,要選擇符合要求內(nèi)容的語(yǔ)句。

選擇對(duì)自己設(shè)計(jì)的文法有意義的語(yǔ)料,選擇符合領(lǐng)域且對(duì)目的有幫助的語(yǔ)句。文法的篩選過(guò)程就是參照該原則。

1.2頂層設(shè)計(jì)原則

在語(yǔ)料準(zhǔn)備完成以后進(jìn)入語(yǔ)句文法設(shè)計(jì)之前,首先要進(jìn)行一個(gè)頂層的設(shè)計(jì)。該設(shè)計(jì)就是建立語(yǔ)法樹(shù)根基,只有根基建立得穩(wěn)定才會(huì)使整個(gè)語(yǔ)法樹(shù)更加健壯、穩(wěn)定,也更容易維護(hù)。該過(guò)程我們應(yīng)遵守以下原則:

① 頂層設(shè)計(jì)要方便維護(hù)。

對(duì)于整個(gè)大的知識(shí)系統(tǒng)來(lái)說(shuō),必不可少要面對(duì)維護(hù)的問(wèn)題,因此在設(shè)計(jì)頂層的時(shí)候一定要方便以后的維護(hù)。我們采用的方式是將結(jié)構(gòu)自頂向下進(jìn)行層層分類(lèi),以后維護(hù)時(shí)只維護(hù)某一層的某一項(xiàng)即可。

例如:在貪腐領(lǐng)域的應(yīng)用中,當(dāng)出現(xiàn)一個(gè)語(yǔ)句不屬于某一類(lèi)時(shí),可以直接將一個(gè)形成一個(gè)新類(lèi)進(jìn)行提升。當(dāng)要修改其中一個(gè)類(lèi)別的內(nèi)容以及語(yǔ)句文法時(shí),也不用顧忌其他的語(yǔ)句文法和類(lèi)別。這樣對(duì)于維護(hù)來(lái)說(shuō),變得更加容易省時(shí)。

② 頂層設(shè)計(jì)的各類(lèi)之間不要有重疊。

對(duì)于某一層的各類(lèi)之間不要出現(xiàn)語(yǔ)句的重疊,這樣會(huì)使得整個(gè)頂層看起來(lái)干凈清晰。

例如:“<指名道姓腐敗描述語(yǔ)句_不明房產(chǎn)>”和“<指名道姓腐敗描述語(yǔ)句_買(mǎi)賣(mài)官職>”下面的文法語(yǔ)句中,不會(huì)出現(xiàn)重復(fù)的內(nèi)容,分類(lèi)清晰明了。這樣不僅使得整個(gè)文法結(jié)構(gòu)分明還可以幫助我們更加方便查看和修改。

③ 語(yǔ)法樹(shù)的結(jié)構(gòu)越清晰越好。

設(shè)計(jì)的文法最終會(huì)轉(zhuǎn)化成一棵語(yǔ)法樹(shù),因此頂層設(shè)計(jì)的好壞決定了該語(yǔ)法樹(shù)的結(jié)構(gòu)。語(yǔ)法樹(shù)的結(jié)構(gòu)越清晰越好,因此頂層設(shè)計(jì)的結(jié)構(gòu)和類(lèi)之間越清晰越好。

1.3語(yǔ)句文法設(shè)計(jì)原則

頂層設(shè)計(jì)后是對(duì)語(yǔ)句進(jìn)行文法編寫(xiě),在文法設(shè)計(jì)的過(guò)程中,我們要不斷地修改頂層設(shè)計(jì)以及非終結(jié)符設(shè)計(jì)從而適應(yīng)語(yǔ)料、語(yǔ)句增多的變化。在文法設(shè)計(jì)過(guò)程中,要遵照一定的原則,才會(huì)使得每個(gè)語(yǔ)句文法準(zhǔn)確、簡(jiǎn)單以及涵蓋面廣等。

① 文法編寫(xiě)要采用正規(guī)的BNF語(yǔ)法。

該原則是文法編寫(xiě)的主要以及首要原則,所有的語(yǔ)句編寫(xiě)文法時(shí)必須采用正規(guī)的BNF語(yǔ)法。

② 編寫(xiě)文法的語(yǔ)句劃分,主要采用“,”進(jìn)行斷句。

在文法設(shè)計(jì)時(shí),語(yǔ)料中編寫(xiě)文法的語(yǔ)句以“,”為一句,對(duì)于每一句有用的語(yǔ)句都要進(jìn)行文法編寫(xiě)。

③ 當(dāng)一個(gè)句子的同一位置可以由兩個(gè)非終結(jié)字符的選擇時(shí),我們可以選擇將兩個(gè)終結(jié)符合并或者寫(xiě)成兩個(gè)語(yǔ)句。

在文法編寫(xiě)時(shí)出現(xiàn)同一個(gè)語(yǔ)法結(jié)構(gòu)和句型,某一個(gè)非終結(jié)符換成另一個(gè)非終結(jié)符依然成立。這時(shí)處理辦法主要有兩種:一是將可以替換的非終結(jié)符進(jìn)行合并,二是形成多個(gè)文法語(yǔ)句。對(duì)于兩種方法的選擇,要考慮非終結(jié)符是否可以合并,以及多個(gè)文法語(yǔ)句是否累贅等因素。

例如:文法“<指名道姓貪腐主語(yǔ)>[<任職期間>]<無(wú)視><法律法規(guī)>”和文法“<指名道姓貪腐主語(yǔ)>[<任職期間>]<無(wú)視><黨紀(jì)詞連用>”兩者之前句型類(lèi)似,但這里我們選擇寫(xiě)成兩句,因?yàn)閮烧咴谡Z(yǔ)義上理解不適合合并。

④ 文法設(shè)計(jì)過(guò)程中要時(shí)刻注意保證文法的可讀性。

文法的可讀性是指編寫(xiě)的文法可以很容易看出中心思想、相應(yīng)的句子結(jié)構(gòu)以及所屬的類(lèi)型。對(duì)于貪腐領(lǐng)域文法來(lái)說(shuō),文法應(yīng)該可以一眼就看出是跟貪污腐敗相關(guān)。

例如:對(duì)于語(yǔ)句“XX省藥監(jiān)局長(zhǎng)黃某坐擁84套房產(chǎn)”,我們?cè)O(shè)計(jì)的文法為“<指名道姓貪腐主語(yǔ)><含有詞><房產(chǎn)數(shù)量詞><房產(chǎn)詞連用>”,很容易看出來(lái)文法很好地反映了語(yǔ)句是關(guān)于有過(guò)多非法房產(chǎn)的貪污腐敗語(yǔ)句。這樣設(shè)計(jì)的文法可讀性很強(qiáng),也很容易他人和自己理解。

⑤ 當(dāng)某些語(yǔ)句本身并不與主題相關(guān),但是卻是輔助和說(shuō)明語(yǔ)句,這時(shí)我們也要將該句也編寫(xiě)成文法。

當(dāng)一個(gè)語(yǔ)句要與前面或后面連起來(lái)才會(huì)反應(yīng)出主題,這時(shí)我們也要將其用文法編寫(xiě)出,因?yàn)橹挥羞@樣才是一個(gè)完整的語(yǔ)句,才可以反映出中心思想。

例如:語(yǔ)句“通過(guò)各種非法途徑,獲取住宅樓房和沿街商品房共70套”,前半句單獨(dú)使用時(shí),不符合語(yǔ)法也不能反映出貪污腐敗的事實(shí),而 “,”設(shè)置成可省。最后形成的語(yǔ)句文法是“[<指名道姓貪腐主語(yǔ)>][<其>][<本人>]<通過(guò)>[<各種>]<非法><方法>[<間隔標(biāo)點(diǎn)>]<獲取><房產(chǎn)>[<共>]<房產(chǎn)數(shù)量詞>”。

⑥ 文法非終結(jié)符的可選要注意可選后語(yǔ)句是否通順,是否符合文法的主題和中心思想,一般修飾性的、做狀語(yǔ)的等非終結(jié)符都是可以省略的。

為了擴(kuò)展文法,最簡(jiǎn)單的方法就是對(duì)非終結(jié)符進(jìn)行可選的操作,判斷一個(gè)非終結(jié)符是否可以可選,主要遵從以下原則:首先要看不加該非終結(jié)符以后,整個(gè)文法語(yǔ)句是否通順是否符合我們的語(yǔ)法要求;然后判斷省略該非終結(jié)符后的文法是否還符合整體主題;最后則是判斷省略該非終結(jié)符后的文法是否還符合之前所屬分類(lèi),如果屬于則不用修改,若不屬于,則要將省略后的文法放置本該屬于的類(lèi)中。

例如:文法“<看來(lái)><指名道姓貪腐主語(yǔ)><先后><收受><人稱(chēng)代詞><的><價(jià)值數(shù)量詞><好處費(fèi)>”中,可以很明顯地看出非終結(jié)符“<看來(lái)>”、“<先后>”、“<人稱(chēng)代詞>”以及“<的>”、 “<價(jià)值數(shù)量詞>”都是可以省略的。通過(guò)上述的分析我們得到最后的文法為“[<看來(lái)>][<指名道姓貪腐主語(yǔ)>][<先后>]<收受>[<人稱(chēng)代詞>][<的>][<價(jià)值數(shù)量詞>]<好處費(fèi)>”。

⑦ 設(shè)置非終結(jié)符可選時(shí)要注意文法沒(méi)有主語(yǔ)的情況。

雖然規(guī)則6中已經(jīng)給出了文法中非終結(jié)符可選的原則,但是當(dāng)非終結(jié)符為主語(yǔ)時(shí),在考慮是否可選時(shí),要注意文法缺少主語(yǔ)時(shí)是否文法所表達(dá)的意義符合中心思想,且不會(huì)匹配到其他無(wú)關(guān)的語(yǔ)句。

例如:文法“<指名道姓貪腐主語(yǔ)><玩弄包養(yǎng)>[<多個(gè)>]<女受害者>”中的非終結(jié)符“<指名道姓貪腐主語(yǔ)>”在句中做主語(yǔ),而如果將該主語(yǔ)設(shè)置為可選,文法“<玩弄包養(yǎng)>[<多個(gè)>]<女受害者>”卻不只是可以匹配官員貪污腐敗的情況,還可以匹配其他商人等一些其他方面內(nèi)容,因此該主語(yǔ)就不能設(shè)置成為可選。

⑧ 文法編寫(xiě)時(shí),要適當(dāng)?shù)膶?duì)文法進(jìn)行擴(kuò)充。

文法擴(kuò)充主要包括兩個(gè)方法。一是改變文法的結(jié)構(gòu)從而形成一個(gè)新的文法;二則是根據(jù)一個(gè)文法進(jìn)行聯(lián)想,可以是對(duì)同一個(gè)語(yǔ)意的不同說(shuō)法,也可以是同一種結(jié)構(gòu)的不同語(yǔ)意。

例如:文法“<指名道姓貪腐主語(yǔ)><長(zhǎng)期><以來(lái)><貪污受賄成語(yǔ)連用>”可以聯(lián)想到將非終結(jié)符“<貪污受賄成語(yǔ)連用>”換成“<貪污受賄短語(yǔ)>”,也符合要求的文法,因此產(chǎn)生了一個(gè)新的文法“<指名道姓貪腐主語(yǔ)><長(zhǎng)期><以來(lái)><貪污受賄短語(yǔ)>”。

1.4非終結(jié)符設(shè)計(jì)原則

在整個(gè)文法設(shè)計(jì)中另外一個(gè)重要的部分就是非終結(jié)符的設(shè)計(jì)。在文法語(yǔ)句設(shè)計(jì)進(jìn)行過(guò)程中,要同時(shí)對(duì)非終結(jié)符進(jìn)行設(shè)計(jì),非終結(jié)符設(shè)計(jì)的好壞也對(duì)文法設(shè)計(jì)的質(zhì)量有影響。為了更好地進(jìn)行非終結(jié)符設(shè)計(jì),我們要遵守以下幾條原則:

① 非終結(jié)字符的名字定義,要符合終結(jié)字符的共同表達(dá),能夠反映終結(jié)字符的含義,并可以看出文法的中心思想。

例如:非終結(jié)符“<程度副詞>”可以看出它定義的終結(jié)符是表示程度的,還可以看出在句子中是作為副詞使用的。

② 對(duì)于非終結(jié)字符來(lái)說(shuō),為了更好地維護(hù)和更準(zhǔn)確地表示其含義,有時(shí)要對(duì)非終結(jié)符繼續(xù)進(jìn)行細(xì)分。

例如:非終結(jié)符“<政府管理部門(mén)>”這個(gè)非終結(jié)字符,包含的范圍很廣,因此按照不同的級(jí)別進(jìn)行劃分,得到的非終結(jié)符為“<國(guó)家政府管理部門(mén)>”、“<省政府管理部門(mén)>”等。這樣可以很好地維護(hù)非終結(jié)符,也使他們的定義更加準(zhǔn)確單一。

③ 根據(jù)句法的應(yīng)用,有時(shí)要對(duì)非終結(jié)字符進(jìn)行合并。

例如:文法“<指名道姓貪腐主語(yǔ)><娶有><人數(shù)數(shù)量詞><妻>”中非終結(jié)符“<娶有>”可以換成 “<含有詞>”,合并兩者,文法就變得簡(jiǎn)單并容易維護(hù)。

④ 當(dāng)表示兩個(gè)非終結(jié)符的終結(jié)字符出現(xiàn)交叉的時(shí)候,對(duì)這兩個(gè)非終結(jié)字符要進(jìn)行合并。

在設(shè)計(jì)非終結(jié)符使,如果出現(xiàn)兩個(gè)非終結(jié)符定義的終結(jié)符有重疊,這時(shí)要考慮這兩個(gè)非終結(jié)符是否可以合并。

例如:非終結(jié)符“<女受害者>”和“<有夫之?huà)D>”,定義時(shí)出現(xiàn)了重疊,這時(shí)將兩者合并形成一個(gè)非終結(jié)符“<女受害者>”。這樣文法就減少了冗余。

⑤ 在合并非終結(jié)符時(shí),我們要考慮是否可以合并。

驗(yàn)證是否可以合并最好的方法是在出現(xiàn)一個(gè)非終結(jié)符的句子中替換成另一個(gè)非終結(jié)符,若句子是通順的,相反亦然時(shí)就可以將兩個(gè)非終結(jié)符合并。

例如:非終結(jié)符“<販賣(mài)>”和“<出讓>”兩者都有賣(mài)的意思,在“XX販賣(mài)土地謀取私利”可以替換,但是 “XX販賣(mài)官職”這時(shí)并不能將“販賣(mài)”替換為“出讓”,這樣做可保證文法的準(zhǔn)確性。

⑥ 當(dāng)多個(gè)非終結(jié)符經(jīng)常成組出現(xiàn),考慮合并抽象成更高層的非終結(jié)符,這樣可以簡(jiǎn)化文法增加文法的可維護(hù)性。

例如:非終結(jié)符“<利用>”和“<職權(quán)>”在句子中經(jīng)常一起出現(xiàn),這時(shí)可以將兩者組合形成高一層的非終結(jié)符“<利用職權(quán)>”,采用這種方式可以使文法更加簡(jiǎn)潔且更方便維護(hù)。

2 領(lǐng)域文法的設(shè)計(jì)過(guò)程

本文主要采用領(lǐng)域文法分析的方式對(duì)微博進(jìn)行輿情分析,而為了得到的結(jié)果更加準(zhǔn)確以及文法的涉及面夠廣,領(lǐng)域文法設(shè)計(jì)的過(guò)程變得非常重要。

對(duì)貪污腐敗語(yǔ)料分析可以起到對(duì)政府官員們監(jiān)督和督促的作用,減少現(xiàn)當(dāng)今官員貪污腐敗、不受信賴(lài)的現(xiàn)狀。本節(jié)主要以領(lǐng)域文法設(shè)計(jì)在貪污腐敗語(yǔ)料的應(yīng)用來(lái)說(shuō)明文法設(shè)計(jì)的主要過(guò)程。

2.1領(lǐng)域分析

領(lǐng)域分析主要是根據(jù)本體的思想理念,結(jié)合領(lǐng)域自身的特點(diǎn)來(lái)對(duì)整個(gè)領(lǐng)域文法從語(yǔ)義方面進(jìn)行劃分和刻畫(huà)。我們可以通過(guò)觀察語(yǔ)料對(duì)語(yǔ)句進(jìn)行分析,將貪腐輿情領(lǐng)域劃分不同的類(lèi),而劃分的標(biāo)準(zhǔn)則是使類(lèi)與類(lèi)之間可以很好的區(qū)別開(kāi),結(jié)果可以很明顯看出屬于貪腐輿情的范圍。

首先,我們可以大致對(duì)類(lèi)進(jìn)行劃分,然后根據(jù)語(yǔ)料進(jìn)行修改和擴(kuò)展。本文通過(guò)語(yǔ)句的語(yǔ)義,按照貪腐的不同表現(xiàn)對(duì)整個(gè)貪腐輿情領(lǐng)域進(jìn)行劃分。劃分的類(lèi)的結(jié)果如圖1所示。

圖1 貪腐輿情領(lǐng)域分析圖

2.2語(yǔ)料準(zhǔn)備

在領(lǐng)域文法設(shè)計(jì)之前,我們要做好準(zhǔn)備工作,而準(zhǔn)備工作當(dāng)中最重要的則是對(duì)語(yǔ)料的準(zhǔn)備。

對(duì)于語(yǔ)料的查找,可以先根據(jù)初步的領(lǐng)域分析,來(lái)進(jìn)行語(yǔ)料的查找,并在語(yǔ)料的過(guò)程中對(duì)領(lǐng)域分析進(jìn)行修改,并對(duì)新產(chǎn)生的類(lèi)進(jìn)行語(yǔ)料的查找,如此循環(huán)進(jìn)行,完成語(yǔ)料的準(zhǔn)備工作和領(lǐng)域分析的工作。語(yǔ)料查找方式有很多,使用微博的語(yǔ)料主要采用的準(zhǔn)備方法有以下兩種:

(1) 關(guān)鍵字搜索,并搭配復(fù)雜的搜索

直接通過(guò)關(guān)鍵字的查找對(duì)微博進(jìn)行搜索,并可以采用多個(gè)關(guān)鍵字的復(fù)雜形式;關(guān)鍵字主要是與貪腐相關(guān)的字眼。

(2) 關(guān)注用戶,從而獲取用戶發(fā)布的相關(guān)內(nèi)容

因?yàn)楫?dāng)前微博的用戶很多是以機(jī)構(gòu)、單位以及團(tuán)體等形式的用戶,我們可以根據(jù)要搜索的語(yǔ)料類(lèi)型來(lái)對(duì)相應(yīng)的用戶搜索,再對(duì)該用戶發(fā)布的帖子進(jìn)行查看,再篩選出相應(yīng)的語(yǔ)料。

因?yàn)殛P(guān)鍵字的查詢(xún),準(zhǔn)確率并不高,這時(shí)需要對(duì)語(yǔ)料進(jìn)行篩選。首先要選擇真正屬于貪腐的語(yǔ)料,其次在篩選語(yǔ)料時(shí),只選擇原創(chuàng)性和第一次爆料的。因?yàn)橹挥械谝淮伪显瓌?chuàng)性的語(yǔ)料,才會(huì)幫助有關(guān)部門(mén)得到第一手消息對(duì)相關(guān)人員進(jìn)行調(diào)查。

2.3領(lǐng)域文法設(shè)計(jì)

完成語(yǔ)料準(zhǔn)備工作以后,進(jìn)入領(lǐng)域文法設(shè)計(jì)階段。該步驟中,主要是對(duì)標(biāo)注的語(yǔ)句進(jìn)行分析和文法總結(jié)。整個(gè)文法設(shè)計(jì)過(guò)程中,我們不僅是對(duì)句子進(jìn)行文法設(shè)計(jì),還包括其他方面的設(shè)計(jì)。其過(guò)程如下:

2.3.1頂層設(shè)計(jì)

頂層設(shè)計(jì)主要在頂層設(shè)計(jì)原則的指導(dǎo)下針對(duì)各個(gè)語(yǔ)句文法的上層進(jìn)行設(shè)計(jì)。因此在具體語(yǔ)句文法設(shè)計(jì)之前,要先對(duì)頂層進(jìn)行設(shè)計(jì),同時(shí)為了形成一個(gè)更好維護(hù)的分析樹(shù),頂層設(shè)計(jì)也要具有層次性。從根到語(yǔ)句文法設(shè)計(jì)成層次清楚、結(jié)構(gòu)鮮明的形式。

對(duì)于貪污腐敗文法的頂層設(shè)計(jì),我們首先考慮根的設(shè)計(jì)。既然我們主要工作是對(duì)貪污腐敗的描述進(jìn)行文法設(shè)計(jì),因此我們的根就可以設(shè)計(jì)成<貪腐描述語(yǔ)句>,下面則是對(duì)語(yǔ)句進(jìn)行細(xì)分。為了更好地維護(hù)和擴(kuò)展,要保證每類(lèi)文法的區(qū)分度要大,并且可以很好地表現(xiàn)該類(lèi)文法的特點(diǎn)。之前領(lǐng)域分析的結(jié)果可以很好地滿足需求,因此對(duì)于類(lèi)的劃分可以采用參考領(lǐng)域分析的結(jié)果。處理語(yǔ)句的過(guò)程中,發(fā)現(xiàn)了有些句子是沒(méi)有主語(yǔ)的,因此在劃分類(lèi)之前先對(duì)有無(wú)主語(yǔ)進(jìn)行劃分,劃分為<指名道姓貪腐描述語(yǔ)句>和<非指名道姓貪腐描述語(yǔ)句>;然后則是根據(jù)其貪污腐敗內(nèi)容也就是領(lǐng)域分析的結(jié)果進(jìn)行分類(lèi),最后我們得到的頂層如圖2所示。

圖2 領(lǐng)域文法設(shè)計(jì)頂層

2.3.2語(yǔ)句文法設(shè)計(jì)

在完成頂層設(shè)計(jì)以后,開(kāi)始進(jìn)行語(yǔ)句的文法設(shè)計(jì)。對(duì)語(yǔ)句進(jìn)行文法設(shè)計(jì)時(shí),要遵照語(yǔ)句文法設(shè)計(jì)原則進(jìn)行領(lǐng)域文法的編寫(xiě)。

根據(jù)每一個(gè)語(yǔ)句中的詞語(yǔ)或詞組來(lái)設(shè)置非終結(jié)符,而文法語(yǔ)句就是靠非終結(jié)符的連接形成。非終結(jié)符的定義可以是終結(jié)符、非終結(jié)符以及終結(jié)符和非終結(jié)符的組合。

例如:語(yǔ)句“XX省委羅某昏官!”寫(xiě)成的簡(jiǎn)單文法為“<省><官職><官員名字><昏官>”。

2.3.3非終結(jié)符設(shè)計(jì)

當(dāng)語(yǔ)句文法完成,要根據(jù)非終結(jié)符設(shè)計(jì)原則進(jìn)行非終結(jié)符設(shè)計(jì)。非終結(jié)符設(shè)計(jì)要對(duì)終結(jié)符進(jìn)行聯(lián)想,聯(lián)想出意思相近或是符合語(yǔ)句的其他詞語(yǔ),一些情況下還要考慮將非終結(jié)符進(jìn)行合并。

例如:如非終結(jié)符“<國(guó)外目的地>”可以聯(lián)想到的類(lèi)似詞語(yǔ)有“海外”、“境外”、“國(guó)外”等,但是除了這些統(tǒng)稱(chēng)詞語(yǔ)以外,當(dāng)語(yǔ)句文法中該位置換成某個(gè)國(guó)家的名稱(chēng),語(yǔ)句也符合。因此“<國(guó)外目的地>”最后定義為“<國(guó)外目的地>::=海外|境外|國(guó)外|外國(guó)|<具體國(guó)家名稱(chēng)>”

2.4領(lǐng)域文法修改、合并以及擴(kuò)充

領(lǐng)域文法設(shè)計(jì)完成以后,隨著文法語(yǔ)句的增多,要在語(yǔ)句文法設(shè)計(jì)原則的指導(dǎo)下對(duì)文法進(jìn)行修改合并或擴(kuò)充。進(jìn)行文法的修改和合并,主要是檢查是否存在類(lèi)似的文法,是否存在不通順的文法,是否存在不準(zhǔn)確的語(yǔ)句文法。文法的擴(kuò)充則是為了使文法的涵蓋面更廣通過(guò)改變說(shuō)法、改變句型結(jié)構(gòu)以及聯(lián)想等方式來(lái)增加文法。

2.4.1文法修改

文法的修改,針對(duì)的問(wèn)題是文法中可選的非終結(jié)符導(dǎo)致句子成分殘缺而不成句子或文法語(yǔ)句的結(jié)構(gòu)等不符合我們的習(xí)慣,以及文法并不能體現(xiàn)出語(yǔ)句意義的情況。而改進(jìn)的方法主要是改變文法語(yǔ)法結(jié)構(gòu)、直接刪除或修改非終結(jié)符。

例如:文法“[<指名道姓貪腐主語(yǔ)>][<的>]<財(cái)產(chǎn)>[<全都詞>]<轉(zhuǎn)移>[<到>][<國(guó)外目的地>]”該語(yǔ)句的主語(yǔ)為“<財(cái)產(chǎn)>”可以匹配出不是貪污腐敗的語(yǔ)句,因此在“<財(cái)產(chǎn)>”前加入“<非法>”的非終結(jié)符。

2.4.2文法合并

文法合并針對(duì)的問(wèn)題包括兩個(gè)文法之間類(lèi)似或一個(gè)文法包含另一個(gè)文法的情況。這時(shí)改進(jìn)方法是合并文法并改變非終結(jié)符的定義,同時(shí)適當(dāng)?shù)貙?duì)非終結(jié)符進(jìn)行合并;或者對(duì)非終結(jié)符進(jìn)行可選設(shè)置,從而使得長(zhǎng)句子通過(guò)可選方式從而形成包含的短句子。

例如:文法“[<指名道姓貪腐主語(yǔ)>][<自己>][<在某地>]<當(dāng)官><貪污>”和文法“[<指名道姓貪腐主語(yǔ)>][<自己>][<在某地>]<當(dāng)官><受賄>”,我們可以看到兩句文法類(lèi)似,這時(shí)我們將“<貪污>”“<受賄>”進(jìn)行合并形成新的非終結(jié)符“<貪污受賄>”,最后形成一句文法“[<指名道姓貪腐主語(yǔ)>][<自己>][<在某地>]<當(dāng)官><貪污受賄>”,新形成的文法更容易維護(hù)且文法涵蓋面更廣。

2.4.3文法擴(kuò)充

雖然完成現(xiàn)有語(yǔ)料的所有語(yǔ)句文法,但是不能保證總結(jié)的文法涵蓋所有的語(yǔ)句,特別是語(yǔ)法結(jié)構(gòu)不同,就會(huì)變成不同的語(yǔ)句,所以我們要通過(guò)改變語(yǔ)法結(jié)構(gòu)或者聯(lián)想來(lái)擴(kuò)充文法。

例如:文法“[<原>]<指名道姓貪腐主語(yǔ)><人數(shù)數(shù)量詞><含有詞><房產(chǎn)數(shù)量詞><房產(chǎn)詞連用>”中非終結(jié)符“<房產(chǎn)數(shù)量詞>”和“<房產(chǎn)詞連用>”交換位置依然成立。因此產(chǎn)生一個(gè)新的文法“[<原>]<指名道姓貪腐主語(yǔ)><人數(shù)數(shù)量詞><含有詞><房產(chǎn)詞連用><房產(chǎn)數(shù)量詞>”。

3 實(shí) 驗(yàn)

為了驗(yàn)證上述提出的文法設(shè)計(jì)方法和原則的有效性, 本文將上述方法應(yīng)用到貪污腐敗主題的輿情分析中,并采用LL(1)分析方法進(jìn)行實(shí)驗(yàn)[8]。我們從新浪微博中下載了涉及貪腐的語(yǔ)料,對(duì)系統(tǒng)進(jìn)行了初步的測(cè)試。

3.1文法分析器設(shè)計(jì)

本文選擇通用的分析器,可以從外界導(dǎo)入文法,建立推導(dǎo)、分析樹(shù)等。該文法分析器的設(shè)計(jì)和實(shí)現(xiàn)主要參考了一個(gè)開(kāi)源語(yǔ)法分析器,并在此基礎(chǔ)上進(jìn)行了補(bǔ)充和完善。完善了語(yǔ)句推導(dǎo)過(guò)程和文法樹(shù)建立過(guò)程,補(bǔ)充添加了語(yǔ)句推導(dǎo)導(dǎo)出功能和文法樹(shù)保存輸出功能。

文法分析器是一個(gè)分析文法并驗(yàn)證某一個(gè)語(yǔ)句是否符合該文法的系統(tǒng),

整個(gè)文法分析器的主要流程包括以下三個(gè)步驟:

(1) 導(dǎo)入文法。該系統(tǒng)采用從外界導(dǎo)入文法的形式,用戶將文法寫(xiě)入一個(gè)txt中,然后選擇導(dǎo)入文法功能,將文法導(dǎo)入。

(2) 語(yǔ)句推導(dǎo)。在完成了文法導(dǎo)入操作以后,只要選擇創(chuàng)建推導(dǎo)功能,輸入要判斷的語(yǔ)句進(jìn)行推導(dǎo);推導(dǎo)完成后可以選擇查看推導(dǎo)功能,這時(shí)系統(tǒng)將顯示推導(dǎo)過(guò)程。

(3) 分析樹(shù)建立。在完成語(yǔ)句推導(dǎo)之后,可以選擇建立分析樹(shù)來(lái)更形象的觀察語(yǔ)句的推導(dǎo)過(guò)程,還能根據(jù)需要將分析樹(shù)進(jìn)行輸出。

根據(jù)主要步驟得到的流程如圖3所示。

圖3 文法分析器流程圖

3.2文法驗(yàn)證

3.2.1實(shí)驗(yàn)

依照上述描述的過(guò)程,使用LL(1)文法分析器,根據(jù)語(yǔ)料完成的文法數(shù)量為526條,共分為38類(lèi)。語(yǔ)料的主要來(lái)源于新浪微博,所有語(yǔ)料準(zhǔn)備為重點(diǎn)貪腐語(yǔ)以及首發(fā)語(yǔ)句,處理后分成句子223條,其中隨機(jī)挑出了100條語(yǔ)料進(jìn)行文法編寫(xiě),所有的223條語(yǔ)料在分析器上進(jìn)行了運(yùn)行。下面以幾條例句為例來(lái)進(jìn)行結(jié)果的演示:

(1) “XX市國(guó)稅局局長(zhǎng)任職期間含有三輛豪華高級(jí)轎車(chē)”

該語(yǔ)句屬于生活腐敗類(lèi)中,使用文法分析器根據(jù)領(lǐng)域文法得到的文法推導(dǎo)過(guò)程如圖4所示。

圖4 句(1)文法推導(dǎo)過(guò)程

根據(jù)推導(dǎo)可以分析得到一棵完整的例句的文法分析樹(shù),分析樹(shù)可以很清晰地看出例句到文法的對(duì)應(yīng)關(guān)系,得到的文法分析樹(shù)如圖5所示。

圖5 句(1)文法分析樹(shù)結(jié)果

(2) “XX市武裝部部長(zhǎng)買(mǎi)支書(shū)給妻子當(dāng)”

該語(yǔ)句屬于買(mǎi)賣(mài)官職類(lèi),使用文法分析器得到的結(jié)果會(huì)與上述過(guò)程一致,而最終的結(jié)果得到的文法樹(shù)如圖6所示。

圖6 句(2)文法分析結(jié)果

(3) “村干部周某任職我們村主任7年,期間利用職權(quán)便利,非法變賣(mài)霸占村委集體土地”

本語(yǔ)句表達(dá)的方面是關(guān)于貪腐關(guān)于非法搶占土地的問(wèn)題, 根據(jù)文法,可以分析得到一棵完整的例句的文法分析樹(shù)。分析樹(shù)可以很清晰地看出例句到文法的對(duì)應(yīng)關(guān)系,得到的文法分析樹(shù)如圖7所示。

圖7 句(3)文法分析結(jié)果

3.2.2結(jié)果分析

采用以上幾個(gè)典型的例句進(jìn)行分析,可以很容易地看出我們方法的優(yōu)越性和準(zhǔn)確性。

以上的例句都很容易地可以看出屬于貪腐語(yǔ)句。但如果只是單純地采用關(guān)鍵字的搜索,例如一般搜索關(guān)鍵字“高級(jí)轎車(chē)”、“買(mǎi)官”等,會(huì)得到很多冗余的信息。因?yàn)橥瑯拥恼f(shuō)法也可能試用于商業(yè)人士或一些明星等,這時(shí)為了得到想要的貪腐相關(guān)語(yǔ)句,就要對(duì)所有的語(yǔ)料進(jìn)行查看篩選;而如果采用領(lǐng)域文法的形式,就可以很容易地直接得到貪腐的語(yǔ)句,并將一些無(wú)關(guān)的相似語(yǔ)句排除。另外如果為了準(zhǔn)確率而輸入多個(gè)關(guān)鍵字,限制就會(huì)更多,很多相關(guān)語(yǔ)句會(huì)被過(guò)濾掉;而采用領(lǐng)域文法的分析的方式,因?yàn)橛蟹墙K結(jié)符可選的靈活使用,就可以對(duì)相關(guān)的內(nèi)容很充分地曬選出來(lái)。對(duì)于微博來(lái)說(shuō),一些重要事件的暴露主要依靠網(wǎng)友的轉(zhuǎn)發(fā)以及評(píng)論,當(dāng)達(dá)到一定數(shù)目才會(huì)被發(fā)覺(jué),而這些是需要時(shí)間的;如果采用領(lǐng)域文法的形式,那么再出現(xiàn)的時(shí)候就可以很容易地監(jiān)測(cè)出來(lái),實(shí)時(shí)性更好。

通過(guò)以上的分析,可以看出文法分析的優(yōu)越性以及實(shí)時(shí)性,以及領(lǐng)域文法分析在輿情分析中的特色。

4 結(jié) 語(yǔ)

為了解決語(yǔ)義輿情分析基于關(guān)鍵字準(zhǔn)確率較低的問(wèn)題,本文提出基于領(lǐng)域文法設(shè)計(jì)的方式,并詳細(xì)總結(jié)和說(shuō)明了領(lǐng)域文法設(shè)計(jì)過(guò)程和涉及到的原則。本文首先對(duì)文法和領(lǐng)域文法進(jìn)行簡(jiǎn)單的介紹,為領(lǐng)域文法設(shè)計(jì)打下了技術(shù)基礎(chǔ)。然后對(duì)領(lǐng)域文法設(shè)計(jì)進(jìn)行了總結(jié),總結(jié)了領(lǐng)域文法設(shè)計(jì)的原則和過(guò)程。

隨后將領(lǐng)域文法設(shè)計(jì)的過(guò)程和原則在貪腐主題的網(wǎng)絡(luò)輿情分析中進(jìn)行應(yīng)用,形成貪腐領(lǐng)域文法并進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法對(duì)文本分析是有效的。而本研究總結(jié)的領(lǐng)域文法設(shè)計(jì)過(guò)程和原則對(duì)所有的領(lǐng)域文法設(shè)計(jì)通用,為基于語(yǔ)義的輿情監(jiān)測(cè)系統(tǒng)的文法設(shè)計(jì)提供理論基礎(chǔ),有利于幫助相關(guān)工作合理地設(shè)計(jì)和編寫(xiě)領(lǐng)域文法,具有重要的理論意義和實(shí)用價(jià)值。

本文方法相較于統(tǒng)計(jì)的方法主要的優(yōu)點(diǎn)和創(chuàng)新點(diǎn)包括:

(1) 當(dāng)關(guān)鍵信息數(shù)據(jù)稀疏的情況下,領(lǐng)域文法的方式依然可以很好地監(jiān)測(cè);

(2) 領(lǐng)域文法的方式不需要對(duì)信息進(jìn)行統(tǒng)計(jì),可以避免相關(guān)信息內(nèi)容因?yàn)榫嚯x太遠(yuǎn)而不能找到,同時(shí)可以更好地精確查找信息;

(3) 領(lǐng)域文法的方法可以很好地提取真正有用的信息,避免統(tǒng)計(jì)方法的容易受到無(wú)用冗余信息的影響,因?yàn)橛行┰~匯之間只有搭配起來(lái)使用才會(huì)起到一定的作用和意義。

但是也不能忽略其中包含的問(wèn)題,因此后面要解決的主要問(wèn)題和方向包括:(1) 雖然文法設(shè)計(jì)的準(zhǔn)確率高,但是卻存在人工耗費(fèi)過(guò)大的缺點(diǎn),因此要尋找機(jī)器學(xué)習(xí)的方式,從人工的文法設(shè)計(jì)中,自動(dòng)提取更多的相關(guān)文法,從而提高效率和減少人力。(2) 領(lǐng)域文法只是適用于某個(gè)領(lǐng)域,因此并不是開(kāi)放的,并不能很好地適用于所有領(lǐng)域的大規(guī)模數(shù)據(jù)。 (3) 要設(shè)計(jì)更有效的檢測(cè)方式來(lái)對(duì)設(shè)計(jì)的文法檢測(cè),而不是單純的靠語(yǔ)料的對(duì)比,還要可以根據(jù)方法來(lái)檢測(cè)文法的模糊性、歧義性、冗余性等方面。

[1] 張超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究[D].北京郵電大學(xué),2008.

[2] 王來(lái)華.輿情研究概論[M].天津社會(huì)科學(xué)院出版社,2003.

[3] Bharath S,Dave F,Hakan F,et al.Short text classification in Twitter to improve information filtering[C]//Crestani F,Marchand-Maillet S,Chen Hsin-Hsi,et al. Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2010:841-842.

[4] 夏雨禾.微博互動(dòng)的結(jié)構(gòu)與機(jī)制——基于對(duì)新浪微博的實(shí)證研究[J].新聞與傳播研究,2010(4):60-69.

[5] 朱國(guó)華.文本信息處理中漢語(yǔ)句法分析方法研究[D].大連理工大學(xué),2003.

[6] 龐磊,李壽山,周?chē)?guó)棟.基于情緒知識(shí)的中文微博情感分類(lèi)方法[J].計(jì)算機(jī)工程,2012,38(13):156-158,162.

[7] 姚天昉,婁德成.漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究[J].中文信息學(xué)報(bào),2007,21(5):73-79.

[8] 王海濤,曹存根,高穎.基于領(lǐng)域本體的半結(jié)構(gòu)化文本知識(shí)自動(dòng)獲取方法的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2005,28(12):2010-2018.

[9] 馮志偉.自然語(yǔ)言處理中的概率語(yǔ)法[J].當(dāng)代語(yǔ)言學(xué),2005,7(2):166-178.

[10] 馮志偉.用上下文無(wú)關(guān)語(yǔ)法來(lái)描述漢字結(jié)構(gòu)[J].語(yǔ)言科學(xué),2006,5(3):14-23.

[11] Jurafsky D,Martin J H,馮志偉.自然語(yǔ)言處理綜論[M].電子工業(yè)出版社,2003.

[12] 侯圣巒.基于語(yǔ)義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[D].北京:北京工業(yè)大學(xué),2014.

[13] 楊明輝,郭肇德.基于擴(kuò)展的BNF文法的通用語(yǔ)法分析算法[J].軟件學(xué)報(bào),1992(3):24-32.

[14] Charniak E.Statistical parsing with a context-free grammar and word statistics[C]//Proceedings of the national conference on artificial intelligence.JOHN WILEY & SONS LTD,1997:598-603.

[15] Aho A V,趙建華,鄭滔,等.編譯原理[M].機(jī)械工業(yè)出版社,2009.

[16] 王海濤.文本知識(shí)處理方法及智能敘事生成應(yīng)用研究[D].北京:中國(guó)科學(xué)院研究生院,2008.

[17] 黃萱菁,張奇,吳苑斌.文本情感傾向分析[J].中文信息學(xué)報(bào),2011,25(6):118-126.

[18] 吳昱明,曹存根.一種介詞-動(dòng)詞模式的獲取方法[J].計(jì)算機(jī)科學(xué),2008,35(11):139-143.

A METHOD FOR ANALYSING PUBLIC OPINIONS IN MICROBLOGS BASED ON DOMAIN-SPECIFIC GRAMMAR AND ITS APPLICATION

Zhang Luchen1Zhang Liang1Sun Haoliang1Fang Fang2Cao Yang3Cao Cungen2

1(NationalComputerNetworkEmergencyResponseTeam/CoordinationCenterofChina,Beijing100029,Chima)2(KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)3(CollegeofComputerScienceandInformationTechnology,GuangxiNormalUniversity,GuiLin541000,Guangxi,China)

Traditional public opinion analysis method has two defects: since lacking necessary semantic processing on public opinion texts, traditional network public opinions analysis method based on keywords or bag-of-words usually has inaccurate analysis results, i.e., the false negative and false positive rates are relatively high; and because of sparse data, generally the method can’t timely catch the ″signs″ of public opinions in early stage of public opinion development. To solve these problems, this paper presents a domain-specific grammar-based analysis method for analysing microblogging grammars, and puts forward a list of universal design principles and an analysis method for domain-specific grammar. Compared with statistical method, the advantages and the innovation points of domain-specific grammar-based method include: the domain-specific grammar can still work well in the case of data sparsity; the work mode of domain-specific grammar does not need to make statistics on information, and will not be affected by the distance of words. The domain-specific grammar-based method can well extract really useful information but will not be affected by the word collocation as the statistical method is. To demonstrate the utility of our method, we choose the public opinions of anti-corruption as the verification application. Experiments show that the grammar of public opinions in regard to corruption domain can well recognise and extract the text contents of microblogging public opinions of corruption category, therefore reaches the goal of corruption public opinions inspection.

Microblogging public opinion analysisDomain-specific grammarGrammar designAnti-corruption domain

2014-12-18。國(guó)家自然科學(xué)基金項(xiàng)目(91224006,6103 5004,61173063,61203284);科技部項(xiàng)目(201303107)。張露晨,工程師,主研領(lǐng)域:網(wǎng)絡(luò)與信息安全。張良,高工。孫昊良,工程師。方芳,碩士生。曹陽(yáng),碩士生。曹存根,研究員。

TP391

A

10.3969/j.issn.1000-386x.2016.08.010

猜你喜歡
文法貪腐語(yǔ)料
魏晉時(shí)期的清廉與貪腐
西夏文銅鏡的真言文法與四臂觀音像研究
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
貪腐文化的表現(xiàn)形式及其消除對(duì)策
《苗防備覽》中的湘西語(yǔ)料
村官貪腐背后的權(quán)利困境
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法