基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取

2014-04-29 00:44:03吳保珍

電腦迷 2014年11期

關(guān)鍵詞：互信息

吳保珍

摘要發(fā)現(xiàn)網(wǎng)絡(luò)新詞在中文信息處理方面具有非常重要的作用和意義。本文提出了一種基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取方法。首先，從網(wǎng)絡(luò)上下載語料；然后，使用分解得到質(zhì)串；并在其基礎(chǔ)上，進(jìn)一步使用改進(jìn)的檢驗(yàn)方法結(jié)合質(zhì)子串分解方法抽取具有復(fù)雜結(jié)構(gòu)的合串并比較驗(yàn)證新詞；實(shí)驗(yàn)結(jié)果顯示，該算法有效地提高了網(wǎng)絡(luò)新詞抽取的精確度。

關(guān)鍵詞網(wǎng)絡(luò)新詞質(zhì)子串分解互信息 F-MI

中圖分類號(hào)：TP391.1 文獻(xiàn)標(biāo)識(shí)碼：A

0引言

新詞是未登錄詞的一種，即新詞也是未收入在詞典中的詞，但它和未登錄詞還是有所不同。它指通過各種途徑產(chǎn)生的、具有基本詞匯所沒有的新形式、新意義或新用法的詞語或者是出現(xiàn)在某一時(shí)間段內(nèi)或自某一時(shí)間點(diǎn)以來所首次出現(xiàn)的具有新詞形，新詞義或者新用法的詞匯。

1新詞獲取系統(tǒng)流程

新詞識(shí)別的信息流采集于門戶網(wǎng)站下載的網(wǎng)頁，組建語料庫，對(duì)語料進(jìn)行預(yù)處理，建立Pat Tree索引，然后進(jìn)行術(shù)語抽取。其中術(shù)語抽取的方法采用基于卡方檢驗(yàn)的質(zhì)子串分解方法。

2網(wǎng)絡(luò)新詞識(shí)別方法

該模塊是系統(tǒng)的核心模塊。首先，對(duì)候選術(shù)語集合進(jìn)行C-value參數(shù)計(jì)算，對(duì)于C-value小于給定閾值的候選術(shù)語將被從列表中刪除；然后對(duì)表中的候選術(shù)語進(jìn)行字符串分解，并根據(jù)分解結(jié)果計(jì)算所有候選串的F-MI參數(shù)值；最后，根據(jù)給定的F-MI閾值，淘汰掉錯(cuò)誤的候選術(shù)語，并輸出最終的術(shù)語列表。

2.1質(zhì)子串分解

我們把詞簡單地分為兩類，一類是不可再分解為更小的詞匯單元的詞匯，這類詞我們稱為質(zhì)詞，如“珠穆朗瑪”一詞，任何子串（“珠穆朗”或“朗瑪”等）都不是詞；另一類是由質(zhì)詞組合而成的詞匯，這類詞我們稱為合詞，如“社會(huì)保障體系”則是由三個(gè)質(zhì)詞（“社會(huì)”、“保障”和“體系”）組合而成的。對(duì)于串S，除了單字串和質(zhì)串以外，都是合串，單字既不是質(zhì)串，也不是合串。對(duì)于合串S，如果S可以串分解為S= S1 S2 S3…Sm，其中Si可以為質(zhì)串或單字，但必須至少有一個(gè)是質(zhì)串，則稱S=S1 S2 S3…S m是S的一種質(zhì)子串分解。

2.2串分解的F-MI

本文采用改進(jìn)的互信息參數(shù)F-MI來評(píng)估一個(gè)串成為術(shù)語的可能性。參數(shù)F-MI的定義分兩種：串分解的F-MI值和串的F-MI值，其中串的F-MI值的定義以串分解的F-MI為基礎(chǔ)。

對(duì)于串S及S的一種分解S= S1 S2 S3…Sm，串分解的F-MI的計(jì)算公式為：

S表示待計(jì)算的串，F(xiàn)（S）表示S在文檔集中出現(xiàn)的次數(shù)，T（S）表示S所有父串在文檔集中出現(xiàn)的次數(shù)，而C（S）表示S所有父串的個(gè)數(shù)。

參數(shù)C-value的目標(biāo)是為了提高網(wǎng)狀術(shù)語的抽取效果。由公式3.2可知，對(duì)于極大串S，C-value（S）=F（S）；而對(duì)于非極大串S，C-value參數(shù)則綜合考慮了S及其所有父串之間的網(wǎng)狀關(guān)系，例如對(duì)于極大串S1=“珠穆朗瑪”及其子串S2=“珠穆朗”，如果F（S1）=F（S2），則C-value（S1）=F（S1），而C-value（S2）=0。

而參數(shù)的定義為：

其中，i表示表中的行變量，j表示列變量，Oi，j表示表單元（i，j）的觀測(cè)值，Ei，j表示期望值。這里，我們?nèi)?？的表來計(jì)算，如表2所示。

表2 單詞質(zhì)量和監(jiān)督出現(xiàn)次數(shù)之間的依賴關(guān)系的2？的表

檢驗(yàn)從理論上講適用于各種大小的表，但是對(duì)于2？的表的表達(dá)形式相對(duì)簡單：

=（N是語料庫中二元對(duì)的總數(shù)）

2.3串的F-MI

對(duì)某一質(zhì)串S= C1 C2 C3… Cm（其中Ci均為單字），質(zhì)串F-MI的計(jì)算公式為：

其中，本文定義單字的C-value（C）=F（C），如質(zhì)串“珠穆朗瑪”的F-MI值為：

而對(duì)某一合串S，如果S的所有質(zhì)子串分解為：

即共有n種分解方式，根據(jù)公式3.1，分別計(jì)算每一種串分解的F-MI值（f1，f2，f3，…，fn），則合串S的F-MI的定義為：

F-MI（S）=Max（f1，f2，f3，…，fn）（3.5）

本文術(shù)語抽取的重點(diǎn)是合串的抽取。而在抽取到的62190個(gè)合串中，只有4531個(gè)被Hownet收錄，92%以上的合串未被收錄，其原因是這些合串大部分并不屬于嚴(yán)格意義上的詞，而主要是一些短語和組合術(shù)語。另外，本文結(jié)合卡方檢驗(yàn)對(duì)組合術(shù)語出現(xiàn)的偶然性進(jìn)行驗(yàn)證，從而使合串抽取的正確率有所提高。

3實(shí)驗(yàn)結(jié)果及分析

（1）測(cè)試數(shù)據(jù)

我們下載了新浪（http：//www.sina.com.cn）網(wǎng)站上從2013年1月到2013年6月的文章，共計(jì)130016篇文章，約345M。

（2）測(cè)試結(jié)果及評(píng)估

本次實(shí)驗(yàn)共抽取到了241998個(gè)術(shù)語，其（下轉(zhuǎn)第45頁）（上接第43頁）中108102個(gè)被Hownet收錄，占所有抽取總數(shù)的 44.67%，質(zhì)串99040個(gè)（91.62%），合串9062個(gè)（8.38%）；詞典之外（OOV）的133896個(gè)術(shù)語中，質(zhì)串18578個(gè)（占13.87%），合串115318個(gè)（占86.13%）。當(dāng)我們對(duì)詞典之外的進(jìn)行了人工評(píng)估，并規(guī)定，在合串中只有名詞性短語才被認(rèn)定為是正確的詞匯。正確的詞匯共有204696個(gè)，總體準(zhǔn)確率為85.41%。

（3）實(shí)驗(yàn)結(jié)果分析

本文網(wǎng)絡(luò)新詞抽取的重點(diǎn)是合串的抽取。而在抽取到的124380個(gè)合串中，只有9062個(gè)被Hownet收錄，90%以上的合串未被收錄，其原因是這些合串大部分主要是一些短語和組合術(shù)語，并不屬于嚴(yán)格意義上的詞。另外，本文采用結(jié)合卡方檢驗(yàn)和互信息F-MI檢測(cè)對(duì)組合術(shù)語出現(xiàn)的偶然性進(jìn)行驗(yàn)證，從而使合串抽取的正確率有所提高（表3、表4）。

我們通過計(jì)算抽取到的術(shù)語數(shù)目與語料規(guī)模的比值來考察分析。與文獻(xiàn)（Patrick & Dekang 2001）10M測(cè)試語料抽取到10268個(gè)術(shù)語相比（比值約1026.8），本文在約345M的測(cè)試語料上抽取到241998個(gè)術(shù)語（比值約876.8），該參數(shù)要小于前者，隨著測(cè)試語料規(guī)模的增大，重復(fù)術(shù)語出現(xiàn)增多，所以在結(jié)果上基本是一致的。

4結(jié)語

本文介紹了基于卡方檢驗(yàn)和質(zhì)子串分解來獲取網(wǎng)絡(luò)新詞，今后我們將針對(duì)參數(shù)F-MI的特點(diǎn)，繼續(xù)對(duì)F-MI公式進(jìn)行研究和改進(jìn)，以提高質(zhì)串的抽取效果；在今后會(huì)根據(jù)詞法規(guī)則來自動(dòng)過濾非名詞的詞匯。在本文提出的方法和實(shí)驗(yàn)結(jié)果的分析的基礎(chǔ)上，我們將嘗試結(jié)合自然語言處理中的文本自動(dòng)分類技術(shù)，基本上自動(dòng)實(shí)時(shí)動(dòng)態(tài)地從Internet上抓取網(wǎng)頁，并自動(dòng)分類，對(duì)不同類別的文本集分別進(jìn)行術(shù)語抽取，建立一個(gè)實(shí)時(shí)的動(dòng)態(tài)的網(wǎng)絡(luò)新詞發(fā)現(xiàn)系統(tǒng)。

參考文獻(xiàn)

[1] Frantzi K， Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark：Proceeding of COLING，1996：41-46.

[2] Patrick Pantel，Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada：Canadian Conference on AI，2001：36-46.

[3] 劉建舟，何婷婷，姬東鴻等. 基于開放語料的漢語術(shù)語的自動(dòng)抽取[c]. 沈陽：第二十屆東方語言計(jì)算機(jī)處理國際學(xué)術(shù)會(huì)議，2003：43-49.

[4] 何婷婷，張勇. 基于質(zhì)子串分解的中文術(shù)語自動(dòng)抽取[J].上海：計(jì)算機(jī)工程，2006，32（23）：188-190.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取