国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高斯詞長特征的中文分詞方法

2016-05-04 02:43李治江
中文信息學(xué)報 2016年5期
關(guān)鍵詞:分詞語料高斯

張 義,李治江

(武漢大學(xué) 印刷與包裝系,湖北 武漢,430079)

基于高斯詞長特征的中文分詞方法

張 義,李治江

(武漢大學(xué) 印刷與包裝系,湖北 武漢,430079)

中文分詞是中文信息處理的基礎(chǔ),在語音合成、中外文翻譯、中文檢索、文本摘要等方面均有重要應(yīng)用。在中文分詞的任務(wù)中,存在的主要問題在于可用有效特征較少,分詞準確率較低,如何有效的獲取和使用分詞特征是關(guān)鍵。該文從中文文本生成的過程出發(fā),基于詞長噪聲的高斯分布特性,提出利用上下文的詞長特征作為分詞特征。實驗表明,在封閉測試中,采用條件隨機場模型,使用該特征對現(xiàn)有的實驗結(jié)果有提高作用。

高斯詞長;條件隨機場;中文分詞;自然語言處理

1 引言

中文分詞是將中文文本中連續(xù)的字序列轉(zhuǎn)變成詞序列的過程,在語音合成、中英文翻譯[1]、中文檢索、文本摘要等方面均發(fā)揮著重要作用。

中文分詞方法的研究方向大體分為三個方面。第一,使用預(yù)定義的詞典信息,分詞詞典是詞語規(guī)范、未登錄詞定義的集中體現(xiàn)。接著借助詞典采用正向、逆向[2]、最大[3]、最小匹配查找詞典,決定是否為詞。采用詞典信息的方法,最大的缺點就是對未在詞典中出現(xiàn)的詞語較難識別,需要采用其他方式予以彌補;第二,不使用分詞語料,直接使用待分詞語料庫進行無監(jiān)督的學(xué)習(xí),使用的方法有互信息[4]、t-測試差、邊界熵[4]、期望值最大化[5]、最小描述長度[6]、描述長度增益[7]等。無監(jiān)督的學(xué)習(xí)方式不需要人工制作分詞語料,然而需要手工設(shè)定提取閾值,并且單純使用此方法的準確率沒有超過90%;第三,使用人工制作的分詞語料進行機器學(xué)習(xí),研究人員從最大熵模型、CRF模型[8]、雙層隱馬爾科夫模型[9]或者他們的聯(lián)合模式[10-11]進行研究,對于這種有監(jiān)督的判別模型,主要利用分詞語料的特征有詞位特征、音律特征[8]、邊界熵[4]、鄰接多樣性[12]、成語詞特征[13]的基本特征。有監(jiān)督的機器學(xué)習(xí)方法的最大優(yōu)點是分詞準確率相對較高,對分詞語料的學(xué)習(xí)相對較為充分,但是對上下文特征的挖掘不充分,影響了分詞準確率的進一步提高。本文針對有分詞語料存在的前提下,利用語料庫中的文本分詞特征,從而提高分詞效果。

本文從中文文本生成的過程出發(fā),基于詞長噪聲的高斯分布特性,探討了如何從上下文信息中獲取分詞所需的詞長信息。接下來的文章組織方式為,第二節(jié)闡述了目前中文分詞中對特征的依賴和還存在的問題;第三節(jié)講述了上下文詞長信息的獲取和使用;第四節(jié)進行了相關(guān)實驗和分析;第五節(jié)進行討論與總結(jié)。

2 中文分詞中的特征選取

中文分詞的一個關(guān)鍵問題在于有效分詞特征不是很多。機械分詞使用的是詞典中的編碼特征(詞典可以認為是一種標注并且編排好的學(xué)習(xí)語料),從而進行索引查找分詞。這種編碼特征的缺點在于人為制定了編碼和分詞之間的聯(lián)系,對于新的分詞和編碼之間的聯(lián)系不具有自學(xué)習(xí)的機制,從而導(dǎo)致歧義問題較高,OOV(out of vocabulary)的召回率低。例如,“將有/無數(shù)/學(xué)子/背負/著/青春/的/理想[14]”,這里的“無數(shù)”、“學(xué)子”、“數(shù)學(xué)”均為詞典詞。這里容易將“數(shù)學(xué)”提取出來,進了錯誤切分。OOV方面,僅僅依賴詞典是無效的,因為對人名、機構(gòu)名、地名進行窮舉是不現(xiàn)實的。

在無監(jiān)督的學(xué)習(xí)模型中,廣泛使用了互信息特征、t-測試差特征、最小描述長度(MDL)等特征,模型可以從不經(jīng)過加工的文本中發(fā)現(xiàn)詞語,但也容易將已知的詞語進行了割裂。由于這些特征對語境的上下文信息的使用是等同看待,或者不使用語境的上下文信息,這樣會帶來不合理的結(jié)果。例如,“后車/連續(xù)/鳴笛/這一/很多人/不以為然/的/不文明/行為/,/間接/導(dǎo)致/了/車禍/的/發(fā)生/。/”,這里的“不以為然”很容易被學(xué)習(xí)模型切分為“不/以為/然”,這樣就把固有的成語割裂開來了。

在有監(jiān)督的學(xué)習(xí)模型中,如條件隨機場模型,對語料的學(xué)習(xí)和分析采用的特征有形態(tài)學(xué)特征、類型特征、音律特征、鄰接特征(邊界熵和鄰接多樣性等)。其中,類型特征和音律特征使用的是漢字本身的特性,成語詞特征使用的是語料庫的規(guī)則特征,與上下文語境的相關(guān)性不是很高。鄰接特征考慮了上下文信息,但只使用的是上下文的全文聯(lián)系特征。沒有充分利用上下文的特征會出現(xiàn)分詞不一致現(xiàn)象。例如,“防御/者/處于/駐/止/狀態(tài)/,/而/進攻者/是/針對/防御者/的/這種/狀態(tài)/進行/運動的/”[14]。這里“防御者”和“進攻者”都應(yīng)該是一個詞,而有監(jiān)督的學(xué)習(xí)模型會出現(xiàn)這種切分不一致的狀態(tài)。

綜上,在目前的研究中,針對不同的應(yīng)用環(huán)境和已存在的學(xué)習(xí)語料,各分詞方法使用了不同的分詞特征,然而可以看到這些特征在輔助構(gòu)建分詞模型的同時,也出現(xiàn)了不少問題。中文分詞中需要找到上下文相關(guān)的高效特征,借助這些特征,相關(guān)的分詞方法才可以進一步提高分詞結(jié)果。

3 高斯詞長特征及應(yīng)用

中文文本的生成可以看作是將網(wǎng)狀存儲的知識節(jié)點輸出為線性的中文文本表達的過程。如圖1所示,左側(cè)是中文文本知識在大腦中的網(wǎng)狀存儲示意圖,每個節(jié)點是若干可以輸出的知識元,某一知識節(jié)點與其他節(jié)點有著或強或弱的聯(lián)系,當輸出中文文本表達時,是一個網(wǎng)絡(luò)知識節(jié)點轉(zhuǎn)化為線性知識節(jié)點的過程。音律特征、鄰接特征等用于找到這些知識節(jié)點的緊密程度。

由圖1可知,知識節(jié)點網(wǎng)狀圖不是有向完全圖,某個知識節(jié)點(如Ci)只與它附近的知識節(jié)點產(chǎn)生較強的聯(lián)系,也部分受到較遠節(jié)點的弱影響?;谶@樣的假設(shè),如果利用條件熵特征、鄰接多樣性特征等,則是把全局的知識節(jié)點進行全連接,并把他們進行等價看待,這樣就會導(dǎo)致偏差。如果利用狀態(tài)概率和條件轉(zhuǎn)移概率,則是弱化了知識網(wǎng)絡(luò)圖,只考慮較近的知識節(jié)點聯(lián)系,這也是產(chǎn)生“標記偏執(zhí)”的原因。

圖1 網(wǎng)狀知識節(jié)點轉(zhuǎn)化為線性知識節(jié)點

本文選取該詞附近的詞長信息進行特征提取,在一定程度上利用了知識節(jié)點網(wǎng)狀圖的特點,由實驗可以看出,上下文的詞長特征對分詞結(jié)果有提升作用。有關(guān)定義如下。

某字ai的詞長(Lengthai)為該字在所在詞的詞長。某字ai的上下文詞長(Lai)是指該字所在一定字序列范圍內(nèi),在周圍所在字的詞長影響下的詞長。本文使用了高斯函數(shù)作為詞長計算卷積核,分詞原子的詞長Lai計算如式(1)所示。

(1)

其中,ai為第i個分詞原子,n為上下文語境范圍。當n=6時已經(jīng)涵蓋了上下文七個詞語。

以bakeoff-2005年微軟亞洲研究院的一條語料數(shù)據(jù)為例。通過式(1)計算“人們常說生活是一部教科書”在上下文語境下的詞長,由表1 可以直觀看出上下文詞長與詞長的不同。

表1 高斯詞長特征Lai計算舉例(n=6,σ2=1)

高斯詞長特征與判別模型(discriminated model)中的詞典特征的區(qū)別在于,詞典特征是直接查詢一個封閉集合詞典,來獲得相應(yīng)的詞長特征,這種特征可以稱之為詞典長度。詞典長度一般通過前向和后向最大匹配獲得。上下文詞長和詞典詞長的本質(zhì)區(qū)別在于,詞典詞長是根據(jù)事先制定好的分詞規(guī)律進行分詞,從而制作的標準詞長。上下文詞長是從當前文檔中,根據(jù)當下的分詞語料獲得符合當前分詞語境的詞長,對當前語料的上下文規(guī)律和分詞規(guī)律學(xué)習(xí)的更為充分。例如,表1 中,“人們常說生活是一部教科書”中的“說”,因為前向最大匹配是1,所以它的前向詞典長度是1,而本文中所指的通過上下文影響的上下文詞長為2。

(2)

所以使用高斯函數(shù)作為詞長計算卷積核是有效的。

高斯詞長特征可以應(yīng)用于基于有監(jiān)督的學(xué)習(xí)方式中,包括多層學(xué)習(xí)模型和在無監(jiān)督的學(xué)習(xí)模型進行輔助下的有監(jiān)督的學(xué)習(xí)方式。在已有的基于機器學(xué)習(xí)的分詞方法中,有監(jiān)督的條件隨機場模型[15-16],因為擺脫了“標記偏執(zhí)[17]”問題,所以取得了較好的分詞結(jié)果。下面以條件隨機場(CRF)模型為例,說明高斯詞長特征的對有監(jiān)督的學(xué)習(xí)模型的促進作用。

(3)

其中,Z是歸一化因子,定義如式(4)所示。

(4)

由式(3)可以看到,CRF沒有嚴格的獨立條件假設(shè),是在給定的需要標記的觀察序列的條件下,計算整個標記序列的聯(lián)合概率分布。而不是在給定的某一狀態(tài)條件下,計算下一個狀態(tài)的概率分布。因此,只有在整個序列化輸入完成之后才能得到訓(xùn)練模型,這樣,選取上下文特征作為輸入序列,是計算了局部數(shù)據(jù)平滑后的全局指數(shù)函數(shù)。

對于線鏈CRF公式中的參數(shù)Y={λ1,λ2,…,λk}可以采用以下方法進行估計。參數(shù)估計的實質(zhì)是對概率的對數(shù)最大似然函數(shù)求最值,即通過迭代直到函數(shù)收斂或迭代次數(shù)完成。

對于一個訓(xùn)練集D={(X1,Y1),(X2,Y2),…,(Xt,Yt)},其中{X1,X2,…Xt}是輸入序列,{Y1,Y2,…Yt}是輸出序列,如式(5)所示。

(5)

(6)

式(6)可以采用迭代或LBFGS算法來計算[18]。

4 實驗與分析

由于bakeoff-2005年的實驗語料較為全面、成熟、公開,大多數(shù)業(yè)內(nèi)研究人員都會使用此語料進行測評評比[6, 12, 19],本研究同樣使用此語料進行研究試驗。

實驗語料庫的具體內(nèi)容如表2所示。

表2 試驗語料庫情況

續(xù)表

CRF工具包使用支持多線程訓(xùn)練的CRF++ 0.58*開源代碼來自http://crfpp.sourceforge.net。采用五窗口,C2, C1,C0,C-1,C-2, C-2C-1C0, C-1C0C1, C0C1C2, C-1C0, C0C1這十個特征,使用四標簽。對PKU語料進行了統(tǒng)一編碼轉(zhuǎn)換。

表3中,F(xiàn)1代表當年的最好成績,F(xiàn)2表示加詞長特征后取得成績,F(xiàn)代表增加的數(shù)量。同理,ROOV1代表2005年的最好召回率。ROOV3表示加高斯詞長特征后取得的最好成績,ROOV3表示增量。發(fā)現(xiàn)高斯詞長特征的加入,對2005年的各項結(jié)果均有提升作用。

表3 bakeoff-2005年封閉測試成績對比(+詞長特征)

表4中,由于沒有獲取到SIGHAN2014 的比賽測試集,將之與參賽取得最好的隊伍[12]相應(yīng)的數(shù)據(jù)進行對比。F1代表2014年的發(fā)表的最好成績,F(xiàn)3表示加詞長特征后取得成績,ΔF代表增加的數(shù)量同理,ROOV1代表2014年的發(fā)表的最好召回率。

ROOV2表示加詞長特征后取得的做好成績,ΔROOV3表示增量??梢钥吹礁咚乖~長特征在F值上有一定的提升作用,然而ROOV的提升作用不是很明顯,可能是參賽隊伍針對未登錄詞進行后處理[12]的緣故。

表4 與2014年公開數(shù)據(jù)進行的成績對比

5 總結(jié)與討論

中文分詞是中文自然語言處理的基礎(chǔ)環(huán)節(jié),特征選取是中文分詞任務(wù)的重要內(nèi)容。從中文文本生成的角度看中文分詞,中文分詞是從線性 的 文 字 序列得到網(wǎng)狀的知識節(jié)點的過程。本文提出的高斯詞長特征是中文上下文信息的一種表現(xiàn),可以消除詞長噪聲對分詞模型的影響,通過CRF模型在bakeoff-2005的四個語料庫的測試上可以看出,本特征的提取對提高分詞的準確率是有效的。然而,上下文的詞長特征是上下文特征的一個淺層特征,對未登錄詞的召回率作用不甚明顯。如何挖掘和使用其他高效的上下文特征,以及如何進行解碼時的后處理,是下一步值得思考的地方。

[1] Gao Jianfeng. Unsupervised chinese word segmentation for statistical machine translation[P]. US, US20090326916. 2009.

[2] Kirshenbaum, Evan R, Methods and systems for splitting a chinese character sequence into word segments[P]. US, US8539349. 2013.

[3] Jun Z, Z Zheng, W Zhang, Method of Chinese words rough segmentation based on improving maximum match algorithm[J]. Computer Engineering and Applications, 2014. 02: 124-128.

[4] Magistry, Pierre, Benoit Sagot. Unsupervised word segmentation: the case for Mandarin Chinese[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. 2012: 383-387.

[5] Peng Fuchun, et al. Using self-supervised word segmentation in Chinese information retrieval[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR, 2002,44(2): 25.

[6] Magistry, B Sagot. Can MDL Improve Unsupervised Chinese Word Segmentation[C]//Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing. 2013.

[7] Zhao Hai, Chunyu Kit. Integrating unsupervised and supervised word segmentation: The role of goodness measures[J]. Information Sciences, 2011, 181(1): 163-183.

[8] Zhang Ruiqiang, Genichiro Kikui, et al. Subword-based Tagging for Confidence-dependent Chinese Word Segment[C]//Proceedings of the Association for Computational Linguistics, 2006: 961-968.

[9] Jiang Huixing, Zhe Dong. An double hidden HMM and CRF for segmentation tasks with pinyin's finals [C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language. 2010: 277-281.

[10] Wang Kun. Chengqing Zong, Keh-Yih Su. A Character-Based Joint Model for Chinese Word Segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics. 2010: 1173-1181.

[11] 劉一佳等. 基于序列標注的中文分詞、詞性標注模型比較分析[J]. 中文信息學(xué)報, 2013(04): 30-36.

[12] Wu Guohua, et al. Leveraging Rich Linguistic Features for Cross-domain Chinese Segmentation[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference on Chinese Language Processing, 2014: 101-107.

[13] Sun Weiwei, Jia Xu. Enhancing Chinese word segmentation using unlabeled data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2011: 970-979.

[14] Duan Huiming, Zhifang Sui, et al. The CIPS-SIGHAN CLP 2014 Chinese Word Segmentation Bake-off[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2014: 90-95.

[15] 加羊吉等. 最大熵和條件隨機場模型相融合的藏文人名識別[J]. 中文信息學(xué)報, 2014(1): 107-112.

[16] 吳瓊,黃德根. 基于條件隨機場與時間詞庫的中文時間表達式識別[J]. 中文信息學(xué)報, 2014(6): 52-58.

[17] Lafferty John, Andrew McCallum, et al. Conditional Random Field: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conference on Machine Learning. 2001: 282-289.

[18] Wallach Hanna. Efficient Training of Conditional Random Fields[D]. University of Edinburgh.2002.

[19] 黃昌寧,趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報, 2007(03): 8-19.

Gaussian Distribution of Word Length for Chinese Word Segmentation

ZHANG Yi,LI Zhijiang

(School of Printting and Packaging,Wuhan University,Wahan,Hubei 430079,China)

Chinese word segmentation (CWS) is the foundation for Chinese information processing. This article proposed a feature of contextual word length based on Gaussian noise. The experiment results indicate that this feature can enhance the performance of the exit result.

contextual word length; conditional random field; Chinese word segmentation;natural language process

張義(1990—),碩士,工程師,主要研究領(lǐng)域為自然語言處理。E?mail:zhangyiaddress@foxmail.com李治江(1977—),博士,副教授,主要研究領(lǐng)域為視覺分析與檢測,自然語言處理。E?mail:lizhijiang@whu.edu.cn

1003-0077(2016)05-0089-05

2015-04-14 定稿日期: 2015-06-18

武漢大學(xué)自主科研項目;國家科技支撐計劃項目(2012BAH91F03)

猜你喜歡
分詞語料高斯
基于歸一化點向互信息的低資源平行語料過濾方法*
分詞在英語教學(xué)中的妙用
數(shù)學(xué)王子高斯
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
天才數(shù)學(xué)家——高斯
從自卑到自信 瑞恩·高斯林
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
異種語料融合方法: 基于統(tǒng)計的中文詞法分析應(yīng)用
潞城市| 东乌珠穆沁旗| 南丰县| 云霄县| 闽清县| 手游| 马龙县| 广汉市| 景德镇市| 新巴尔虎右旗| 洞口县| 界首市| 桃园市| 老河口市| 安西县| 鄢陵县| 鹤壁市| 鄂州市| 永丰县| 五河县| 建湖县| 塔河县| 丰原市| 当阳市| 兰西县| 寻甸| 马山县| 江阴市| 平山县| 桂东县| 武乡县| 汶上县| 嘉黎县| 沁水县| 宁波市| 新兴县| 禄丰县| 改则县| 曲松县| 陆河县| 惠东县|