摘 要:中文分詞屬于自然語言處理技術(shù)子集,對(duì)中文分詞技術(shù)的研究由來已久,文章基于Python結(jié)巴分詞,從概述、分類、方法、挑戰(zhàn)、應(yīng)用及現(xiàn)狀等對(duì)中文分詞技術(shù)進(jìn)行探究,旨在拋磚引玉,以供借鑒。
關(guān)鍵詞:分詞;中文分詞;Jieba;自然語言處理
1 中文分詞技術(shù)的概述
在漢語語言學(xué)界,“詞”這一概念一直是個(gè)纏繞不清、不可逾越的問題?!霸~是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定),這兩個(gè)基本問題迄今為止還沒有得到一個(gè)權(quán)威、明確的表述,很難找到能引起大眾共鳴的詞表。眾所周知,相對(duì)于以英文為代表的拉丁語系語言,英文使用空格作為自然的分隔符,而中文由于繼承了古代漢語的傳統(tǒng),詞與詞之間并無分隔[1]。而在現(xiàn)代漢語中則以雙字或多字占多數(shù),一個(gè)字再也不等同于一個(gè)詞,如果把字作為分詞的最小單位,它的粒度太小,不能表達(dá)完整的意思,而句子的粒度太大,承載的信息太多,很難重復(fù)使用。通俗地說,中文分詞就是由機(jī)器在中文文本中的詞和詞之間自動(dòng)添加分界線,是中文信息處理的基礎(chǔ),是自然語言處理(NLP)的子集,其實(shí)質(zhì)就是劃界。
2 中文分詞技術(shù)的分類
經(jīng)過近30年的探究,中文分詞從提出到現(xiàn)在,已經(jīng)提出了很多方法,如規(guī)則分詞、統(tǒng)計(jì)分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統(tǒng)。規(guī)則分詞是最早出現(xiàn)的一種分詞方法,主要通過人工建立詞庫,按照一定的方式進(jìn)行匹配切分,操作簡(jiǎn)單,效率高,但是難以處理新詞。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)興起的今天,只有把統(tǒng)計(jì)機(jī)器學(xué)習(xí)應(yīng)用到分詞任務(wù)中,形成統(tǒng)計(jì)分詞,才能更好地應(yīng)付諸如新單詞發(fā)現(xiàn)等特殊情況。但在實(shí)際應(yīng)用中,單純的統(tǒng)計(jì)分詞也存在著缺陷,即對(duì)語料質(zhì)量的過分依賴,因而更多地采用二者結(jié)合,即混合分詞。
3 ? 中文分析技術(shù)的方法
研究表明,現(xiàn)有的分詞方法主要有3種類型。
3.1? 基于字符串匹配的分詞方法
字符串匹配的分詞方法(又稱為“機(jī)械分詞法”),就是用待分析的漢字符串與一個(gè)“足夠大”的機(jī)器詞典來匹配,如果在詞典中發(fā)現(xiàn)了某個(gè)字符串,就會(huì)匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。
3.2? 基于理解的分詞方法
其基本思想是在分詞時(shí)進(jìn)行句法、語義分析,并利用句法和語義信息處理歧義。其基本結(jié)構(gòu)分為3個(gè)部分:分詞子系統(tǒng)、語義子系統(tǒng)和總控部分。分詞子系統(tǒng)在總控部分的協(xié)調(diào)下,可以獲取與詞、句等相關(guān)的句法和語義信息,從而對(duì)分詞歧義進(jìn)行判斷,即模擬人對(duì)句子的理解過程,這種分詞方法需要許多語言知識(shí)和信息,鑒于漢語知識(shí)的廣泛性和復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
3.3? 基于統(tǒng)計(jì)的分詞方法
在分析了大量已分詞文本的基礎(chǔ)上,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞匯切分的規(guī)則(機(jī)器訓(xùn)練)[2],從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規(guī)模語料庫的建立以及統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的研究和發(fā)展,基于統(tǒng)計(jì)的中文分詞方法逐漸成了主流方法[3]。
4 中文分詞技術(shù)的挑戰(zhàn)
隨著時(shí)代的發(fā)展,中文分詞技術(shù)應(yīng)運(yùn)而生,它在很大程度上滿足了人們對(duì)自然語言處理的需求,解決了人類與計(jì)算機(jī)通信的一些障礙。但是,中文分詞技術(shù)在分詞規(guī)范、歧義切分、新詞識(shí)別等方面也存在諸多困難。
4.1? 分詞規(guī)范
在中文語言中,詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊,這是一項(xiàng)復(fù)雜而龐大的工作。雖然現(xiàn)在已出現(xiàn)了一些標(biāo)準(zhǔn),但在實(shí)際操作中難以運(yùn)用,所以目前還沒有合理的可操作的理論和標(biāo)準(zhǔn),導(dǎo)致中文分詞出現(xiàn)了很大的困難。
4.2? 歧義切分
在文本中的字符串,如果基于句子的字面意思進(jìn)行理解,最終產(chǎn)生多種不同的理解方法。據(jù)調(diào)查,中文的歧義字段占中文總字?jǐn)?shù)的比例略少于1%,其中詞法歧義字段為84%,句法歧義字段為11%,語義歧義字段為3.5%,而語用歧義字段僅為1.5%。從以上數(shù)據(jù)可以看出,中文分詞是有望能夠?qū)崿F(xiàn)的,但對(duì)于詞的切分難度還是很大。歧義切分現(xiàn)象是分詞中不可避免的現(xiàn)象,是自動(dòng)分詞中一個(gè)比較棘手的問題,處理歧義切分字段的能力將嚴(yán)重影響中文分詞的準(zhǔn)確性。
4.3? 新詞識(shí)別
新詞的識(shí)別就是對(duì)未登錄詞的識(shí)別,所謂未登錄詞是指系統(tǒng)詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術(shù)語、縮略詞等,無法把這些詞全部收錄到詞典中去,但這些詞經(jīng)常會(huì)在局部文本中大量出現(xiàn),所以這些詞語讓機(jī)器去識(shí)別困難是非常大的,識(shí)別這些新詞也是分詞的一個(gè)重要任務(wù)和評(píng)價(jià)分詞的重要指標(biāo)。
5 結(jié)巴中文分詞的技術(shù)
Python的結(jié)巴分詞,其分詞功能強(qiáng)大且安裝方便,可以進(jìn)行簡(jiǎn)單分詞、并行分詞、命令行分詞[4],當(dāng)然它的功能也不止于此,目前還支持停用詞、關(guān)鍵詞提取、詞性標(biāo)注、詞位置查詢等,其算法是基于隱馬爾可夫模型。下面以自然語言處理(NLP)分詞的經(jīng)典語句:“結(jié)婚的和尚未結(jié)婚的”為例,來分析結(jié)巴分詞的3種模式分詞。
精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結(jié)果為:結(jié)婚/的/和/尚未/結(jié)婚/的。
完整模式:在句子中掃描所有可能變成成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結(jié)果為:結(jié)婚/的/和尚/尚未/未結(jié)/結(jié)婚/的。
搜索引擎模式:在精確模式的基礎(chǔ)上,再對(duì)長詞進(jìn)行切分,提高召回率,適合用于搜索引擎分詞。其搜索引擎分詞結(jié)果為:結(jié)婚/的/和/尚未/結(jié)婚/的。
6 中文分詞的應(yīng)用
中文處理技術(shù)與西文處理技術(shù)相比,還存在著較大的差距,很多西文處理方法無法被中文直接采用,主要原因在于中文需要分詞這一工序。中文分詞技術(shù)屬于自然語言處理技術(shù)的子集,中文分詞是其他中文信息處理的根基,因此,對(duì)中文分詞技術(shù)在機(jī)器翻譯、智能問答、文摘生成、輿情分析、知識(shí)圖譜等應(yīng)用方面的探究是一個(gè)漫長的過程[5]。
6.1? 機(jī)器翻譯
計(jì)算機(jī)能把一種語言翻譯成另一種語言,如百度在線翻譯,能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。
6.2? 智能問答
計(jì)算機(jī)能夠正確回答輸入的問題。在電商網(wǎng)站中,智能問答具有非?,F(xiàn)實(shí)的價(jià)值,比如代替人工擔(dān)任客服,有許多基本而重復(fù)的問題,其實(shí)都不需要人工客服,通過智能問答系統(tǒng)可以過濾掉大量的重復(fù)問題,讓人工座席更好地為顧客服務(wù)。
6.3? 文摘生成
計(jì)算機(jī)能夠準(zhǔn)確歸納、總結(jié)并產(chǎn)生文本摘要。通過使用機(jī)器學(xué)習(xí)技術(shù),計(jì)算機(jī)可以自動(dòng)地從文獻(xiàn)中提取摘要信息,從而全面、準(zhǔn)確地反映文獻(xiàn)的中心內(nèi)容。這種技術(shù)可以幫助人們節(jié)省大量的時(shí)間,并且更加高效。
6.4? 輿論分析
計(jì)算機(jī)能夠判斷和識(shí)別當(dāng)下輿論的導(dǎo)向,可以幫助分析當(dāng)前的熱點(diǎn)話題,分析傳播途徑和發(fā)展趨勢(shì),對(duì)于不良的輿論導(dǎo)向能夠進(jìn)行有效的控制。
6.5? 知識(shí)圖譜
知識(shí)點(diǎn)相互連接而成的語義網(wǎng)絡(luò),是表示知識(shí)發(fā)展過程與結(jié)構(gòu)關(guān)系的一系列不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,并對(duì)知識(shí)進(jìn)行挖掘、分析、構(gòu)造、繪制和展示,將其聯(lián)系起來。
7 國內(nèi)自然語言研究的現(xiàn)狀
從20世紀(jì)90年代開始,國內(nèi)自然語言研究進(jìn)入了快速發(fā)展的時(shí)期,一系列系統(tǒng)開始大規(guī)模商業(yè)化,自然語言的研究?jī)?nèi)容和應(yīng)用領(lǐng)域也在不斷創(chuàng)新。當(dāng)前對(duì)自然語言的研究主要包括基礎(chǔ)研究和應(yīng)用研究,其中語音和文本是其中的兩個(gè)重點(diǎn)?;A(chǔ)研究主要涉及計(jì)算機(jī)、語言學(xué)、數(shù)學(xué)等學(xué)科,與之相關(guān)的技術(shù)有消歧義、語法形式化等。應(yīng)用研究主要集中在應(yīng)用自然語言處理的領(lǐng)域,如資料檢索、文本分類、機(jī)器翻譯等。在國內(nèi),由于對(duì)于機(jī)器翻譯這一基本理論的研究起步較早,是任何應(yīng)用的理論基礎(chǔ),因此,語法、句法、語義分析等方面的基礎(chǔ)研究一直是研究的重點(diǎn),而近年來隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,對(duì)智能檢索的研究也逐漸升溫。今后,數(shù)據(jù)科學(xué)與語言科學(xué)融合成為必然趨勢(shì),神經(jīng)語言學(xué)、語料庫語言學(xué)、數(shù)據(jù)語言學(xué)、語言智能等在人工智能領(lǐng)域?qū)⒊蔀殛P(guān)注的焦點(diǎn)。
8 結(jié)語
本文從中文分詞技術(shù)的概述、分類、方法、挑戰(zhàn)、應(yīng)用及現(xiàn)狀等方面進(jìn)行探究,并在Python環(huán)境下實(shí)現(xiàn)中文分詞。盡管中文漢字博大精深,但隨著科技的發(fā)展和人工智能化的發(fā)展,對(duì)中文分詞技術(shù)的探究不斷深入,相信今后一定能開發(fā)出高質(zhì)量、多功能的中文分詞算法,推動(dòng)自然語言理解系統(tǒng)的廣泛應(yīng)用。
[參考文獻(xiàn)]
[1]曾小芹.基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J].信息與電腦,2019(18):38-42.
[2]祝永志.基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J].通信技術(shù),2019(7):1615-1619.
[3]孫鐵利.中文分詞技術(shù)的研究現(xiàn)狀與困難[J].信息技術(shù),2019(7):187-192.
[4]白寧超.Python數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2019.
[5]涂銘.Python自然語言處理實(shí)戰(zhàn):核心技術(shù)與算法[M].北京:機(jī)械工業(yè)出版,2018.
(編輯 王雪芬)
A probe into Chinese word segmentation technology based on Python
Shi Guoju
(Bijie Radio and Television University, Bijie 551700, China)
Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.
Key words:word segmentation; Chinese word segmentation; Jieba;? natural language processing
作者簡(jiǎn)介:史國舉(1985— ),男,貴州畢節(jié)人,講師,本科;研究方向:大數(shù)據(jù)分析。