王宏 朱學立 曾濤 喬東玉 郭甲騰
摘要:中文分詞是地質(zhì)大數(shù)據(jù)智能化知識挖掘難以回避的第一道基本工序?;诮y(tǒng)計的分詞方法受語料影響,跨領(lǐng)域適應(yīng)性較差?;谠~典的分詞方法可以直接利用領(lǐng)域詞典進行分詞,但不能解決未登錄詞識別問題。在領(lǐng)域語料不足的情況下,為提高地質(zhì)文本分詞的準確率和未登錄詞識別率,提出一種基于統(tǒng)計的中文地質(zhì)詞語識別方法。該方法基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫,用以改善統(tǒng)計分詞方法在地質(zhì)文本分詞上的適應(yīng)性。采用重復(fù)串查找方法得到地質(zhì)詞語候選集,并使用上下文鄰接以及基于位置成詞的概率詞典,對地質(zhì)詞語候選集進行過濾,最終實現(xiàn)地質(zhì)詞語識別。實驗結(jié)果表明,使用該方法對地質(zhì)專業(yè)詞語識別準確率達到81.6%,比通用統(tǒng)計分詞方法提高了近60%。該方法能夠識別地質(zhì)文本中的未登錄詞,并保證地質(zhì)分詞的準確率,可以應(yīng)用到地質(zhì)文本分詞工作中。
關(guān)鍵詞:地質(zhì)文本;中文分詞;質(zhì)串;重復(fù)串;上下文鄰接;位置成詞概率
DOI: 10. 11907/rjdk.191648
開放科學(資源服務(wù))標識碼(OSID):
中圖分類號:TP391
文獻標識碼:A
文章編號:1672-7800( 2020)004-0211-08
0 引言
地質(zhì)大數(shù)據(jù)是信息時代背景下大數(shù)據(jù)理念、技術(shù)和方法在地質(zhì)領(lǐng)域的應(yīng)用與實踐,地質(zhì)調(diào)查工作是獲取地質(zhì)大數(shù)據(jù)的主要途徑。地質(zhì)調(diào)查工作產(chǎn)生了諸如地質(zhì)圖件、文本、表格等類型資料。目前,基于大數(shù)據(jù)平臺的非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)組織、存儲和快速發(fā)現(xiàn)問題已基本得到解決,但在此基礎(chǔ)上構(gòu)建智能化的地質(zhì)知識挖掘系統(tǒng)仍需探索。
文本是地質(zhì)大數(shù)據(jù)重要的數(shù)據(jù)形式,自然語言是文本信息的重要載體。詞是最小的能夠獨立運用的語言單位…,但由于中文詞匯之間沒有明確的分界符,需要先進行分詞才能作進一步的自然語言處理[2]。從信息處理角度看,地質(zhì)文本是利用自然語言編寫的地質(zhì)特點鮮明的語義數(shù)據(jù)[3]。中文分詞是智能化地質(zhì)知識挖掘基礎(chǔ),對地質(zhì)文檔全文檢索、文本分類、自動文摘、地質(zhì)文檔信息抽取及自動翻譯等應(yīng)用具有重大意義。
在通用領(lǐng)域分詞中,基于統(tǒng)計的分詞方法應(yīng)用廣泛。隱馬爾科夫模型( Hidden Markov Model,HMM)[4]、條件隨機場模型( Conditional Random Fields,CRFs)[5]和最大熵馬爾科夫模型( Maximum Entropy Markov Model,MEMM)[6]等是統(tǒng)計分詞方法中主要的分詞模型。在專業(yè)領(lǐng)域分詞中往往存在大量的專業(yè)詞匯,使得分詞效果不佳。為了改進專業(yè)領(lǐng)域中文分詞效果,學者們開展了大量研究工作。如Huan等[7]采用一種新型的個性化分詞詞典對網(wǎng)絡(luò)個性化服務(wù)中用戶的瀏覽文檔進行分詞。該方法受專業(yè)詞典所限,對未被收錄進詞典中的詞匯識別率較低;Qi等[8]將專業(yè)詞典特征與字向量相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)模型解決跨領(lǐng)域分詞適應(yīng)性問題,但該方法受訓練語料影響較大。Bao等[9]通過使用雙向馬爾科夫鏈對正向最大匹配算法和詞頻統(tǒng)計算法進行改進,實現(xiàn)對特定領(lǐng)域文本快速、較為準確的分詞,但沒有考慮詞語的上下文信息,分詞效果仍有改進空間。
中文分詞技術(shù)在地質(zhì)領(lǐng)域應(yīng)用不夠廣泛,相關(guān)研究不多。Lan等[10]基于條件隨機場模型構(gòu)建了針對地學領(lǐng)域的分詞方法,較好地識別出地質(zhì)礦產(chǎn)類術(shù)語,但其采用自定義的方法對訓練語料進行標注,在語料庫標注、定義規(guī)范程度方面有待提高。陳婧汶等[11]使用一種基于雙語料庫條件隨機場模型方法對地質(zhì)礦產(chǎn)文本進行分詞,取得了較好的分詞效果,但所采用的語料規(guī)模較小,分詞性能仍有改進空間。通常情況下,獲取大量、規(guī)范的領(lǐng)域語料進行模型訓練較為困難。因此,針對地質(zhì)領(lǐng)域語料不足的情況,如何準確識別出地質(zhì)專業(yè)詞語從而獲得較好的分詞效果值得研究。本文基于質(zhì)串思想構(gòu)建地質(zhì)基本詞典庫,對通用分詞器的核心詞典庫進行擴充,在此基礎(chǔ)上提出一種基于統(tǒng)計的中文地質(zhì)詞語識別方法。采用重復(fù)串查找方法得到地質(zhì)詞語候選集,使用上下文鄰接以及基于位置成詞的概率詞典對地質(zhì)詞語候選集進行過濾,最終實現(xiàn)對地質(zhì)詞語的識別。
1 中文地質(zhì)文本分詞
1.1 中文分詞技術(shù)
漢語中的漢字是書面表達的最小單位,但在含義表達和相關(guān)信息處理中,詞才是最小的語言成分。在漢語文本中,將詞與詞之間加上區(qū)分標記是中文分詞的主要目的,也是任何中文自然語言應(yīng)用都必須進行的第一道基本工序[12]。只有完成了漢語文本的自動分詞,才能采用各種后續(xù)語言分析手段實現(xiàn)相應(yīng)的智能應(yīng)用。目前中文分詞已被應(yīng)用在信息檢索、自動文摘、機器翻譯、同音字和多音字識別、文本校對、搜索引擎等方面。
基于詞典的機械分詞、基于語法和規(guī)則的分詞以及基于統(tǒng)計的分詞,是中文分詞領(lǐng)域的3種分詞方法?;谠~典的機械分詞在分詞過程中利用詞典作為主要資源,將文檔中的字符串在詞典中進行查找。如果找到,則進行切分,否則不予切分。由于可以利用相關(guān)領(lǐng)域的專業(yè)詞典,因此該方法具有較高的領(lǐng)域自適應(yīng)性,但不能很好地解決未登錄詞識別以及分詞歧義問題,而且詞典的完備性不能得到保證。基于語法和規(guī)則的分詞法,其基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息進行詞性標注,以解決分詞歧義現(xiàn)象。因為語法知識、句法規(guī)則十分復(fù)雜,基于語法和規(guī)則的分詞法所能達到的精確程度遠遠不能令人滿意[13]?;诮y(tǒng)計的分詞法是目前自然語言處理領(lǐng)域的主流分詞方法,該方法在已經(jīng)切分好的分詞語料庫基礎(chǔ)上進行統(tǒng)計訓練,建立語言模型并最終實現(xiàn)分詞解碼。在跨領(lǐng)域使用統(tǒng)計分詞方法時,必須根據(jù)相應(yīng)領(lǐng)域的分詞訓練語料進行語言模型訓練,但是分詞訓練語料需要大量專業(yè)人員參與,獲取代價高昂。
1.2 中文地質(zhì)文本特點
地質(zhì)文本指在各類地質(zhì)工作中產(chǎn)生的文字性材料,包括各類地質(zhì)報告、科技文獻、觀測記錄、質(zhì)量檢查記錄以及質(zhì)量體系運行的相關(guān)材料等。本文的地質(zhì)文本包括各類地質(zhì)報告、地質(zhì)科技文獻等技術(shù)性文字材料。地質(zhì)報告是完成下達的地質(zhì)工作任務(wù)后,在系統(tǒng)整理和綜合研究各種相關(guān)資料基礎(chǔ)上編寫的反映地質(zhì)工作成果的重要技術(shù)文件。地質(zhì)科技文獻是分析、研究、闡述地質(zhì)科學技術(shù)問題的文章,是地質(zhì)研究成果的書面表達,是地質(zhì)客觀事物和科學規(guī)律的總結(jié)與闡釋[14]。
地質(zhì)文本相較于一般技術(shù)性文本,不僅具有結(jié)構(gòu)嚴密、邏輯關(guān)系明顯、語言嚴謹、陳述客觀等特點,還具有其自身特點。
(1)地質(zhì)文本內(nèi)容涉及知識面廣,領(lǐng)域眾多。地質(zhì)學涉及學科廣泛,理論知識龐大、紛繁復(fù)雜。諸如自然科學中的數(shù)學、物理、化學,社會科學中的哲學、歷史等,都與地質(zhì)學研究緊密相關(guān),形成一系列交叉學科,如數(shù)學地質(zhì)、地球物理、地球化學、地史學等[15]。同樣,地質(zhì)工作涉及多種工作手段,如地質(zhì)填圖、鉆探工程、物探、化探、巖礦測試等。一項地質(zhì)工作往往需要通過多種工作手段的實施才能得以完成,因此所形成的地質(zhì)文本內(nèi)容涉及專業(yè)領(lǐng)域眾多,知識面廣。
(2)地質(zhì)文本形式多樣。地質(zhì)文本源于地質(zhì)工作的實施,地質(zhì)工作性質(zhì)決定著地質(zhì)文本的性質(zhì)。地質(zhì)工作實踐性很強,在地質(zhì)工作實施過程中,會產(chǎn)生不同類型的地質(zhì)文本,如在固體礦產(chǎn)勘查工作實施過程中,會形成地質(zhì)填圖、剖面測量、探礦工程、采樣及樣品測試分析等工作手段相關(guān)的技術(shù)類文檔資料。在同一工作手段下,也往往包含不同種類的地質(zhì)文本,如在開展地質(zhì)填圖工作過程中會產(chǎn)生各類野外記錄,包括地質(zhì)觀察點記錄、實測剖面記錄、重砂取樣記錄、物化探測量記錄、物化探取樣記錄、礦產(chǎn)調(diào)查記錄等。
(3)地質(zhì)文本中包含了海量專業(yè)詞匯。地質(zhì)學作為自然科學的一大分支,經(jīng)過長期的認識和探索,形成了一個相對獨立的學科體系,包含了大量富有學科特色的專業(yè)術(shù)語。如文獻[16]在地質(zhì)專業(yè)詞匯中,礦物名稱、巖石名稱、化石(古生物)名稱占比很大。以巖石名稱為例,在沉積巖、變質(zhì)巖、巖漿巖基礎(chǔ)上細分而來的巖石種類有上千種。同時,由于采用的分類方法不同而產(chǎn)生更加繁多的巖石命名。地質(zhì)學在與不同學科的交叉滲透中形成了眾多邊緣學科,這些學科的興起增加了地質(zhì)詞匯量[17]。
(4)地質(zhì)文本具有專業(yè)的表達形式。任何一門學科都有其特有的表達形式,如化學用分子式表述、電學用正負號表述、數(shù)學用方程式表述等。在地質(zhì)文本中,除了使用自然語言外,還需要大量使用圖、表、符號、公式等。其中,圖表是地質(zhì)文本常見的兩種表述方法。在地質(zhì)文本中,表格具有形式簡潔、內(nèi)容豐富、信息可靠、層次清晰等特點,常用來表達背景條件、比較前提、使用方法、實測(或?qū)嶒灁?shù)據(jù))、統(tǒng)計資料、誤差分析、對比分析等內(nèi)容。地質(zhì)圖件是地質(zhì)成果的載體,是地質(zhì)文本的核心內(nèi)容,也是地質(zhì)學最好的表述方式。只要有地質(zhì)工作,就必然要編繪地質(zhì)圖件,哪里有地質(zhì)工作,哪里就有地質(zhì)圖件[8]。很多實際應(yīng)用中,僅靠對文字報告的理解掌握相應(yīng)的地質(zhì)資料是比較困難的。相反,一張精確的圖件,再配以文字表述才能更好地理解資料。
(5)客觀陳述性描述(定性與定量描述)。觀察經(jīng)驗事實并加以歸納的認識方法是地質(zhì)學的基本方法[18],在地質(zhì)文本中存在大量的定性描述,如在描述一塊巖石時,主要從巖石的顏色、結(jié)構(gòu)、構(gòu)造、主要礦物組成等方面進行描述并獲得巖石定名。在地質(zhì)研究中,只做到定性描述地質(zhì)現(xiàn)象是不夠的,除定性敘述外,還應(yīng)該有嚴密的量化數(shù)據(jù),比如礦物成分、地質(zhì)體厚度、礦體品位等。在地質(zhì)工作過程中,定性描述與定量描述是相互統(tǒng)一、互為補充的。例如,在巖石描述與定名中,除了強調(diào)從巖石的各個特征進行描述外,還需要對礦物成分做估算,這有助于提高巖石定名的準確度。
1.3 地質(zhì)詞語特征
地質(zhì)學是完全由國外輸入的一門近代科學[19],因此地質(zhì)詞語中有相當一部分詞來自外文直譯,如角閃巖、花崗巖、白堊、侏羅、三疊等。與此同時,在地質(zhì)學發(fā)展過程中,有許多名詞實際上是物理化學生物及其它有關(guān)學科借用而來的,特別常見于礦物和古生物名詞,如礦物學中的大批化學名詞、結(jié)晶學中的幾何名詞。相關(guān)學科對地質(zhì)學影響很大,不但借用了許多名詞,甚至連造名詞方法也全部應(yīng)用。如古生物學上的命名法仍然完全采用生物學上的命名法,即用希臘文用作屬名拉丁文用作種名。
地質(zhì)學經(jīng)過不斷發(fā)展產(chǎn)生了大量地質(zhì)專業(yè)詞匯,形成了一套嚴密的命名原則和方法,具有明顯的專業(yè)性、科學性、簡明性和系統(tǒng)性。例如,巖石地層單位可分為正式巖石地層單位(群、組、段、層等)和非正式地層單位(帶、凸鏡體、巖丘、礁等),非正式巖石地層單位的地理專名不能與“組”、“段”、“層”等術(shù)語連用,以區(qū)別正式地層單位。
中文地質(zhì)詞匯在構(gòu)成上遵循漢語規(guī)律,大部分詞語都是由單音節(jié)或雙音節(jié)構(gòu)成的,富有漢語特征,簡明扼要而含意深刻。有的一字、一詞都確切反映出概念的分化原則,清晰地區(qū)分出一事物與它事物的不同,表達出事物的特征和屬性。地質(zhì)詞匯包含大量的復(fù)合詞,在這些復(fù)合詞中,絕大多數(shù)是復(fù)合名詞。在地質(zhì)詞匯中的復(fù)合名詞(如:地質(zhì)羅盤、鹽丘、鉆頭等)中,前一個組成部分通常是修飾詞,詞性多為形容詞、名詞、動詞等,后一個組成部分為被修飾詞。除此之外,在地質(zhì)名詞中,往往包含地名、人名,如太原組、山西組、郯廬斷裂等。
1.4 地質(zhì)文本分詞粒度
文本應(yīng)用目標不同,對分詞的要求也不同甚至是矛盾的,當前技術(shù)水平還做不到百分之百的正確切分。漢語中詞語或詞組的界定還沒有統(tǒng)一確定的標準,從而導(dǎo)致不同的信息處理場景對切分標準有不同要求。
一般將中文分詞分為兩個粒度:①粗粒度切分,將詞語作為語言處理最小的基本單位進行切分;②細粒度切分,不僅對詞匯進行切分,還要對詞匯內(nèi)的語素進行切分。
例如:原始串:河南省西南部為南陽盆地,具有明顯的環(huán)狀和階梯狀地貌特征。
粗粒度切分:河南省/西南部/為/南陽盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌特征。
細粒度切分:河南省/西南部/為/南陽/盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌/特征。
在實際應(yīng)用中,粗粒度切分和細粒度切分都有使用范圍。粗粒度切分主要用于自然語言處理的各種應(yīng)用,而細粒度切分常應(yīng)用于搜索引擎。對于地質(zhì)文檔檢索系統(tǒng),常用的方案是在索引時使用細粒度分詞以保證查全率,在查詢時使用粗粒度分詞以保證查準率。
2 識別方法
基于統(tǒng)計的分詞方法在跨領(lǐng)域應(yīng)用方面存在較大缺陷,而基于詞典的方法由于可以直接使用相應(yīng)領(lǐng)域的詞典進行分詞,具有較強的領(lǐng)域適應(yīng)性,且領(lǐng)域?qū)I(yè)詞典的獲取相比語料庫而言要容易很多。因此,如果把這兩種方法結(jié)合起來,采用統(tǒng)計的方法合理應(yīng)用詞典,則可實現(xiàn)對地質(zhì)專業(yè)詞語的正確切分。
基于統(tǒng)計的分詞方法是目前自然語言處理領(lǐng)域的主流分詞方法,比較有代表性的分詞系統(tǒng)為ICTCLAS分詞系統(tǒng)、Ansj中文分詞系統(tǒng)、結(jié)巴分詞等。如果直接使用通用分詞器對地質(zhì)專業(yè)文檔進行分詞,分詞效果往往不佳,主要表現(xiàn)為以下3點:①由于通用分詞器所使用的核心詞典對地質(zhì)專業(yè)詞匯覆蓋不全,即便是最基礎(chǔ)的地質(zhì)詞匯往往也不能正確切分,所以在這些切分錯誤中往往會存在分詞碎片,如包含一些被切分開來的兩個或兩個以上的連續(xù)單字,一般情況下這些單字組合就是一個地質(zhì)詞匯;②新詞判別問題。地質(zhì)分詞是一個反復(fù)迭代過程,在這個過程中,需要不斷將發(fā)現(xiàn)的新詞收錄到詞典當中?;诮y(tǒng)計的中文分詞器往往具有新詞發(fā)現(xiàn)功能,需要解決如何判斷這些新詞是否正確;③有意義串的提取問題。在地質(zhì)領(lǐng)域中,重要的命名實體包括地層名、巖石命名、斷裂名、構(gòu)造名、礦體名、礦帶名等。地質(zhì)作為一門實踐性很強的自然科學,其研究對象通常具有一定的空間特征,這種特征在地質(zhì)實體命名時也有所體現(xiàn),如“東昆侖山多金屬礦帶”、“中天山成礦帶”、“欒川鉬(鎢)礦床”、“龍河林場一滿歸斷裂”等,這些詞匯屬于地質(zhì)術(shù)語范疇,是對特定地質(zhì)體的表述,在語義上具有唯一性,在領(lǐng)域內(nèi)往往不能拆分理解,如“欒川鉬(鎢)礦床”往往不能理解為“欒川的鉬(鎢)礦床”。有意義串的提取對提高大數(shù)據(jù)環(huán)境下地質(zhì)文檔查準率具有重要意義。
上述3個問題在自然語言處理領(lǐng)域?qū)儆谛略~識別問題。在地質(zhì)文檔中,具有地學意義的地質(zhì)詞語或短語在文檔中會多次使用,即會在文檔中反復(fù)出現(xiàn)。因此,找出文檔中的重復(fù)串,便可得到地質(zhì)詞語的候選集合。基于統(tǒng)計的分詞法受統(tǒng)計模型影響,大多只能發(fā)現(xiàn)4個字以內(nèi)的詞語?;谝?guī)則的分析法領(lǐng)域局限性大,如果切換領(lǐng)域就需要重建規(guī)則,而通過重復(fù)串查找獲得的地質(zhì)詞語候選集合不局限于字數(shù)和領(lǐng)域。
重復(fù)串查找分為基于字的重復(fù)串查找及基于詞的重復(fù)串查找,基于詞的重復(fù)串查找需要預(yù)先對文本進行切分。本次地質(zhì)詞語識別建立在通用分詞器切分結(jié)果的基礎(chǔ)上,因此采用基于詞的重復(fù)串查找。在使用通用分詞器進行切分時,地質(zhì)詞語一般都是被切散,分為以下4種情況:①被切分為單字之間的組合。例如:“區(qū)調(diào)”被切為“區(qū)/調(diào)”,“水工環(huán)”被切分為“水/工/環(huán)”;②被切分為多字詞和單字的組合。例如:“古侵入體/”被切分成“古/侵入/體”,“三疊系”被切分成“三疊/系”,“倒轉(zhuǎn)背斜”被切分成“倒/轉(zhuǎn)/背斜”;③被切分為多字詞之間的組合。例如:“中國地調(diào)局”被切分成“中國/地調(diào)局”,“河南省地質(zhì)調(diào)查院”被切分成“河南省/地質(zhì)/調(diào)查院”;④在切分結(jié)果中,本應(yīng)組合成詞的多個字與其它字/詞組合。例如:“太古宇太華巖群”在切分時切成“太/古宇太華/巖群”,“煤窯溝組”切分成“煤窯/溝組”,“變長石石英砂巖”切分為“變長/石石英砂巖”。
對于前3種情況,當新詞在文檔中出現(xiàn)不少于兩次時,采用重復(fù)串查找就可得到。在少量文檔下進行地質(zhì)詞語提取時,第4種情況會影響詞語發(fā)現(xiàn),這種情況的發(fā)生與分詞器所使用的語言模型相關(guān)。地質(zhì)分詞是一個反復(fù)迭代的過程,在這個過程中,分詞結(jié)果也處于動態(tài)修正狀態(tài)。
雖然重復(fù)串查找可以發(fā)現(xiàn)文檔中出現(xiàn)次數(shù)很少的新詞,但由于詞與詞之間的搭配非常多,因而在所獲得的集合中存在較多垃圾串。在地質(zhì)文檔中,重復(fù)串不僅包含了地質(zhì)術(shù)語,還存在大量垃圾串。地質(zhì)專業(yè)詞語識別的實質(zhì)就是在重復(fù)串發(fā)現(xiàn)的基礎(chǔ)上過濾掉無意義的垃圾串。垃圾串一般分為3類:①冗余子串,例如“碳酸鹽”這樣的串包含在“碳酸鹽巖”中;②有意義串和常用字的組合,如“的地臺型基底”;③頻繁功能串,如“這是”、“其為”等。對于第一類垃圾串的判斷需要依賴它的外部使用環(huán)境,采用上下文鄰接分析識別。后兩類垃圾串的判斷要從串本身結(jié)構(gòu)著手,通過字的位置成詞概率進行判斷、分析。
為解決上述3方面問題,本文基于統(tǒng)計方法對地質(zhì)命名實體進行提取。分詞流程如圖1所示。
①首先對地質(zhì)報告進行預(yù)處理,轉(zhuǎn)換為txt文本格式,使用Ansj分詞工具進行分詞,并執(zhí)行第②步;②提取分詞中的新詞,并采用上下文鄰接分析和基于字的成詞概率詞典進行新詞判別,并執(zhí)行第③步或第⑤步;③當在第②步中判別為新詞時,新詞入庫,執(zhí)行第④步;④更新基于字的成詞概率詞典,執(zhí)行第⑤步;⑤當在第②步中判別不是新詞時,對該詞進行分詞,并將結(jié)果寫入文檔切分結(jié)果中,執(zhí)行第⑥步;⑥在文檔切分結(jié)果中提取重復(fù)串,形成有意義串候選集合,執(zhí)行第⑦步;⑦對候選有意義串采用上下文鄰接分析和基于字的成詞概率詞典進行判別;執(zhí)行第⑧步或第⑩步;⑧當在第⑦步中判別為有意義串時,更新詞典庫,執(zhí)行第⑨步;⑨更新基于字的成詞概率詞典,執(zhí)行第⑩步;⑩當所有候選有意義串判別完畢后,執(zhí)行第①步,迭代進行下一次分詞。
3 基于質(zhì)串的地質(zhì)基本詞典庫構(gòu)建
詞語根據(jù)詞形可分為質(zhì)詞和合詞。質(zhì)詞不可再分解為更小的詞語,例如“珠穆朗瑪”一詞,任何組合(“珠穆”或“朗瑪”等)都不是詞。合詞是由質(zhì)詞組合而成的詞語,例如“社會保障體系”是由“社會”、“保障”和“體系”3個質(zhì)詞組合而成[20]。
在中文分詞系統(tǒng)中必須有一個核心詞典,無論是標準分詞還是命名實體識別都離不開詞典提供的詞匯和語言模型資源。核心詞典中包含的詞匯越多,能夠正確分詞的語料范圍就越大。地質(zhì)基本詞典庫是對核心詞典的補充,能夠保證通用分詞器對常用地質(zhì)詞匯的正確切分,便于后續(xù)處理。
在地質(zhì)基本詞典收錄方面并不是地質(zhì)術(shù)語越長越好。正如前面所述,分詞單元粒度大小需要考慮到查全率和查準率的矛盾。本文以《地質(zhì)礦產(chǎn)術(shù)語分類代碼》(GB9649-1988)為基礎(chǔ),構(gòu)建了一個地質(zhì)基本詞典庫,用以滿足在智能地質(zhì)調(diào)查大數(shù)據(jù)應(yīng)用體系下對地質(zhì)文檔的查全率要求。通過重復(fù)串提取以及相關(guān)統(tǒng)計分析方法,提取地質(zhì)有意義串以滿足查準率要求。
3.1《地質(zhì)礦產(chǎn)術(shù)語分類代碼》(GB 9649-1988)分析
《地質(zhì)礦產(chǎn)術(shù)語分類代碼》(CB 9649-1988)(以下簡稱“CB9649”)分為35個部分,涵蓋了宇宙地質(zhì)學、地球物理學、火山地質(zhì)、地震地質(zhì)、外動力地質(zhì)學等地質(zhì)學領(lǐng)域各個方面。GB9649共包含詞語102 433個,地質(zhì)專業(yè)詞語可分為二字詞、三字詞以及多字詞(四字詞、五字詞等等),按詞長進行分類如圖2所示。
地質(zhì)詞典庫主要應(yīng)用方向是在大數(shù)據(jù)環(huán)境下的地質(zhì)文檔檢索,為提高地質(zhì)文檔查全率,傾向于分詞單位較小化。當?shù)刭|(zhì)詞語長度大于4時,往往由多個二字詞或三字詞組成(例如:地質(zhì)勘探、俯沖構(gòu)造等)。本文采用質(zhì)串思想,對GB9649中的地質(zhì)詞語進行分類,收錄符合質(zhì)串特征的地質(zhì)詞語用以構(gòu)建地質(zhì)基本詞典庫。
3.2 基于質(zhì)串的地質(zhì)基本詞典庫構(gòu)建
(5)合串。若串S有不少于3種的串分解時(自分解、單字分解、其它分解方式),則稱串S為合串。
由質(zhì)串的相關(guān)定義可知,質(zhì)串中不包含詞語,只能分解為單字,多個質(zhì)串與單字的組合可以構(gòu)成合串。因此,符合質(zhì)串特征的地質(zhì)詞語經(jīng)過組合可以構(gòu)成其它地質(zhì)詞語,將這些詞語收錄進地質(zhì)基本詞典庫中,既能滿足查全率要求,又可通過重復(fù)串提取地質(zhì)有意義串,以滿足查準率要求。本文使用通用分詞器對GB9649中的地質(zhì)詞語進行分詞。如前文所述,當?shù)刭|(zhì)詞語長度大于4時,往往是由多個粒度較小的詞語組成,因此,本次工作僅對長度不大于4的地質(zhì)詞語使用通用分詞器進行分詞,將符合質(zhì)串特征的地質(zhì)詞語收錄進地質(zhì)基本詞典庫。
通用分詞器詞典中不包含地質(zhì)詞匯,在對地質(zhì)文本進行分詞時,往往只能將分詞器所包含的通用詞匯分出。對于二字術(shù)語(定義“A”、“B”為組成二字術(shù)語的單字),其切分方式只有AB(例“項目”一“項/目”)、A/B(例”心灘”一”心/灘”)兩種切分類型,”一”表示地質(zhì)詞語被通用分詞器切分,下同。
對于三字術(shù)語(定義“A”、“B”、“C”為組成三字術(shù)語的單字),其切分方式有4種,分別是ABC(例“淡水湖”一“淡水湖”),AB/C(例“安順組”一“安順/組”),A/BC(例“假整合”一“假/整合”),A/B/C(例“苦橄巖”一“苦/橄/巖”)。
同理,對于四字術(shù)語(定義“A”、“B”、“C”、“D”為組成四字術(shù)語的單字),其切分方式有8種,分別是ABCD(例“阿爾卑斯”一“阿爾卑斯”),ABC/D(例“重晶石化”一“重晶石/化”),AB/CD(例“鉆進深度”一“鉆進/深度”),AB/C/D(例“蚌殼蕨屬”一“蚌殼/蕨/屬”),A/BCD(例“堇長角巖”一“堇/長角巖”),A/B C/D(例“紙色譜法”一“紙/色譜/法”),AlB/CD(例“礫質(zhì)粘土”一“礫/質(zhì)/粘土”),A/B/C/D(例“采場突水”一“采/場/突/水”)。
以四字詞為例對基本詞典庫的收錄規(guī)則進行說明:對于四字詞的分詞結(jié)果來說,ABCD型的切分說明該詞已被通用分詞器的核心詞典收錄;對于能被切分成A/B/C/D型的詞語,雖然沒有被分詞器的核心詞典收錄,但由于其本身被CB9649收錄,說明該詞是一個地質(zhì)詞匯,符合質(zhì)串特征,所以該詞應(yīng)被地質(zhì)核心詞典庫收錄;對于能夠被切分成其余類型的詞語,說明該詞是通用詞和字或詞的組合,這種類型的詞可以使用重復(fù)串方法進行識別處理,因此沒有收錄進基本詞典庫中。同理,對于能切分成A/B/C類型的三字詞以及能被切分成A/B/C/D的詞語都應(yīng)被地質(zhì)核心詞典庫收錄。
4 地質(zhì)專業(yè)詞語識別
4.1 重復(fù)串提取算法思想
本文地質(zhì)詞語識別建立在通用分詞器切分結(jié)果基礎(chǔ)上,因此采用基于詞的重復(fù)串提取,但基于詞的重復(fù)串提取算法與基于字的重復(fù)串提取算法一致,此處介紹基于字的重復(fù)串提取算法思想[21]。
(1)對處理好的字序列建立索引。例如,對于只有5個字符的文本“礦化物礦化體礦化礦井礦礦化物”文本建立單字索引如圖3所示。
(2)從單個字索引的信息開始擴展得到所有重復(fù)串。因為單字索引過程中已記錄好語料中所有出現(xiàn)“礦”的地址集合A,而以“礦”打頭的所有重復(fù)串地址一定包含在集合A中,那么遍歷地址集合A,根據(jù)地址掃描語料進行二字擴展、三字擴展……,可以發(fā)現(xiàn)以“礦”開頭的所有重復(fù)串。在上面例子中,掃描所有“礦”后面的第一個字符,擴展得到以“礦”開頭的所有兩字串(見圖4)和三字串(見圖5)。
頻次為1的串(如“礦井”、“礦礦”)不是重復(fù)串,將其刪除;對于頻次大于1的重復(fù)串(如“礦化”),要將所有信息寫入重復(fù)串文件中且繼續(xù)對其擴展,發(fā)現(xiàn)長度增1的重復(fù)串。
(3)新產(chǎn)生的重復(fù)串寫入文件后繼續(xù)擴展得到長串,反復(fù)迭代,直到出現(xiàn)間隔符號或長度達到指定的閾值。
4.2 重復(fù)串提取流程
基于重復(fù)串提取算法,需要記錄詞的ID索引。值得注意的是,在一段話中往往包含停用詞。停用詞主要包括副詞、助詞、連詞、介詞、標點符號等,其本身并無明確意義,僅在句子中起一定作用,例如“在”、“的”、“且”等。采用串查找發(fā)現(xiàn)新詞時,停用詞會導(dǎo)致垃圾串產(chǎn)生,例如:“官/道/口/群/在/測區(qū)/內(nèi)/出露/較/全/,/向/西/延伸/到/盧氏/,/靈寶/一帶/,/其/巖石/組合/和/沉積/建/造/特征/均/可/對比/。/”,這句話包含停用詞10個(標點4個、“在”、“較”、“其”、“和”、“均”、“可”)。在建立詞的ID索引時,需要將上面一段話分為8個部分:“官/道/口/群/”、“測區(qū)/內(nèi)/出露/”、“全/”、“/向/西/延伸/到/盧氏/”、“/靈寶/一帶/”、“巖石/組合/”、“沉積/建/造/特征/”和“對比/”,按照這8個部分建立詞的索引。因此,需要建立一個文檔用于記錄依據(jù)停用詞對文本分割后的結(jié)果,并以此為依據(jù)建立一個詞索引文檔,開辟一個緩沖棧用于存放當前擴展串及相關(guān)信息。根據(jù)索引地址鏈進行擴展,擴展串中頻次大于1的串被認為是重復(fù)串,統(tǒng)計詞頻和鄰接對信息后輸出到文件中,同時放人緩沖棧中用以后續(xù)擴展。當一次擴展結(jié)束后再從棧中讀取棧頂串進行新一輪擴展。第一次??諘r表示以第一個詞打頭的所有重復(fù)串發(fā)現(xiàn)完畢,然后讀取第二個詞的索引鏈并放人緩沖棧,依次反復(fù)直到所有重復(fù)串發(fā)現(xiàn)完畢。最后輸出一組文件,重復(fù)串文件用來存儲串的內(nèi)容、串長、串頻、鄰接對頻次等信息。
4.3 地質(zhì)專業(yè)詞語識別方法
地質(zhì)專業(yè)詞語識別可以借助通用領(lǐng)域的新詞發(fā)現(xiàn)方法。新詞發(fā)現(xiàn)通過采用基于統(tǒng)計和規(guī)則過濾的方法對候選集進行過濾得到最終結(jié)果[22]?;谝?guī)則的新詞發(fā)現(xiàn)依賴特定領(lǐng)域建立的規(guī)則庫,其泛化性差,加之人工建立規(guī)則庫代價較大,規(guī)則之間多有沖突發(fā)生?;诮y(tǒng)計的新詞發(fā)現(xiàn)目前使用普遍,主要有上下文鄰接分析、位置成詞概率、雙字耦合度、頻率比和互信息等。本文主要采用上下文鄰接分析和位置成詞概率方法識別地質(zhì)專業(yè)詞語。
(1)上下文鄰接分析。通用的已知詞語作為頻繁使用的語言單元,在實際生活中具有一定的流通度和廣泛性。一般來說,一個詞語的內(nèi)部結(jié)合度較高,其與外部上下文中的詞語關(guān)系就較為松散,例如“斷層”、“產(chǎn)狀”中的兩個字總是一起出現(xiàn)。地質(zhì)詞語作為獨立使用的語言單元,在地質(zhì)文本中具有一定的流通度,能夠應(yīng)用于多種不同的上下文環(huán)境。上下文分析是從串的上下文人手分析其使用環(huán)境,主要通過上下文鄰接種類、臨界熵、鄰接對種類以及鄰接對熵等鄰接特征量判斷。本文受文本大小限制,采用鄰接種類進行判斷。
對于一個串S,其鄰接種類V可分左鄰接種類VL和右鄰接種類VR,分別表示左、右鄰接集合中元素的數(shù)目,反映串S所處上、下文語境種類多少。當VL≥n,VR≥n時,該串為詞。鄰接種類在一定程度上反映字符串的語言環(huán)境。
(2)位置成詞概率分析。在漢語構(gòu)詞中,每個字都有自己特有的構(gòu)詞作用,并非所有的字都可作為詞首、詞中、詞尾的成分,某些字往往出現(xiàn)在合成詞的某個或某幾個特定位置上,例如“老虎”、“老師”中的“老”通常出現(xiàn)在詞首,“產(chǎn)狀”、“鮞狀”中的“狀”通常出現(xiàn)在詞尾,而另一些字總是不會出現(xiàn)在詞首或詞尾。
地質(zhì)命名實體開始是某個詞的詞首,串尾也一定是某個詞的詞尾。當檢測到串首某個字的詞首成詞概率太低時,該串可能是垃圾串;若串尾某個字的詞尾成詞概率太低時,該串也可能是垃圾串。
在切分好的語料中統(tǒng)計每個漢字出現(xiàn)在詞語中的總次數(shù)N和出現(xiàn)在詞首、詞尾的N1和N2,那么詞首成詞概率是Nl和N的比值,詞尾成詞概率是N2和N的比值。
對地質(zhì)術(shù)語中單字成詞概率和多字成詞的詞首、詞尾概率進行統(tǒng)計,部分結(jié)果如表1所示。若某個字的詞首成詞概率太低,則認為該字不能作為詞首;同樣,若某個字的詞尾成詞概率太低,則該字不能作為詞尾,這樣能有效過濾新詞和常用字組成的垃圾串。如判斷“主要巖性為”中的“為”,“在采樣過程中”的“在”即可將它們判斷為垃圾串而排除。此外,還有一部分頻繁功能串也能過濾掉,如“其為”、“這是”等高頻串。
5 實驗與分析
5.1 測試集與評測指標
中文分詞研究旨在提出一種擁有通用性、實用性以及開放性的現(xiàn)代書面漢語自動分詞方法,而評測中文分詞方法性能優(yōu)劣的評測標準為分詞準確率與分詞效率[23]。本文在通用分詞器基礎(chǔ)上建立地質(zhì)專業(yè)詞匯抽取方法,因此對分詞效率不作評測。
分詞準確率是評估分詞方法有效性和合理性的核心評測標準,包括正確率、召回率以及綜合指標F值。
準確率P=識別正確的新詞數(shù)目/ 識別結(jié)果的新詞數(shù)目上×100%
(1)
召回率R=識別正確的新詞數(shù)目/ 重復(fù)串中正確的新詞數(shù)目× 100% (2)
綜合指標F=2×P×R/P+R
(3)
5.2 實驗結(jié)果及分析
本文實驗語料來自《1:25萬內(nèi)鄉(xiāng)縣幅區(qū)域地質(zhì)調(diào)查報告》,約33萬字。使用Ansj中文分詞器的分詞結(jié)果與本文提出的地質(zhì)專業(yè)詞匯識別方法的結(jié)果進行對比,如表2所示。
本次結(jié)果抽取重復(fù)串14 070個,去除單字、重復(fù)結(jié)果后,剩余3 704個。經(jīng)人工判別,正確結(jié)果2 513個;經(jīng)過算法過濾后,重復(fù)串剩余2 496個,本方法正確識別結(jié)果2 036個。使用分詞器進行分詞后,分詞數(shù)量龐大,召回率難以評估。本次僅對Ansj中文分詞器所識別的新詞正確率進行了計算,識別新詞4 478個,正確識別1 050個,正確率23.4%。
通過對比,本文方法對地質(zhì)詞語的識別遠遠高于通用領(lǐng)域分詞器。通過分析發(fā)現(xiàn),由于通用分詞器一般在新詞發(fā)現(xiàn)方面采用基于統(tǒng)計的分詞方法,對于出現(xiàn)頻率不高的詞語,統(tǒng)計的分詞方法學習度不夠,從而引起錯分。而本文方法經(jīng)過重復(fù)串算法,能夠?qū)⒊霈F(xiàn)頻率較低的詞語查找出來,經(jīng)過上下文鄰接以及基于位置成詞概率過濾后,可有效地將原本錯分的詞語組合到一起。但本文方法對僅出現(xiàn)一次和出現(xiàn)語境完全相同的新詞無法識別,因此需要添加其它策略進一步提高其識別性能。
6 結(jié)語
針對基于統(tǒng)計的分詞方法受語料影響跨領(lǐng)域適應(yīng)性較差,基于詞典的分詞方法雖然可以直接利用領(lǐng)域詞典進行分詞但不能解決未登錄詞識別等問題,基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫,對通用分詞器的核心詞典庫進行擴充,在此基礎(chǔ)上提出基于統(tǒng)計的中文地質(zhì)詞語識別方法。采用重復(fù)串查找方法得到地質(zhì)詞語候選集,使用上下文鄰接以及基于位置成詞的概率詞典,對地質(zhì)詞語候選集進行過濾,實現(xiàn)地質(zhì)詞語識別。實驗證明該方法提高了地質(zhì)詞語識別準確率,可在地質(zhì)大數(shù)據(jù)中進行相關(guān)應(yīng)用。
參考文獻:
[1]黃昌寧.中文信息處理中的分詞問題[J].語言文字應(yīng)用,1997(1):72-78.
[2] 昊軍.數(shù)學之美[M].北京:人民郵電出版社,2014:41-49.
[3]
ZHU Y Q, ZHOU W W.XU Y,et al. Intelligent learning for knowledgegraph towards geological data[J].Scientific Programming, 2017(3):1-13.
[4]
ZEINALI H. SAMETI H. BURCET L,et al. Text-dependent speakerverification based on i-vectors, neural networks and hidden markovmodels[J].Computer Speech&Language, 2017( 46): 53-71.
[5]
SHUAI Z, JAYASUMANA S,ROMERA-PAREDES B,et al. Condi-tional random fields as recurrent neural networks[C].IEEE Interna-tional Conference on Computer Vision, 2016.
[6] MENCEL S,Y Q J.Extracting structured data from web pages withmaximum entropy segmental markov models[C].International Confer-ence on Web Information System Engineering, 2009.
[7]
JIANG H J,REN X. LIU K.Research on dictionary for personalizedChinese word segmentation[C].The 4th International Conference onIntelligent System and Applied Material, 2014: 1-4.
[8]
ZHENC Q, LIU X Y. FU J L Neural networks incorporating dictionar-ies for Chinese word segmentation[C].Proceedings of the ThirtV- Sec-ond AAAI Conference on Artificial Intelligence, 2018: 1-8.
[9]
PANC B M, SHI H S.Research on improved algorithm for Chineseword segmentation based on mMarkov chain[C].Xi'an: InternationalConference on Information Assurance and Security. 2009.
[10]
HUANC L,DU Y F,CHEN G Y.CeoSegmenter: a statisticallvlearned Chinese word segmenter for the geoscience domain[J].Com-puters&Geosciences, 2015( 76): 11-17.
[11] 陳婧汶,陳建國,王成彬,等.基于條件隨機場的地質(zhì)礦產(chǎn)文本分詞研究[J].中國礦業(yè),2018.27( 9):69-74.101.
[12] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2013:129-134.
[13] 鄭捷.NLP漢語自然語言處理[M].北京:電子工業(yè)出版社,2017:88 -117
[14]趙慶.地質(zhì)科技論文中語言文字表達的幾個要求[J].地質(zhì)找礦論叢.2013, 28(3): 493-498.
[15] 鄭孝玉.地質(zhì)情報的特點及其服務(wù)工作的有關(guān)問題[J].情報雜志.1991. 10( 4):63-67.
[16] 冀倩,翁望飛.地質(zhì)學專業(yè)英語詞匯特點及構(gòu)詞研究[J].皖西學院學報,2011,27(4):116-121.
[17]李廷棟,劉勇,王軍,等.略論地質(zhì)圖件的十大功能——紀念黃汲清先生誕辰110周年[J].地質(zhì)論評,2014,60(3):473-485.
[18]雨巖.概念·定性·定量[J].水文地質(zhì)工程地質(zhì),1991(6):10-14.
[19]楊鍾健.地質(zhì)名詞的來源及統(tǒng)-[J].地質(zhì)論評,1950( Z1):55-59.
[20]何婷婷,張勇.基于質(zhì)子串分解的中文術(shù)語自動抽取[J].計算機工程,2006, 32( 23):188-190.
[21]張華平,高凱,黃河燕,等.大數(shù)據(jù)搜索與挖掘[M].北京:科學出版社,2014: 104-135.
[22]黃軒,李熔烽.博客語料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.
[23] 王威.基于統(tǒng)計學習的中文分詞方法的研究[D].沈陽:東北大學,2015.
(責任編輯:杜能鋼)
基金項目:國家自然科學基金項目(41671404);中央高校基本科研業(yè)務(wù)費項目(N170104019);中國地質(zhì)調(diào)查局智能地質(zhì)調(diào)查支撐平臺建設(shè)項目(DD20160355)
作者簡介:王宏(1987-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點實驗室工程師,研究方向為地學信息處理與應(yīng)用;朱學立(1963-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點實驗室教授級高級工程師,研究方向為地質(zhì)信息技術(shù)分析與應(yīng)用;曾濤(1977-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點實驗室高級工程師,研究方向為地學空間數(shù)據(jù)庫;喬東玉(1975-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點實驗室助理工程師,研究方向為地學空間數(shù)據(jù)庫;郭甲騰(1980-),男,博士,東北大學資源與土木工程學院講師,研究方向為數(shù)字礦山、數(shù)字巖土、數(shù)字城市領(lǐng)域的三維地學建模與可視化、三維拓撲關(guān)系分析、并行地理計算。