国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分詞技術(shù)的研究與應(yīng)用

2015-05-30 17:19:54吳宏洲
軟件工程 2015年12期
關(guān)鍵詞:詞庫頻度詞條

吳宏洲

摘 要:一種無需語料庫和復(fù)雜數(shù)學(xué)模型支持的抽取新詞最簡方法。通過掃描文獻(xiàn)文字流,消除停用字詞,切分單元子句,對子句枚舉可能的候選詞條,統(tǒng)計(jì)候選詞條頻度,計(jì)算長短包含關(guān)系候選詞之間的置信度值,只須依據(jù)大于90%的值來消除短詞,得到候選關(guān)鍵詞,再經(jīng)過已有詞庫過濾,留下新詞。該方法可作為信息加工的輔助工具。

關(guān)鍵詞:停用詞;候選分詞;置信度;抽取新詞

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A

A Quick Word Segmentation Technology Research and Application

——the Method of Extracting New Word

WU Hongzhou

(The China Patent Information Center,Beijing 100088,China)

Abstract:A complicated mathematical model without corpus and support the minimalist approach the extraction of words.By scanning the literature text flow,eliminate stop using words,segmentation unit clause,for other enumeration possible candidates for entry,the statistical frequency of candidate items,calculate length of confidence value contains the relationship between the candidate words,simply on the basis of more than 90% of the value to eliminate the short term,to get the candidate keywords,repass existing thesaurus filtering,new words.This method can be used as an auxiliary tool to information processing.

Keywords:stop words;the candidate segmentation;confidence;extraction of new words

1 引言(Introduction)

在專利信息技術(shù)中,專利文獻(xiàn)信息檢索、機(jī)器翻譯、專利輔助自動(dòng)文摘和CPC/IPC自動(dòng)分類,都會(huì)用到一個(gè)基本的技術(shù)——分詞技術(shù)。所謂分詞,就是利用已有詞庫的詞,來切分文章中的詞的過程[1,4]。隨著大量文獻(xiàn)的不斷引入,已有詞庫永遠(yuǎn)不能滿足實(shí)際所需。更新分詞庫,是一項(xiàng)必要工作。如果完全由人工來處理新詞,經(jīng)過一系列抽取、標(biāo)引、審校和入庫流程,當(dāng)實(shí)際需要處理的量遠(yuǎn)遠(yuǎn)超過人的能力時(shí),那么準(zhǔn)確性和效率就會(huì)成為一個(gè)問題。那么這就涉及另外一項(xiàng)自動(dòng)化技術(shù),抽取新詞的技術(shù)。抽詞技術(shù)目前已經(jīng)非常成熟,方法也比較多。比較成熟的產(chǎn)品技術(shù),通過語料庫、訓(xùn)練集和復(fù)雜的數(shù)學(xué)模型及其昂貴的資源代價(jià),來獲得高質(zhì)量的效果。其效果與語料庫或知識(shí)庫收集的量有很大的關(guān)系。量越大越容易精確。在專利信息領(lǐng)域中,完全依賴知識(shí)庫的方法,對于那些改進(jìn)性的發(fā)明,還能起作用。但是對于那些強(qiáng)調(diào)首創(chuàng)性的發(fā)明,彼此之間相似性就很少,算法再高明,也可能收效甚微。本文因受N-gram啟發(fā)[2],借鑒置信度消除歧義詞[3],一個(gè)幾乎被淡忘的陳舊方法,經(jīng)過簡單優(yōu)化,以最小代價(jià)來解決文獻(xiàn)領(lǐng)域面向新詞的抽取繁重工作帶來的問題,效果非常顯著。

2 抽詞技術(shù)的現(xiàn)狀(The extracting words

technology)

目前抽詞技術(shù)主要有四類,基于詞庫的、規(guī)則的、統(tǒng)計(jì)的和格式化文檔的抽詞法。

2.1 基于詞庫的關(guān)鍵詞抽取法

這種方法主要利用已有詞庫來抽取關(guān)鍵詞,和詞典分詞法大致類同。和最大分詞不同,需要枚舉所有長短可能的詞,這些詞都是詞庫已有的詞。不能識(shí)別未登錄詞。通常檢索短語用的就是這類方法。

2.2 基于規(guī)則的關(guān)鍵詞抽取法

利用句法或語義分析,借助句法知識(shí)庫、語義知識(shí)庫等資源,抽取出文件中的名詞詞素,以名詞素為中心,向前向后擴(kuò)展新詞。利用句法或語義分析,借助句法知識(shí)庫、語義知識(shí)庫等資源,抽取出文件中的名詞詞素,運(yùn)用一些方法與準(zhǔn)則,過濾掉不符合規(guī)則的詞素。經(jīng)過這樣的處理之后,得到的結(jié)果幾乎都是有意義的名詞或名詞短語。對于面向英文的處理,這種做法已經(jīng)取得了非常好的效果。通常機(jī)器翻譯用的就是這類方法。

2.3 基于統(tǒng)計(jì)的關(guān)鍵詞抽取法

通過對文獻(xiàn)中詞頻統(tǒng)計(jì)和對派生出來的新詞的互信息來獲取新詞。統(tǒng)計(jì)方法細(xì)分還有幾種方法:N-gram方法、詞頻、TFIDF、詞的同現(xiàn)信息、PAT-Tree,或是上述某些統(tǒng)計(jì)方法的結(jié)合等。通常自動(dòng)文摘、自動(dòng)分類、自動(dòng)標(biāo)引等會(huì)用到這類中的一些方法。自動(dòng)文摘、自動(dòng)分類常用TFIDF方法來計(jì)算。抽取新詞常用N-gram與詞的同現(xiàn)信息計(jì)算。PAT-Tree和N-gram是抽詞常用的兩種方法。TFIDF、PAT-Tree需要語料信息和資源支持,計(jì)算概率和詞頻權(quán)重。N-gram不需要語料信息和資源,但計(jì)算量會(huì)較大。

2.4 基于格式化文檔的關(guān)鍵詞抽取法

利用一些排版規(guī)則、文檔結(jié)構(gòu)化和格式化規(guī)律,將重要的字符串抽取出來。例如:專利文獻(xiàn)中的標(biāo)題、文摘、權(quán)利要求書及其著錄項(xiàng)目、關(guān)鍵詞、同義詞等結(jié)構(gòu)文檔;權(quán)利要求書中的語義樹形態(tài)的陳述形式??梢园凑瘴墨I(xiàn)結(jié)構(gòu)格式化的規(guī)律,找到相應(yīng)關(guān)鍵詞,按照出現(xiàn)的位置重要性賦予不同的權(quán)重,以期達(dá)到抽取關(guān)鍵詞的目的。即便是低頻詞,由于出現(xiàn)在非常重要位置上,因而也能將其從文獻(xiàn)中輕易地得到。例如:出現(xiàn)在發(fā)明專利標(biāo)題中的每一個(gè)詞都非常重要,即便文摘中并未反復(fù)多次出現(xiàn),但是其不同位置詞頻度與權(quán)重積之總和卻很高,那么也能構(gòu)成關(guān)鍵詞要素。通常自動(dòng)文摘、自動(dòng)分類、自動(dòng)標(biāo)引等也會(huì)用到這類方法。

3 本文抽詞技術(shù)的實(shí)現(xiàn)(The realization of the

technology of the paper)

抽詞技術(shù)方法很多,考慮到經(jīng)濟(jì)和實(shí)用因素,復(fù)雜的數(shù)學(xué)計(jì)算方法、需要大量歷史信息、語料庫、訓(xùn)練集的支持,與主旨相悖,避開此類方法,尋求更簡單有效的方法。采用基于統(tǒng)計(jì)的方法,且僅限于對于一篇文獻(xiàn)進(jìn)行處理。以常見的N-gram方法來枚舉候選詞。通過尋找候選詞間的包含關(guān)系,計(jì)算置信度的取值,來濾除掉不需要的候選詞。從而留下頻度較高的、可能性大的候選詞。關(guān)鍵詞就出自其中。借助已有分詞庫,再濾掉那些已有詞,最終得到的候選詞就是候選新詞。抽詞算法流程圖,如圖1所示。

3.1 停用詞處理

停用詞對于抽詞結(jié)果的影響比較大。選擇不同的停用詞集合,產(chǎn)生的候選詞也會(huì)不同。例如:“有”字被停用后,“有機(jī)...”等詞也被抑制?!昂汀弊直煌S煤?,“飽和...”等詞也被抑制。

通常建議提供停用詞庫客戶端個(gè)性化可調(diào)整方案,根據(jù)情況適度變換停用詞策略,會(huì)產(chǎn)生不同的新詞條和關(guān)鍵詞。變換停用詞應(yīng)以能夠適應(yīng)用戶需求和方便操作為前提,優(yōu)先考慮解決方案。

停用詞庫的使用順序,也會(huì)對抽詞產(chǎn)生很大影響。例如:“有”對“具有”或“所有”的影響,如果最先使用短詞“有”,那么就會(huì)留下“具”或“所”與其他字詞組成“…具”或“…所”的候選新詞條,形成歧義詞條。

通常建議構(gòu)造停用字詞庫,應(yīng)按照{(diào)詞長[逆序],詞條[正序]}有序存放。亦即停用詞過濾按照長詞優(yōu)先原則。避免停用詞因使用順序不當(dāng)而帶來新的問題。

3.2 候選詞條枚舉

該方法借鑒N-gram算法[2],并受其啟發(fā)。首先要確定一個(gè)分詞可能的最大長度,即N取多少個(gè)漢字合適。考慮到化學(xué)、藥物、微生物等領(lǐng)域的技術(shù)術(shù)語可能會(huì)有大量長詞出現(xiàn)。因此,適當(dāng)降低訪問效率,滿足分詞長度要求,也是可容忍的。通常認(rèn)為一個(gè)長詞最長不超過15個(gè)漢字,就可以符合專利信息領(lǐng)域?qū)﹃P(guān)鍵詞的需求。N取15,這是分詞庫的一項(xiàng)重要參數(shù)定義。分詞至少由2個(gè)漢字組成,分詞庫不接收單字詞。為了闡述方便,以分詞最大長度取5為例。枚舉候選分詞,詳見表1。

算法:

//參數(shù)S句子;SL句子長度漢字?jǐn)?shù)

CS=“ ”;

For(wl=2;wl<=min(SL,15);wl++){//最大分詞長度15,計(jì)算詞長從2到15或SL遞增

For(pos=0;pos

CS←CS+substr(S,pos,wl)+“”;//抽取候選分詞

}

}

Output (CS);//結(jié)果

3.3 候選詞條統(tǒng)計(jì)

處理一篇文獻(xiàn)須對已生成候選詞條進(jìn)行排序和頻度統(tǒng)計(jì),形成候選詞條有序集。

3.4 歧義詞消除

定義:在候選詞條集ψ中,如果漢字結(jié)合模式ω1添加前綴pref或后綴suff后,構(gòu)成漢字結(jié)合模式ω2,即ω2=ω1+suff或ω2=pref+ω1或ω2=pref+ω1+suff,那么模式ω2在文檔中的出現(xiàn)頻度Γ(ω2,s)與模式ω1在文檔中出現(xiàn)頻度Γ(ω1,s)之比稱為模式ω2相對于模式ω1的置信度Confidence(ω2|ω1)。Confidence(ω2|ω1)≈Γ(ω2,s)/Γ(ω1,s)。置信度反映模式ω1與前綴和或后綴結(jié)合的穩(wěn)定性。即模式ω2構(gòu)成詞條的可能性。如果置信度低于下限,則說明模式ω2構(gòu)成詞條的可能性小,可以除去。如果置信度位于上限和下限之間,那么,模式ω1、ω2可以共存于候選分詞集中。在后綴情況下,如果置信度高于上限,則說明模式ω1基本被包含于模式ω2之中。按照最大匹配原則,ω1可以除去。實(shí)際使用中,某些專家將置信度區(qū)間定義為[0.30,0.90]作為上下區(qū)間,稱為置信度空間[3]。

抽取關(guān)鍵詞和或新詞條,消除其中歧義詞條的算法主要來源于三條規(guī)則:

規(guī)則1:Confidence(ω2|ω1)≤30%,ω2為詞條的可能性很小,ω2可以除去。

規(guī)則2:Confidence(ω2|ω1)∈(30%,90%),ω1和ω2都有可能。

規(guī)則3:Confidence(ω2|ω1)≥90%,ω1被ω2所包含,ω1則可以除去。

通常算法只考慮規(guī)則1和規(guī)則3的情況,作消歧處理。

規(guī)則1算法:

For(i=0;i

w1←S[i];

Sel←true;//默認(rèn)選中w1

If(w1.wf==0) continue;//由于第一條規(guī)則本身可能使w2.wf←0的情況發(fā)生,跳過

For(j=0;j

If(j==i)continue;//是自己,跳過

w2←S[j];

If(w2.wf==0)continue;//由于第一條規(guī)則本身可能使w2.wf←0的情況發(fā)生,跳過

If(substr_at(w1.kw,w2.kw)>=0){//如果w2=前綴+w1+后綴;前后綴不同時(shí)為空

Confidence←w2.wf/w1.wf;//置信度≈f(w2)/f(w1),頻度比

If(Confidence)<0.10){//置信度低于下限,也可以取下限0.30

w2.wf←0;//w2視為不存在

S[j]←w2;

continue;//看下一個(gè)w2

}

}

}

}

For(i=0;i

If(w1.wf>1) {

Output(S[i]);//輸出留下的詞條。

}

}

規(guī)則3算法:

For(i=0;i

w1←S[i];

Sel←true;//默認(rèn)選中w1

If(w1.wf==0) continue;//由于第一條規(guī)則可能使w1.wf←0的情況發(fā)生,跳過

For(j=0;j

If(j==i) continue;//是自己,跳過

W2←S[j];

If(substr_at(w1.kw,w2.kw)>=0){//如果w2=前綴+w1+后綴;前后綴不同時(shí)為空

Confidence←w2.wf/w1.wf;//置信度≈f(w2)/f(w1),頻度比

If(Confidence)>=0.90){//只要有一個(gè)W2,使得置信度超過上限,

Select←false;//w1就被包含在w2中,w1可以視為不存在

Break;

}

}

}

If(select) {

If(w1.wf > 1) {

Output(w1);//輸出留下的詞條。

}

}

}

3.5 普通詞濾除

對于候選詞條集,借助已有分詞庫,依次查看庫中該詞是否已存在?從候選詞條集中除去存在的詞條。留下來的可作為候選新詞條。

4 實(shí)驗(yàn)效果(The experiment effect)

筆者經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),僅規(guī)則3情況,當(dāng)取Confidence

(ω2|ω1)≥90%,濾掉ω1,就已經(jīng)可以獲得非常不錯(cuò)的效果。相反,按照規(guī)則1+3,當(dāng)取Confidence(ω2|ω1)≤30%,消除ω2,再取Confidence(ω2|ω1)≥90%,濾掉ω1,效果反而更糟。甚至調(diào)整下限為10%,改變也不大。試驗(yàn)樣本六個(gè)發(fā)明公開專利的“標(biāo)題+文摘”, 詳見表2;不同規(guī)則下抽取的候選新詞條,詳見表3。

表2 試驗(yàn)樣本6個(gè)發(fā)明公開專利的“標(biāo)題+文摘”

Tab.2 "Title+digest"of the 6 inventions of the test sample

專利 標(biāo)題+文摘

1 具有輥輪的多環(huán)節(jié)傳送帶本發(fā)明涉及一種用于輸送物體諸如容器、瓶子、捆束等等的多環(huán)節(jié)傳送帶,該傳送帶由許多相互鉸接的環(huán)節(jié)(14)構(gòu)成。所述傳送帶在其上側(cè)上具有至少一行(22)可旋轉(zhuǎn)地受支承的承放輥(24),其旋轉(zhuǎn)軸線平行于鉸鏈栓并且平行于這些環(huán)節(jié)(14)的支架(16)的縱側(cè)。利用分別相鄰的環(huán)節(jié)(14)的承放輥(24)構(gòu)成用于需要輸送的物體的承放面。在這些環(huán)節(jié)(14)的至少一個(gè)縱側(cè)的區(qū)域內(nèi)設(shè)有多個(gè)偏轉(zhuǎn)元件(26),這些偏轉(zhuǎn)元件在承放輥(24)以及支架(16)的上側(cè)(17)的高度水平之間并且在承放輥(24)的至少一側(cè)上延伸。

2 用于計(jì)時(shí)器的擒縱裝置一種計(jì)時(shí)器機(jī)芯的擒縱裝置,包括:擒縱輪(1);第一運(yùn)動(dòng)件(2),其具有與所述擒縱輪(1)鎖止的工具(23)和與所述擒縱輪(1)的機(jī)械傳遞工具(22);第二運(yùn)動(dòng)件(3);以及平衡滾子(4)。所述第二運(yùn)動(dòng)件(3)具有與所述擒縱輪(1)鎖止的工具(33)和與所述擒縱輪(1)和所述第一運(yùn)動(dòng)件(2)的機(jī)械傳遞工具(32)。運(yùn)動(dòng)件通過擒縱輪被切向地驅(qū)動(dòng)。

3 硼回收設(shè)備、硼回收方法和硼回收系統(tǒng)本發(fā)明涉及硼回收設(shè)備、硼回收方法和硼回收系統(tǒng),包括通道和至少一個(gè)被置于通道中的曝氣設(shè)備。根據(jù)本發(fā)明的硼回收設(shè)備包括曝氣通道型反應(yīng)器,其中含硼溶液通過所述通道而曝氣從而使硼以硼砂的形式被提取;和沉淀槽,其中含硼溶液穿過曝氣通道型反應(yīng)器而提取的硼砂被沉淀,并且其余的溶液借助于溢流而分離。

4 控制風(fēng)輪機(jī)上的葉片的型線的方法本發(fā)明涉及一種控制風(fēng)輪機(jī)上的葉片的型線的設(shè)備或者方法,所述風(fēng)輪機(jī)具有至少第一葉片和第二葉片,該第一葉片包括適合確定第一葉片狀態(tài)的至少一個(gè)第一傳感器系統(tǒng),以及該第二葉片包括適合確定第二葉片狀態(tài)的至少一個(gè)第二傳感器系統(tǒng),其中基于確定的第一葉片狀態(tài)和確定的第二葉片狀態(tài),控制第二葉片的型線。

5 環(huán)境測定裝置以及環(huán)境測定方法本發(fā)明提供一種環(huán)境測定裝置以及環(huán)境測定方法,在環(huán)境測定裝置以及環(huán)境測定方法中,高精度地測定大氣中的腐蝕性氣體。環(huán)境測定裝置(10)具備運(yùn)算部(13),其計(jì)算出第1QCM傳感器(11a)的第1共振頻率(f1m)的第1變化量(Δf1m)、以及第2QCM傳感器(11b)的第2共振頻率(f2m)的第2變化量(Δf2m),運(yùn)算部(14)基于第1期間(T1)內(nèi)的第1變化量(Δf1m)和該第1期間(T1)內(nèi)的第2變化量(Δf2m),來修正該第2變化量(Δf2m)。

6 用于支持對管制和非管制物品經(jīng)銷的監(jiān)管要求的系統(tǒng)和方法本發(fā)明提供了用于支持如美國和加拿大等國家對管制和非管制物品配給的監(jiān)管要求的系統(tǒng)和方法,所述管制和非管制物品例如是非管制處方(Rx)、醫(yī)療設(shè)備和管制物質(zhì)。該系統(tǒng)和方法加入了許可核實(shí)模塊,其被配置以對特定的管制和/或非管制物品的訂單進(jìn)行許可驗(yàn)證。在某些實(shí)施方式中,該許可驗(yàn)證模塊將訂單數(shù)據(jù)與歷史存儲(chǔ)數(shù)據(jù)比較,如果存在一個(gè)或多個(gè)差異,驗(yàn)證即不成功。在驗(yàn)證失敗時(shí),許可核實(shí)模塊可進(jìn)一步查詢第三方數(shù)據(jù)以獲取更新的許可信息。該系統(tǒng)和方法進(jìn)一步加入了可疑訂單監(jiān)控模塊,其被配置以對訂單實(shí)施多項(xiàng)檢查,以將訂單識(shí)別出可能被進(jìn)一步調(diào)查或被視為可疑的“感興趣訂單”。

限于篇幅,本文沒有列出候選關(guān)鍵詞和被去除的普通詞。通過比對兩種算法結(jié)果,采用規(guī)則1+3的抽取新詞結(jié)果,并不比僅采用規(guī)則3的效果好。從六組數(shù)據(jù)不難看出。采用規(guī)則3的算法來消除歧義詞,是一個(gè)最簡方法。與N-gram方法相結(jié)合,可以完成最簡單的抽詞工作。

5 結(jié)論(Conclusion)

抽詞技術(shù)作為計(jì)算機(jī)輔助工具來使用,為人們提供一種具有參考價(jià)值的信息,供人們選擇使用。本文所述抽詞方法是一種不依賴于歷史信息、語料庫,不需要訓(xùn)練數(shù)據(jù)的方法。其優(yōu)點(diǎn)是:能識(shí)別高頻度未登錄詞;無需人工標(biāo)引詞典,不需要花費(fèi)大量資源收集語料庫。其缺點(diǎn)是計(jì)算量大;會(huì)抽取出意義不完整的字串,導(dǎo)致準(zhǔn)確性差;不能識(shí)別低頻度關(guān)鍵詞。計(jì)算量受兩方面因素影響:(1)隨著N-gram的長度N增大,計(jì)算效率會(huì)下降。(2)連續(xù)漢字串長句式增多,計(jì)算效率也會(huì)下降。如果句子經(jīng)過停用詞處理已經(jīng)足夠細(xì)碎,或者N-gram的長度N不很大,計(jì)算效率還是可控的。

本文通過抽詞實(shí)驗(yàn),實(shí)現(xiàn)并驗(yàn)證了一種對文獻(xiàn)進(jìn)行快速抽取關(guān)鍵詞和新詞的最簡單有效的方法。

參考文獻(xiàn)(References)

[1] 莊新妍.計(jì)算機(jī)中文分詞技術(shù)的應(yīng)用[J].呼倫貝爾學(xué)院學(xué)報(bào),2010(03):70-74.

[2] 金翔宇,孫正興,張福炎.一種中文文檔的非受限無詞典抽詞方法[J].中文信息學(xué)報(bào),2001(06):33-39.

[3] 黃云峰.計(jì)算機(jī)中文分詞技術(shù)及其在數(shù)字化偵查中的應(yīng)用研究[J].福建警察學(xué)院學(xué)報(bào),2008(04):28-31.

[4] 李淑英.中文分詞技術(shù)[J].科技信息(科學(xué)教研),2007(36):95.

猜你喜歡
詞庫頻度詞條
眨眼頻度可判斷煙癮大小
婦女之友(2017年3期)2017-04-20 09:20:00
詞庫音系學(xué)的幾個(gè)理論問題芻議
2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
銅綠假單胞菌MIC分布敏感百分?jǐn)?shù)與抗菌藥物使用頻度相關(guān)性研究
大數(shù)據(jù)相關(guān)詞條
環(huán)境變了,詞庫別變
電腦迷(2014年14期)2014-04-29 00:44:03
QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
電腦迷(2012年15期)2012-04-29 17:09:47
將用戶詞庫快速導(dǎo)入搜狗五筆詞庫
景泰县| 资溪县| 平安县| 定襄县| 玉树县| 沙坪坝区| 通化县| 罗江县| 建昌县| 上林县| 弥渡县| 东港市| 郸城县| 吴川市| 团风县| 平舆县| 民县| 沅陵县| 武穴市| 岳阳县| 安宁市| 乐昌市| 鄂伦春自治旗| 武陟县| 二手房| 丰顺县| 大石桥市| 花莲县| 邵阳县| 乌苏市| 瑞金市| 隆子县| 勃利县| 河池市| 洱源县| 四平市| 通城县| 大渡口区| 石嘴山市| 孟连| 宁陕县|