IPC自動(dòng)分類技術(shù)的研究與應(yīng)用

2016-01-18 13:06吳宏洲

電腦知識與技術(shù) 2015年33期

吳宏洲

摘要：一種無需語料庫和復(fù)雜數(shù)學(xué)模型支持的IPC分類簡單方法。該方法借助IPC分類表、同義詞庫、人工輔助植入同義詞或上位詞增加權(quán)重等手段，調(diào)整分類傾向，來捕捉文獻(xiàn)相應(yīng)的主分類和相關(guān)分類。該方法可作為信息加工專利文獻(xiàn)分類的輔助工具。

關(guān)鍵詞：IPC分類；分類表；同義詞庫；上位詞；相似度算法

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2015）33-0116-04

Research and Application of IPC Automatic Classification Technology—the Auxiliary Automatic Classification of the Realization of the Algorithm

WU Hong-zhou

（The China patent information center， Beijing 100088， China）

Abstract：A method of the IPC classification is simple without the help of a complex mathematical model and corpus. The method using the IPC classification comparison table， a synonym sets， artificial auxiliary implanted synonyms or hypernym ， to increase the weight， to adjustment of classification， to capture the corresponding main classification and related classifications. This method can be used as auxiliary tool for the classification of information processing of patent literature.

Key words：the IPC classification； Classification entry table；A synonym base； Hypernym； Similarity algorithm

在專利信息技術(shù)領(lǐng)域中，自動(dòng)分類技術(shù)的研究自2010年變?yōu)閷?shí)用，成為標(biāo)志性里程碑。多年來基于歷史信息的海量計(jì)算占主導(dǎo)。筆者致力于簡單實(shí)效的輕量級軟件研究，提出一種基于分類表的簡約方法。通過實(shí)驗(yàn)來驗(yàn)證其可行性。

1 實(shí)驗(yàn)背景

早期手工分類，從粗到細(xì)，完全由分類員完成。主要工具是查閱專利分類表。隨著計(jì)算機(jī)應(yīng)用的發(fā)展，分類表由書籍變成電子版，又經(jīng)歷了網(wǎng)絡(luò)版、網(wǎng)頁版變遷。2010年以后才真正標(biāo)志性地實(shí)現(xiàn)了自動(dòng)分類技術(shù)的應(yīng)用，將研究變?yōu)閷?shí)用。一種基于歷史文獻(xiàn)的分類方法至今占據(jù)著主導(dǎo)位置。

1.1 基于歷史文獻(xiàn)的分類方法

以歷史文獻(xiàn)作訓(xùn)練空間，構(gòu)建語料庫，通過數(shù)學(xué)模型運(yùn)算獲得相似度評分，提供備選方案。其中數(shù)學(xué)模型可以多種。如SVM、KNN、Naive Bayes等等[1]。其優(yōu)點(diǎn)是對已分類文獻(xiàn)分類效果良好。其缺點(diǎn)是需配備海量裝備，代價(jià)大。

這種方法后來也受到兩點(diǎn)質(zhì)疑。

1）發(fā)明專利的創(chuàng)新性

由于專利文獻(xiàn)由兩類構(gòu)成：一類是開創(chuàng)性發(fā)明，另一類是改進(jìn)性發(fā)明。對于開創(chuàng)性發(fā)明，其新技術(shù)方案所依據(jù)的基本原理與已有技術(shù)有質(zhì)的不同。這類專利之間相似度很低。因此基于歷史的方法，問題會出在參照物信息不充分上。

2）IPC分類的漸變性

在專利審查流程中有一種預(yù)警機(jī)制。當(dāng)某個(gè)時(shí)期某個(gè)領(lǐng)域?qū)＠讣吭鲩L超出預(yù)期就會報(bào)警。同時(shí)引起兩個(gè)部門的注意。A）宏觀戰(zhàn)略研究部門，主要觀測是否將有引領(lǐng)潮流的革命性技術(shù)到來，例如：納米。預(yù)測5到10年將進(jìn)入市場，對宏觀經(jīng)濟(jì)產(chǎn)生影響。B）審查業(yè)務(wù)管理部門，檢測到案件量當(dāng)超過某個(gè)數(shù)量級的閥值時(shí)，就要考慮審查增員問題，或者考慮該分類是否需要再細(xì)分。一種變化是增加小組細(xì)目，另一種變化停止原小組細(xì)目，重新分配一個(gè)新的大組，然后再分到各個(gè)小組細(xì)目。因此，專利分類表會根據(jù)需要隨時(shí)調(diào)整。因此基于歷史的方法問題會出在參照物信息不確定上。

1.2 基于分類表的分類方法

分類表作為指導(dǎo)性工具，曾經(jīng)是手工時(shí)代的產(chǎn)物，早已被自動(dòng)化工具所取代，目前只剩備忘錄作用。筆者以為分類表不僅有良好層級結(jié)構(gòu)，還有規(guī)則指向，交叉參考等。如能充分利用，可以開發(fā)出分類導(dǎo)航（XML- Xslt版已初具導(dǎo)航作用）產(chǎn)品；將括弧中規(guī)則指向和交叉參考與人工智能相結(jié)合，自動(dòng)分類可以達(dá)到極高準(zhǔn)確率，當(dāng)然引入規(guī)則會變得相當(dāng)復(fù)雜。分類表簡單使用，已經(jīng)具備可計(jì)算性。這恰恰是輕量級分類方法須采用的重要手段之一，不可或缺。這種方法也有許多困難需要面對。例如：

1）專利文獻(xiàn)語言文化差異

專利文獻(xiàn)格式嚴(yán)格，結(jié)構(gòu)特征明顯。作者撰寫文檔，須通過形式審查才能進(jìn)入審批流程。由于對撰寫具體內(nèi)容不作限定，說明書的撰寫水平受作者的語言文化背景、地域差異、學(xué)識和規(guī)范習(xí)慣等因素影響，因人而異。發(fā)明標(biāo)題中的詞素非常重要，需要抓住主題重點(diǎn)；權(quán)利要求書的描述是樹形結(jié)構(gòu)，可以程式化固定。例如：“一種”（獨(dú)立權(quán)利要求），“根據(jù)”（從屬權(quán)利要求），可以構(gòu)成林、樹、杈關(guān)系。這對主分類和相關(guān)分類分析有參考價(jià)值。筆者曾抽樣分析，結(jié)果令人失望。嚴(yán)格按統(tǒng)一規(guī)范來撰寫的并不多，失去利用價(jià)值。要求文字術(shù)語統(tǒng)一規(guī)范，更是難事。

2）專利分類表術(shù)語不統(tǒng)一規(guī)范

電子版分類表中符號混亂，文字缺乏統(tǒng)一規(guī)范。通過取樣幾個(gè)近義詞，便可略見一斑。參見表1。

某些詞語意思相近，復(fù)雜而繁多，分布在不同分類中，給解析帶來困難。

3）抽象專利分類表與具象專利文獻(xiàn)之間術(shù)語差異

該差異是兩者不在一個(gè)層面自然形成的，需要一個(gè)溝通機(jī)制。由此，引出基于同義詞的術(shù)語分類方法。

1.3 基于同義詞的分類方法

專利文獻(xiàn)加工中人工標(biāo)引主要的工作就是標(biāo)注文獻(xiàn)的關(guān)鍵詞和同義詞。該方法主要作為提高專利檢索查準(zhǔn)率、查全率的必要手段之一。而對于文檔自動(dòng)分類來說，利用分詞技術(shù)來獲取文檔中有限高頻詞。兩者目標(biāo)一致，方法有別，一個(gè)人工，一個(gè)計(jì)算技術(shù)。由于計(jì)算技術(shù)缺乏模糊識別、靈活和準(zhǔn)確的理解力。因此，最終還是需要適當(dāng)植入人工標(biāo)引關(guān)鍵詞來彌補(bǔ)計(jì)算技術(shù)的缺陷，提高準(zhǔn)確性。

其哲學(xué)思想也與數(shù)學(xué)方法論不相矛盾。如果把專利文獻(xiàn)和專利分類看作向量空間模型，文檔空間被看成是被簡化了的一組能夠代表文檔的高頻正交詞條有限特征向量空間，詞條頻度權(quán)重，看作特征軸上的投影。IPC分類也是有限特征向量空間子集，由不同的特征排列組合而成。某些特征被不同的分類空間所共用。像星座群一樣，每個(gè)星座對不同的分類群起的作用不同，有些分類群整體很耀眼，有些分類群整體有些黯淡，甚至沒有光芒。如果文檔空間向量與ipc空間向量存在交集，在ipc某些特征軸上能夠直接找到投影；否則，就相離。如果，某些特征通過變換折射也可以找到投影，那么認(rèn)為，兩者之間間接存在交集。這里折射變換的原理也就是同義詞和上位詞植入的基本原理。

如果直接用分類表來解析文獻(xiàn)，尋求的分類目標(biāo)可能會發(fā)散。因?yàn)槲臋n空間與IPC分類空間不直接在一個(gè)層面上，坐標(biāo)沒有對應(yīng)關(guān)系，投影回到原點(diǎn)。有人會提出按照文檔結(jié)構(gòu)分類方法，認(rèn)為標(biāo)題或文摘部分很重要，通過增加整個(gè)標(biāo)題或文摘的權(quán)重來施加影響力。這對于空間的形狀會有所改善，但并未發(fā)生質(zhì)的改變。也只是改變了投影形狀量的大小。只有，真正將文檔空間中不在同一個(gè)層面的那些高頻特征詞，通過上位詞或同義詞的折射變換，才可以改善其在分類空間中的投影，以突顯或還原其真實(shí)形態(tài)。

利用這一方法，通過逐一折射掃描，捕捉分類空間的投影。不僅可以原型再現(xiàn)，還可以通過局部放大，來達(dá)到逐一捕獲主IPC和或其他相關(guān)IPC的目的。分類會因同義詞強(qiáng)化效果大大改善，達(dá)到很好的收斂性。

因此，建立一個(gè)完善的同義詞庫意義重大。提供撿拾同義關(guān)系詞的入口，是基于同義詞分類方案進(jìn)入一個(gè)良性循環(huán)的必要手段。這是需要全員參與的工作，需要群體的智慧。同樣，提供一個(gè)可植入關(guān)鍵詞的入口，對于不依賴于現(xiàn)有或歷史，也是設(shè)計(jì)者需要考慮的。

建立同義詞或上位詞關(guān)系詞方法其實(shí)簡單。例如：蛋白質(zhì)是由肽構(gòu)成的，肽是由氨基酸構(gòu)成的。那么建立“肽→蛋白質(zhì)”關(guān)系，肽是上位詞，蛋白質(zhì)是下位詞。文獻(xiàn)中使用了“…蛋白質(zhì)”，就植入上位的“蛋白質(zhì)”和“肽”；又例如：文獻(xiàn)用“英文/英語”，那么就植入其上位詞“外語”，建立“外語→英語”關(guān)系。新建立的關(guān)系詞被積累保存到同義詞庫，一勞永逸。

與基于歷史文獻(xiàn)語料庫相比，同義詞庫無疑是輕量級的。同義詞庫可以彌補(bǔ)專利分類表中詞語抽象的不足，用來化解專利文獻(xiàn)中詞語具象的復(fù)雜性。在專利分類表和專利文獻(xiàn)之間搭建起溝通的橋梁。

2 IPC自動(dòng)分類的技術(shù)實(shí)現(xiàn)

IPC自動(dòng)分類的實(shí)現(xiàn)，其專利文獻(xiàn)自動(dòng)分類實(shí)驗(yàn)流程圖，如圖1所示。

專利分類流程圖分為兩個(gè)部分，可以分開實(shí)現(xiàn)，IPC分類表語料庫加工層最終得到的是分類表語料庫。由{ipc，wj，cc，idf}構(gòu)成，內(nèi)容參見定義1。

定義1：ipci，用以表示IPC分類表中的某個(gè)專利分類號；wij，用以表示ipci分類描述文字切分出的某個(gè)特征詞；cc（wij）表示，特征詞wij在IPC分類表中有多少分類與之有關(guān)；N，用以表示IPC分類表中總共有多少分類條目；idf（wij），用以表示IPC分類條目中的詞條相對于總體分類的反文檔數(shù)，是wij的重新評估的權(quán)重，idf（wij）=log（N/ cc（wij））。

原始文檔加工層，最終得到文檔目標(biāo)語料。由{wi，dn，tf}構(gòu)成，內(nèi)容參見定義2。

定義2：D，用以表示原始文獻(xiàn)；wk，用以表示D中切分出的詞條；dn（wk），用以表示wk的重復(fù)數(shù)；n，用以表示D中的總詞條數(shù)，n=∑dn（wk）；tf（wk），用以表示wk的詞頻，tf（wk）= dnk/ n；

計(jì)算相似度層，用三種算法分別計(jì)算相似度排名。參見自動(dòng)分類算法。

2.1 IPC自動(dòng)分類的算法

本文給出自定義的兩種算法和一種已有算法進(jìn)行對比。即：

l WHZ算法——一個(gè)自定義算法

l Tf-Idf算法——一個(gè)已有算法

l Hit-Rate算法——一個(gè)自定義算法

2.1.1 WHZ算法

whz算法屬于自定義算法，用來抑制版權(quán)爭端，與Tf-Idf和BM25算法相當(dāng)。

定義3：

文檔D與分類條目ipci相似度，用whz（D， ipci ）表示。

whz（D， ipci ）= ∑（ dn（wj）/cc（wij））

其中，dn（wj）代表文檔詞條wj重復(fù)度權(quán)重，cc（wij）代表ipci條目中wj詞條被多少個(gè)其他ipc分類條目所共用或分享。

2.1.2 Tf-Idf算法

Tf-Idf算法屬于已有算法，其標(biāo)準(zhǔn)形式的定義有 BM25算法[略]。

定義4：

文檔D與分類條目ipci相似度，用Tf-Idf （D， ipci ）表示，或sim（D， ipci ）表示。

sim（D， ipci ）= ∑j（tf（wk） *idf（wij））

=∑j（（dn（wj）/n ）* log（N/ cc（wij））

其中，dn（wj）代表詞條wj重復(fù)數(shù)，cc（wij）代表詞條wj逆文檔數(shù)，亦即詞條與其他ipc分類也相關(guān)的ipc條目數(shù)。

2.1.3 Hit-Rate算法

由于whz自定義算法，與tf-idf算法總體趨勢接近。為防止前兩種算法接近重疊，我們又從另外角度給出了一種自定義的算法。其主旨是，將ipc條目其所涉及分詞，與專利文獻(xiàn)中高重復(fù)度的詞相匹配，匹配占比越大，得分越高，與ipc條目越相似。

定義5：

函數(shù)has（wij）如果wij出現(xiàn)在文獻(xiàn)D中，則取值1，如果沒有出現(xiàn)在文獻(xiàn)D中，則取值0；Hit-r（D，ipci），用于表示命中率或占比。

Hit-r（D，ipci）= （∑j has（wij）） / （∑j （1））；

其中j=1..m，則∑j （1）=m。

文檔D與分類條目ipci相似度，用Hit-Rate（D， ipci）表示。

Hit-Rate（D， ipci）=（ ∑j（dnj ））* （Hit-r（D，ipci））

= （∑j（dnj ））* （∑j has（wij）） / （∑j （1））

3 實(shí)驗(yàn)效果（The experiment effect）

抽樣考察4個(gè)發(fā)明公開專利文獻(xiàn)。取試驗(yàn)樣本4個(gè)發(fā)明公開專利的“標(biāo)題+文摘”，參見表2。

表2 試驗(yàn)樣本4個(gè)發(fā)明公開專利的“標(biāo)題+文摘”

[專利＼&標(biāo)題+文摘＼&1＼&語音符號系統(tǒng)一種用英文字母表示的語音符號構(gòu)成的語音符號系統(tǒng)。字母的大小寫或字體不影響語音符號的發(fā)音。其語音符號是系統(tǒng)地并且有邏輯地定義的。此發(fā)明屬于語音符號和語音符號系統(tǒng)技術(shù)領(lǐng)域。此語音符號系統(tǒng)用在和語言相關(guān)的地方。此語音符號系統(tǒng)很方便地表示語言。此語音符號系統(tǒng)很方便地表示英語。 G09B 19/06＼&2＼&血清及其他生物基質(zhì)中的分析物的量化本發(fā)明提供用于量化生物樣本中的分析物的方法及系統(tǒng)，其包含：制備生物樣本以用于質(zhì)譜分析；利用離子化源將所述所制備生物樣本的至少一部分離子化以產(chǎn)生經(jīng)離子化分析物流；將所述經(jīng)離子化分析物流引入到設(shè)定于經(jīng)選擇以從所述經(jīng)離子化分析物流萃取經(jīng)離子化分析物分子的補(bǔ)償電壓下的差分遷移率光譜儀中；將所述差分遷移率光譜儀的輸出分析物流引入到質(zhì)譜儀中以檢測及量化所述輸出分析物流中的分析物離子。G01N 27/62H01J 49/26＼&3＼&含有層粘連蛋白和鈣粘蛋白的細(xì)胞培養(yǎng)基底本公開涉及分離的層粘連蛋白-521、制備重組層粘連蛋白-521的方法、表達(dá)重組層粘連蛋白-521的宿主細(xì)胞以及包含層粘連蛋白-521的組合物。層粘連蛋白-521能夠保持干細(xì)胞在體外的多能性，允許自我更新，并使人胚胎干細(xì)胞能夠單細(xì)胞存活。在被重組層粘連蛋白-521（層粘連蛋白-11）包被的平板中，當(dāng)在分化抑制劑或飼養(yǎng)細(xì)胞不存在的條件下培養(yǎng)多能人胚胎干細(xì)胞時(shí)，胚胎干細(xì)胞增殖并保持它們的多能性。還發(fā)現(xiàn)人重組層粘連蛋白-521（層粘連蛋白-11）使得干細(xì)胞在完全解離為單細(xì)胞懸液后能夠單細(xì)胞存活。本文還公開了有用的細(xì)胞培養(yǎng)基，其包含至多3.9ng/ml的β成纖維細(xì)胞生長因子（bFGF）。C07K 14/78C07K 14/705＼&4＼&減小3D NAND非易失性存儲器中的弱擦除型讀取干擾一種用于3D堆疊式存儲器裝置的讀取處理，針對未選中的存儲器串提供溝道升壓的最優(yōu)電平，以抑制正常讀取干擾和弱擦除型讀取干擾二者。通過控制位線的電壓（Vbl）、漏極側(cè)選擇柵極的電壓（Vsgd_unsel）、源極側(cè)選擇柵極的電壓（Vsg_unsel）、存儲器裝置的選中的層級（字線層）的電壓（Vcg_unsel）以及存儲器裝置的未選中的層級（字線層）的電壓（Vcg_unsel）來對溝道進(jìn)行升壓?？梢酝ㄟ^初始使漏極側(cè)選擇柵極和源極側(cè)選擇柵極不導(dǎo)電以允許與增大的Vcg_unsel的電容耦合來對溝道進(jìn)行升壓。然后通過提高Vsgd_unse和/或Vsgs_unsel來使漏極側(cè)選擇柵極和/或源極側(cè)選擇柵極不導(dǎo)電，從而中斷升壓。當(dāng)Vcg_unsel持續(xù)增大時(shí)，通過使漏極側(cè)選擇柵極和/或源極側(cè)選擇柵極再次導(dǎo)電可以另外發(fā)生升壓。或者，可以以Vbl驅(qū)動(dòng)溝道。兩步升壓以Vbl驅(qū)動(dòng)溝道然后通過電容耦合來提供升壓。G11C 11/56G11C 16/04G11C 16/26G11C 16/34H01L 27/115＼&]

專利文獻(xiàn)切分分詞，參見表3。

觀測實(shí)驗(yàn)結(jié)果，植入關(guān)鍵詞對自動(dòng)分類的三種算法排名的影響，參見表5。

直接通過分類表計(jì)算自動(dòng)分類相似度排名，收斂性較差。參見表4左部結(jié)果。植入同義詞調(diào)整后，分類效果明顯改善，基本收斂。參見表4右部結(jié)果。

筆者通過植入同義詞和上位詞來改善分類表解析不收斂的問題。如果調(diào)整得不到希望的分類，亦即，分類不收斂，就要重新調(diào)整其他同義詞方向，來改變策略，直至得到與文獻(xiàn)內(nèi)容相符合且最接近的分類為止。

從實(shí)驗(yàn)效果看，本文所用的分類表與同義詞修正相結(jié)合的分類方法，收斂效果明顯。與實(shí)際采用何種算法無關(guān)，要發(fā)散都發(fā)散，要收斂都收斂。無疑TF-IDF優(yōu)于自定義。

4 結(jié)論

IPC自動(dòng)分類技術(shù)作為計(jì)算機(jī)輔助工具來使用，可為人們提供一種具有參考價(jià)值的分類信息，供使用者選擇。本文所述分類方法是一種基于分類表和同義詞相結(jié)合的方法，不依賴于歷史信息也不受限于歷史信息的不足，不需要大量訓(xùn)練數(shù)據(jù)的方法。其優(yōu)點(diǎn)是：能將專利文獻(xiàn)中的不同權(quán)重的高頻詞，通過同義詞庫的擴(kuò)充，與分類表直接比對，不需要花費(fèi)大量資源收集專利文獻(xiàn)語料庫，只需借助有限同義詞植入來調(diào)整分類運(yùn)算，來解決分類不收斂的問題。該方法在存儲量和運(yùn)算量方面屬于輕量級的，且運(yùn)算速度快，加工一篇文獻(xiàn)不到1秒，需要的資源不多。通過植入同義詞或上位詞調(diào)整權(quán)重，可以改變某些分類的發(fā)散或收斂方向，來達(dá)到逐一捕獲主ipc和每一個(gè)相關(guān)ipc的目的?？勺鳛榘胱詣?dòng)的簡單靈活的分類捕捉工具。其缺點(diǎn)是算法受限于同義詞庫的建立，取決于植入同義詞的經(jīng)驗(yàn)，調(diào)整植入詞，改變某些分類的發(fā)散或收斂方向，需要使用者自己憑經(jīng)驗(yàn)來掌握和控制。初期需花費(fèi)一些時(shí)間將分類表作一個(gè)初步同義詞整理，然后通過工作進(jìn)行中不斷來擴(kuò)充同義詞庫，使之趨于完善。該方法對CPC自動(dòng)分類的實(shí)現(xiàn)有借鑒意義。

參考文獻(xiàn)：

[1] 劉玉琴，桂婕，朱東華.基于IPC知識結(jié)構(gòu)的專利自動(dòng)分類方法[J].計(jì)算機(jī)工程，2008， 34（3）：207-209.

電腦知識與技術(shù)2015年33期

電腦知識與技術(shù)的其它文章: 基于SSH2框架的在線菜譜系統(tǒng)的實(shí)現(xiàn); 南通跨境電子商務(wù)發(fā)展研究; 藥品招標(biāo)和醫(yī)藥分開改革的實(shí)踐與思考; 高職電子商務(wù)專業(yè)計(jì)算機(jī)類課程之理實(shí)一體化教學(xué)模式研究; 基于JSP技術(shù)的網(wǎng)上自助點(diǎn)餐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn); 醫(yī)院電子報(bào)告管理系統(tǒng)的開發(fā)與應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

IPC自動(dòng)分類技術(shù)的研究與應(yīng)用