吳宏洲
摘要:一種無需語料庫和復(fù)雜數(shù)學(xué)模型支持的IPC分類簡單方法。該方法借助IPC分類表、同義詞庫、人工輔助植入同義詞或上位詞增加權(quán)重等手段,調(diào)整分類傾向,來捕捉文獻(xiàn)相應(yīng)的主分類和相關(guān)分類。該方法可作為信息加工專利文獻(xiàn)分類的輔助工具。
關(guān)鍵詞:IPC分類;分類表;同義詞庫;上位詞;相似度算法
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)33-0116-04
Research and Application of IPC Automatic Classification Technology—the Auxiliary Automatic Classification of the Realization of the Algorithm
WU Hong-zhou
(The China patent information center, Beijing 100088, China)
Abstract:A method of the IPC classification is simple without the help of a complex mathematical model and corpus. The method using the IPC classification comparison table, a synonym sets, artificial auxiliary implanted synonyms or hypernym , to increase the weight, to adjustment of classification, to capture the corresponding main classification and related classifications. This method can be used as auxiliary tool for the classification of information processing of patent literature.
Key words:the IPC classification; Classification entry table;A synonym base; Hypernym; Similarity algorithm
在專利信息技術(shù)領(lǐng)域中,自動(dòng)分類技術(shù)的研究自2010年變?yōu)閷?shí)用,成為標(biāo)志性里程碑。多年來基于歷史信息的海量計(jì)算占主導(dǎo)。筆者致力于簡單實(shí)效的輕量級軟件研究,提出一種基于分類表的簡約方法。通過實(shí)驗(yàn)來驗(yàn)證其可行性。
1 實(shí)驗(yàn)背景
早期手工分類,從粗到細(xì),完全由分類員完成。主要工具是查閱專利分類表。隨著計(jì)算機(jī)應(yīng)用的發(fā)展,分類表由書籍變成電子版,又經(jīng)歷了網(wǎng)絡(luò)版、網(wǎng)頁版變遷。2010年以后才真正標(biāo)志性地實(shí)現(xiàn)了自動(dòng)分類技術(shù)的應(yīng)用,將研究變?yōu)閷?shí)用。一種基于歷史文獻(xiàn)的分類方法至今占據(jù)著主導(dǎo)位置。
1.1 基于歷史文獻(xiàn)的分類方法
以歷史文獻(xiàn)作訓(xùn)練空間,構(gòu)建語料庫,通過數(shù)學(xué)模型運(yùn)算獲得相似度評分,提供備選方案。其中數(shù)學(xué)模型可以多種。如SVM、KNN、Naive Bayes等等[1]。其優(yōu)點(diǎn)是對已分類文獻(xiàn)分類效果良好。其缺點(diǎn)是需配備海量裝備,代價(jià)大。
這種方法后來也受到兩點(diǎn)質(zhì)疑。
1)發(fā)明專利的創(chuàng)新性
由于專利文獻(xiàn)由兩類構(gòu)成:一類是開創(chuàng)性發(fā)明,另一類是改進(jìn)性發(fā)明。對于開創(chuàng)性發(fā)明,其新技術(shù)方案所依據(jù)的基本原理與已有技術(shù)有質(zhì)的不同。這類專利之間相似度很低。因此基于歷史的方法,問題會出在參照物信息不充分上。
2)IPC分類的漸變性
在專利審查流程中有一種預(yù)警機(jī)制。當(dāng)某個(gè)時(shí)期某個(gè)領(lǐng)域?qū)@讣吭鲩L超出預(yù)期就會報(bào)警。同時(shí)引起兩個(gè)部門的注意。A)宏觀戰(zhàn)略研究部門,主要觀測是否將有引領(lǐng)潮流的革命性技術(shù)到來,例如:納米。預(yù)測5到10年將進(jìn)入市場,對宏觀經(jīng)濟(jì)產(chǎn)生影響。B)審查業(yè)務(wù)管理部門,檢測到案件量當(dāng)超過某個(gè)數(shù)量級的閥值時(shí),就要考慮審查增員問題,或者考慮該分類是否需要再細(xì)分。一種變化是增加小組細(xì)目,另一種變化停止原小組細(xì)目,重新分配一個(gè)新的大組,然后再分到各個(gè)小組細(xì)目。因此,專利分類表會根據(jù)需要隨時(shí)調(diào)整。因此基于歷史的方法問題會出在參照物信息不確定上。
1.2 基于分類表的分類方法
分類表作為指導(dǎo)性工具,曾經(jīng)是手工時(shí)代的產(chǎn)物,早已被自動(dòng)化工具所取代,目前只剩備忘錄作用。筆者以為分類表不僅有良好層級結(jié)構(gòu),還有規(guī)則指向,交叉參考等。如能充分利用,可以開發(fā)出分類導(dǎo)航(XML- Xslt版已初具導(dǎo)航作用)產(chǎn)品;將括弧中規(guī)則指向和交叉參考與人工智能相結(jié)合,自動(dòng)分類可以達(dá)到極高準(zhǔn)確率,當(dāng)然引入規(guī)則會變得相當(dāng)復(fù)雜。分類表簡單使用,已經(jīng)具備可計(jì)算性。這恰恰是輕量級分類方法須采用的重要手段之一,不可或缺。這種方法也有許多困難需要面對。例如:
1) 專利文獻(xiàn)語言文化差異
專利文獻(xiàn)格式嚴(yán)格,結(jié)構(gòu)特征明顯。作者撰寫文檔,須通過形式審查才能進(jìn)入審批流程。由于對撰寫具體內(nèi)容不作限定,說明書的撰寫水平受作者的語言文化背景、地域差異、學(xué)識和規(guī)范習(xí)慣等因素影響,因人而異。發(fā)明標(biāo)題中的詞素非常重要,需要抓住主題重點(diǎn);權(quán)利要求書的描述是樹形結(jié)構(gòu),可以程式化固定。例如:“一種”(獨(dú)立權(quán)利要求),“根據(jù)”(從屬權(quán)利要求),可以構(gòu)成林、樹、杈關(guān)系。這對主分類和相關(guān)分類分析有參考價(jià)值。筆者曾抽樣分析,結(jié)果令人失望。嚴(yán)格按統(tǒng)一規(guī)范來撰寫的并不多,失去利用價(jià)值。要求文字術(shù)語統(tǒng)一規(guī)范,更是難事。
2) 專利分類表術(shù)語不統(tǒng)一規(guī)范
電子版分類表中符號混亂,文字缺乏統(tǒng)一規(guī)范。通過取樣幾個(gè)近義詞,便可略見一斑。參見表1。
某些詞語意思相近,復(fù)雜而繁多,分布在不同分類中,給解析帶來困難。
3) 抽象專利分類表與具象專利文獻(xiàn)之間術(shù)語差異
該差異是兩者不在一個(gè)層面自然形成的,需要一個(gè)溝通機(jī)制。由此,引出基于同義詞的術(shù)語分類方法。
1.3 基于同義詞的分類方法
專利文獻(xiàn)加工中人工標(biāo)引主要的工作就是標(biāo)注文獻(xiàn)的關(guān)鍵詞和同義詞。該方法主要作為提高專利檢索查準(zhǔn)率、查全率的必要手段之一。而對于文檔自動(dòng)分類來說,利用分詞技術(shù)來獲取文檔中有限高頻詞。兩者目標(biāo)一致,方法有別,一個(gè)人工,一個(gè)計(jì)算技術(shù)。由于計(jì)算技術(shù)缺乏模糊識別、靈活和準(zhǔn)確的理解力。因此,最終還是需要適當(dāng)植入人工標(biāo)引關(guān)鍵詞來彌補(bǔ)計(jì)算技術(shù)的缺陷,提高準(zhǔn)確性。
其哲學(xué)思想也與數(shù)學(xué)方法論不相矛盾。如果把專利文獻(xiàn)和專利分類看作向量空間模型,文檔空間被看成是被簡化了的一組能夠代表文檔的高頻正交詞條有限特征向量空間,詞條頻度權(quán)重,看作特征軸上的投影。IPC分類也是有限特征向量空間子集,由不同的特征排列組合而成。某些特征被不同的分類空間所共用。像星座群一樣,每個(gè)星座對不同的分類群起的作用不同,有些分類群整體很耀眼,有些分類群整體有些黯淡,甚至沒有光芒。如果文檔空間向量與ipc空間向量存在交集,在ipc某些特征軸上能夠直接找到投影;否則,就相離。如果,某些特征通過變換折射也可以找到投影,那么認(rèn)為,兩者之間間接存在交集。這里折射變換的原理也就是同義詞和上位詞植入的基本原理。
如果直接用分類表來解析文獻(xiàn),尋求的分類目標(biāo)可能會發(fā)散。因?yàn)槲臋n空間與IPC分類空間不直接在一個(gè)層面上,坐標(biāo)沒有對應(yīng)關(guān)系,投影回到原點(diǎn)。有人會提出按照文檔結(jié)構(gòu)分類方法,認(rèn)為標(biāo)題或文摘部分很重要,通過增加整個(gè)標(biāo)題或文摘的權(quán)重來施加影響力。這對于空間的形狀會有所改善,但并未發(fā)生質(zhì)的改變。也只是改變了投影形狀量的大小。只有,真正將文檔空間中不在同一個(gè)層面的那些高頻特征詞,通過上位詞或同義詞的折射變換,才可以改善其在分類空間中的投影,以突顯或還原其真實(shí)形態(tài)。
利用這一方法,通過逐一折射掃描,捕捉分類空間的投影。不僅可以原型再現(xiàn),還可以通過局部放大,來達(dá)到逐一捕獲主IPC和或其他相關(guān)IPC的目的。分類會因同義詞強(qiáng)化效果大大改善,達(dá)到很好的收斂性。
因此,建立一個(gè)完善的同義詞庫意義重大。提供撿拾同義關(guān)系詞的入口,是基于同義詞分類方案進(jìn)入一個(gè)良性循環(huán)的必要手段。這是需要全員參與的工作,需要群體的智慧。同樣,提供一個(gè)可植入關(guān)鍵詞的入口,對于不依賴于現(xiàn)有或歷史,也是設(shè)計(jì)者需要考慮的。
建立同義詞或上位詞關(guān)系詞方法其實(shí)簡單。例如:蛋白質(zhì)是由肽構(gòu)成的,肽是由氨基酸構(gòu)成的。那么建立“肽→蛋白質(zhì)”關(guān)系,肽是上位詞,蛋白質(zhì)是下位詞。文獻(xiàn)中使用了“…蛋白質(zhì)”,就植入上位的“蛋白質(zhì)”和“肽”;又例如:文獻(xiàn)用“英文/英語”,那么就植入其上位詞“外語”,建立“外語→英語”關(guān)系。新建立的關(guān)系詞被積累保存到同義詞庫,一勞永逸。
與基于歷史文獻(xiàn)語料庫相比,同義詞庫無疑是輕量級的。同義詞庫可以彌補(bǔ)專利分類表中詞語抽象的不足,用來化解專利文獻(xiàn)中詞語具象的復(fù)雜性。在專利分類表和專利文獻(xiàn)之間搭建起溝通的橋梁。
2 IPC自動(dòng)分類的技術(shù)實(shí)現(xiàn)
IPC自動(dòng)分類的實(shí)現(xiàn),其專利文獻(xiàn)自動(dòng)分類實(shí)驗(yàn)流程圖,如圖1所示。
專利分類流程圖分為兩個(gè)部分,可以分開實(shí)現(xiàn),IPC分類表語料庫加工層最終得到的是分類表語料庫。由{ipc,wj,cc,idf}構(gòu)成,內(nèi)容參見定義1。
定義1:ipci,用以表示IPC分類表中的某個(gè)專利分類號;wij,用以表示ipci分類描述文字切分出的某個(gè)特征詞;cc(wij)表示,特征詞wij在IPC分類表中有多少分類與之有關(guān);N,用以表示IPC分類表中總共有多少分類條目;idf(wij) ,用以表示IPC分類條目中的詞條相對于總體分類的反文檔數(shù),是wij的重新評估的權(quán)重,idf(wij)=log(N/ cc(wij))。
原始文檔加工層,最終得到文檔目標(biāo)語料。由{wi,dn,tf}構(gòu)成,內(nèi)容參見定義2。
定義2:D,用以表示原始文獻(xiàn);wk,用以表示D中切分出的詞條;dn(wk),用以表示wk的重復(fù)數(shù);n,用以表示D中的總詞條數(shù),n=∑dn(wk);tf(wk),用以表示wk的詞頻,tf(wk)= dnk/ n;
計(jì)算相似度層,用三種算法分別計(jì)算相似度排名。參見自動(dòng)分類算法。
2.1 IPC自動(dòng)分類的算法
本文給出自定義的兩種算法和一種已有算法進(jìn)行對比。即:
l WHZ算法——一個(gè)自定義算法
l Tf-Idf算法——一個(gè)已有算法
l Hit-Rate算法——一個(gè)自定義算法
2.1.1 WHZ算法
whz算法屬于自定義算法,用來抑制版權(quán)爭端,與Tf-Idf和BM25算法相當(dāng)。
定義3:
文檔D與分類條目ipci相似度,用whz(D, ipci )表示。
whz(D, ipci )= ∑( dn(wj)/cc(wij))
其中,dn(wj)代表文檔詞條wj重復(fù)度權(quán)重,cc(wij)代表ipci條目中wj詞條被多少個(gè)其他ipc分類條目所共用或分享。
2.1.2 Tf-Idf算法
Tf-Idf算法屬于已有算法,其標(biāo)準(zhǔn)形式的定義有 BM25算法[略]。
定義4:
文檔D與分類條目ipci相似度,用Tf-Idf (D, ipci )表示,或sim(D, ipci )表示。
sim(D, ipci )= ∑j(tf(wk) *idf(wij))
=∑j((dn(wj)/n )* log(N/ cc(wij))
其中,dn(wj)代表詞條wj重復(fù)數(shù),cc(wij)代表詞條wj逆文檔數(shù),亦即詞條與其他ipc分類也相關(guān)的ipc條目數(shù)。
2.1.3 Hit-Rate算法
由于whz自定義算法,與tf-idf算法總體趨勢接近。為防止前兩種算法接近重疊,我們又從另外角度給出了一種自定義的算法。其主旨是,將ipc條目其所涉及分詞,與專利文獻(xiàn)中高重復(fù)度的詞相匹配,匹配占比越大,得分越高,與ipc條目越相似。
定義5:
函數(shù)has(wij)如果wij出現(xiàn)在文獻(xiàn)D中,則取值1,如果沒有出現(xiàn)在文獻(xiàn)D中,則取值0;Hit-r(D,ipci),用于表示命中率或占比。
Hit-r(D,ipci)= (∑j has(wij) ) / (∑j (1));
其中j=1..m,則∑j (1)=m。
文檔D與分類條目ipci相似度,用Hit-Rate(D, ipci) 表示。
Hit-Rate(D, ipci)=( ∑j(dnj ))* (Hit-r(D,ipci))
= (∑j(dnj ))* (∑j has(wij) ) / (∑j (1))
3 實(shí)驗(yàn)效果(The experiment effect)
抽樣考察4個(gè)發(fā)明公開專利文獻(xiàn)。取試驗(yàn)樣本4個(gè)發(fā)明公開專利的“標(biāo)題+文摘”,參見表2。
表2 試驗(yàn)樣本4個(gè)發(fā)明公開專利的“標(biāo)題+文摘”
[專利\&標(biāo)題+文摘\&1\&
專利文獻(xiàn)切分分詞,參見表3。
觀測實(shí)驗(yàn)結(jié)果,植入關(guān)鍵詞對自動(dòng)分類的三種算法排名的影響,參見表5。
直接通過分類表計(jì)算自動(dòng)分類相似度排名,收斂性較差。參見表4左部結(jié)果。植入同義詞調(diào)整后,分類效果明顯改善,基本收斂。參見表4右部結(jié)果。
筆者通過植入同義詞和上位詞來改善分類表解析不收斂的問題。如果調(diào)整得不到希望的分類,亦即,分類不收斂,就要重新調(diào)整其他同義詞方向,來改變策略,直至得到與文獻(xiàn)內(nèi)容相符合且最接近的分類為止。
從實(shí)驗(yàn)效果看,本文所用的分類表與同義詞修正相結(jié)合的分類方法,收斂效果明顯。與實(shí)際采用何種算法無關(guān),要發(fā)散都發(fā)散,要收斂都收斂。無疑TF-IDF優(yōu)于自定義。
4 結(jié)論
IPC自動(dòng)分類技術(shù)作為計(jì)算機(jī)輔助工具來使用,可為人們提供一種具有參考價(jià)值的分類信息,供使用者選擇。本文所述分類方法是一種基于分類表和同義詞相結(jié)合的方法,不依賴于歷史信息也不受限于歷史信息的不足,不需要大量訓(xùn)練數(shù)據(jù)的方法。其優(yōu)點(diǎn)是:能將專利文獻(xiàn)中的不同權(quán)重的高頻詞,通過同義詞庫的擴(kuò)充,與分類表直接比對,不需要花費(fèi)大量資源收集專利文獻(xiàn)語料庫,只需借助有限同義詞植入來調(diào)整分類運(yùn)算,來解決分類不收斂的問題。該方法在存儲量和運(yùn)算量方面屬于輕量級的,且運(yùn)算速度快,加工一篇文獻(xiàn)不到1秒,需要的資源不多。通過植入同義詞或上位詞調(diào)整權(quán)重,可以改變某些分類的發(fā)散或收斂方向,來達(dá)到逐一捕獲主ipc和每一個(gè)相關(guān)ipc的目的??勺鳛榘胱詣?dòng)的簡單靈活的分類捕捉工具。其缺點(diǎn)是算法受限于同義詞庫的建立,取決于植入同義詞的經(jīng)驗(yàn),調(diào)整植入詞,改變某些分類的發(fā)散或收斂方向,需要使用者自己憑經(jīng)驗(yàn)來掌握和控制。初期需花費(fèi)一些時(shí)間將分類表作一個(gè)初步同義詞整理,然后通過工作進(jìn)行中不斷來擴(kuò)充同義詞庫,使之趨于完善。該方法對CPC自動(dòng)分類的實(shí)現(xiàn)有借鑒意義。
參考文獻(xiàn):
[1] 劉玉琴,桂婕,朱東華.基于IPC知識結(jié)構(gòu)的專利自動(dòng)分類方法[J].計(jì)算機(jī)工程,2008, 34(3):207-209.