溫家凱 農(nóng)強(qiáng)
(廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司,廣西 南寧 530007)
【摘 要】文章介紹了一個在線專利檢索分析系統(tǒng),闡述了系統(tǒng)的體系結(jié)構(gòu)、各模塊的功能、關(guān)鍵技術(shù)。該系統(tǒng)在分布式大數(shù)據(jù)采集、基于Lucene與Mysql數(shù)據(jù)庫結(jié)合的全文索引、基于Mina框架的分布式在線分析架構(gòu)等基礎(chǔ)上實現(xiàn)的專利信息檢索和統(tǒng)計分析,在大規(guī)模數(shù)據(jù)方面體現(xiàn)出較好的效率,并提供檢索結(jié)果自動翻譯、檢索詞智能擴(kuò)展和產(chǎn)業(yè)分類導(dǎo)航等特色功能,可以幫助普通用戶更便捷地利用專利信息。
【關(guān)鍵詞】專利檢索自動翻譯;檢索擴(kuò)展;專利分析;分布式;全文檢索Lucene Mina
【中圖分類號】TP311 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2016)06-0034-05
0 引言
隨著知識經(jīng)濟(jì)的深入發(fā)展,專利已成為企業(yè)市場競爭力的核心要素和最重要的資產(chǎn)構(gòu)成。進(jìn)入新世紀(jì)以來,許多企業(yè)特別是西方跨國公司通過“專利圈地”,壟斷高端技術(shù)領(lǐng)域,排擠競爭對手,攫取了巨大的市場利益??梢哉f,對于后發(fā)展欠發(fā)達(dá)地區(qū)的企業(yè)而言,加強(qiáng)技術(shù)創(chuàng)新并及時將創(chuàng)新成果申請專利保護(hù),既是保護(hù)自身利益的迫切需要,也是躋身市場競爭制高點的必然選擇,更是其發(fā)展和壯大的必由之路。本文開發(fā)了一個在線專利數(shù)據(jù)檢索分析系統(tǒng)PatentOnline,為廣西重點產(chǎn)業(yè)提供以產(chǎn)業(yè)細(xì)分為基礎(chǔ)的專利檢索及分析服務(wù),幫助企業(yè)了解競爭對手的技術(shù)水平和跟蹤最新技術(shù)發(fā)展動向,提高研發(fā)起點、加快產(chǎn)品升級和防范知識產(chǎn)權(quán)風(fēng)險。
1 總體設(shè)計
系統(tǒng)采用MVC 3層結(jié)構(gòu):展示層、邏輯層和數(shù)據(jù)服務(wù)層(如圖1所示)。展示層負(fù)責(zé)基于Web界面的用戶交互與展示;邏輯層負(fù)責(zé)對數(shù)據(jù)進(jìn)行處理,并與數(shù)據(jù)服務(wù)層進(jìn)行交互;數(shù)據(jù)服務(wù)層負(fù)責(zé)采集與專利相關(guān)的數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)抽取轉(zhuǎn)換等操作,并為上層提供數(shù)據(jù)訪問的接口。
1.1 在線專利檢索子系統(tǒng)
1.1.1 快捷檢索模塊
快捷檢索模塊提供類似搜索引擎的簡潔界面(僅一個檢索框)給用戶進(jìn)行檢索??旖輽z索功能提供2種檢索行為。
(1)專利號檢索。用戶輸入申請?zhí)柣蚬_公告號進(jìn)行檢索。
(2)關(guān)鍵詞檢索。用戶輸入關(guān)鍵詞,系統(tǒng)對發(fā)明名稱、摘要、發(fā)明人進(jìn)行全文檢索查詢,返回查詢結(jié)果??梢暂斎攵鄠€關(guān)鍵詞,用空格隔開,默認(rèn)是“邏輯與”的關(guān)系。
1.1.2 表格檢索模塊
表格檢索模塊提供給用戶同時對多個檢索字段進(jìn)行檢索的功能,檢索字段包括申請?zhí)枴l(fā)明名稱、公開(公告)號、公開(公告)日、IPC分類號、申請人、申請日、發(fā)明人、主題詞、摘要、主權(quán)利要求、優(yōu)先權(quán)項、國別省市代碼、代理機(jī)構(gòu)代碼、申請人地址。字段內(nèi)支持檢索詞使用“and”和“or”運(yùn)算。
1.1.3 自定義表達(dá)式檢索模塊
用戶可根據(jù)自己定義的表達(dá)式來進(jìn)行檢索。支持“and”“or”“not”“xor”等多條件查詢。單擊“》”顯示更多的邏輯關(guān)系。鼠標(biāo)移至“?”顯示幫助說明文檔。對每個查詢條件的字段名稱有相應(yīng)的字母對應(yīng),點擊“字段名稱”可查看。單擊某個字段名稱,自動在自定義表達(dá)式輸入框中填充,用戶輸入自己想要查詢的表達(dá)式,點擊“檢索”按鈕,就會檢索到相應(yīng)的數(shù)據(jù)。單擊“檢索歷史”,顯示之前檢索的歷史記錄。在檢索歷史記錄中點擊某條檢索表達(dá)式,會自動填充在自定義表達(dá)式的輸入框中,方便操作。
1.1.4 主題檢索模塊
主題檢索模塊是根據(jù)中國分類主題詞表實現(xiàn)的關(guān)聯(lián)性搜索功能。用戶可以通過“主題檢索”-“查看主題內(nèi)容”來查看所輸入檢索詞的主題詞信息。信息包括主要類目相關(guān)內(nèi)容和次要類目相關(guān)內(nèi)容。通過點擊“主題檢索”—“生成主題表達(dá)式”來生成專利檢索表達(dá)式。主題檢索模塊提供了3種專利檢索方式:{1}根據(jù)檢索詞的正式和非正式主題詞來進(jìn)行專利搜索的“精準(zhǔn)檢索”。{2}根據(jù)檢索詞的正式主題詞、非正式主題詞、下位詞來進(jìn)行專利搜索的“模糊檢索”。{3}將檢索詞的正式主題詞、非正式主題詞翻譯成英文的“英文檢索”。
1.1.5 同義詞檢索模塊
同義檢索模塊是根據(jù)同義詞詞庫來實現(xiàn)的相關(guān)搜索功能。用戶可以通過“同義檢索”—“查看同義詞內(nèi)容”來查看所輸入檢索詞的同義詞信息。通過點擊“同義檢索”—“生成同義詞表達(dá)式”來生成專利檢索表達(dá)式。同義檢索模塊提供了3種專利檢索方式:{1}根據(jù)檢索詞的同義詞進(jìn)行專利搜索的“同義檢索”。{2}根據(jù)同義詞的相關(guān)主題詞進(jìn)行專利檢索的“同義擴(kuò)展檢索”。{3}將檢索詞的同義詞翻譯成英文的“英文檢索”。
1.1.6 自動翻譯模塊
該模塊提供對檢索結(jié)果的自動翻譯。系統(tǒng)調(diào)用外部專利機(jī)器翻譯系統(tǒng)接口,將英文檢索結(jié)果中的專利信息(標(biāo)題和摘要)自動翻譯成中文,以幫助用戶快速地了解檢索結(jié)果信息。
1.1.7 IPC分類導(dǎo)航模塊
IPC分類導(dǎo)航顯示各IPC分析的信息,可點擊展開節(jié)點來查看各分類節(jié)點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進(jìn)行查看信息。用戶可以選擇對指定分類的專利集合進(jìn)行檢索(有數(shù)量限制)。
1.1.8 行業(yè)分類導(dǎo)航模塊
行業(yè)分類導(dǎo)航功能和IPC分類導(dǎo)航功能相同,只是分類不同??牲c擊展開節(jié)點來查看各分類節(jié)點的子項信息,包含有中國專利和外國專利的選擇,點擊某項可進(jìn)行查看信息。對選擇的某個分類專利集合進(jìn)行檢索。
1.1.9 專利管理模塊
該模塊由“表達(dá)式”“標(biāo)引”“專題庫”和“模板”4個部分組成。該模塊可幫助用戶在日常使用中積累自己的專利檢索表達(dá)式,對感興趣的專利進(jìn)行標(biāo)引,建立自己的專利專題庫。
1.1.10 用戶管理模塊
用戶分為普通用戶和高級用戶。系統(tǒng)對不同用戶賦予不同的使用和管理權(quán)限。例如,高級用戶可放寬進(jìn)行專利分析的數(shù)量限制。
1.2 在線專利分析子系統(tǒng)
對專利數(shù)據(jù)進(jìn)行多元統(tǒng)計和指標(biāo)分析是指對專利文獻(xiàn)的有關(guān)特征進(jìn)行統(tǒng)計或按照指標(biāo)算法進(jìn)行分析。該子系統(tǒng)能夠?qū)崟r對用戶選擇的專利集合(專利檢索結(jié)果集或是專利專題庫)進(jìn)行各種專利分析操作,并顯示分析結(jié)果。
1.2.1 總體趨勢分析
總體趨勢分析按專利申請日期或?qū)@_日期統(tǒng)計專利數(shù)量。
1.2.2 國省分析
通過專利信息的國省分析,可以了解行業(yè)發(fā)展的重點區(qū)域及不同區(qū)域內(nèi)專利研發(fā)的重點方向和各區(qū)域之間技術(shù)的差異性、不同區(qū)域內(nèi)專利技術(shù)的主要競爭者(申請人)和發(fā)明人。國省分析包括國省分布狀況、國省申請人分析、國省發(fā)明人分析及國省技術(shù)分類分析。
1.2.3 申請人分析
申請人分析包括申請人趨勢分析、申請人構(gòu)成分析、申請人國省分析、申請人技術(shù)分類構(gòu)成、申請人綜合比較、合作申請人分析及申請人區(qū)域構(gòu)成。
1.2.4 發(fā)明人分析
發(fā)明人分析包括發(fā)明人趨勢分析、發(fā)明人構(gòu)成分析、發(fā)明人國省分析、合作發(fā)明人分析。
1.2.5 技術(shù)分類分析
技術(shù)分類分析包括技術(shù)分類趨勢分析、技術(shù)分類構(gòu)成分析、技術(shù)分類國省分析、技術(shù)分類申請人構(gòu)成、技術(shù)關(guān)聯(lián)度分析及技術(shù)分類區(qū)域構(gòu)成。
1.2.6 中國專項分析
針對于中國的專利數(shù)據(jù)進(jìn)行的分析,它主要包括專利類型分析、國省分布狀況。
1.2.7 區(qū)域分析
區(qū)域是指專利的受理國信息,包括國家、組織,比如美國、德國、WIPO等。區(qū)域分析用于了解不同區(qū)域產(chǎn)業(yè)產(chǎn)品及其技術(shù)的特點和差異,包括區(qū)域趨勢分析、區(qū)域構(gòu)成分析、區(qū)域技術(shù)領(lǐng)域構(gòu)成(IPC構(gòu)成)、區(qū)域申請人構(gòu)成。
1.2.8 自動生成分析報告
將上述分析結(jié)果形成報告,可導(dǎo)出成Word格式。分析報告模板可以自定義,并可以定制分析報告模板。
2 關(guān)鍵技術(shù)
2.1 分布式專利大數(shù)據(jù)采集
本系統(tǒng)平臺的專利數(shù)據(jù)來源于互聯(lián)網(wǎng)的多個國內(nèi)外數(shù)據(jù)源,數(shù)據(jù)格式多樣,數(shù)據(jù)總量龐大,需要用程序自動化進(jìn)行持續(xù)性的長期采集抽取。以下為系統(tǒng)設(shè)計與實現(xiàn)的要點。
2.1.1 編程語言
使用Perl或Python這種腳本語言來實現(xiàn)。Perl和python都擅長處理文本,無需編譯,修改方便,入門容易,擁有強(qiáng)大、豐富的模塊擴(kuò)展。
2.1.2 增量式采集
由于專利數(shù)據(jù)量極其龐大,全世界中英文專利共約1億份,所以將其全部采集是個長期的過程。因此,整個流程中每個步驟都是以增量的方式來處理,每個步驟都要識別上一步驟傳遞來的增量數(shù)據(jù)包進(jìn)行轉(zhuǎn)換處理,并記錄處理日志,以便以后能夠根據(jù)日志恢復(fù)全部數(shù)據(jù)。系統(tǒng)以定時或不定時方式生成增量采集到數(shù)據(jù)包,導(dǎo)入平臺。
2.1.3 并行采集方式
為提高采集的帶寬利用率和采集效率,系統(tǒng)以并行進(jìn)程或多線程的方式進(jìn)行采集。為了避免對數(shù)據(jù)源服務(wù)器造成壓力,需要限制訪問的頻率,同時使用多個IP出口輪換。
2.1.4 魯棒性
系統(tǒng)核心進(jìn)程可以任意中斷,不影響后繼重啟后采集。
2.1.5 自動化
整個系統(tǒng)要求有較高的自動化程度,不需要專門安排人員來監(jiān)控,失敗操作能夠自動重啟,并有較完善的日志記錄,以便發(fā)現(xiàn)和修復(fù)問題。
2.2 基于Lucene與Mysql數(shù)據(jù)庫結(jié)合的中文專利信息全文檢索
本系統(tǒng)平臺的數(shù)據(jù)庫是使用Mysql管理的,雖然能夠較方便地對專利數(shù)據(jù)進(jìn)行組織和操作,但是用戶無法控制其信息索引的方式。由于是針對西文字符開發(fā)的,Mysql在對中文信息進(jìn)行全文索引時問題較大,因此本系統(tǒng)平臺采用了目前流行的Lucene技術(shù),并與Mysql結(jié)合使用一起管理專利數(shù)據(jù)庫。通過Lucene為專利數(shù)據(jù)庫中的海量專利信息建立索引,實現(xiàn)全文檢索,可以較好地解決海量專利信息在檢索方面的效率問題。
2.2.1 Lucene介紹
Lucene[1]是Apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包。它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文2種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。
2.2.2 倒排索引
Lucene像其他主流Web搜索引擎一樣,采用的是倒排索引技術(shù)。倒排索引在實際應(yīng)用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因此稱為倒排索引(inverted index)。帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件(inverted file)。
搜索引擎的關(guān)鍵步驟就是建立倒排索引,倒排索引一般表示為一個關(guān)鍵詞,然后是它的頻度(出現(xiàn)的次數(shù))、位置(出現(xiàn)在哪一篇文章或網(wǎng)頁中,及有關(guān)的日期、作者等信息),它相當(dāng)于為互聯(lián)網(wǎng)上幾千億頁網(wǎng)頁做了一個索引,好比一本書的目錄、標(biāo)簽一般。在本系統(tǒng)中,我們以字段文本分詞并過濾掉停用詞后得到詞語作為關(guān)鍵詞,為需要全文檢索的專利信息字段建立倒排索引。專利檢索時就能夠快速查找到關(guān)鍵詞所在的專利。
2.2.3 中文分詞
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。漢語的句子不同于英文句子,英文單詞之間有間隔,漢語文本中詞與詞之間沒有明確的分隔標(biāo)記,而是連續(xù)的漢字串。詞是構(gòu)成句子的基本單位。若要計算機(jī)智能地理解漢語中的每一句話,則必須讓計算機(jī)明白該句子的各個詞的含義。也就是說,需要計算機(jī)智能地把每一句話都正確地切分出來,才不會造成理解上的偏差。以詞為單位作為搜索引擎索引的Key值,會大大提高搜索引擎結(jié)果的準(zhǔn)確性。
目前,現(xiàn)有的分詞算法主要可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。考慮到技術(shù)的可行性,我們選擇易于實現(xiàn)的基于字符串匹配的分詞方法。
為了提高分詞的正確率,我們將主題詞表及各行業(yè)的專業(yè)詞加入分詞詞典中。
2.3 基于Mina框架的分布式專利在線分析架構(gòu)
考慮到專利數(shù)據(jù)庫沉重的存儲壓力,以及實現(xiàn)分析算法的SQL語句復(fù)雜度,本系統(tǒng)主要設(shè)計思路是將分析算法主要實現(xiàn)在應(yīng)用層,數(shù)據(jù)庫只是單純作為存儲。并且,將該部分功能實現(xiàn)成獨立服務(wù),支持任意擴(kuò)展。
上層分析系統(tǒng)使用Apache Mina[2]遠(yuǎn)程服務(wù)調(diào)用分析服務(wù),傳遞參數(shù)和分析結(jié)果。Apache Mina是一個能夠幫助用戶開發(fā)高性能和高伸縮性網(wǎng)絡(luò)應(yīng)用程序的框架。它通過Java nio技術(shù)基于TCP/IP和UDP/IP協(xié)議提供了抽象的、事件驅(qū)動的、異步的API。
為了提高性能,在Mysql存儲層與應(yīng)用層間可使用memcache、redis等作為緩存,如取專利數(shù)據(jù)、緩存分析計算結(jié)果等。
3 系統(tǒng)運(yùn)行效果
在對上述技術(shù)研究的基礎(chǔ)上,本文設(shè)計和實現(xiàn)了一個在線專利檢索分析系統(tǒng)。以下簡單展示一下特色功能。
3.1 高級檢索
用戶可根據(jù)自己定義的表達(dá)式來進(jìn)行檢索。支持“and”“or”“not”“xor”等多條件查詢(如圖2所示)。
3.2 檢索詞智能擴(kuò)展
用戶單擊高級檢索頁面右側(cè)的“檢索詞智能擴(kuò)展”(如圖3所示),可展開檢索詞智能擴(kuò)展功能區(qū),在“檢索詞”文本框中輸入關(guān)鍵字,如“電腦”,然后可在右側(cè)選擇“主題檢索”或“同義檢索”。
3.3 自動翻譯英文專利
在使用英文關(guān)鍵詞檢索得到的英文專利檢索結(jié)果頁的上方,用戶點擊“自動翻譯”鏈接,系統(tǒng)會自動將結(jié)果頁中的專利標(biāo)題和摘要信息翻譯成中文,以便用戶閱讀理解(如圖4所示)。
3.4 產(chǎn)業(yè)分類導(dǎo)航和IPC分類導(dǎo)航
產(chǎn)業(yè)分類導(dǎo)航和IPC分類導(dǎo)航分別如圖5、圖6所示。
3.5 在線分析
申請人分析圖如圖7所示;專利趨勢分析圖如圖8所示。
4 結(jié)語
本文開發(fā)了一個在線專利檢索分析系統(tǒng),闡述了系統(tǒng)的體系結(jié)構(gòu)、各模塊的功能、關(guān)鍵技術(shù)。系統(tǒng)在系統(tǒng)架構(gòu)、全文索引等基礎(chǔ)上實現(xiàn)的專利信息檢索和統(tǒng)計分析在大規(guī)模數(shù)據(jù)方面體現(xiàn)出較好的效率;系統(tǒng)提供自動翻譯檢索結(jié)果、產(chǎn)業(yè)分類導(dǎo)航、檢索詞智能擴(kuò)展等具有特色能夠有效幫助普通用戶使用的功能,在用戶體驗、可視化界面和交互性等方面取得較好的效果。系統(tǒng)具有較大的使用價值,未來將應(yīng)用在自然語言處理和語義分析等技術(shù)領(lǐng)域,從而進(jìn)一步提升系統(tǒng)的性能。
參 考 文 獻(xiàn)
[1]Lucene.Welcome to Apache Lucene[EB/OL].http://lucene.apache.org,2016-03-17.
[2]Mina.Welcome to Apache MINA[EB/OL].http://mina.apache.org,2016-03-12.
[責(zé)任編輯:鐘聲賢]
【作者簡介】溫家凱,男,任職于廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司,研究方向:自然語言處理(深度學(xué)習(xí)、機(jī)器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯(lián)網(wǎng)應(yīng)用;農(nóng)強(qiáng),男,任職于廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司,研究方向:自然語言處理(深度學(xué)習(xí)、機(jī)器翻譯、輔助翻譯、垂直搜索、跨語言搜索等)和互聯(lián)網(wǎng)應(yīng)用。