劉銳
摘要:知識(shí)產(chǎn)權(quán)服務(wù)中專利申請(qǐng)及相關(guān)的法律服務(wù)關(guān)系到我國(guó)自主知識(shí)產(chǎn)權(quán)法律效力的發(fā)展趨向,同時(shí)也是保障基礎(chǔ)知識(shí)產(chǎn)權(quán)服務(wù)有效性的根本措施,只有這樣,才能夠讓更多的創(chuàng)新技術(shù)人才在相應(yīng)的專業(yè)領(lǐng)域內(nèi)構(gòu)建切實(shí)有效的發(fā)展規(guī)劃,進(jìn)而滿足對(duì)專利申請(qǐng)、檢索和法律訴訟等服務(wù)的高效化需求。隨著大數(shù)據(jù)的快速發(fā)展以及云盾技術(shù)的廣泛普及,信息增長(zhǎng)是爆炸式的,專利信息作為規(guī)劃經(jīng)濟(jì)發(fā)展和科技創(chuàng)新的重要依據(jù),不僅是政府事業(yè)單位有效專利布局的措施,也是地方企事業(yè)單位的重要信息資源。構(gòu)建地方專利大數(shù)據(jù)庫(kù)、專利信息檢索分析等多功能系統(tǒng)是擴(kuò)大專利信息利用率,促進(jìn)地方政策分析、技術(shù)預(yù)測(cè)和科技創(chuàng)新的發(fā)展重要舉措。該文主要基于大數(shù)據(jù)和云盾技術(shù),對(duì)涼山州地方專利信息檢索系統(tǒng)進(jìn)行簡(jiǎn)要分析。
關(guān)鍵詞:專利信息;專利情報(bào);信息服務(wù);信息平臺(tái)
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2019)02-0001-02
在專利信息檢索系統(tǒng)的構(gòu)建中,需要考慮較多因素,如信息資源、信息分析工具、服務(wù)機(jī)構(gòu)等,本文運(yùn)用已開發(fā)適用于早期階段的“專利統(tǒng)計(jì)分析軟件”(專利統(tǒng)計(jì)和分析軟件,簡(jiǎn)稱PSAS)及其在線分析工具(PIOL),基于大數(shù)據(jù)以及云盾技術(shù),研究構(gòu)建涼山州地方專利信息檢索系統(tǒng)。在實(shí)際的專利系統(tǒng)研發(fā)和開發(fā)的過程中,由于整體的專利資源的限制,對(duì)整個(gè)的信息資源的有效性產(chǎn)生較大影響,且由于實(shí)際的專利利用的思維及主要的檢索方式的不同,使得整體的專利信息服務(wù)系統(tǒng)因?yàn)榈胤劫Y源有效性的差異而不同,因此在實(shí)際的專利系統(tǒng)結(jié)構(gòu)及主要的思維進(jìn)行構(gòu)建的過程中,要對(duì)實(shí)際操作和應(yīng)用進(jìn)行相應(yīng)分析,以實(shí)現(xiàn)對(duì)整個(gè)專利檢索系統(tǒng)的有效性分析,從而體現(xiàn)專利檢索系統(tǒng)中的知識(shí)產(chǎn)權(quán)結(jié)構(gòu)及多樣性利用及研發(fā),使得專利檢索系統(tǒng)的結(jié)構(gòu)及相應(yīng)的軟件內(nèi)容具有高效的分析性,且能夠有效的促進(jìn)區(qū)域?qū)@畔z索高效化發(fā)展,且有助于保障專利布局、專利申請(qǐng)及相關(guān)數(shù)據(jù)的準(zhǔn)確性及高效性。
1 地方專利信息檢索系統(tǒng)建設(shè)思路
《四川省“十三五”知識(shí)產(chǎn)權(quán)保護(hù)和運(yùn)用規(guī)劃》(川府發(fā)〔2017〕13號(hào))文,在知識(shí)產(chǎn)權(quán)綜合服務(wù)工程中明確指出:“建設(shè)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)庫(kù)、知識(shí)產(chǎn)權(quán)信息檢索、分析等多功能的知識(shí)產(chǎn)權(quán)公共服務(wù)平臺(tái)”;在第四條重點(diǎn)領(lǐng)域中也提出:“推進(jìn)專利檢索數(shù)據(jù)庫(kù)等專利基礎(chǔ)數(shù)據(jù)資源開放平臺(tái)建設(shè)”。由此可見,建設(shè)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)庫(kù)、知識(shí)產(chǎn)權(quán)信息檢索、分析功能系統(tǒng),已成為知識(shí)產(chǎn)權(quán)公共服務(wù)平臺(tái)建設(shè)中不可或缺的重要組成部分。
涼山州地方專利服務(wù)平臺(tái),是基于大數(shù)據(jù)和云盾技術(shù)研發(fā)的專利信息檢索分析及統(tǒng)計(jì)對(duì)比系統(tǒng)平臺(tái),幫助當(dāng)?shù)仄髽I(yè)制定正確的市場(chǎng)發(fā)展戰(zhàn)略,指導(dǎo)和推動(dòng)企業(yè)科技研發(fā),避免重復(fù)研發(fā),專利侵權(quán)的有效監(jiān)控和預(yù)警。系統(tǒng)平臺(tái)具有地方特色,體現(xiàn)專利信息特點(diǎn),能夠滿足廣大網(wǎng)絡(luò)用戶對(duì)專利信息的需求,具有操作高效,操作方便,長(zhǎng)期運(yùn)行等特點(diǎn)。該系統(tǒng)包括專利信息檢索,統(tǒng)計(jì)管理,對(duì)比分析等,實(shí)現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)化管理,以及與著錄項(xiàng)目、權(quán)利要求書、全文PDF圖像,可視化數(shù)據(jù)圖表,有效日期,法律狀態(tài),機(jī)構(gòu)屬性、申請(qǐng)?zhí)柕认嚓P(guān)信息的統(tǒng)一管理。該系統(tǒng)可以根據(jù)用戶的需要進(jìn)行專利信息檢索分析,也可以通過輸入專利發(fā)明人,申請(qǐng)人和地區(qū)之間進(jìn)行專利統(tǒng)計(jì)和專利數(shù)據(jù)比對(duì)。該系統(tǒng)的設(shè)計(jì)是專利信息利用的專屬系統(tǒng),其特點(diǎn)是建立本地專利大數(shù)據(jù)庫(kù),應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)產(chǎn)權(quán)文檔的自動(dòng)分類、自動(dòng)文摘的形成、檢索結(jié)果的聚類和相關(guān)度排序等,利用智能代理技術(shù)加強(qiáng)用戶的個(gè)性化檢索,實(shí)現(xiàn)聯(lián)合查詢,多場(chǎng)組合檢索,任意組合專利信息屬性字段檢索,以及從一個(gè)檢索入口同時(shí)檢索多個(gè)不同區(qū)域的資源庫(kù),由被動(dòng)檢索變成主動(dòng)檢索,達(dá)到精準(zhǔn)檢索、分析、統(tǒng)計(jì)、對(duì)比等多功能平臺(tái)。同時(shí)在檢索的過程中可以根據(jù)實(shí)際需求將檢索的相關(guān)內(nèi)容進(jìn)行分析以及數(shù)據(jù)比對(duì),并將專利所需要專利數(shù)據(jù)生產(chǎn)PDF文檔進(jìn)行下載導(dǎo)出打印,提高專利信息的利用率。
2 基于大數(shù)據(jù)和云盾技術(shù)的地方專利信息檢索系統(tǒng)研究
2.1 系統(tǒng)架構(gòu)
系統(tǒng)采用PHP+MYSQL+Nginx技術(shù)框架和基于云服務(wù)器的分布式部署實(shí)現(xiàn)負(fù)載均衡,并采用云盾安全保護(hù)技術(shù),實(shí)現(xiàn)系統(tǒng)的安全穩(wěn)定運(yùn)行,基于PIOL后臺(tái)系統(tǒng),整個(gè)系統(tǒng)架構(gòu)包括三個(gè)部分,即信息資源層,數(shù)據(jù)處理層和信息發(fā)布層,如圖:信息資源層以原始專利數(shù)據(jù)的采集和存儲(chǔ)為核心,數(shù)據(jù)處理層以信息組織,處理和分析為核心,利用PIOL等信息工具實(shí)現(xiàn),信息檢索結(jié)果是客戶端的顯示界面,是運(yùn)用檢索網(wǎng)頁(yè)的前端設(shè)計(jì)和移動(dòng)應(yīng)用程序的開發(fā)來完成實(shí)現(xiàn)的,而且,基于大數(shù)據(jù)和云盾保護(hù)的首頁(yè)功能板布局更為安全也易操作。
隨著大數(shù)據(jù)的發(fā)展,從技術(shù)上講,信息平臺(tái)及其功能的實(shí)現(xiàn)已不再是問題,但為了設(shè)計(jì)一個(gè)簡(jiǎn)單高效的信息檢索系統(tǒng),技術(shù)選擇和應(yīng)用是一個(gè)必不可少的過程?;谙到y(tǒng)實(shí)現(xiàn)技術(shù)的穩(wěn)定性,考慮系統(tǒng)功能的擴(kuò)展和集成,本文認(rèn)為BOOTSTRAP前端開發(fā)工具的采用符合本地專利信息檢索系統(tǒng)的技術(shù)要求,BOOTSTRAP由Twitter的設(shè)計(jì)師Mark Otto和Jacob Thornton聯(lián)合開發(fā),它是一個(gè)簡(jiǎn)單靈活的前端框架和基于HTML,CSS和JAVASCRIPT的交互式組件集,廣泛應(yīng)用于國(guó)內(nèi)外各種信息系統(tǒng)的設(shè)計(jì)和開發(fā)[2],BOOTSTRAP能夠更快,更靈活,更有效地設(shè)計(jì)前端框架和頁(yè)面,并與后臺(tái)進(jìn)行交互,BOOTSTRAP一般具有以下技術(shù)特點(diǎn):第一,應(yīng)用方法易于理解,熟悉面向?qū)ο缶幊痰某绦騿T可以快速了解其技術(shù)結(jié)構(gòu)、技術(shù)要素和其他技術(shù)要點(diǎn),能夠提高設(shè)計(jì)和開發(fā)效率;其次,源代碼是開放的,在降低開發(fā)成本的同時(shí),還可以通過與設(shè)計(jì)人員的交流和互動(dòng)來分享開發(fā)經(jīng)驗(yàn);第三,它是跨平臺(tái)的,不僅支持各種瀏覽器,還提供對(duì)智能手機(jī)和平板電腦的同步支持。
2.2 功能模塊
用戶管理主要支持平臺(tái)用戶登錄和權(quán)限管理功能,實(shí)現(xiàn)不同類型用戶登錄,并根據(jù)級(jí)別分配權(quán)限,該模塊集成了PIOL系統(tǒng)登錄功能,并在平臺(tái)主頁(yè)中設(shè)置登錄窗口,為管理員輸入后臺(tái)進(jìn)行數(shù)據(jù)處理,發(fā)布和高級(jí)檢索,并為普通用戶登錄進(jìn)行簡(jiǎn)單檢索和需求發(fā)布,并根據(jù)非登錄用戶,普通用戶和管理員的用戶身份,對(duì)平臺(tái)各模塊應(yīng)用程序和操作進(jìn)行權(quán)限分配。
信息檢索是基于PIOL系統(tǒng)的背景,主要實(shí)現(xiàn)專利信息檢索功能,考慮到數(shù)據(jù)傳輸?shù)男屎头?wù)器的承載能力,在平臺(tái)頁(yè)面的指定位置設(shè)置一個(gè)特殊的檢索頁(yè)面, 它用于平臺(tái)限制用戶按時(shí)間段,區(qū)域,專利類型,數(shù)據(jù)類型等手段檢索本地專利信息,并以圖形或報(bào)表的形式顯示。大數(shù)據(jù)檢索每個(gè)服務(wù)器,并在每個(gè)節(jié)點(diǎn)上的存儲(chǔ)服務(wù)器中分析和排序數(shù)據(jù)信息,以獲得在服務(wù)器前面排名的“相關(guān)性”。 而這些存儲(chǔ)服務(wù)器用于并行分布式檢索。檢索結(jié)果在Index Repository的索引中,搜索引擎中的頁(yè)面,用戶請(qǐng)求的檢索過程實(shí)際上是在索引存儲(chǔ)庫(kù)中搜索,將網(wǎng)頁(yè)的內(nèi)容與網(wǎng)頁(yè)的反向排序索引中的索引同義詞庫(kù)組合在一起,頁(yè)面標(biāo)題和鏈接數(shù)據(jù)存儲(chǔ)在用于廣度優(yōu)先搜索的一個(gè)索引中,并且web內(nèi)容存儲(chǔ)在用于低頻長(zhǎng)尾,個(gè)性化,深度優(yōu)先搜索的另一索引中。
2.3 專利信息檢索系統(tǒng)的檢索過程
當(dāng)用戶提出檢索請(qǐng)求并將關(guān)鍵詞提交給檢索代理時(shí),檢索代理將關(guān)鍵字發(fā)送給索引存儲(chǔ)器,并在根據(jù)相關(guān)性再次對(duì)檢索結(jié)果進(jìn)行排序后,將搜索結(jié)果發(fā)送給檢索代理,并呈現(xiàn)給用戶檢索的界面,檢索能力和速度得到了很大提高。
搜索用戶在搜索引擎輸入搜索的關(guān)鍵詞,提交請(qǐng)求,找到顯示的匹配頁(yè)面,搜索引擎會(huì)對(duì)搜索請(qǐng)求進(jìn)行詳細(xì)的分析,而搜索請(qǐng)求的詳細(xì)分析主要是進(jìn)行分詞,分詞主要是使用以下3種方法:
1) 基于字符串有三種匹配方式,前向最大匹配方法將索引問題從左到右劃分為一些單詞,反向最大匹配方法將索引問題從右到左劃分為一些單詞,最少細(xì)分是每個(gè)短語(yǔ)的細(xì)化,即使它是逐字出現(xiàn)的。對(duì)于整個(gè)信息工程的建設(shè)而言,對(duì)專利系統(tǒng)檢索軟件的系統(tǒng)分析及相應(yīng)的分析內(nèi)容進(jìn)行分析,分析實(shí)際的專利信息內(nèi)容。
2) 搜索引擎模擬人腦理解句子,進(jìn)行分詞,單詞和表達(dá)進(jìn)行整合便于理解,它的基本原理是在分詞的同時(shí)通過語(yǔ)法和語(yǔ)義分析來解決分歧,分詞通常是由分詞子系統(tǒng),語(yǔ)法子系統(tǒng)和語(yǔ)義子系統(tǒng)組成,并在主控制系統(tǒng)的配合下,語(yǔ)義子系統(tǒng)獲得單詞、句子等語(yǔ)義信息,可以模擬人類理解句子的方式。整體技術(shù)分析是對(duì)于各方面的信息內(nèi)容進(jìn)行分析,以實(shí)際操作和應(yīng)用為基礎(chǔ),結(jié)合現(xiàn)有的信息內(nèi)容進(jìn)行有效的規(guī)劃,實(shí)現(xiàn)對(duì)專利信息檢索內(nèi)容的有效性分析。
3) 相鄰的單詞出現(xiàn)的次數(shù)越多,中文分詞就越可能作為一個(gè)單詞彼此相鄰。 在鍵入關(guān)鍵字時(shí)搜索用戶,或多或少會(huì)出現(xiàn)很多結(jié)束詞,例如“等”“的”,在分詞中,通常會(huì)被刪除。以實(shí)際的專利檢索內(nèi)容作為分析對(duì)象,實(shí)際操作和應(yīng)用為基礎(chǔ),構(gòu)建有效的專利信息內(nèi)容,實(shí)現(xiàn)專利信息檢索內(nèi)容進(jìn)行有效分析。
當(dāng)搜索引擎收到搜索請(qǐng)求的詳細(xì)分析時(shí),它會(huì)匹配URL(重點(diǎn)是標(biāo)題和摘要段),并且有數(shù)千個(gè)匹配的URL,如何以有序的方式展示?這要求搜索引擎根據(jù)URL的匹配程度進(jìn)行排序。檢索系統(tǒng)把網(wǎng)頁(yè)的PageRank值與分詞后的信息和鏈接網(wǎng)頁(yè)的描述信息結(jié)合,計(jì)算檢索結(jié)果排序的權(quán)重值,網(wǎng)頁(yè)進(jìn)行客觀地排名,可以保證搜索結(jié)果在很大程度上與用戶的查詢一致[3]。PageRank的基本原理是:如果數(shù)據(jù)被其他頁(yè)面多次指向,則表明該數(shù)據(jù)更重要或質(zhì)量更高,除了考慮頁(yè)面鏈接的數(shù)量之外,還會(huì)考慮鏈接頁(yè)面本身的級(jí)別以及其他頁(yè)面的前向鏈接數(shù)量。
3 結(jié)語(yǔ)
基于大數(shù)據(jù)和云盾技術(shù)的專利信息檢索系統(tǒng)在實(shí)際生活中仍面臨著巨大的挑戰(zhàn),在整個(gè)系統(tǒng)設(shè)計(jì)及研發(fā)的過程,以實(shí)際操作和應(yīng)用為基礎(chǔ),構(gòu)建切實(shí)有效的信息檢索系統(tǒng),有效規(guī)劃整個(gè)專利信息檢索過程,實(shí)現(xiàn)對(duì)于整個(gè)專利系統(tǒng)設(shè)計(jì)及研究的高效性分析,隨著智能技術(shù)的運(yùn)用,搜索引擎的使用將得到更好的改進(jìn),結(jié)合地方專利信息檢索系統(tǒng)及相關(guān)核心技術(shù)的研發(fā),通過不斷的實(shí)踐和研究,將搜索引擎與智能檢索技術(shù)更好地結(jié)合起來, 實(shí)現(xiàn)具有新型檢索模式的地方知識(shí)產(chǎn)權(quán)搜索引擎。
參考文獻(xiàn):
[1]王根. 基于地方知識(shí)產(chǎn)權(quán)戰(zhàn)略的專利情報(bào)分析軟件研究:以東莞市為例[J]. 情報(bào)科學(xué),2011(9):1435-1440.
[2]焦玉英,索傳軍.基于“推”模式的網(wǎng)絡(luò)信息服務(wù)及其相關(guān)技術(shù)研究[J].情報(bào)學(xué)報(bào),2001(2):194-199.
[3]劉友華, 劉琳.論我國(guó)專利信息服務(wù)平臺(tái)的構(gòu)建[J].湖南科技大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012,15(5):103-106.