国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)械產(chǎn)品專(zhuān)利知識(shí)的提取和應(yīng)用*

2021-08-23 10:12董文斌戰(zhàn)洪飛余軍合
機(jī)械制造 2021年8期
關(guān)鍵詞:原理實(shí)體向量

□ 董文斌 □ 戰(zhàn)洪飛 □ 余軍合 □ 王 瑞

寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院 浙江寧波 315211

1 研究背景

企業(yè)機(jī)械產(chǎn)品設(shè)計(jì)過(guò)程中,專(zhuān)利文獻(xiàn)占有很重要的地位。然而,目前專(zhuān)利申請(qǐng)數(shù)量日趨龐大,產(chǎn)品設(shè)計(jì)人員需要花費(fèi)大量時(shí)間閱讀和分析專(zhuān)利文獻(xiàn)。隨著專(zhuān)利數(shù)據(jù)的大幅增加,僅依靠人工查閱的方式獲取專(zhuān)利知識(shí)與信息越來(lái)越顯得力不從心。對(duì)此,筆者構(gòu)建了輔助設(shè)計(jì)人員進(jìn)行研發(fā)設(shè)計(jì)的專(zhuān)利知識(shí)抽取方法與系統(tǒng),實(shí)現(xiàn)對(duì)專(zhuān)利知識(shí)的自動(dòng)提取,構(gòu)建專(zhuān)利知識(shí)圖譜,產(chǎn)品設(shè)計(jì)專(zhuān)利知識(shí)推送等功能。

關(guān)于從專(zhuān)利文本中提取知識(shí)的研究一直是熱點(diǎn),不同學(xué)者對(duì)專(zhuān)利知識(shí)提取的認(rèn)識(shí)和方法都不盡相同。Park等[1]提出基于主謂賓結(jié)構(gòu)的專(zhuān)利情報(bào)系統(tǒng),將從專(zhuān)利文本中提取到的主謂賓結(jié)構(gòu)作為相關(guān)的專(zhuān)利知識(shí),并基于此構(gòu)建專(zhuān)利地圖和專(zhuān)利網(wǎng)絡(luò)。陳憶群等[2]采用支持向量機(jī)自動(dòng)抽取出專(zhuān)利文本中的關(guān)鍵詞,由此挖掘?qū)@R(shí)。An等[3]提出一種基于介詞語(yǔ)義分析網(wǎng)絡(luò)確定專(zhuān)利關(guān)鍵詞之間類(lèi)型的方法,通過(guò)確定介詞定義技術(shù)術(shù)語(yǔ)之間的關(guān)系,來(lái)描述專(zhuān)利的技術(shù)內(nèi)容。郭潔[4]為了獲取林業(yè)機(jī)械專(zhuān)利中的功能結(jié)構(gòu)知識(shí),提出將閉合加權(quán)頻繁模式與林業(yè)機(jī)械領(lǐng)域同義詞典相結(jié)合的方法,通過(guò)試驗(yàn)驗(yàn)證了這一方法的穩(wěn)定性和可靠性。盛卿[5]針對(duì)機(jī)電產(chǎn)品專(zhuān)利提出了“任務(wù)流”模型,用于提取和重用創(chuàng)新原理知識(shí)。于麗婭等[6]研究了機(jī)電產(chǎn)品專(zhuān)利設(shè)計(jì)知識(shí)的特點(diǎn),通過(guò)識(shí)別專(zhuān)利文獻(xiàn)中的動(dòng)名詞短語(yǔ)來(lái)獲取創(chuàng)新專(zhuān)利設(shè)計(jì)知識(shí)。吳正[7]通過(guò)文本挖掘手段,從具有相同或相似特征的專(zhuān)利中提取了實(shí)現(xiàn)功能和解決問(wèn)題的關(guān)鍵性術(shù)語(yǔ),并基于此繪制專(zhuān)利地圖來(lái)進(jìn)一步分析,輔助創(chuàng)新。馬建紅等[8]從創(chuàng)新設(shè)計(jì)角度出發(fā),采用基于組合特征和最大熵分類(lèi)器的方法對(duì)目標(biāo)功能、作用原理、位置特征等創(chuàng)新知識(shí)進(jìn)行抽取,這是一種統(tǒng)計(jì)機(jī)器學(xué)習(xí)的專(zhuān)利知識(shí)抽取方法。張盤(pán)龍[9]在構(gòu)建專(zhuān)利知識(shí)圖譜的過(guò)程中,通過(guò)分詞、主題分類(lèi)等方法,同時(shí)應(yīng)用改進(jìn)的基于圖的排序算法,提取專(zhuān)利中的關(guān)鍵詞,作為承載專(zhuān)利知識(shí)的實(shí)體。薛馳等[10]將專(zhuān)利作用結(jié)構(gòu)知識(shí)提取分為技術(shù)對(duì)象和技術(shù)關(guān)系兩類(lèi)提取,采用最大熵原理和專(zhuān)利術(shù)語(yǔ)詞典識(shí)別的方法提取技術(shù)對(duì)象,采用建立組成類(lèi)動(dòng)詞庫(kù)識(shí)別核心動(dòng)詞的方法提取技術(shù)關(guān)系,最終實(shí)現(xiàn)專(zhuān)利作用結(jié)構(gòu)知識(shí)的提取。

以往學(xué)者對(duì)專(zhuān)利知識(shí)的提取通常以關(guān)鍵詞或術(shù)語(yǔ)的形式來(lái)代表專(zhuān)利知識(shí),提取對(duì)創(chuàng)新研發(fā)有啟發(fā)作用的知識(shí)不全面。筆者在參考總結(jié)前人文獻(xiàn)的基礎(chǔ)上,針對(duì)專(zhuān)利文獻(xiàn)中蘊(yùn)含的有助于創(chuàng)新設(shè)計(jì)的知識(shí)進(jìn)行分析,構(gòu)建專(zhuān)利知識(shí)結(jié)構(gòu)模型,在實(shí)體識(shí)別和實(shí)體關(guān)系抽取兩項(xiàng)任務(wù)中引入深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,克服傳統(tǒng)方法的缺點(diǎn),最終實(shí)現(xiàn)專(zhuān)利知識(shí)的有效提取。

2 專(zhuān)利知識(shí)提取服務(wù)框架

隨著專(zhuān)利數(shù)量的日趨龐大,有關(guān)人員需要花費(fèi)大量時(shí)間閱讀和分析專(zhuān)利文獻(xiàn),獲取專(zhuān)利中蘊(yùn)藏的設(shè)計(jì)知識(shí),這與如今快節(jié)奏時(shí)代的高效率目標(biāo)存在矛盾。因此,需要有一種方法,能使計(jì)算機(jī)自動(dòng)提取專(zhuān)利中的知識(shí)。筆者基于潤(rùn)桐、soopat等專(zhuān)利檢索網(wǎng)站中的中文專(zhuān)利文獻(xiàn),研究從摘要等非結(jié)構(gòu)化數(shù)據(jù)中提取與產(chǎn)品設(shè)計(jì)相關(guān)的功效、原理、結(jié)構(gòu)知識(shí)的方法,并對(duì)專(zhuān)利文獻(xiàn)進(jìn)行知識(shí)建模,分為摘要、說(shuō)明書(shū)等專(zhuān)利內(nèi)容和公開(kāi)號(hào)、申請(qǐng)人等專(zhuān)利屬性,從專(zhuān)利內(nèi)容中提取結(jié)構(gòu)、原理、功能知識(shí)?;谏疃葘W(xué)習(xí)相關(guān)算法模型,實(shí)現(xiàn)實(shí)體識(shí)別和實(shí)體關(guān)系抽取兩大任務(wù),進(jìn)而完成專(zhuān)利知識(shí)的提取。

專(zhuān)利知識(shí)提取服務(wù)框架如圖1所示。

▲圖1 專(zhuān)利知識(shí)提取服務(wù)框架

專(zhuān)利數(shù)據(jù)源主要選擇潤(rùn)桐、智慧芽、中國(guó)知網(wǎng)等常用專(zhuān)利檢索網(wǎng)站,并從中獲取專(zhuān)利數(shù)據(jù)。在專(zhuān)利知識(shí)建模部分,主要根據(jù)專(zhuān)利文獻(xiàn)的撰寫(xiě)規(guī)律歸納出專(zhuān)利中蘊(yùn)含的功效、原理、結(jié)構(gòu)三類(lèi)知識(shí),并分析其特征。在基于深度學(xué)習(xí)的實(shí)體識(shí)別模塊中,通過(guò)算法模型對(duì)專(zhuān)利領(lǐng)域?qū)嶓w進(jìn)行識(shí)別。在實(shí)體關(guān)系抽取部分,使用BERT語(yǔ)言預(yù)訓(xùn)練模型,通過(guò)分類(lèi)原理進(jìn)行實(shí)體間關(guān)系的識(shí)別?;诔槿〕龅膶?shí)體和實(shí)體關(guān)系,以實(shí)體-關(guān)系-實(shí)體的形式表示專(zhuān)利知識(shí),并與專(zhuān)利屬性一同存入專(zhuān)利知識(shí)庫(kù)。

3 基于深度學(xué)習(xí)的專(zhuān)利知識(shí)提取

筆者主要通過(guò)解決識(shí)別專(zhuān)利文本中承載知識(shí)的實(shí)體和抽取實(shí)體之間關(guān)系的兩項(xiàng)任務(wù)來(lái)完成專(zhuān)利知識(shí)的提取。通過(guò)對(duì)專(zhuān)利文本中的知識(shí)結(jié)構(gòu)進(jìn)行建模,分析專(zhuān)利中的實(shí)體類(lèi)型及實(shí)體關(guān)系,引入深度學(xué)習(xí)算法模型,使計(jì)算機(jī)能夠自動(dòng)識(shí)別實(shí)體和抽取實(shí)體關(guān)系。采用深度學(xué)習(xí)方法,克服了采用傳統(tǒng)自然語(yǔ)言處理方法提取文本特征不能很好地表征文檔語(yǔ)義、語(yǔ)法,容易丟失有用信息的缺陷。應(yīng)用深度學(xué)習(xí)方法,還可以獲取更優(yōu)良的文本特征。

3.1 專(zhuān)利知識(shí)建模

筆者主要針對(duì)機(jī)械產(chǎn)品的發(fā)明和實(shí)用新型類(lèi)專(zhuān)利進(jìn)行研究。發(fā)明和實(shí)用新型類(lèi)專(zhuān)利文獻(xiàn)中包括公開(kāi)號(hào)、申請(qǐng)人等描述專(zhuān)利屬性的信息,在導(dǎo)出或提取后通常是可以直接儲(chǔ)存和應(yīng)用的結(jié)構(gòu)化數(shù)據(jù)。標(biāo)題、摘要、權(quán)利要求書(shū)等是具體描述專(zhuān)利內(nèi)容的文本,其中蘊(yùn)含著最主要的專(zhuān)利知識(shí)。標(biāo)題表述產(chǎn)品或產(chǎn)品組件名稱(chēng)。摘要是對(duì)專(zhuān)利全文的概括性描述,主要涉及功效、結(jié)構(gòu)、原理等內(nèi)容。權(quán)利要求書(shū)對(duì)所需法律保護(hù)的結(jié)構(gòu)進(jìn)行具體說(shuō)明。說(shuō)明書(shū)對(duì)產(chǎn)品設(shè)計(jì)的背景、功效、結(jié)構(gòu)、原理等進(jìn)行具體描述。

專(zhuān)利說(shuō)明書(shū)的內(nèi)容雖然具體,但是過(guò)于煩瑣冗雜,權(quán)利要求書(shū)只描述產(chǎn)品的結(jié)構(gòu),摘要?jiǎng)t在很大程度上保留專(zhuān)利涉及的主要知識(shí),而且容易獲取。基于此,筆者選擇摘要來(lái)提取專(zhuān)利中的相關(guān)知識(shí)。專(zhuān)利的功效知識(shí)包含專(zhuān)利所能達(dá)到的功能效果,反映產(chǎn)品設(shè)計(jì)的需求和目的,如降低噪聲、延長(zhǎng)使用壽命等。原理知識(shí)指達(dá)到專(zhuān)利所述功效的步驟或方法,如紅外感應(yīng)、紫外線殺菌等。結(jié)構(gòu)知識(shí)描述產(chǎn)品的結(jié)構(gòu)組件、結(jié)構(gòu)組件的零部件,以及它們之間的關(guān)系。筆者通過(guò)對(duì)專(zhuān)利文獻(xiàn)進(jìn)行分析,將其中的知識(shí)表示為實(shí)體-關(guān)系-實(shí)體或?qū)嶓w-屬性-屬性值,并以節(jié)點(diǎn)-邊-節(jié)點(diǎn)的形式構(gòu)建專(zhuān)利知識(shí)結(jié)構(gòu)模型,如圖2所示。此模型包含了專(zhuān)利的基本屬性、結(jié)構(gòu)、原理、功效實(shí)體,結(jié)構(gòu)與結(jié)構(gòu)之間的相對(duì)關(guān)系,如連接關(guān)系、作用關(guān)系等,以及原理與功效之間存在的實(shí)現(xiàn)關(guān)系。

▲圖2 專(zhuān)利知識(shí)結(jié)構(gòu)模型

3.2 實(shí)體識(shí)別

對(duì)機(jī)械產(chǎn)品專(zhuān)利知識(shí)結(jié)構(gòu)分析建模后,需要對(duì)模型中提到的實(shí)體和實(shí)體之間的關(guān)系進(jìn)行識(shí)別抽取。實(shí)體識(shí)別指從專(zhuān)利文本中識(shí)別出表示功能、結(jié)構(gòu)、原理等知識(shí)的領(lǐng)域?qū)嶓w,如從專(zhuān)利文本“本實(shí)用新型提供一種電動(dòng)牙刷,包括刷頭、刷柄和刷柄座”中識(shí)別電動(dòng)牙刷、刷頭、刷柄、刷柄座等表示結(jié)構(gòu)知識(shí)的系統(tǒng)和零部件名,作為結(jié)構(gòu)實(shí)體。筆者引入雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)模型[11],通過(guò)序列標(biāo)注的方式對(duì)專(zhuān)利領(lǐng)域?qū)嶓w進(jìn)行識(shí)別。用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)實(shí)體識(shí)別時(shí),按照實(shí)體特征采用標(biāo)簽標(biāo)注一部分?jǐn)?shù)據(jù),模型經(jīng)訓(xùn)練學(xué)習(xí)實(shí)體的特征后不斷調(diào)整參數(shù),使訓(xùn)練后的模型針對(duì)專(zhuān)利文本能自動(dòng)計(jì)算出對(duì)應(yīng)的標(biāo)簽序列,結(jié)合標(biāo)簽找出實(shí)體。為提升模型的實(shí)體識(shí)別性能,筆者在模型上游任務(wù)中引入BERT語(yǔ)言預(yù)訓(xùn)練模型進(jìn)行預(yù)訓(xùn)練詞向量。

(1) 確定專(zhuān)利文本的領(lǐng)域?qū)嶓w類(lèi)型。專(zhuān)利文本的領(lǐng)域?qū)嶓w包括三部分:① 零部件名;② 形狀構(gòu)造,如電機(jī)、齒輪、凹槽等結(jié)構(gòu)實(shí)體;③ 描述實(shí)現(xiàn)功效的功效實(shí)體,如清潔效率、壽命等。通常在發(fā)明專(zhuān)利中會(huì)涉及原理知識(shí),可以提取描述原理的術(shù)語(yǔ)作為原理實(shí)體,如紫外線殺菌、太陽(yáng)能充電等。

專(zhuān)利中的實(shí)體類(lèi)型見(jiàn)表1。

表1 專(zhuān)利中實(shí)體類(lèi)型

(2) 訓(xùn)練數(shù)據(jù)語(yǔ)料標(biāo)注。將獲取到的專(zhuān)利文本以“。”和“;”為分隔符,按句進(jìn)行分割,并隨機(jī)選擇一部分作為訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注。標(biāo)注過(guò)程中,使用開(kāi)始-中間-其它標(biāo)注方法進(jìn)行標(biāo)注,將每個(gè)字符標(biāo)注為B-X、I-X或O,語(yǔ)料標(biāo)注見(jiàn)表2。B-X表示詞語(yǔ)或短語(yǔ)的第一個(gè)字符,而且該詞語(yǔ)或短語(yǔ)屬于X類(lèi)型,是FUNC、STRU、PRIN三種中的一種。表2中,原理實(shí)體“紅外感應(yīng)”的“紅”字標(biāo)注為B-PRIN。I-X表示字符屬于X類(lèi)型詞語(yǔ)或短語(yǔ)第一個(gè)字符之后的字符,如“紅外感應(yīng)”的“外”“感”“應(yīng)”都標(biāo)注為I-PRIN。用O標(biāo)注不屬于任何類(lèi)型的字符,如表2中“通”“過(guò)”“方”“式”等。

表2 語(yǔ)料標(biāo)注

(3) 預(yù)訓(xùn)練詞向量。BERT語(yǔ)言預(yù)訓(xùn)練模型預(yù)訓(xùn)練的詞向量融合了句子中的語(yǔ)義特征,有更好的泛化能力[12]。筆者將BERT語(yǔ)言預(yù)訓(xùn)練模型訓(xùn)練的詞向量輸入到下游任務(wù),來(lái)提高實(shí)體識(shí)別的效果,BERT語(yǔ)言預(yù)訓(xùn)練模型結(jié)構(gòu)如圖3所示。BERT語(yǔ)言預(yù)訓(xùn)練模型的輸入初始詞向量w1、w2、…、wn經(jīng)三重向量嵌入融合了詞的歸屬句子、位置等信息,輸出預(yù)訓(xùn)練后的詞向量T1、T2、…、Tn。模型中的亮點(diǎn)機(jī)制是掩語(yǔ)模型,類(lèi)似于完形填空,先隨機(jī)遮蓋住句子中的部分詞,通常為15%,再應(yīng)用上下文來(lái)預(yù)測(cè)遮住的詞。

▲圖3 BERT語(yǔ)言預(yù)訓(xùn)練模型結(jié)構(gòu)

(1)

式中:Pi,yi為第i個(gè)位置歸一化后輸出標(biāo)簽序列中標(biāo)簽yi的概率;Ayi-1,yi為從標(biāo)簽yi-1到標(biāo)簽yi的轉(zhuǎn)移概率。

▲圖4 專(zhuān)利領(lǐng)域?qū)嶓w識(shí)別模型

(5) 對(duì)實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)估。通過(guò)準(zhǔn)確率C、召回率R、綜合評(píng)價(jià)指標(biāo)F三個(gè)指標(biāo)對(duì)各類(lèi)實(shí)體識(shí)別的結(jié)果進(jìn)行評(píng)估[13]。準(zhǔn)確率C為正確識(shí)別出的實(shí)體數(shù)與識(shí)別出的實(shí)體總數(shù)的比值,召回率R為正確識(shí)別出的實(shí)體數(shù)與訓(xùn)練集中的實(shí)體總數(shù)的比值,綜合評(píng)價(jià)指標(biāo)F為:

(2)

3.3 專(zhuān)利領(lǐng)域?qū)嶓w關(guān)系抽取

通過(guò)前文介紹的實(shí)體識(shí)別模型識(shí)別出專(zhuān)利摘要文本中的各類(lèi)實(shí)體后,需要對(duì)識(shí)別出的實(shí)體之間的關(guān)系進(jìn)行識(shí)別抽取。實(shí)體關(guān)系抽取任務(wù)的目標(biāo)是預(yù)測(cè)兩個(gè)實(shí)體在句子中的語(yǔ)義關(guān)系,如給定文本序列“電動(dòng)牙刷包括手柄和刷頭”,給定實(shí)體“電動(dòng)牙刷”和“刷頭”,目標(biāo)是預(yù)測(cè)出兩個(gè)實(shí)體之間的關(guān)系為組成關(guān)系。實(shí)體關(guān)系的抽取在自然語(yǔ)言處理領(lǐng)域內(nèi)實(shí)質(zhì)上屬于文本的多分類(lèi),筆者依然采用BERT語(yǔ)言預(yù)訓(xùn)練模型來(lái)完成實(shí)體關(guān)系抽取任務(wù)。

總結(jié)專(zhuān)利文本中實(shí)體關(guān)系的類(lèi)型,并定義編號(hào),見(jiàn)表3。組成關(guān)系指一個(gè)組件包含若干部件或零件,代表詞有“包括”“設(shè)有”等。相對(duì)位置關(guān)系描述零部件之間的位置關(guān)系,如A位于B之上、A嵌于B之內(nèi)等。作用關(guān)系描述零部件之間的動(dòng)態(tài)關(guān)系,如A帶動(dòng)B等。連接關(guān)系描述零件之間的連接配合關(guān)系,如A與B相連接等。功能達(dá)成關(guān)系描述通過(guò)技術(shù)方案實(shí)現(xiàn)功效的關(guān)系,如通過(guò)A實(shí)現(xiàn)B功能等。

表3 專(zhuān)利文本中實(shí)體關(guān)系類(lèi)型

▲圖5 實(shí)體關(guān)系抽取架構(gòu)

文本序列經(jīng)過(guò)BERT語(yǔ)言預(yù)訓(xùn)練模型后,得到實(shí)體的隱藏向量Ht。對(duì)每個(gè)實(shí)體的所有隱藏向量進(jìn)行求平均,添加激活函數(shù)后連接全連接層。實(shí)體的最終隱藏向量H′1、H′2和第一個(gè)標(biāo)記[cls]的最終隱藏向量H′0分別為:

(3)

(4)

H′0=W0(tanhH0)+b0

(5)

式中:W0、W1、W2為權(quán)重矩陣,大小為BERT語(yǔ)言預(yù)訓(xùn)練模型隱藏層的大小,W1=W2;b0、b1、b2為偏置向量,b1=b2;h、j為實(shí)體A在句子中的開(kāi)始和結(jié)束位置;k、m為實(shí)體B在句子中的開(kāi)始和結(jié)束位置。

h″=W3[concat(H′0,H′1,H′2)]+b3

(6)

p=softmaxh″

(7)

式中:h″為綜合向量;W3為綜合權(quán)重矩陣;b3為綜合偏置向量;p為輸出概率;concat為組合函數(shù);softmax為歸一化函數(shù)。

4 專(zhuān)利知識(shí)服務(wù)系統(tǒng)

筆者基于構(gòu)建的機(jī)械產(chǎn)品專(zhuān)利知識(shí)圖譜設(shè)計(jì)了相關(guān)的專(zhuān)利知識(shí)服務(wù)系統(tǒng)。設(shè)計(jì)人員輸入需求,根據(jù)知識(shí)圖譜的最短路徑查詢,自動(dòng)輸出相對(duì)應(yīng)的知識(shí)節(jié)點(diǎn),并通過(guò)余弦相似度計(jì)算相關(guān)的知識(shí)節(jié)點(diǎn)進(jìn)行推送。這一系統(tǒng)的目標(biāo)是通過(guò)獲取專(zhuān)利知識(shí)構(gòu)建專(zhuān)利知識(shí)圖譜,給予設(shè)計(jì)人員恰當(dāng)?shù)闹R(shí)推送,輔助進(jìn)行產(chǎn)品創(chuàng)新設(shè)計(jì)。這一系統(tǒng)能夠?qū)崿F(xiàn)專(zhuān)利知識(shí)的自動(dòng)提取,專(zhuān)利知識(shí)圖譜的構(gòu)建和可視化,專(zhuān)利知識(shí)的快速精準(zhǔn)查詢,創(chuàng)新設(shè)計(jì)知識(shí)的推送,系統(tǒng)功能模塊框架如圖6所示。根據(jù)上述專(zhuān)利知識(shí)抽取研究,設(shè)計(jì)了專(zhuān)利知識(shí)服務(wù)系統(tǒng)的知識(shí)抽取模塊,主要子模塊有實(shí)體標(biāo)注、實(shí)體識(shí)別、實(shí)體關(guān)系抽取等。系統(tǒng)整體運(yùn)行框架采用瀏覽器/服務(wù)器模式,基于開(kāi)放源代碼的網(wǎng)絡(luò)應(yīng)用框架,使用Python語(yǔ)言作為主要業(yè)務(wù)和界面開(kāi)發(fā)語(yǔ)言,圖數(shù)據(jù)庫(kù)采用Neo4j數(shù)據(jù)庫(kù),整體在Eclipse軟件集成開(kāi)發(fā)環(huán)境中進(jìn)行。

5 實(shí)例分析

5.1 實(shí)例概況

筆者選擇電動(dòng)牙刷的專(zhuān)利作為試驗(yàn)數(shù)據(jù),分別從潤(rùn)桐、智慧芽等專(zhuān)利數(shù)據(jù)庫(kù)中獲取。在輸入關(guān)鍵詞“電動(dòng)牙刷”“智能牙刷”“聲波牙刷”等后,篩選從2011年到2020年的數(shù)據(jù),并剔除失效專(zhuān)利。編寫(xiě)爬蟲(chóng)程序獲取專(zhuān)利共3 840篇,獲取信息包括題目、摘要、申請(qǐng)日、公開(kāi)日、申請(qǐng)人等。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以“?!薄?”等為分隔符對(duì)摘要文本進(jìn)行分句處理。

5.2 專(zhuān)利摘要文本實(shí)體識(shí)別

為了使模型能自動(dòng)學(xué)習(xí)實(shí)體特征,需要對(duì)一部分摘要文本進(jìn)行人工語(yǔ)料標(biāo)注。筆者從獲取的3 840篇專(zhuān)利摘要中隨機(jī)選擇384篇進(jìn)行語(yǔ)料標(biāo)注,并以8∶2的比例劃分為訓(xùn)練集和測(cè)試集。在討論完標(biāo)注標(biāo)準(zhǔn)后,由三位碩士研究生分別獨(dú)立完成語(yǔ)料標(biāo)注任務(wù)。

將標(biāo)注后的語(yǔ)料經(jīng)實(shí)體識(shí)別模型訓(xùn)練,得到實(shí)體識(shí)別結(jié)果,見(jiàn)表4。實(shí)體識(shí)別結(jié)果各項(xiàng)數(shù)據(jù)都較為理想,其中結(jié)構(gòu)實(shí)體和功效實(shí)體的識(shí)別效果要明顯優(yōu)于原理實(shí)體,這是因?yàn)榻Y(jié)構(gòu)知識(shí)和功效知識(shí)在專(zhuān)利文本中通常以比較規(guī)范和明確的語(yǔ)言來(lái)表述,所以識(shí)別的結(jié)果相比原理實(shí)體較好。原理知識(shí)的表述通常比較復(fù)雜,而且在專(zhuān)利中描述原理的語(yǔ)句不多,導(dǎo)致訓(xùn)練樣本中原理實(shí)體相對(duì)較少,得到的結(jié)果也較差。

表4 實(shí)體識(shí)別結(jié)果

▲圖6 專(zhuān)利知識(shí)服務(wù)系統(tǒng)功能模塊框架

由數(shù)據(jù)回歸到文本,從實(shí)際識(shí)別出實(shí)體的效果來(lái)看,結(jié)構(gòu)實(shí)體和功效實(shí)體識(shí)別的泛化能力較好,能識(shí)別出訓(xùn)練集中未標(biāo)注的實(shí)體,如標(biāo)注“清潔”可以識(shí)別出“清潔衛(wèi)生”“潔凈”等未遇到過(guò)但語(yǔ)義類(lèi)似的詞。原理實(shí)體的識(shí)別效果不如結(jié)構(gòu)實(shí)體和功效實(shí)體,因?yàn)閷?zhuān)利中表述原理的語(yǔ)句較少,而且有些隱藏在其它句子中。應(yīng)用所述方法識(shí)別專(zhuān)利領(lǐng)域?qū)嶓w的效果見(jiàn)表5,由此驗(yàn)證了專(zhuān)利領(lǐng)域三類(lèi)實(shí)體識(shí)別的結(jié)果。

表5 專(zhuān)利領(lǐng)域?qū)嶓w識(shí)別效果

通過(guò)向訓(xùn)練后的模型輸入一段摘要文本來(lái)展示實(shí)體識(shí)別的結(jié)果,采用專(zhuān)利CN209422143U“一種紅外感應(yīng)充電健美電動(dòng)牙刷”來(lái)具體展示,實(shí)體識(shí)別界面如圖7所示。

▲圖7 實(shí)體識(shí)別界面

5.3 專(zhuān)利摘要文本實(shí)體關(guān)系抽取

表6 部分專(zhuān)利實(shí)體關(guān)系樣本

經(jīng)BERT語(yǔ)言預(yù)訓(xùn)練模型訓(xùn)練后實(shí)體關(guān)系抽取結(jié)果見(jiàn)表7。表7表明,模型在專(zhuān)利實(shí)體關(guān)系抽取方面有不錯(cuò)的效果,其中作用關(guān)系和連接關(guān)系效果相對(duì)較差,原因是兩者的語(yǔ)義特點(diǎn)較為接近,如句子“所述刷柄的另一端與所述刷柄座可拆卸連接”中實(shí)體“刷柄”和“刷柄座”兩者既有連接關(guān)系又有作用關(guān)系,而經(jīng)模型預(yù)測(cè)的結(jié)果為作用關(guān)系。組成關(guān)系、功能達(dá)成關(guān)系、相對(duì)位置關(guān)系在文本中表達(dá)規(guī)范,有明顯的線索詞,而且語(yǔ)義特點(diǎn)分明,所以取得了較為理想的結(jié)果。

表7 實(shí)體關(guān)系抽取結(jié)果

從摘要中抽取幾個(gè)包含兩個(gè)實(shí)體的句子,使用訓(xùn)練后的模型抽取實(shí)體關(guān)系,實(shí)體關(guān)系抽取測(cè)試結(jié)果見(jiàn)表8。實(shí)體關(guān)系抽取界面如圖8所示。

表8 實(shí)體關(guān)系抽取測(cè)試結(jié)果

▲圖8 實(shí)體關(guān)系抽取界面

對(duì)抽取出的實(shí)體與實(shí)體關(guān)系進(jìn)行整合,形成實(shí)體-關(guān)系-實(shí)體的形式表示專(zhuān)利知識(shí),存入專(zhuān)利知識(shí)庫(kù),并以節(jié)點(diǎn)-邊-節(jié)點(diǎn)的圖譜形式進(jìn)行可視化。專(zhuān)利知識(shí)圖譜如圖9所示。

▲圖9 專(zhuān)利知識(shí)圖譜

5.4 專(zhuān)利知識(shí)推送服務(wù)

筆者設(shè)計(jì)的專(zhuān)利知識(shí)服務(wù)系統(tǒng)能很好地滿足設(shè)計(jì)者的知識(shí)需求。通過(guò)輸入需要了解的內(nèi)容,系統(tǒng)會(huì)自動(dòng)查詢和推送相關(guān)知識(shí)及相關(guān)專(zhuān)利。如設(shè)計(jì)電動(dòng)牙刷時(shí),設(shè)計(jì)人員想要查閱能夠達(dá)到防水這一功效的相關(guān)知識(shí),只需要在系統(tǒng)創(chuàng)新知識(shí)推薦板塊的文本框中輸入“防水”,并點(diǎn)擊查詢,系統(tǒng)即會(huì)自動(dòng)推送實(shí)現(xiàn)防水功效的相關(guān)結(jié)構(gòu)或原理,包括硅膠密封圈、防水槽、防水電池、防水介質(zhì)等內(nèi)容。創(chuàng)新知識(shí)推送界面如圖10所示。

▲圖10 創(chuàng)新知識(shí)推送界面

6 結(jié)束語(yǔ)

筆者根據(jù)專(zhuān)利文獻(xiàn)的特點(diǎn),構(gòu)建了專(zhuān)利知識(shí)結(jié)構(gòu)模型,將專(zhuān)利知識(shí)提取的任務(wù)分為實(shí)體識(shí)別和實(shí)體關(guān)系抽取,并且基于深度學(xué)習(xí)的方法進(jìn)行了抽取,并構(gòu)建了產(chǎn)品專(zhuān)利知識(shí)圖譜,設(shè)計(jì)了輔助產(chǎn)品創(chuàng)新設(shè)計(jì)的專(zhuān)利知識(shí)服務(wù)系統(tǒng),取得了不錯(cuò)的效果。當(dāng)然,筆者使用的方法仍有許多不足之處,如實(shí)體標(biāo)注標(biāo)準(zhǔn)屬于最簡(jiǎn)單的標(biāo)注標(biāo)準(zhǔn),可以使用劃分更細(xì)的標(biāo)注標(biāo)準(zhǔn)來(lái)提升識(shí)別結(jié)果的準(zhǔn)確率。另外,實(shí)體識(shí)別和實(shí)體關(guān)系抽取是分開(kāi)的,屬于流水線式工作,實(shí)體識(shí)別中的誤差可能會(huì)傳入實(shí)體關(guān)系抽取,從而使抽取結(jié)果的整體誤差增大,后期將考慮采用聯(lián)合抽取的方法進(jìn)行實(shí)體識(shí)別和實(shí)體關(guān)系抽取。

猜你喜歡
原理實(shí)體向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
了解咳嗽祛痰原理,有效維護(hù)健康
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
平均場(chǎng)正倒向隨機(jī)控制系統(tǒng)的最大值原理
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
化學(xué)反應(yīng)原理全解讀
通信原理教學(xué)改革探索