張琳娜, 魏 娟, 朱佳軒
(南京信息工程大學(xué) 管理工程學(xué)院, 南京 210044)
知識(shí)產(chǎn)權(quán)是自然人或法人對(duì)其智力活動(dòng)創(chuàng)造的成果依法享有的權(quán)利,包括專(zhuān)利權(quán)、商標(biāo)權(quán)、著作權(quán)等。知識(shí)產(chǎn)權(quán)信息服務(wù)是指信息資源服務(wù)、專(zhuān)利信息檢索服務(wù)、專(zhuān)利信息分析服務(wù)、知識(shí)產(chǎn)權(quán)數(shù)據(jù)庫(kù)或信息系統(tǒng)建設(shè)服務(wù)等多種面向知識(shí)產(chǎn)權(quán)的信息服務(wù)集合[1]。伴隨著互聯(lián)網(wǎng)的普及,知識(shí)經(jīng)濟(jì)、創(chuàng)新型經(jīng)濟(jì)和經(jīng)濟(jì)全球化快速發(fā)展,知識(shí)產(chǎn)權(quán)的國(guó)際化也日益加深。即使自改革開(kāi)放以來(lái),中國(guó)先后制定并頒布了《商標(biāo)法》《專(zhuān)利法》《著作權(quán)法》等相關(guān)法律制度和規(guī)范,逐步建立起相對(duì)完善的知識(shí)產(chǎn)權(quán)法律體系[2],但距離知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)還有些距離。
因此選擇使用主題分析法對(duì)知識(shí)產(chǎn)權(quán)信息服務(wù)領(lǐng)域的研究成果進(jìn)行分析,利用隱含狄利克雷分布(LDA)模型提取研究主題,提煉總結(jié)該領(lǐng)域的研究現(xiàn)狀,為知識(shí)產(chǎn)權(quán)信息服務(wù)增加服務(wù)主體、拓寬服務(wù)范圍和深化服務(wù)內(nèi)容等方面提供參考。
知識(shí)產(chǎn)權(quán)服務(wù)工作在創(chuàng)新驅(qū)動(dòng)戰(zhàn)略實(shí)施中發(fā)揮重要的支持作用。與此同時(shí),知識(shí)產(chǎn)權(quán)信息服務(wù)研究逐漸受關(guān)注,成果數(shù)量增多、主題呈現(xiàn)多樣性。研究?jī)?nèi)容可以分為服務(wù)模式、服務(wù)內(nèi)容、服務(wù)對(duì)象、服務(wù)主體、服務(wù)能力和服務(wù)效果等方面。王麗萍等對(duì)不同層次的專(zhuān)利信息服務(wù)模式展開(kāi)研究,重點(diǎn)探索嵌入科研過(guò)程的高端專(zhuān)利信息服務(wù)模式[3]。吳紅等以山東理工大學(xué)知識(shí)產(chǎn)權(quán)信息服務(wù)中心專(zhuān)利服務(wù)實(shí)踐為例,從3個(gè)維度探討高校圖書(shū)館的專(zhuān)利服務(wù)內(nèi)容以及服務(wù)模式[4]。徐晨琛對(duì)服務(wù)內(nèi)容進(jìn)行調(diào)查統(tǒng)計(jì)和分析,發(fā)現(xiàn)現(xiàn)存的問(wèn)題,并提出相應(yīng)建議和對(duì)策[5]。馬慧萍從服務(wù)方式、服務(wù)內(nèi)容等方面對(duì)42家“雙一流”高校圖書(shū)館專(zhuān)利信息服務(wù)現(xiàn)狀進(jìn)行調(diào)查與分析[6]。劉艷麗等通過(guò)調(diào)研信息需求,從服務(wù)內(nèi)容、服務(wù)形式等對(duì)信息服務(wù)進(jìn)行設(shè)計(jì),形成嵌入科研管理過(guò)程的信息服務(wù)模式[7]。冉從敬等從服務(wù)效果和內(nèi)容角度分析存在的問(wèn)題,以知識(shí)產(chǎn)權(quán)生態(tài)鏈為邏輯支撐,為建設(shè)高校國(guó)家知識(shí)產(chǎn)權(quán)信息服務(wù)中心提供參考路徑[8]。慎金花等從服務(wù)對(duì)象、服務(wù)內(nèi)容、服務(wù)方式等角度分析高校圖書(shū)館信息服務(wù)的趨勢(shì)[9]。張善杰等從服務(wù)內(nèi)容、服務(wù)主體和服務(wù)能力等方面揭示產(chǎn)業(yè)技術(shù)創(chuàng)新對(duì)高校圖書(shū)館專(zhuān)利信息服務(wù)的需求[10]。周靜等對(duì)中國(guó)81所擁有教育部科技查新站且開(kāi)展知識(shí)產(chǎn)權(quán)信息服務(wù)的高校圖書(shū)館的知識(shí)產(chǎn)權(quán)信息服務(wù)內(nèi)容、服務(wù)方式、服務(wù)效果等進(jìn)行分析,并提出相應(yīng)的建議[11]。
以往研究大多數(shù)是基于知識(shí)產(chǎn)權(quán)信息服務(wù)的部分維度或特定的服務(wù)主體(如高校圖書(shū)館),缺少對(duì)該領(lǐng)域研究?jī)?nèi)容的概括和梳理。本文基于LDA的主題建模是一種無(wú)監(jiān)督的文本挖掘方法,被廣泛應(yīng)用于多個(gè)領(lǐng)域。通過(guò)使用LDA主題模型對(duì)知識(shí)產(chǎn)權(quán)信息服務(wù)相關(guān)研究成果進(jìn)行主題識(shí)別和挖掘,以期為該領(lǐng)域后續(xù)的研究提供借鑒。
研究分為4個(gè)階段:①確定數(shù)據(jù)來(lái)源,收集數(shù)據(jù)。從CNKI數(shù)據(jù)庫(kù)中檢索與知識(shí)產(chǎn)權(quán)信息服務(wù)相關(guān)的論文,導(dǎo)出論文題目、摘要和關(guān)鍵詞等信息。②對(duì)保存的文本數(shù)據(jù)進(jìn)行預(yù)處理,包括去除標(biāo)點(diǎn)符號(hào)、剔除數(shù)字和過(guò)濾停用詞等。③進(jìn)行主題識(shí)別與抽取。選擇按時(shí)間先離散的方式,將預(yù)處理后的數(shù)據(jù)分為3個(gè)時(shí)間窗,即時(shí)間窗1(2006—2010年)、時(shí)間窗2(2011—2015年)和時(shí)間窗3(2016—2020年),采用LDA模型對(duì)不同時(shí)間窗口下的數(shù)據(jù)進(jìn)行主題建模,計(jì)算困惑度,并據(jù)此確定最優(yōu)主題數(shù)。根據(jù)最優(yōu)主題數(shù),利用 LDA模型抽取出不同時(shí)間窗口下知識(shí)產(chǎn)權(quán)信息服務(wù)研究成果的主題,并對(duì)主題進(jìn)行過(guò)濾。④根據(jù)文檔-主題概率分布和主題-詞項(xiàng)概率分布結(jié)果,進(jìn)行主題演化分析。
以CNKI數(shù)據(jù)庫(kù)收錄的文獻(xiàn)為數(shù)據(jù)來(lái)源,以關(guān)鍵詞=“(知識(shí)產(chǎn)權(quán)+著作權(quán)+商標(biāo)權(quán)+專(zhuān)利權(quán)) * 信息服務(wù)”為檢索表達(dá)式,匹配方式為“精確”,并將文獻(xiàn)發(fā)表時(shí)間限定為2006—2020年,共檢索到18 607條學(xué)術(shù)論文,手工去除字段不完整和非學(xué)術(shù)研究成果,共保留11 986條。將文獻(xiàn)的“題名”“關(guān)鍵詞”“摘要”等信息保存為.txt文件,并借助Python的pandas模塊將文本文件導(dǎo)入Excel表格中。
使用Python對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括將獲取的摘要進(jìn)行格式轉(zhuǎn)換、過(guò)濾停用詞、詞干提取、構(gòu)建詞袋等處理,能夠有效提高主題識(shí)別的效率和準(zhǔn)確度。采用jieba分詞模塊對(duì)預(yù)處理后的文本進(jìn)行分詞處理。
LDA主題聚類(lèi)模型可以將每篇文檔的主題以概率分布的形式給出,從而通過(guò)分析一些文檔抽取出主題,根據(jù)主題進(jìn)行主題聚類(lèi)或文本分類(lèi)。同時(shí),它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒(méi)有先后順序的關(guān)系。此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。LDA主題模型就是根據(jù)給定的一篇文檔,推測(cè)其主題分布。
在進(jìn)行LDA主題聚類(lèi)之前,引入TF-IDF分析來(lái)提取文本特征關(guān)鍵詞。TF-IDF模型是一種詞頻模式,TF表示一個(gè)詞在一個(gè)特定文檔中的出現(xiàn)頻率,IDF表示出現(xiàn)了某個(gè)詞的文檔數(shù)量的倒數(shù)。假設(shè)一個(gè)大規(guī)模的文本數(shù)據(jù)中,共有M個(gè)文檔,其中,有m(t)個(gè)文檔包含了詞語(yǔ)t,在文檔d中一共有N(d)個(gè)詞,而詞語(yǔ)t出現(xiàn)了n(t,d)次,那么,詞語(yǔ)t在文檔d中的“關(guān)鍵詞得分”為
tf-idf(t,d)=tf(t,d)×idf(t)=
(1)
式中,m(t)+1是為了避免有部分新的詞沒(méi)有出現(xiàn)過(guò)而導(dǎo)致分母為0的情況出現(xiàn)。
在一個(gè)文檔中,得分最高的詞就是該文檔的關(guān)鍵詞,表示這些詞語(yǔ)在目標(biāo)文檔中出現(xiàn)次數(shù)多,在其他文檔中出現(xiàn)次數(shù)少。為提高主題識(shí)別的準(zhǔn)確性,對(duì)預(yù)處理完后的文本數(shù)據(jù)進(jìn)行困惑度計(jì)算,計(jì)算方法為
(2)
采用余弦相似度方法計(jì)算各時(shí)間窗內(nèi)數(shù)據(jù)之間的相似度,主題A與主題B的余弦相似度計(jì)算公式為
(3)
式中:Ai、Bi分別代表兩個(gè)主題向量A和B的分量;相似度S的取值范圍為[0,1],據(jù)此可以得到不同時(shí)間窗內(nèi)數(shù)據(jù)之間主題的關(guān)聯(lián)性。
通過(guò)編寫(xiě)Python代碼計(jì)算困惑度,完成語(yǔ)料訓(xùn)練后,可以得到3個(gè)時(shí)間窗的困惑度,如圖1所示。
以圖1(a)為例,當(dāng)主題數(shù)=7時(shí),困惑度較低,文本聚類(lèi)效果較好,故以主題數(shù)=7對(duì)這一時(shí)間窗內(nèi)文本做LDA主題聚類(lèi)。另外,根據(jù)肘部判別法確定圖1(b)、圖1(c)的最佳主題數(shù),分別為8和6。
確定最佳主題數(shù)后,據(jù)此對(duì)3組文本數(shù)據(jù)劃分主題分布,每篇文檔按概率由大到小的順序輸出主題及各主題出現(xiàn)概率最高的10個(gè)主題詞,并進(jìn)行人工標(biāo)識(shí),見(jiàn)表1。
圖1 3個(gè)時(shí)間窗的困惑度
表1 3個(gè)時(shí)間窗“主題-詞項(xiàng)”分布
3.1.1 時(shí)間窗1的主題分布
2006—2010年,主題1是關(guān)于檔案和信息化,涉及專(zhuān)利技術(shù)和圖書(shū)館;主題2的主要內(nèi)容為高校圖書(shū)館數(shù)據(jù)庫(kù)建設(shè),主要涉及標(biāo)準(zhǔn)化和著作權(quán)法;主題3則是關(guān)于知識(shí)產(chǎn)權(quán)服務(wù),涉及個(gè)性化和版權(quán),圖書(shū)館知識(shí)產(chǎn)權(quán)服務(wù)和專(zhuān)利信息服務(wù);主題4的主要內(nèi)容為知識(shí)產(chǎn)權(quán)管理,涉及信息產(chǎn)業(yè)運(yùn)營(yíng)、創(chuàng)新和知識(shí)產(chǎn)權(quán)信息化服務(wù)體系;主題5是關(guān)于圖書(shū)館信息服務(wù),涉及著作權(quán)、數(shù)字化和咨詢服務(wù);主題6的主要內(nèi)容為專(zhuān)利管理,包括技術(shù)創(chuàng)新、專(zhuān)利服務(wù)等;主題7的主要內(nèi)容為軟件產(chǎn)業(yè)和信息服務(wù)業(yè)創(chuàng)新,涉及軟件產(chǎn)業(yè)人才、政策和文化等。
由此可見(jiàn),2006—2010年,知識(shí)產(chǎn)權(quán)信息服務(wù)的服務(wù)范圍以專(zhuān)利和著作權(quán)為主,其次是檔案、軟件和咨詢服務(wù);服務(wù)主體以圖書(shū)館為主,出現(xiàn)專(zhuān)利局;服務(wù)模式主要為信息化和數(shù)字化,其次是個(gè)性化和標(biāo)準(zhǔn)化。
3.1.2 時(shí)間窗2的主題分布
2011—2015年,主題1的主要內(nèi)容為圖書(shū)館專(zhuān)利服務(wù),尤其高校圖書(shū)館提供個(gè)性化、專(zhuān)業(yè)化的專(zhuān)利服務(wù);主題2是關(guān)于專(zhuān)利信息資源共享,互聯(lián)網(wǎng)為政府或圖書(shū)館提供專(zhuān)利信息資源共享提供平臺(tái)和途徑;主題3的主要內(nèi)容是知識(shí)產(chǎn)權(quán)咨詢服務(wù),咨詢服務(wù)機(jī)構(gòu),如中國(guó)科學(xué)院、圖書(shū)館提供信息咨詢、科技查詢等服務(wù);主題4的主要內(nèi)容是數(shù)字化服務(wù),涉及圖書(shū)館的信息資源數(shù)字化、數(shù)據(jù)庫(kù)建設(shè)、數(shù)字圖書(shū)館的知識(shí)產(chǎn)權(quán)等;主題5的主要內(nèi)容為專(zhuān)利服務(wù),制定政策、推進(jìn)創(chuàng)新,完善專(zhuān)利人才服務(wù)體系;主題6是關(guān)于新興產(chǎn)業(yè)專(zhuān)利申請(qǐng);主題7的主要內(nèi)容為檔案管理,檔案館運(yùn)用信息技術(shù)、管理系統(tǒng)等手段高效地管理檔案資料;主題8的主要內(nèi)容為著作權(quán)服務(wù),涉及圖書(shū)館信息服務(wù)中的著作權(quán)和著作權(quán)法。
由此可見(jiàn),2011—2015年,知識(shí)產(chǎn)權(quán)信息服務(wù)的服務(wù)范圍以專(zhuān)利為主,其次為著作權(quán),再次為軟件;服務(wù)內(nèi)容有咨詢服務(wù)和查新;服務(wù)主體以圖書(shū)館為主,檔案館也可以提供知識(shí)產(chǎn)權(quán)服務(wù);服務(wù)模式主要為信息化、數(shù)字化和個(gè)性化。
3.1.3 時(shí)間窗3的主題分布
2016—2020年,主題1的主要內(nèi)容為專(zhuān)利創(chuàng)新服務(wù),以專(zhuān)利信息資源共享為基礎(chǔ),把專(zhuān)利嵌入到基礎(chǔ)設(shè)施建設(shè)、技術(shù)創(chuàng)新等,促進(jìn)資源配置;主題2主要涉及網(wǎng)絡(luò)查新服務(wù),規(guī)范查新工作,個(gè)性化查新模式,有助于提高查新質(zhì)量;主題3的主要內(nèi)容為圖書(shū)館數(shù)字化服務(wù),圍繞服務(wù)的數(shù)字化、標(biāo)準(zhǔn)化和專(zhuān)利可視化;主題4的主要內(nèi)容為高校圖書(shū)館專(zhuān)利服務(wù);主題5是關(guān)于軟件專(zhuān)利服務(wù);主題6的主要內(nèi)容為著作權(quán)專(zhuān)利申請(qǐng)。
由此可見(jiàn),2016—2020年,知識(shí)產(chǎn)權(quán)信息服務(wù)的服務(wù)范圍依然以專(zhuān)利為主,其次為著作權(quán)和軟件;服務(wù)內(nèi)容有查新服務(wù);服務(wù)主體以圖書(shū)館為主;服務(wù)模式除了信息化、個(gè)性化,還出現(xiàn)了可視化。
總體來(lái)看,2006—2020年內(nèi)關(guān)于知識(shí)產(chǎn)權(quán)信息服務(wù)的研究中,服務(wù)范圍以專(zhuān)利、著作權(quán)、軟件為主;服務(wù)內(nèi)容主要有咨詢服務(wù)和查新服務(wù),2011—2015年出現(xiàn)查新服務(wù),2016—2020年咨詢服務(wù)已不在高頻詞中;服務(wù)主體以圖書(shū)館為主,2006—2010年出現(xiàn)專(zhuān)利局,2011—2015年出現(xiàn)檔案館;服務(wù)模式以信息化、數(shù)字化、個(gè)性化為主,2016—2020年出現(xiàn)可視化。
主題演化體現(xiàn)在同一主題的關(guān)鍵詞隨時(shí)間的變化,而相鄰時(shí)間窗中具有演化關(guān)系的主題在內(nèi)容上會(huì)表現(xiàn)出一定的相似性。因此,可以通過(guò)計(jì)算相鄰時(shí)間窗中主題內(nèi)容的相似性來(lái)確定主題之間的聯(lián)系,以便進(jìn)行主題演化分析。
計(jì)算相鄰時(shí)間窗內(nèi)的主間相似度后,結(jié)合閾值(根據(jù)相似度位于前25%的值確定)識(shí)別關(guān)聯(lián)主題,繪制主題演化路徑,如圖2所示。
圖2 主題演化路徑
從時(shí)間窗1至?xí)r間窗2的演化路徑可以發(fā)現(xiàn),存在主題分裂、主題合并、主題繼承、主題新生和主題消亡。部分主題的演化路徑如下:
1)主題分裂。時(shí)間窗1的專(zhuān)利管理分裂成時(shí)間窗2的圖書(shū)館專(zhuān)利服務(wù)和專(zhuān)利服務(wù),時(shí)間窗2的圖書(shū)館專(zhuān)利服務(wù)又分裂成時(shí)間窗3的網(wǎng)絡(luò)查新服務(wù)、圖書(shū)館數(shù)字化服務(wù)和高校圖書(shū)館專(zhuān)利信息服務(wù),結(jié)合主題挖掘結(jié)果中的主題詞,時(shí)間窗1內(nèi)關(guān)于專(zhuān)利管理的研究偏向技術(shù)和政策研究。企業(yè)和公眾提出了專(zhuān)利信息服務(wù)需求,但知識(shí)產(chǎn)權(quán)服務(wù)類(lèi)系統(tǒng)功能相對(duì)匱乏,急需拓展系統(tǒng)的服務(wù)功能和內(nèi)容,集成各類(lèi)資源,建立知識(shí)產(chǎn)權(quán)信息快速處理機(jī)制,強(qiáng)化專(zhuān)利信息服務(wù)體系建設(shè),提升專(zhuān)利管理能力。時(shí)間窗2內(nèi)則偏向服務(wù)內(nèi)容和體系建設(shè)。政府部門(mén)、社會(huì)機(jī)構(gòu)、高校、知識(shí)產(chǎn)權(quán)服務(wù)機(jī)構(gòu)共同參與、協(xié)調(diào)聯(lián)動(dòng),提供多層次、規(guī)范的專(zhuān)利信息服務(wù),形成知識(shí)產(chǎn)權(quán)信息服務(wù)業(yè)發(fā)展的政策體系。圖書(shū)館推進(jìn)信息資源數(shù)字化建設(shè),提高專(zhuān)利信息服務(wù)能力。時(shí)間窗3則偏向服務(wù)模式創(chuàng)新。創(chuàng)新、重組、開(kāi)拓知識(shí)產(chǎn)權(quán)信息業(yè)務(wù),尤其構(gòu)建大數(shù)據(jù)環(huán)境下新型服務(wù)體系,重新定義參與者的職責(zé),構(gòu)建服務(wù)模式框架和平臺(tái)。
2)主題合并。時(shí)間窗2的圖書(shū)館專(zhuān)利服務(wù)和數(shù)字化服務(wù)合并成時(shí)間窗3的圖書(shū)館數(shù)字化服務(wù)。從信息時(shí)代到數(shù)智時(shí)代,以大數(shù)據(jù)、人工智能技術(shù)為基礎(chǔ),圖書(shū)館充分挖掘用戶需求,推進(jìn)數(shù)據(jù)驅(qū)動(dòng)的專(zhuān)利信息精準(zhǔn)服務(wù),利用可視化技術(shù),豐富專(zhuān)利精準(zhǔn)服務(wù)內(nèi)容,提升專(zhuān)利精準(zhǔn)服務(wù)效果。
3)主題繼承。時(shí)間窗2的專(zhuān)利服務(wù)由時(shí)間窗3的軟件專(zhuān)利服務(wù)繼承,關(guān)于專(zhuān)利服務(wù)的研究具體到軟件行業(yè)。時(shí)間窗2的新興產(chǎn)業(yè)專(zhuān)利申請(qǐng)由時(shí)間窗3的著作權(quán)專(zhuān)利申請(qǐng)繼承,關(guān)于專(zhuān)利申請(qǐng)的研究具體到著作權(quán)專(zhuān)利。研究?jī)?nèi)容隨時(shí)間推移逐漸具體、細(xì)化。另外,從時(shí)間窗1的圖書(shū)館信息服務(wù)到時(shí)間窗2的知識(shí)產(chǎn)權(quán)咨詢服務(wù)到時(shí)間窗3的網(wǎng)絡(luò)查新服務(wù)的演化路徑可以看出咨詢服務(wù)和查新服務(wù)的繼承演化。咨詢和查新服務(wù)作為知識(shí)產(chǎn)權(quán)信息服務(wù)中較為基礎(chǔ)的服務(wù)內(nèi)容,在研究期間內(nèi)一直保持較高熱度。地方各局舉辦的知識(shí)產(chǎn)權(quán)咨詢或查新服務(wù)活動(dòng),如2017年蘇州張家港市舉辦知識(shí)產(chǎn)權(quán)日廣場(chǎng)咨詢服務(wù)活動(dòng),也表明了相關(guān)研究受到的關(guān)注較多。從時(shí)間窗1的軟件和信息服務(wù)業(yè)創(chuàng)新到時(shí)間窗2的數(shù)字化服務(wù)到時(shí)間窗3的軟件專(zhuān)利服務(wù)的演化路徑可以看出關(guān)于軟件研究的繼承演化。軟件專(zhuān)利和盜版問(wèn)題一直受到較高的關(guān)注。近年來(lái),中國(guó)知識(shí)產(chǎn)權(quán)保護(hù)工作向全面從嚴(yán)轉(zhuǎn)變,讓盜版軟件的生存空間越來(lái)越小,加之政策手段激勵(lì)正版軟件的創(chuàng)造,有效優(yōu)化了軟件市場(chǎng)的供給側(cè)。從時(shí)間窗1的圖書(shū)館信息服務(wù)到時(shí)間窗2的數(shù)字化服務(wù)到時(shí)間窗3的圖書(shū)館數(shù)字化服務(wù)的演化路徑可以看出關(guān)于數(shù)字化研究的繼承演化,并發(fā)展出可視化研究。數(shù)據(jù)建設(shè)是知識(shí)產(chǎn)權(quán)信息化建設(shè)“十一五”規(guī)劃中的重點(diǎn)建設(shè)任務(wù)。截至2012年底,全國(guó)所有省級(jí)數(shù)字圖書(shū)館和部分市級(jí)數(shù)字圖書(shū)館的硬件平臺(tái)搭建工作完成,2013—2015年進(jìn)入全面推廣階段,知識(shí)產(chǎn)權(quán)信息化、智能化基礎(chǔ)設(shè)施建設(shè)扎實(shí)推進(jìn)。
4)主題新生和主題消亡。時(shí)間窗1的檔案信息化與時(shí)間窗2的檔案管理都是消亡主題,說(shuō)明有關(guān)檔案管理中的知識(shí)產(chǎn)權(quán)信息服務(wù)并沒(méi)有得到持續(xù)的關(guān)注與研究。隨著檔案工作的有序開(kāi)展,檔案管理存在的諸多問(wèn)題逐漸顯露。例如高??萍紮n案管理工作中,知識(shí)產(chǎn)權(quán)保護(hù)相對(duì)滯后和薄弱影響了科技人員積極性,制度設(shè)計(jì)本身存在的不完善和操作性較弱導(dǎo)致部門(mén)間職責(zé)不清和落實(shí)不力[12]。此外,社會(huì)認(rèn)知度較低、服務(wù)創(chuàng)新力較弱、內(nèi)容質(zhì)量較差、用戶活躍度較低等問(wèn)題也都在一定程度上限制了檔案工作的進(jìn)行[13],導(dǎo)致相關(guān)研究熱度較低,主題出現(xiàn)消亡現(xiàn)象。
通過(guò)使用LDA主題模型對(duì)近15年來(lái)知識(shí)產(chǎn)權(quán)信息服務(wù)相關(guān)研究論文進(jìn)行主題演化分析,明確不同時(shí)期的研究方向和相關(guān)領(lǐng)域的研究變化,結(jié)論如下:
1)主題聚類(lèi)挖掘。2006—2010年的高頻主題有檔案信息化、圖書(shū)館數(shù)據(jù)庫(kù)建設(shè)、知識(shí)產(chǎn)權(quán)服務(wù)、知識(shí)產(chǎn)權(quán)管理、圖書(shū)館信息服務(wù)、專(zhuān)利管理、軟件和信息服務(wù)業(yè)創(chuàng)新;2011—2015年的高頻主題有圖書(shū)館專(zhuān)利服務(wù)、專(zhuān)利信息資源共享、知識(shí)產(chǎn)權(quán)咨詢服務(wù)、數(shù)字化服務(wù)、專(zhuān)利服務(wù)、新興產(chǎn)業(yè)專(zhuān)利申請(qǐng)、檔案管理和著作權(quán)服務(wù);2016—2020年的高頻主題有專(zhuān)利創(chuàng)新服務(wù)、網(wǎng)絡(luò)查新服務(wù)、圖書(shū)館數(shù)字化服務(wù)、高校圖書(shū)館專(zhuān)利信息服務(wù)、軟件專(zhuān)利服務(wù)和著作權(quán)專(zhuān)利申請(qǐng)。
2)主題內(nèi)容演化。知識(shí)產(chǎn)權(quán)信息服務(wù)的服務(wù)內(nèi)容、服務(wù)范圍和服務(wù)模式都依賴相關(guān)政策支持出現(xiàn)一定程度的繼承演化,比如咨詢和查新服務(wù)、軟件知識(shí)產(chǎn)權(quán)、數(shù)字化服務(wù)。而檔案管理方面的知識(shí)產(chǎn)權(quán)信息服務(wù)卻由于存在知識(shí)產(chǎn)權(quán)、制度、社會(huì)認(rèn)知度等多方面的問(wèn)題限制了檔案工作的進(jìn)行,導(dǎo)致出現(xiàn)了消亡現(xiàn)象,沒(méi)有得到持續(xù)的關(guān)注與研究。
研究中采用的LDA模型能夠?qū)ΜF(xiàn)有研究成果進(jìn)行主題提煉和挖掘,以便于研究者了解某一領(lǐng)域的研究現(xiàn)狀和主要熱點(diǎn)。但是,研究中也存在一些局限:主題含義的賦予還有待完善;設(shè)定LDA模型的超參數(shù)時(shí)存在一些隨機(jī)性誤差;選擇文獻(xiàn)摘要作為主題挖掘的文本數(shù)據(jù),并不能完全展現(xiàn)有知識(shí)產(chǎn)權(quán)信息服務(wù)的所有研究。