国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校創(chuàng)新合作推薦研究

2023-03-01 01:57:02閆曉慧馬博聞鄧三鴻王蔚萍
現(xiàn)代情報(bào) 2023年3期
關(guān)鍵詞:企校專利論文

閆曉慧 馬博聞 鄧三鴻 王蔚萍

(1.南京大學(xué)信息管理學(xué)院,江蘇 南京 210023;2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023;3.江蘇螞蟻云數(shù)據(jù)技術(shù)有限公司,江蘇 南京 210008)

在全球新一輪的科技革命中,科技創(chuàng)新是引領(lǐng)發(fā)展的第一動(dòng)力,科技產(chǎn)業(yè)逐漸成為各個(gè)國家(地區(qū))的發(fā)展引擎[1]。2022年兩會(huì)通過的政府工作報(bào)告[2]強(qiáng)調(diào),要促進(jìn)科技創(chuàng)新,強(qiáng)化企業(yè)創(chuàng)新的主體地位,深入實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,依靠創(chuàng)新提高發(fā)展質(zhì)量。雖然我國目前已經(jīng)成為世界第二大經(jīng)濟(jì)體,但是其創(chuàng)新體系仍存在一定的缺陷[3]。同時(shí),高校是技術(shù)創(chuàng)新和科技創(chuàng)新的源泉,深入企業(yè)和高校合作,對(duì)于應(yīng)對(duì)當(dāng)前復(fù)雜的網(wǎng)絡(luò)化創(chuàng)新問題具有重要意義,對(duì)于科學(xué)發(fā)展也具有極其深遠(yuǎn)的實(shí)踐意義[4]。

持續(xù)推進(jìn)科技創(chuàng)新,深化企校合作,首要的任務(wù)就是為企業(yè)尋找最佳的高校合作伙伴,來促進(jìn)科技成果轉(zhuǎn)移轉(zhuǎn)化。企業(yè)尋求高校合作有助于突破供給約束堵點(diǎn),實(shí)現(xiàn)企校共贏[5]。專利和論文是科技創(chuàng)新的主要表現(xiàn)形式,也是發(fā)明創(chuàng)新的主要成果,對(duì)專利和論文進(jìn)行分析可以較好地反映具體產(chǎn)業(yè)的技術(shù)程度。如何通過專利和論文尋找恰當(dāng)?shù)暮献鳈C(jī)構(gòu),成為當(dāng)前科學(xué)研究中的又一重要課題。

1 文獻(xiàn)回顧

企業(yè)和高校等機(jī)構(gòu)合作可以促進(jìn)科技成果快速轉(zhuǎn)化為技術(shù),市場(chǎng)需求通過企業(yè)傳遞到高校等研究機(jī)構(gòu)給科研創(chuàng)新方向做指導(dǎo)。到目前為止,國內(nèi)外對(duì)于企業(yè)和高校之間的合作研究已經(jīng)取得了較為豐碩的成果。綜合而言,當(dāng)前國內(nèi)外學(xué)者針對(duì)企業(yè)和高校等機(jī)構(gòu)間的合作研究主要集中在3個(gè)方面:其一是對(duì)企業(yè)和高校等機(jī)構(gòu)之間合作動(dòng)機(jī)的研究。產(chǎn)學(xué)研機(jī)構(gòu)合作有助于實(shí)現(xiàn)突破式創(chuàng)新[6],企業(yè)和高校等機(jī)構(gòu)之間的合作動(dòng)機(jī)分為資助動(dòng)機(jī)、學(xué)習(xí)動(dòng)機(jī)和使命動(dòng)機(jī)3種[7]。企業(yè)通過和高校等機(jī)構(gòu)合作能夠降低運(yùn)行成本、風(fēng)險(xiǎn)以及與生產(chǎn)技術(shù)相關(guān)的多種不確定性[8],并且其自身分擔(dān)成本和風(fēng)險(xiǎn)的能力對(duì)參與合作的意愿具有顯著影響[9]。企業(yè)和高校之間的專利合作有利于促進(jìn)經(jīng)濟(jì)發(fā)展,并且有必要進(jìn)一步提升高校在該合作中的參與度[10]。其二是關(guān)于企業(yè)和高校合作中的具體問題研究。機(jī)構(gòu)合作對(duì)于企業(yè)、高校和科研機(jī)構(gòu)三方都會(huì)帶來積極影響[11],協(xié)同創(chuàng)新過程中涉及的指標(biāo)有助于產(chǎn)學(xué)研合作管理[12],機(jī)構(gòu)之間的地理距離對(duì)合作績效有很重要的影響[13],產(chǎn)學(xué)研合作網(wǎng)絡(luò)中的平均路徑長度會(huì)影響企業(yè)的創(chuàng)新[14]。政府資助對(duì)于企業(yè)和高校之間的合作效率存在著顯著的抑制作用[15],SE-SBM模型常用來進(jìn)行產(chǎn)學(xué)研合作效率的演化研究[16]。專利和新產(chǎn)品是機(jī)構(gòu)合作相關(guān)研究中常采用的創(chuàng)新產(chǎn)出指標(biāo)[17],從論文—專利角度切入產(chǎn)學(xué)研合作網(wǎng)絡(luò)可探索機(jī)構(gòu)潛在合作機(jī)會(huì)[18]。其三是對(duì)企業(yè)和高校等機(jī)構(gòu)合作整體研究。大學(xué)、產(chǎn)業(yè)、政府、公眾與公民社會(huì)、自然環(huán)境五者之間的相互作用關(guān)系被稱為五螺旋模型[19]。具體研究中,可以從大學(xué)角度出發(fā),對(duì)比產(chǎn)學(xué)研創(chuàng)新合作的模式[20],Agrawal A K[21]總結(jié)了企業(yè)特征、大學(xué)特征、知識(shí)溢出地理特征和知識(shí)轉(zhuǎn)移渠道等方面的相關(guān)研究。此外,中國[22]、中美兩國[3]、斯洛文尼亞共和國[23]、日本[24]、意大利區(qū)域[25]、金磚五國[26]等國家(地區(qū))級(jí)別的產(chǎn)學(xué)研合作也備受科研人員的關(guān)注。

綜上所述,國內(nèi)外的研究大多基于合作后的機(jī)構(gòu)共現(xiàn)情況進(jìn)行分析,針對(duì)合作前的機(jī)構(gòu)推薦工作的研究較少,并且推薦方法比較單一,涉及的維度也較少。因此,本文從企業(yè)角度入手,分內(nèi)容挖掘和引用基礎(chǔ)兩個(gè)方面來進(jìn)行企校合作機(jī)構(gòu)推薦綜合研究,前者主要用來分析機(jī)構(gòu)的科研重點(diǎn),后者著重表示機(jī)構(gòu)對(duì)前人研究的主動(dòng)選擇性。本研究能夠幫助企業(yè)實(shí)現(xiàn)特定研究領(lǐng)域下的高校合作伙伴尋找,以期為我國企校合作提供參考支持。

2 融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校創(chuàng)新合作推薦模型構(gòu)建

2.1 模型總架構(gòu)

本文構(gòu)建的融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校創(chuàng)新合作推薦模型,首先從德溫特創(chuàng)新索引庫和Web of Science核心合集數(shù)據(jù)庫進(jìn)行專利和論文數(shù)據(jù)收集與預(yù)處理,與此同時(shí),通過專利與論文信息的內(nèi)容挖掘相似度計(jì)算和引用基礎(chǔ)相似度計(jì)算兩個(gè)方面進(jìn)行模型構(gòu)建,其中,基于專利與論文信息的內(nèi)容挖掘相似度計(jì)算部分又分為基于細(xì)分領(lǐng)域的相似度計(jì)算和基于關(guān)鍵詞的相似度計(jì)算兩個(gè)部分,最后進(jìn)行組合推薦。具體的模型構(gòu)建框架如圖1所示。

本模型構(gòu)建的核心部分是企校機(jī)構(gòu)間相似度計(jì)算,這一部分包含著基于細(xì)分領(lǐng)域相似度計(jì)算、基于機(jī)構(gòu)關(guān)鍵詞相似度計(jì)算和基于機(jī)構(gòu)引用基礎(chǔ)相似度計(jì)算3個(gè)部分。本文選用Jaccard相似系數(shù)進(jìn)行3個(gè)部分的相似度計(jì)算,其中關(guān)鍵詞相似度計(jì)算部分,引入TF-IDF算法進(jìn)行權(quán)重分析。3個(gè)部分的相似度計(jì)算完成后,通過專家咨詢法賦予權(quán)重進(jìn)行企校合作機(jī)構(gòu)的綜合推薦研究。

2.2 基于專利與論文信息的細(xì)分領(lǐng)域的相似度計(jì)算

德溫特專利數(shù)據(jù)庫收集的專利文獻(xiàn)信息全面可靠。該數(shù)據(jù)庫在收集到專利數(shù)據(jù)后,經(jīng)過專門的標(biāo)引人員根據(jù)具體的技術(shù)創(chuàng)新按照層級(jí)關(guān)系賦予該數(shù)據(jù)庫專有的分類代碼,又稱德溫特手工代碼,給每一個(gè)專利都賦予不止一個(gè)的分類代碼來體現(xiàn)該專利的核心內(nèi)容和主題。所以,德溫特分類代碼就相當(dāng)于整個(gè)數(shù)據(jù)庫中的“關(guān)鍵詞”,并且,值得注意的是,德溫特分類代碼一經(jīng)標(biāo)注,除非有新的技術(shù)領(lǐng)域或研究方向產(chǎn)生,否則是不會(huì)更改的,這也是該數(shù)據(jù)庫的主要特色之一[27]。WOS數(shù)據(jù)庫依照基本科學(xué)指標(biāo)數(shù)據(jù)庫(Essential Science Indicators,簡(jiǎn)稱ESI)學(xué)科目錄對(duì)收錄文獻(xiàn)進(jìn)行分類,是圍繞基礎(chǔ)研究建立的同行評(píng)議、評(píng)估體系,沒有進(jìn)行分級(jí)設(shè)類,直接按照英文字母A~Z順序進(jìn)行排序,總類目共有251種。很多研究以德溫特分類代碼和科研成果的學(xué)科分類為計(jì)算基礎(chǔ),判斷企業(yè)之間的合作可能性[28-29]。換言之,專利的德溫特分類代碼和論文的Web of Science學(xué)科分類在一定程度上可以說是專利和論文內(nèi)容的總結(jié),在此,本文將德溫特分類代碼和學(xué)科分類代碼合并稱為細(xì)分領(lǐng)域。因此,機(jī)構(gòu)的創(chuàng)新研究重點(diǎn)可以通過其細(xì)分領(lǐng)域進(jìn)行表征。

機(jī)構(gòu)之間相似度的計(jì)算方法比較多,其中,Jaccard相似系數(shù)經(jīng)常用來計(jì)算研究機(jī)構(gòu)之間的相似度,并且Jaccard相似系數(shù)表示的是兩個(gè)機(jī)構(gòu)之間的交集和并集比值,能夠消除兩個(gè)機(jī)構(gòu)之間因體量大小導(dǎo)致的差異[30-31]。因此,本文采用Jaccard相似系數(shù)來計(jì)算機(jī)構(gòu)之間的相似度,具體到計(jì)算企業(yè)和高校之間的專利和論文研究的相似度。

企業(yè)(Enterprises,簡(jiǎn)稱E)和高校(Universities,簡(jiǎn)稱U)之間的Jaccard相似系數(shù)等于兩機(jī)構(gòu)之間的交集大小與并集大小的比值,具體表示見式(1),取值范圍為[0,1]:

(1)

在本研究中,企業(yè)和高校兩機(jī)構(gòu)間基于細(xì)分領(lǐng)域的Jaccard相似系數(shù)Jmc的計(jì)算方法見式(2):

(2)

其中,Jmc表示機(jī)構(gòu)之間的細(xì)分領(lǐng)域的Jaccard相似系數(shù),Emc和Umc分別表示企業(yè)和高校的細(xì)分領(lǐng)域的具體數(shù)量,I(E,U)表示兩個(gè)機(jī)構(gòu)之間的細(xì)分領(lǐng)域的交集,Emc+Umc-I(E,U)表示兩個(gè)機(jī)構(gòu)之間的細(xì)分領(lǐng)域數(shù)量的并集。

2.3 基于專利與論文信息的內(nèi)容關(guān)鍵詞的相似度計(jì)算

通過挖掘?qū)@c論文信息的內(nèi)容研究可用來尋找合作伙伴[32-33]。而專利與論文的內(nèi)容由不同的關(guān)鍵詞構(gòu)成,在具體的計(jì)算中,還需考慮關(guān)鍵詞的權(quán)重。首先,通過Python中Jieba分詞包進(jìn)行分詞;其次,剔除沒有實(shí)際意義的詞,并輔助以人工檢測(cè)進(jìn)行關(guān)鍵詞處理,同時(shí)將同一關(guān)鍵詞的不同形式、相同內(nèi)容的關(guān)鍵詞等進(jìn)行標(biāo)準(zhǔn)化處理;最終,得到每個(gè)機(jī)構(gòu)的關(guān)鍵詞表。

TF-IDF算法是當(dāng)前較為常見的一種計(jì)算集合內(nèi)關(guān)鍵詞權(quán)重的方法,可以用來計(jì)算一個(gè)機(jī)構(gòu)內(nèi)某個(gè)關(guān)鍵詞的權(quán)重。計(jì)算公式見式(3):

(3)

其中,i是機(jī)構(gòu)專利與論文內(nèi)容關(guān)鍵詞的序號(hào),Wti表示關(guān)鍵詞ti的內(nèi)容權(quán)重,tf(ti,d)指關(guān)鍵詞ti在機(jī)構(gòu)專利與論文內(nèi)容關(guān)鍵詞集合中出現(xiàn)的頻次,|D|是一個(gè)機(jī)構(gòu)的專利和論文數(shù),df(ti)為機(jī)構(gòu)專利和論文中包含關(guān)鍵詞ti的專利和論文數(shù)。

根據(jù)TF-IDF算法得出機(jī)構(gòu)專利與論文內(nèi)容關(guān)鍵詞權(quán)重,選定合適數(shù)量的關(guān)鍵詞作為機(jī)構(gòu)專利與論文內(nèi)容的特征詞,最終通過Jaccard相似系數(shù)計(jì)算兩機(jī)構(gòu)之間的關(guān)鍵詞相似度集合Jkw。

2.4 基于專利與論文信息的引用基礎(chǔ)的相似度計(jì)算

專利申請(qǐng)和論文創(chuàng)作前期,研究人員需要對(duì)前人的相關(guān)研究進(jìn)行學(xué)習(xí)和繼承,才能有所突破,得到新的專利或論文成果,引用基礎(chǔ)就是對(duì)前人研究最直接和全面的反映。

同被引和耦合是引用分析中常用的兩種方法,當(dāng)兩個(gè)機(jī)構(gòu)的專利或論文同時(shí)被其他專利或者論文等引用時(shí),機(jī)構(gòu)間存在同被引關(guān)系。兩個(gè)機(jī)構(gòu)的專利或論文同時(shí)引用同一份專利或者論文等的內(nèi)容,這兩個(gè)機(jī)構(gòu)之間的關(guān)系為耦合。兩者的主要區(qū)別在于耦合經(jīng)常被用來探索未來的發(fā)展傾向,同被引則主要用來回顧其具體的基礎(chǔ)情況[34]。引用耦合屬機(jī)構(gòu)的“主動(dòng)”選擇,同被引則屬于機(jī)構(gòu)“被動(dòng)”地選擇。因此,相對(duì)于同被引關(guān)系,本文認(rèn)為,引用基礎(chǔ)耦合更適合于企校機(jī)構(gòu)間相似性的研究。

將機(jī)構(gòu)專利與論文中引用的專利和論文全部抽取出來,構(gòu)建各個(gè)企業(yè)和高校的引用基礎(chǔ)數(shù)據(jù)集,最終通過Jaccard相似系數(shù)計(jì)算企業(yè)和高校之間的引用基礎(chǔ)相似度集合Jcb。

2.5 相似度整合

前文計(jì)算可以得到企校機(jī)構(gòu)間的相似度集合Jmc、Jkw、Jcb。為了更加合理地進(jìn)行模型構(gòu)建,本文采用專家咨詢法將3種相似度以一定的比例組合,得到企業(yè)和高校之間的專利和論文的相似度,整合后見式(4):

Simi=α×Jmc+β×Jkw+γ×Jcb

(4)

其中,Simi表示兩個(gè)機(jī)構(gòu)在某一方面(用i表示)整合后的相似度,i取值為專利(p)、論文(a);Jmc表示基于細(xì)分領(lǐng)域的相似度;Jkw表示基于機(jī)構(gòu)關(guān)鍵詞的相似度;Jcb表示基于機(jī)構(gòu)引用基礎(chǔ)的相似度,α+β+γ=1。

本文邀請(qǐng)5位了解“人工智能”領(lǐng)域的計(jì)量學(xué)專家對(duì)權(quán)重進(jìn)行兩輪的賦值,在少數(shù)服從多數(shù)的指導(dǎo)原則下,取5位專家賦值的平均數(shù),并保留1位小數(shù),最后得到3個(gè)方面的權(quán)重如下:Jmc∶Jkw∶Jcb=0.5∶0.3∶0.2。由此,得到式(5):

Simi=0.5×Jmc+0.3×Jkw+0.2×Jcb

(5)

再次邀請(qǐng)這5位專家,對(duì)專利和論文對(duì)機(jī)構(gòu)相似度的權(quán)重進(jìn)行賦值,秉承求同存異的原則,得到Simp∶Sima=0.6∶0.4。這樣,得到融合專利和論文信息的內(nèi)容挖掘與引用基礎(chǔ)的企校創(chuàng)新合作推薦模型見式(6),最終選擇以相似度排名前五的高校進(jìn)行推薦:

Sim=0.6×Simp+0.4×Sima

(6)

3 實(shí)證研究

3.1 數(shù)據(jù)收集

近年來,人工智能對(duì)社會(huì)和經(jīng)濟(jì)影響日益凸顯。我國自2015年以來,多次將人工智能的發(fā)展和規(guī)劃列入國家政策,各省市積極響應(yīng)中央號(hào)召,推出相應(yīng)的地方發(fā)展規(guī)劃和政策,逐步確立人工智能技術(shù)在我國戰(zhàn)略發(fā)展中的重要性。2022年政府工作報(bào)告中強(qiáng)調(diào),促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展,要壯大人工智能等數(shù)字產(chǎn)業(yè),提升關(guān)鍵軟硬件技術(shù)創(chuàng)新和供給能力。因此,本文選取“人工智能”主題下的專利和論文數(shù)據(jù)進(jìn)行分析。

本文的專利數(shù)據(jù)來源于德溫特創(chuàng)新索引數(shù)據(jù)庫(Derwent Innovations Index)中的專利數(shù)據(jù),論文數(shù)據(jù)來源于Web of Science核心合集數(shù)據(jù)庫。其中,檢索式為“TS=(‘a(chǎn)rtificial intelligence*’ or ‘Depth learning*’ or ‘Natural language processing*’ or ‘Speech Recognition*’ or ‘Computer vision*’ or ‘Gesture control*’ or ‘smart robot*’ or ‘Video recognition*’ or ‘Voice translation*’ or ‘Image Recognition*’ or ‘Machine learning*’)”。為控制成果質(zhì)量,專利只選擇發(fā)明專利,文獻(xiàn)的類型為Article并且只選取SCI和SSCI兩個(gè)數(shù)據(jù)庫。時(shí)間限定為2012年1月1日—2021年12月31日,共收集到117 482條人工智能專利數(shù)據(jù)和153 165篇人工智能論文。

3.2 數(shù)據(jù)預(yù)處理

本文進(jìn)行的是我國企業(yè)和高校機(jī)構(gòu)之間的合作推薦研究,企業(yè)選擇的是由中國科學(xué)院旗下《互聯(lián)網(wǎng)周刊》聯(lián)合eNet研究院研究發(fā)布的“2020人工智能企業(yè)百強(qiáng)”榜單的前50強(qiáng)[35],該單位已經(jīng)連續(xù)發(fā)布了2017—2020年的人工智能企業(yè)百強(qiáng)榜單,具有一定的連續(xù)性和權(quán)威性。高校樣本則選擇我國的985高校,這些高校是我國早期立項(xiàng)的教育領(lǐng)域的重點(diǎn)工程,同科研實(shí)力較強(qiáng)的很多企業(yè)有著比較穩(wěn)定持久的合作關(guān)系[36]。

數(shù)據(jù)預(yù)處理過程共分為三步:第一步,數(shù)據(jù)抽取。將“3.1數(shù)據(jù)收集”部分收集到的專利和論文數(shù)據(jù)逐條編碼,著重抽取出每條數(shù)據(jù)的機(jī)構(gòu)情況。如專利數(shù)據(jù)以“AE”字段為主,論文數(shù)據(jù)選擇“C1”字段中的作者機(jī)構(gòu)。根據(jù)從我國人工智能前50強(qiáng)企業(yè)和985高校的官網(wǎng)上收集其所有名稱,并將所有國內(nèi)機(jī)構(gòu)的數(shù)據(jù)全部抽取出來;第二步,機(jī)構(gòu)數(shù)據(jù)合并。將同一機(jī)構(gòu)的數(shù)據(jù)進(jìn)行合并,并且對(duì)各個(gè)機(jī)構(gòu)進(jìn)行唯一編碼,可得到我國前50強(qiáng)人工智能企業(yè)和高校的專利和論文的數(shù)量情況,具體如表1所示;第三步,數(shù)據(jù)庫建立。將第二部抽取出的不同機(jī)構(gòu)專利和論文數(shù)據(jù)分別建立數(shù)據(jù)庫,再將不同機(jī)構(gòu)的專利或論文數(shù)據(jù)分別根據(jù)“細(xì)分領(lǐng)域”“關(guān)鍵詞”和“引用基礎(chǔ)”3個(gè)方面進(jìn)行數(shù)據(jù)庫建立。

從表1分析,國內(nèi)前50強(qiáng)人工智能企業(yè)申請(qǐng)的專利共有8 899條,占所有專利的7.57%,論文共有19 980篇,占所有論文的13.04%。整體而言,我國人工智能前50強(qiáng)企業(yè)和高校申請(qǐng)的專利和論文的數(shù)量相對(duì)較少。從數(shù)據(jù)來看,企業(yè)申請(qǐng)的專利比高校申請(qǐng)的數(shù)量要多一些,其中,百度公司申請(qǐng)的專利最多,騰訊和平安科技公司緊隨其后,申請(qǐng)專利數(shù)量前四的機(jī)構(gòu)全部為企業(yè)。高校中浙江大學(xué)和清華大學(xué)申請(qǐng)的專利較其他高校多一些。論文成果量最多的機(jī)構(gòu)為清華大學(xué),浙江大學(xué)和上海交通大學(xué)依次位列第二和第三;企業(yè)中阿里巴巴公司的論文發(fā)表量最高。

表1 我國前50強(qiáng)人工智能企業(yè)和高校的專利申請(qǐng)和論文發(fā)表情況

分別對(duì)企校機(jī)構(gòu)之間的合作情況進(jìn)行統(tǒng)計(jì),可得論文中的機(jī)構(gòu)合作較專利多,故不做具體分析,我國前50強(qiáng)人工智能企業(yè)和高校機(jī)構(gòu)間的合作類型及合作次數(shù)如表2所示。

表2中,專利合作分為“企—?!薄捌蟆蟆薄靶!!?種,“企—?!焙献?42次)次數(shù)最多,并且遠(yuǎn)遠(yuǎn)超過“企—企”和“?!!敝g的合作總和。其中,思必馳公司和上海交通大學(xué)之間的專利合作最多,思必馳公司的總部在江蘇蘇州,同上海交通大學(xué)聯(lián)合共建運(yùn)營蘇州交馳人工智能研究院有限公司,全面負(fù)責(zé)智研院的商業(yè)運(yùn)營工作。在前50強(qiáng)人工智能企業(yè)中,一共有7家企業(yè)參與專利合作,騰訊公司是參與專利合作最多的企業(yè)。

表2 前50強(qiáng)人工智能企業(yè)和高校的專利合作情況

3.3 機(jī)構(gòu)間相似度計(jì)算

企校機(jī)構(gòu)之間的相似度包含“細(xì)分領(lǐng)域”“關(guān)鍵詞”和“引用基礎(chǔ)”3個(gè)方面,本文利用“3.2數(shù)據(jù)預(yù)處理”部分建立的數(shù)據(jù)庫,通過式(5)分別計(jì)算企業(yè)和高校機(jī)構(gòu)之間專利和論文Jaccard相似度,具體計(jì)算結(jié)果如表3、表4所示。類型列中的“Jmc”“Jkw”“Jcb”“Simp”和“Sima”分別表示“細(xì)分領(lǐng)域相似度”“關(guān)鍵詞相似度”“引用基礎(chǔ)相似度”“專利信息下的機(jī)構(gòu)相似度”和“論文信息下的機(jī)構(gòu)相似度”。表3、表4中,百度公司和北京大學(xué)兩個(gè)機(jī)構(gòu)之間綜合內(nèi)容挖掘和引用基礎(chǔ)兩個(gè)方面的專利和論文整體相似度分別為4.45%和4.78%。整體分析可以得出,細(xì)分領(lǐng)域相似度對(duì)于企校機(jī)構(gòu)間相似度的區(qū)分性最高,其次為關(guān)鍵詞相似度,引用基礎(chǔ)相似度的區(qū)分性最低,在一定程度上印證了“2.5相似度整合”部分專家咨詢確定權(quán)重的科學(xué)性。

表3 專利信息下企業(yè)和高校機(jī)構(gòu)間的不同相似度(局部) %

表3(續(xù))

表4 論文信息下企業(yè)和高校機(jī)構(gòu)間的不同相似度(局部) %

表4(續(xù))

利用表3和表4的數(shù)據(jù),再根據(jù)“2.5相似度整合”部分的式(6),計(jì)算得出融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校創(chuàng)新合作機(jī)構(gòu)間的相似度結(jié)果,具體結(jié)果如表5所示。百度公司和北京大學(xué)兩個(gè)機(jī)構(gòu)之間融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校機(jī)構(gòu)間的相似度為4.58%,同北京航空航天大學(xué)的相似度為5.85%。

表5 融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)的企校機(jī)構(gòu)間的不同相似度(局部) %

3.4 推薦結(jié)果展示

根據(jù)表5的計(jì)算結(jié)果,得出企業(yè)與不同高校之間的“人工智能”領(lǐng)域的相似度排名,根據(jù)企校機(jī)構(gòu)間的相似度順序,為每一個(gè)企業(yè)推薦前5所合作高校,具體的推薦結(jié)果如表6所示。其中,中國人民大學(xué)的專利和論文的數(shù)量都不是最多的,但是被推薦的次數(shù)最多,究其原因,中國人民大學(xué)涉及“人工智能”方面的領(lǐng)域研究分布比較均勻,并沒有很明顯地側(cè)重于某些具體方向。從表1可得,清華大學(xué)、浙江大學(xué)和上海交通大學(xué)3所高校的“人工智能領(lǐng)域”成果較多,每個(gè)學(xué)校有其明顯的研究側(cè)重點(diǎn),如本文為平安科技公司推薦上海交通大學(xué)為第一高校,兩個(gè)機(jī)構(gòu)在“數(shù)據(jù)庫應(yīng)用”和“神經(jīng)網(wǎng)絡(luò)”等方面的科研投入最為相似。

表6 人工智能前50強(qiáng)企業(yè)的合作高校推薦結(jié)果

4 比較研究與結(jié)果分析

4.1 比較研究

由表2可知,騰訊公司同高校的專利合作最多,因此,采用騰訊公司為研究對(duì)象作對(duì)比分析研究。LDA模型能夠?qū)ξ谋拘畔⒅械碾[含主題信息進(jìn)行建模,是當(dāng)前一種文本表示的常用方法[37],因此,選擇LDA模型同本文構(gòu)建的模型進(jìn)行對(duì)比分析。LDA模型具體處理過程分三步:首先,將各機(jī)構(gòu)專利和論文的文檔進(jìn)行分詞、去除停用詞、詞形還原等處理;其次,基于預(yù)處理的數(shù)據(jù)訓(xùn)練LDA模型,主題數(shù)K從10開始取值,步長為5,最大取值到200,經(jīng)過嘗試,發(fā)現(xiàn)主題—困惑度曲線在K為10~115之間時(shí)較為陡峭,115之后趨于平緩。所以本文最終確定主題數(shù)為115。其他參數(shù)方面,Alpha設(shè)置為0.43(即50/K=50/115≈0.43),Beta參數(shù)設(shè)為0.01。通過具體實(shí)驗(yàn),發(fā)現(xiàn)迭代500次左右,模型困惑度不再明顯下降,獲得最終的LDA主題模型;最后,通過LDA模型,每條文本被表示為115維的主題向量,各維數(shù)之和為1。由于一個(gè)機(jī)構(gòu)可能有多個(gè)文檔,本文采用向量平均化的方式來對(duì)不同機(jī)構(gòu)的專利文本主題向量進(jìn)行表示,之后,通過余弦相似度來計(jì)算各機(jī)構(gòu)的主題相似性。比較研究的具體結(jié)果如表7所示。

首先,本文構(gòu)建模型得出騰訊公司和高校之間的相似度在3.60%~9.55%之間,LDA模型得出的相似度范圍為41.02%~64.68%,本文構(gòu)建模型得出的企校機(jī)構(gòu)間的相似度遠(yuǎn)遠(yuǎn)小于LDA模型的結(jié)果,相對(duì)比較符合實(shí)際情況;其次,由于騰訊公司合作的高校有11所,按照兩種模型進(jìn)行合作高校前20推薦,由表7可知,本文模型得出的機(jī)構(gòu)未合作比例為65%,LDA模型得出的未合作比例為55%,本文構(gòu)建模型得到的機(jī)構(gòu)合作促進(jìn)空間稍大于LDA模型。因此,本文構(gòu)建的模型取得的結(jié)果較好。

表7 騰訊公司同國內(nèi)高校機(jī)構(gòu)間的相似度

4.2 結(jié)果分析

表2中共有6個(gè)企業(yè)同高校存在著人工智能領(lǐng)域的專利合作關(guān)系。本模型為除騰訊公司外的5個(gè)企業(yè)推薦的高校名單中,已經(jīng)存在合作和未合作的情況如表8所示。

表8 5個(gè)企業(yè)和高校機(jī)構(gòu)間已合作和未合作的情況

整體分析,5個(gè)企業(yè)同高校的已合作比例為16%,未合作比例為84%,未合作的比例遠(yuǎn)遠(yuǎn)大于已合作比例,因此,對(duì)促進(jìn)企校機(jī)構(gòu)之間進(jìn)行人工智能領(lǐng)域的合作空間比較大。5個(gè)企業(yè)中,華為和科大訊飛公司的推薦結(jié)果都包含了部分的或者全部的合作高校。其他的3所機(jī)構(gòu)中,Testin云測(cè)、湖南大學(xué)兩個(gè)機(jī)構(gòu)都比較關(guān)注圖像處理方面的研究;思必馳公司和重慶大學(xué)更加關(guān)注人工智能在新事物的識(shí)別中的作用;醫(yī)渡科技公司主要為醫(yī)療行業(yè)參與者提供數(shù)據(jù)分析和決策支持等服務(wù),中國海洋大學(xué)申請(qǐng)的專利和發(fā)表的論文中包含基于深度學(xué)習(xí)的冠狀病毒患者行為跟蹤裝置,并且還有對(duì)醫(yī)療電子裝置等的研究。推動(dòng)這兩個(gè)機(jī)構(gòu)合作,有助于醫(yī)學(xué)研究,也有利于實(shí)現(xiàn)智能化疾病管理。再以華為公司為例,本模型為華為公司推薦的5所高校中,華為同第一高校(電子科技大學(xué))和第二高校(清華大學(xué))在人工智能領(lǐng)域內(nèi)已經(jīng)存在合作關(guān)系,同其他3所高校在人工智能領(lǐng)域暫時(shí)沒有合作,但是華為公司已經(jīng)分別在2020年12月、2021年1月、2020年11月和天津大學(xué)、浙江大學(xué)、華南理工大學(xué)簽訂了產(chǎn)教融合等協(xié)同育人協(xié)議,相信它們之間在人工智能領(lǐng)域的合作指日可待。

5 結(jié) 語

本文構(gòu)建了一種融合專利與論文信息的內(nèi)容挖掘和引用基礎(chǔ)兩個(gè)方面的企校創(chuàng)新合作機(jī)構(gòu)推薦模型,并進(jìn)行了比較研究和結(jié)果分析。結(jié)果表明,本文構(gòu)建的企校合作推薦模型效果較好,能夠?qū)崿F(xiàn)為企業(yè)進(jìn)行針對(duì)性尋找高校合作伙伴的目標(biāo)。本模型的構(gòu)建對(duì)于當(dāng)前企校合作的相關(guān)研究具有一定的促進(jìn)作用,企業(yè)可根據(jù)自身的發(fā)展情況以及戰(zhàn)略目標(biāo),明確合作技術(shù)主題,尋找特定領(lǐng)域的最佳合作高校,借助高校科研優(yōu)勢(shì),達(dá)到在市場(chǎng)中取得一定競(jìng)爭(zhēng)優(yōu)勢(shì)的目的。

雖然本研究為我國人工智能領(lǐng)域的企校機(jī)構(gòu)合作提供借鑒,但只選擇了國際專利和論文,在后續(xù)的研究和應(yīng)用中,可擴(kuò)大檢索范圍,從而為我國人工智能領(lǐng)域的發(fā)展提供更多參考。

猜你喜歡
企校專利論文
專利
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
應(yīng)對(duì)結(jié)構(gòu)轉(zhuǎn)型升級(jí) 提高人才培養(yǎng)質(zhì)量
——基于企校合作培養(yǎng)人才的調(diào)查與思考
企校合作面點(diǎn)人才培養(yǎng)的實(shí)踐探討
食品界(2016年8期)2016-05-14 18:29:25
下期論文摘要預(yù)登
下期論文摘要預(yù)登
下期論文摘要預(yù)登
企校合作面點(diǎn)人才培養(yǎng)的實(shí)踐與探索
2013年5—12月最佳論文
新聞前哨(2014年1期)2014-03-12 22:10:06
專利
云浮市| 南开区| 武功县| 泰和县| 黔江区| 麻栗坡县| 宁远县| 河西区| 汪清县| 雷波县| 酉阳| 荣成市| 南投市| 井陉县| 固原市| 印江| 外汇| 高雄市| 秦皇岛市| 稷山县| 历史| 叶城县| 广宁县| 怀仁县| 棋牌| 六枝特区| 乐平市| 石屏县| 阿巴嘎旗| 鹿邑县| 申扎县| 肇源县| 宜宾市| 嘉峪关市| 永清县| 绥芬河市| 平和县| 庄河市| 沙河市| 北碚区| 寿宁县|