国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型分類的中美歐人工智能發(fā)展比較研究

2022-11-02 13:02:48周松蘭冷希宇
科技與經(jīng)濟 2022年5期
關(guān)鍵詞:活動力發(fā)文影響力

周松蘭 冷希宇

(廣州大學(xué)經(jīng)濟與統(tǒng)計學(xué)院,廣州 510006)

21世紀(jì)以來,隨著計算機運算速度及存儲技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,人工智能的發(fā)展駛?cè)肟燔嚨?,人工智能科技論文發(fā)表的數(shù)量與日俱增。人工智能的發(fā)展對于經(jīng)濟的高質(zhì)量發(fā)展以及轉(zhuǎn)型升級起到助推作用,若能抓住人工智能興起的機遇,將有助于中國在科技領(lǐng)域?qū)崿F(xiàn)進一步地突破。在這種情況下,中國政府于2017年頒布《新一代人工智能發(fā)展規(guī)劃的通知》,著力于打造人工智能發(fā)展的先發(fā)優(yōu)勢。

隨著人工智能研究熱潮的興起以及人工智能研究成果的逐漸豐富,對于人工智能發(fā)展水平的評價研究也不斷涌現(xiàn)。在具體的評價研究過程中,大多數(shù)論文從人工智能專利角度進行分析,陳軍等從專利角度對我國的人工智能發(fā)展?fàn)顩r進行了分析[1]。而在論文主題探索領(lǐng)域,馮佳、張云秋,譚春輝、熊夢媛根據(jù)文本分析的研究思路,利用LDA模型對人工智能論文按照主題進行了劃分[2-3]。

本文在以上研究基礎(chǔ)上,利用人工智能論文數(shù)據(jù)作為分析對象,用自然語言處理中的LDA模型實現(xiàn)論文主題的自動分類,并測算不同國家在人工智能不同主題方面的研究水平。

1 LDA模型人工智能論文分類

1.1 數(shù)據(jù)來源

本文選擇人工智能相關(guān)的學(xué)術(shù)論文摘要、作者國籍、被引用數(shù)量作為分析的數(shù)據(jù)字段,借鑒李興耀[4]的方法,選擇中國計算機協(xié)會推薦的4本A類人工智能學(xué)術(shù)期刊《Artificial Intelligence》《TPAMI》《IJCV》《JMLR》中的論文數(shù)據(jù)作為數(shù)據(jù)源。獲取數(shù)據(jù)的方式為在Web of Science中檢索這4個期刊,查詢得到這4個期刊所有的論文,按照全記錄方式采集,并去除含有缺失字段的數(shù)據(jù),保存剩余的論文數(shù)據(jù),一共有10 182篇論文。

1.2 LDA主題建模

1.2.1 LDA主題建模介紹

從WOS上獲取數(shù)據(jù)后,借鑒Xie T和Qin P[5]的方法,對得到的數(shù)據(jù)進行篩選。首先,摘要被認(rèn)為可以代表一篇論文的基本觀點,因此需要將每篇論文對應(yīng)的摘要分離出來,形成一個文本。其次,由于計算機能識別的最小信息單元是單詞,因此需要對文本進行分詞,將每個文本轉(zhuǎn)換成一條詞向量,并對單個詞匯進行詞形還原。再次,需要去除此詞向量中與論文核心觀點無關(guān)的詞匯,以及詞形還原后的無關(guān)詞匯,從而得到每篇論文的最終詞向量。最后,借鑒Stevens K等[6]的方法,利用一致性指標(biāo)求得論文的最佳主題數(shù)量。一致性指標(biāo)的計算公式為:

coherence(v)=∑(vi,vj)Vscore(vivj,ε)

(1)

score(vi,vj,ε)=log[p(vivj)+ε/p(vi)p(vj)]

(2)

式(1)和式(2)中v是描述主題的一系列詞匯;ε是平滑因子,按照經(jīng)驗該值取1;vi,vj分別是屬于v中的任意兩個詞匯;p(vi,vj)表示vi和vj共現(xiàn)的概率。一致性指標(biāo)與句子相似性呈正相關(guān),通過計算句子中詞匯共現(xiàn)頻率獲得,因此一致性指標(biāo)越高越好。本文選擇一致性指標(biāo)最高的主題數(shù)為本文分類的主題數(shù)。

根據(jù)一致性指標(biāo)確定得到論文的主題個數(shù)后,進而可以得到每篇論文對應(yīng)的主題概率分布以及不同主題的詞匯概率分布,并可以對論文進行分類。上述數(shù)據(jù)處理具體過程如圖1所示。

圖1 利用LDA算法論文分類流程圖

1.2.2 LDA主題建模過程

由前文所述的數(shù)據(jù)篩選的方法可以得到不同論文摘要對應(yīng)的詞向量,利用LDA模型對這些詞向量進行訓(xùn)練可以得到不同人工智能論文的分類情況。根據(jù)Wei X和Croft W B[7]的研究,訓(xùn)練設(shè)置的參數(shù)為:選定主題范圍為1~50,設(shè)置超參數(shù)α=50/K,β=0.01,其中K為主題個數(shù),同時設(shè)置訓(xùn)練次數(shù)為500次。對各個論文摘要生成的詞向量利用LDA模型進行訓(xùn)練,并計算每個主題數(shù)對應(yīng)的一致性,當(dāng)主題數(shù)為12時,一致性達到最大為0.495 39,因此選擇論文的主題數(shù)為12。接著根據(jù)LDA模型生成的各主題的詞匯概率分布,可以得到各個主題對應(yīng)的主題詞,對各主題詞進行解釋所得結(jié)果見表1。

如表1所示,一共將論文分為12個小類別,并為了方便后續(xù)的統(tǒng)計研究,將這些類別按照語義合并為4個類別,分別為機器學(xué)習(xí)與底層算法、自然語言處理、計算機視覺及智能機器人4大類,其中機器學(xué)習(xí)與底層算法為人工智能的基礎(chǔ)層,自然語言處理、計算機視覺和智能機器人為人工智能的應(yīng)用層。

表1 主題分類情況表

1.3 中美歐人工智能發(fā)展情況比較分析

1.3.1 中美歐人工智能發(fā)展總體情況

本文統(tǒng)計了2001—2020年各國人工智能論文的數(shù)量,由于采集的每篇論文中包含對應(yīng)國家,因此可以將論文按照國家進行分類,并將時間劃分為5個時間段,對各個國家不同時間段發(fā)表論文數(shù)量進行統(tǒng)計,并選取發(fā)表數(shù)量排名前10位國家的論文數(shù)量如表2所示。

表2 中美歐各國人工智能論文發(fā)表數(shù)量

由表2可以看出,發(fā)文量前10位的國家在過去20年中發(fā)文量總體保持增長態(tài)勢,美國的發(fā)文數(shù)量總體保持輕微上漲,中國的發(fā)文數(shù)量則一直處于快速上升的趨勢,甚至在2017—2020年中國人工智能的發(fā)文數(shù)量為世界第二位,并與美國的發(fā)文數(shù)量接近。

1.3.2 論文活動力指數(shù)、論文影響力指數(shù)計算方法

本文根據(jù)周松蘭[8]在新興技術(shù)差距測度模型的研究成果,根據(jù)不同研究主題,計算不同國家在不同階段的論文活動力指數(shù)、論文影響力指數(shù),以便比較各國人工智能研究水平。論文活動力指數(shù)PpAI(paper activity index)用于衡量不同國別、不同領(lǐng)域論文的發(fā)表數(shù)量占比,其計算公式為:

(3)

式(3)中,Tij為i技術(shù)領(lǐng)域j國發(fā)表論文數(shù)量;nt為全體對象數(shù)。

論文影響力指數(shù)PpCI(paper citation index)用于衡量不同國別、不同領(lǐng)域論文的影響力大小,其計算公式為:

(4)

式(4)中,CTij為i技術(shù)領(lǐng)域j國發(fā)表論文被引用數(shù);Tij為i技術(shù)領(lǐng)域j國發(fā)表論文數(shù)。

1.3.3 中美歐人工智能論文活動力指數(shù)、論文影響力指數(shù)測度

由LDA模型可以計算得到不同論文的對應(yīng)的分類,并根據(jù)2001—2020年所有論文的分類、對應(yīng)國家,按照式(3)計算得到不同國家、不同主題的論文活動力指數(shù)(PpAI),同理可以根據(jù)2001—2020年所有論文的分類、對應(yīng)國家以及每篇論文的引用次數(shù),按照公式(4)計算得到不同國家、不同主題的論文影響力指數(shù)(PpCI),計算結(jié)果如表3所示。

總體來看,中國在人工智能不同領(lǐng)域的論文影響力指數(shù)與論文活動力指數(shù)在5個時期內(nèi)呈現(xiàn)逐年上升的趨勢,在機器學(xué)習(xí)與底層算法方面,中國的論文活動力指數(shù)、論文影響力指數(shù)分別從2001—2004年的0.05、0.73上升到2017—2020年的0.18、1.52。同期美國的論文活動力指數(shù)、論文影響力指數(shù)分別從2001—2004年的0.40、0.68下降到2017—2020年的0.34、0.54。在其他國家中,加拿大、法國在該領(lǐng)域的表現(xiàn)較好,2017—2020年間的論文影響力指數(shù)分別達到了1.97,1.13。由此可以看出,中國在機器學(xué)習(xí)與底層算法領(lǐng)域發(fā)展迅速。

在計算機視覺領(lǐng)域,中國的發(fā)展較好,論文活動力指數(shù)、論文影響力指數(shù)分別從2001—2004年的0.08、0.63上升到2017—2020年的0.32、1.09。同期美國的論文活動力指數(shù)、論文影響力指數(shù)分別從2007—2020年的0.47、1.29下降到2017—2020年的0.20、0.72。在其他國家中,加拿大、英國的發(fā)展較好,論文活動力指數(shù)在2017—2020年均達到了0.11,論文影響力指數(shù)在2017—2020年分別達到了2.08,1.23。由此可以看出,中國在計算機視覺領(lǐng)域的科研水平在過去的20年間快速上升。

在自然語言處理領(lǐng)域,中國目前的發(fā)展處于上升態(tài)勢,論文活動力指數(shù)從2001—2004年的0.05上升到2017—2020年的0.12,說明發(fā)文量快速上升,但是論文影響力指數(shù)緩慢下降,甚至出現(xiàn)停滯的情況,同期美國的自然語言處理活動力指數(shù)緩慢下降,論文影響力指數(shù)上升。在其他國家中,英國、法國的論文活動力指數(shù)較高,2017—2020年分別達到0.19,0.15,而加拿大、德國、澳大利亞的論文影響力指數(shù)較高,2017—2020年分別達到1.25,1.22,1.33。由此可以看出,相較于歐美國家,中國在該領(lǐng)域的發(fā)展還有較大的提升空間。

在智能機器人領(lǐng)域,中國的論文活動力指數(shù)、論文影響力指數(shù)從2001—2004年的0.03、1.72上升到2017—2020年的0.09,2.44,說明發(fā)文量快速上升,影響力也在逐漸上升。同期,美國在這一領(lǐng)域論文活動力指數(shù)及論文影響力指數(shù)從2001—2004年的0.52、1.37下降至2017—2020年的0.26、0.55,說明美國在該領(lǐng)域的發(fā)文數(shù)量與影響力逐漸下滑。其他國家中,加拿大在2017—2020年間的論文活動力指數(shù)達到0.14,澳大利亞、英國、法國和瑞士的論文活動力指數(shù)分別為4.81、1.09、1.07、1.74。由此可以看出,中國在該領(lǐng)域的論文影響力逐漸上升,但是論文的發(fā)文數(shù)量仍然占比較小。

由表2、表3可以看出,中國的人工智能水平在近幾年大幅度提升,主要原因是發(fā)文量的迅速上升,2017—2020年間中國人工智能發(fā)文總量相較于2001—2004年間的發(fā)文量漲幅達到604%。同時中國論文的被引用次數(shù)增多,說明人工智能論文的發(fā)文質(zhì)量也在上升,特別是在計算機視覺領(lǐng)域、機器學(xué)習(xí)與底層算法領(lǐng)域中,中國的論文發(fā)表數(shù)量與質(zhì)量均實現(xiàn)較大程度的提高。與此同時,美國的人工智能論文發(fā)表數(shù)量保持相對穩(wěn)定,但是論文活動力指數(shù)在不同人工智能主題中出現(xiàn)了下滑,說明美國的人工智能論文發(fā)表數(shù)量的占比出現(xiàn)下滑。而在論文影響力方面,美國在機器學(xué)習(xí)與底層算法、智能機器人、計算機視覺領(lǐng)域也均出現(xiàn)下滑,僅僅在自然語言處理方面呈現(xiàn)上升趨勢。而歐洲國家、澳大利亞以及加拿大的論文活動力指數(shù)則保持相對平穩(wěn)或上漲,原因在于這些國家的論文發(fā)表數(shù)量大幅度上漲,例如加拿大、英國和法國2017—2020年間人工智能發(fā)文總量相較于2001—2004年間的發(fā)文量漲幅分別為42%、129%、107%。而在論文影響力方面,不同國家的表現(xiàn)不盡相同,例如在計算機視覺領(lǐng)域加拿大和英國表現(xiàn)出色,2017—2020期間論文影響力指數(shù)分別達到了2.08和1.23;而在機器學(xué)習(xí)與底層算法領(lǐng)域,加拿大和法國表現(xiàn)較好,在2017—2020期間分別達到1.97、1.13。

表3 中美歐各國人工智能論文活動力指數(shù)、影響力指數(shù)

2 結(jié)論與建議

在過去的20年中,中國在人工智能領(lǐng)域發(fā)展迅速,無論是在論文的發(fā)表數(shù)量還是論文的影響力方面都有著較大幅度的提高,中國作為該領(lǐng)域的一個追趕者,在人工智能領(lǐng)域?qū)崿F(xiàn)了跨越式的發(fā)展。具體表現(xiàn)為兩點。

第一,美國、加拿大及歐洲等地區(qū)在人工智能領(lǐng)域的論文發(fā)表數(shù)量有上升趨勢。同時歐洲、加拿大和澳大利亞的論文發(fā)表占比也呈現(xiàn)上升的趨勢,但是美國論文發(fā)表數(shù)量占比呈現(xiàn)緩慢下降的趨勢。

第二,中國近年來在人工智能領(lǐng)域論文發(fā)表數(shù)量迅速增加,同時在機器學(xué)習(xí)與底層算法、智能機器人方面的論文影響力逐漸增加,這說明中國在人工智能領(lǐng)域的影響力逐漸增加,并在世界范圍內(nèi)保持一定的領(lǐng)先優(yōu)勢,這種技術(shù)領(lǐng)先為中國在其他領(lǐng)域的技術(shù)趕超提供了值得借鑒的樣板。

根據(jù)本文的研究成果,提出3點建議:

第一,繼續(xù)鼓勵高校參與人工智能的相關(guān)研究。中國人工智能技術(shù)起步晚,但是發(fā)展迅速,這與高校的科研工作者積極參與人工智能的研究密不可分,應(yīng)該繼續(xù)鼓勵高??蒲泄ぷ髡叻e極參與人工智能的研究,促進中國在人工智能領(lǐng)域的發(fā)展。

第二,加快大數(shù)據(jù)產(chǎn)業(yè)生態(tài)的建設(shè)。人工智能的應(yīng)用需要大量的數(shù)據(jù)作為支撐,需要在確保數(shù)據(jù)安全的基礎(chǔ)上推進大數(shù)據(jù)產(chǎn)業(yè)的建設(shè),推進數(shù)據(jù)的共建共治共享。

第三,促進人工智能與產(chǎn)業(yè)的融合。目前人工智能技術(shù)的產(chǎn)業(yè)轉(zhuǎn)化程度還偏低,可以鼓勵人工智能與產(chǎn)業(yè)的融合,提升人工智能的產(chǎn)業(yè)化水平,利用人工智能技術(shù)促進實體產(chǎn)業(yè)的發(fā)展。

猜你喜歡
活動力發(fā)文影響力
10條具體舉措! 山東發(fā)文做好返鄉(xiāng)留鄉(xiāng)農(nóng)民工就地就近就業(yè)
天才影響力
NBA特刊(2018年14期)2018-08-13 08:51:40
校園拾趣
爺孫趣事
以牙還牙
黃艷:最深遠的影響力
3.15消協(xié)三十年十大影響力事件
傳媒不可估量的影響力
人間(2015年21期)2015-03-11 15:24:39
非特異性感染性男性不育患者的精液狀況分析
莫矜耀教授診療精子異常學(xué)術(shù)經(jīng)驗(四)——精子活動力低下
毕节市| 香港| 颍上县| 吉木萨尔县| 汉沽区| 左云县| 额敏县| 噶尔县| 本溪市| 罗定市| 原平市| 钟山县| 镇巴县| 万载县| 石屏县| 综艺| 澎湖县| 科尔| 安西县| 梁河县| 洛南县| 略阳县| 昂仁县| 凌云县| 金门县| 西吉县| 奉新县| 临安市| 改则县| 图们市| 松桃| 辉县市| 突泉县| 中牟县| 拉萨市| 莱州市| 黄陵县| 葵青区| 延安市| 秭归县| 济源市|