李 會(huì),陳紅羽,李 俠,王麗葉
(安徽財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)
20世紀(jì)90年代中期,支持向量機(jī)(SVM)算法誕生,隨后各種淺層機(jī)器學(xué)習(xí)模型被提出,如Boosting、最大熵方法(如Logistic Regression)等[1],帶來了機(jī)器學(xué)習(xí)研究熱潮并一直持續(xù)到今天。伴隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新一代信息技術(shù)的高速發(fā)展,產(chǎn)生了大量的類型多樣的數(shù)據(jù)資源。淺層機(jī)器模型主要解決數(shù)據(jù)存儲(chǔ)、轉(zhuǎn)換、處理等功能,但無法適應(yīng)大數(shù)據(jù)背景下自主發(fā)現(xiàn)數(shù)據(jù)信息即時(shí)變化的需求,這對(duì)淺層機(jī)器學(xué)習(xí)模型提出了更多的挑戰(zhàn)。因此,需要將深度學(xué)習(xí)能力運(yùn)用于數(shù)據(jù)分析中,借助機(jī)器自主學(xué)習(xí)能力實(shí)現(xiàn)用戶與計(jì)算機(jī)之間的溝通與協(xié)調(diào),并作出明智決策,這是機(jī)器學(xué)習(xí)努力的方向。因此,了解和探索機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)及演化過程,對(duì)下一步機(jī)器學(xué)習(xí)領(lǐng)域的研究具有借鑒意義。
本文選取Web of Science核心集為數(shù)據(jù)源,以“machine learning”作為標(biāo)題詞,時(shí)間范圍設(shè)定為2008年1月—2019年7月,對(duì)初步檢索得到的文獻(xiàn)根據(jù)文獻(xiàn)類型進(jìn)行篩選,共得到7 279條文獻(xiàn)記錄,將其作為研究數(shù)據(jù)集合。對(duì)7 279條文獻(xiàn)進(jìn)行初步統(tǒng)計(jì),文獻(xiàn)共被引243 433次,涉及27 292位作者。
信息計(jì)量分析是借助信息計(jì)量分析工具,采用定量分析的方法挖掘文獻(xiàn)內(nèi)容特征,并通過可視化的方式呈現(xiàn)文獻(xiàn)內(nèi)在關(guān)聯(lián)及趨勢(shì)預(yù)測(cè)。 本文采用HistCite、CiteSpace、VOSViewer和SciMAT等工具對(duì)文獻(xiàn)進(jìn)行可視化分析和社會(huì)網(wǎng)絡(luò)分析,以此獲得文獻(xiàn)內(nèi)容特征、研究熱點(diǎn)及發(fā)展趨勢(shì)。 HistCite是由Thomson Reuters公司開發(fā)的專門針對(duì)WOS數(shù)據(jù)庫進(jìn)行文獻(xiàn)引文關(guān)系分析的工具。 它可以發(fā)現(xiàn)文獻(xiàn)之間的引文關(guān)系,迅速找出研究領(lǐng)域內(nèi)引用頻次最高、質(zhì)量最好的文獻(xiàn),并可以通過引文編年圖了解文獻(xiàn)引證關(guān)系。 CiteSpace是由美國德雷塞爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美博士代領(lǐng)的團(tuán)隊(duì)與大連理工大學(xué)WISE實(shí)驗(yàn)室聯(lián)合開發(fā)的科學(xué)文獻(xiàn)分析工具。 該軟件可以通過可視化手段呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況,是一款在科學(xué)計(jì)量學(xué)、數(shù)據(jù)可視化背景下發(fā)展起來的引文可視化分析軟件。 VOSViewer由荷蘭萊頓大學(xué)科技研究中心發(fā)布,是一款可以對(duì)文獻(xiàn)進(jìn)行大數(shù)據(jù)分析的工具,可對(duì)文獻(xiàn)引用、關(guān)鍵詞共現(xiàn)進(jìn)行可視化聚類分析。 SciMAT是由西班牙格拉納達(dá)大學(xué)研發(fā)的知識(shí)圖譜分析工具。 本文在利用HistCite分析樣本文獻(xiàn),并進(jìn)行基本描述統(tǒng)計(jì)的基礎(chǔ)上,借助CiteSpace、VOSViewer計(jì)量分析軟件對(duì)樣本文獻(xiàn)的國家(地區(qū))發(fā)文情況及關(guān)鍵詞進(jìn)行聚類分析,再通過SciMAT科學(xué)圖譜分析工具,獲取不同時(shí)間區(qū)間的研究主題,分析主題間的關(guān)系演化,并以此獲得機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)主題問題。
文獻(xiàn)計(jì)量學(xué)認(rèn)為,某研究領(lǐng)域年度發(fā)文數(shù)量是評(píng)價(jià)該領(lǐng)域發(fā)展?fàn)顩r的重要指標(biāo)之一。本文設(shè)定的采集周期是2008年1月—2019年7月,對(duì)該時(shí)間區(qū)間內(nèi)的年度發(fā)文量進(jìn)行統(tǒng)計(jì)分析,得到機(jī)器學(xué)習(xí)領(lǐng)域年度發(fā)文情況,如圖1所示。
圖1 機(jī)器學(xué)習(xí)研究領(lǐng)域年度發(fā)文情況
由圖1可以看出,機(jī)器學(xué)習(xí)領(lǐng)域研究的文獻(xiàn)數(shù)量呈現(xiàn)穩(wěn)步增長的趨勢(shì)。2008—2011年,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)文數(shù)量增長較為緩慢,年發(fā)文數(shù)量在200篇以下,該領(lǐng)域的研究未引起學(xué)術(shù)界廣泛關(guān)注;2012—2016年,發(fā)文數(shù)量年均增長接近100篇;2017年以來,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)文數(shù)量增長較為迅速,年發(fā)文數(shù)量均突破千篇,2018年增長幅度超過100%。這也驗(yàn)證了隨著大數(shù)據(jù)、人工智能、商務(wù)智能分析等新技術(shù)的發(fā)展與成熟,機(jī)器學(xué)習(xí)領(lǐng)域的研究越來越被學(xué)者關(guān)注。
在對(duì)樣本文獻(xiàn)年度發(fā)文量進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,利用HistCite信息計(jì)量分析工具進(jìn)一步統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域各國家(地區(qū))發(fā)文情況,具體如表1所示。
通過發(fā)文作者所在國家(地區(qū))的統(tǒng)計(jì)數(shù)據(jù)可以看出,該領(lǐng)域研究力量主要分布在美國、中國、英國、德國、加拿大等國家。由表1可知,前10位國家的發(fā)文量累計(jì)占比高達(dá)97.8%,而這些國家和地區(qū)在《世界主要國家2018年互聯(lián)網(wǎng)發(fā)展指數(shù)TOP20排名》中,大部分表現(xiàn)也比較突出,尤其是美國、中國、英國,在全球互聯(lián)網(wǎng)發(fā)展指數(shù)中位列前3名[2]。它們?cè)跈C(jī)器學(xué)習(xí)領(lǐng)域發(fā)文量也領(lǐng)跑其他國家,這也間接印證了互聯(lián)網(wǎng)發(fā)展水平對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的研究及應(yīng)用起到了很好的推廣及促進(jìn)作用。雖然德國、加拿大、西班牙、韓國、印度、澳大利亞、意大利等國家發(fā)文數(shù)量占比在4.0%~7.2%之間,但是在全球范圍內(nèi),這些國家在機(jī)器學(xué)習(xí)領(lǐng)域的研究仍然走在前列。從總被引頻次來看,頻次較高的3個(gè)國家分別是美國、德國、英國;從篇均引用頻次來看,德國、英國、美國排在前3位。德國雖然在發(fā)文量方面僅占7.2%,但篇均被引頻次達(dá)28.60次,比發(fā)文數(shù)量最多的美國高出14.10次,比發(fā)文數(shù)量排名第二的中國高出21.85次。從信息計(jì)量統(tǒng)計(jì)分析的角度來看,德國在機(jī)器學(xué)習(xí)領(lǐng)域的研究取得很多創(chuàng)新性的成果,而且研究成果得到學(xué)術(shù)界廣泛的認(rèn)可和引用。中國的發(fā)文量雖然排在第二位,但是篇均被引頻次表現(xiàn)不是很突出。這說明我國需要進(jìn)一步提高論文質(zhì)量,以提高論文的引用率,要在注重發(fā)文數(shù)量的基礎(chǔ)上加強(qiáng)交流合作,注重顛覆性技術(shù)突破研究。
表1中僅能體現(xiàn)發(fā)文量排在前10位國家的情況,如果需要進(jìn)一步了解國家(地區(qū))之間的科研合作情況,需要借助VOSViewer進(jìn)行國家(地區(qū))合作關(guān)系可視化分析。本文將樣本文獻(xiàn)預(yù)處理后,導(dǎo)入VOSViewer中,選取發(fā)文量在50篇及以上的國家(地區(qū))進(jìn)行可視化分析,有33個(gè)國家(地區(qū))滿足條件,最終形成國家(地區(qū))間的合作關(guān)系網(wǎng)絡(luò)圖譜,如圖2所示。
圖2中:節(jié)點(diǎn)代表發(fā)文數(shù)量,節(jié)點(diǎn)越大說明發(fā)文數(shù)量越多,反之則越少;節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線代表合作關(guān)系,連線越粗說明合作越密切。從圖2可以看出,美國、中國、英國在合作關(guān)系中處于核心位置,美國與日本、中國、韓國、西班牙、德國聯(lián)系最為密切,與中國合作較為密切的有美國、日本、韓國、英國、加拿大、德國等。從發(fā)文時(shí)間來看,以色列、瑞士、法國、葡萄牙、伊朗、威爾士等國家(地區(qū))在機(jī)器學(xué)習(xí)領(lǐng)域研究較早,而隨著時(shí)間的推移,目前在機(jī)器學(xué)習(xí)領(lǐng)域研究表現(xiàn)較為突出的是美國、日本、加拿大、英國、西班牙、巴西、韓國等國家。
文獻(xiàn)的關(guān)鍵詞是對(duì)文獻(xiàn)內(nèi)容的高度凝練和概括,是文獻(xiàn)的核心和精華所在。通過關(guān)鍵詞共現(xiàn)分析,發(fā)現(xiàn)主題詞之間的關(guān)聯(lián)性,揭示時(shí)間推移過程中主題詞的演化過程,可以為該領(lǐng)域的相關(guān)研究提供輔助支持。本文在對(duì)樣本文獻(xiàn)資料中的關(guān)鍵詞進(jìn)行規(guī)范化處理的基礎(chǔ)上,選擇詞頻數(shù)量大于100的關(guān)鍵詞進(jìn)行分析,最終有37個(gè)關(guān)鍵詞符合要求。對(duì)這37個(gè)詞進(jìn)行共現(xiàn)分析,形成圖3所示的聚類圖譜。節(jié)點(diǎn)代表關(guān)鍵詞的詞頻數(shù)量,節(jié)點(diǎn)越大說明以該節(jié)點(diǎn)作為關(guān)鍵詞的文獻(xiàn)越多,也說明該節(jié)點(diǎn)在該領(lǐng)域研究中被學(xué)者關(guān)注得越多。節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線代表這兩個(gè)節(jié)點(diǎn)出現(xiàn)在同一篇文獻(xiàn)中。連線越粗說明兩個(gè)節(jié)點(diǎn)同時(shí)出現(xiàn)在一篇文章中的頻率越高。
圖2 機(jī)器學(xué)習(xí)研究領(lǐng)域的國家合作關(guān)系圖譜
圖3 機(jī)器學(xué)習(xí)研究領(lǐng)域關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
參照?qǐng)D3中形成的聚類效果,結(jié)合每個(gè)關(guān)鍵詞之間的連接程度,本文將機(jī)器學(xué)習(xí)領(lǐng)域中的研究主題概括為以下4個(gè)方面:
(1) 支持向量機(jī)領(lǐng)域的研究。主要針對(duì)隨機(jī)森林、證實(shí)、回歸分析、變量選擇、特征選擇等。
(2) 分類領(lǐng)域的研究。主要涵蓋了特征識(shí)別、醫(yī)學(xué)診斷、決策樹、預(yù)測(cè)等。
(3) 神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究。主要針對(duì)算法、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、模型研究等。
(4) 深度學(xué)習(xí)領(lǐng)域的研究。主要從大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘、系統(tǒng)、管理、網(wǎng)絡(luò)等角度開展研究。
使用SciMAT工具進(jìn)行主題演化分析,可以很直觀形象地觀察機(jī)器學(xué)習(xí)領(lǐng)域在不同時(shí)間的熱點(diǎn)主題及主題之間的關(guān)系,從而了解該領(lǐng)域主題詞演化過程,為該領(lǐng)域后續(xù)的研究提供支撐。本文將數(shù)據(jù)劃分為2008—2009年、2010—2011年、2012—2013年、2014—2015年、2016—2017年、2018—2019年,6個(gè)區(qū)間。 以文獻(xiàn)關(guān)鍵詞作為分析單位,以共現(xiàn)矩陣作為網(wǎng)絡(luò)構(gòu)建方式,以等價(jià)性指數(shù)作為網(wǎng)絡(luò)標(biāo)準(zhǔn)化方式,以簡單中心算法作為聚類算法,通過內(nèi)部鏈接和外部鏈接構(gòu)建機(jī)器學(xué)習(xí)不同時(shí)間區(qū)間的主題演化視圖,如圖4所示。
機(jī)器學(xué)習(xí)早期關(guān)注支持向量機(jī)、蛋白質(zhì)、基因等領(lǐng)域。隨著時(shí)間的推移,預(yù)測(cè)、神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、序列模式等領(lǐng)域成為學(xué)者關(guān)注的焦點(diǎn)。2014年之后,預(yù)測(cè)、系統(tǒng)、決策樹、圖像識(shí)別等成為機(jī)器學(xué)習(xí)領(lǐng)域的主要研究對(duì)象。2016—2017年,隨機(jī)森林、基因表達(dá)、影響因素、性能分析等內(nèi)容開始受到學(xué)術(shù)界的關(guān)注。2018年以來,人工神經(jīng)網(wǎng)絡(luò)、算法、風(fēng)險(xiǎn)、模式、相變逐漸成為研究的側(cè)重點(diǎn)。從圖4中6個(gè)時(shí)期的主題詞演化過程來看,機(jī)器學(xué)習(xí)研究主題分布范圍較為廣泛,各主題詞之間的交互較為頻繁,人工神經(jīng)網(wǎng)絡(luò)自2010年被關(guān)注后,經(jīng)過幾年的發(fā)展,在近兩年來仍然是研究者關(guān)注的主要問題。除了常規(guī)的支持向量機(jī)、預(yù)測(cè)、分類等之外,算法優(yōu)化、相變、風(fēng)險(xiǎn)等逐漸成為研究的熱點(diǎn)問題。
圖4 機(jī)器學(xué)習(xí)研究領(lǐng)域不同時(shí)期的主題演化
從關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜及主題詞演化過程可以看出,機(jī)器學(xué)習(xí)研究涉及醫(yī)學(xué)、分類、預(yù)測(cè)、模型、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等領(lǐng)域,研究領(lǐng)域也在不斷擴(kuò)展,尤其在醫(yī)學(xué)診斷、圖像識(shí)別、算法優(yōu)化等方面表現(xiàn)較為突出。基于上述給出的聚類及不同時(shí)期主題詞演化過程,機(jī)器學(xué)習(xí)領(lǐng)域的研究主題可以歸納為5大類:支持向量機(jī)、分類問題、神經(jīng)網(wǎng)絡(luò)、人工智能、深度學(xué)習(xí)。其中,“深度學(xué)習(xí)”是機(jī)器學(xué)習(xí)領(lǐng)域近年研究的熱點(diǎn)問題。
“支持向量機(jī)”在1964年被提出,20世紀(jì)90年代以后得到快速發(fā)展,是一類有監(jiān)督的學(xué)習(xí)過程,主要依據(jù)數(shù)據(jù)分布情況求解最大邊距超平面,從而解決二元分類問題。由于突出的學(xué)習(xí)性能,該項(xiàng)技術(shù)已成為國內(nèi)外機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點(diǎn)。目前,該技術(shù)主要應(yīng)用于圖像識(shí)別、文本分類、手寫字符識(shí)別、生物信息學(xué)等領(lǐng)域。在圖像識(shí)別領(lǐng)域,遙感圖像的土地覆蓋識(shí)別、農(nóng)作物生長情況監(jiān)測(cè)等取得了較為突出的成果[3];在文本分類領(lǐng)域,對(duì)故障排查、特征排名等內(nèi)容展開研究[4-5];在手寫字符識(shí)別方面,實(shí)現(xiàn)了打字、手寫和印刷文本圖像的自動(dòng)轉(zhuǎn)換及英文數(shù)字識(shí)別[6-7];在生物信息學(xué)領(lǐng)域,利用SVM技術(shù)可以自動(dòng)準(zhǔn)確地檢測(cè)某些事件,提高檢測(cè)疾病的效率[8]。
分類和預(yù)測(cè)是利用現(xiàn)有數(shù)據(jù)進(jìn)行預(yù)測(cè)的方法,分類是對(duì)離散類別的數(shù)據(jù)對(duì)象進(jìn)行預(yù)測(cè),預(yù)測(cè)是針對(duì)連續(xù)的、有序的數(shù)據(jù)對(duì)象進(jìn)行預(yù)測(cè)。目前,分類和預(yù)測(cè)已在很多領(lǐng)域得到廣泛應(yīng)用。如近年來,為了更好地完成對(duì)土地不同類型特征的判斷,學(xué)術(shù)界開始針對(duì)遙感圖像進(jìn)行分類領(lǐng)域的研究。研究證實(shí),運(yùn)用SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等技術(shù)實(shí)現(xiàn)遙感圖像分類的總體準(zhǔn)確率有較大幅度的提升。Lotte團(tuán)隊(duì)[9]針對(duì)自適應(yīng)分類器、矩陣和張量分類器、轉(zhuǎn)移學(xué)習(xí)和深度學(xué)習(xí)及其他一些雜類分類器的原理及如何使用進(jìn)行分析,為進(jìn)一步推進(jìn)BCI中腦電分類提供了參考。
1943年,“似腦機(jī)器(mindlike machine)”思想的提出開啟了人工神經(jīng)網(wǎng)絡(luò)的研究。經(jīng)過幾十年的發(fā)展,神經(jīng)網(wǎng)絡(luò)已在模式識(shí)別、圖像處理、自動(dòng)控制、機(jī)器人、信號(hào)處理、商業(yè)管理、醫(yī)療診斷和軍事等領(lǐng)域均有廣泛的應(yīng)用。Tien等[10]以Son La水電站為研究對(duì)象,利用神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)淺層滑坡敏感性模型的訓(xùn)練和驗(yàn)證。Carleo等[11]將神經(jīng)網(wǎng)絡(luò)應(yīng)用在量子物理學(xué)中的多體問題研究領(lǐng)域,提出的強(qiáng)化學(xué)習(xí)方案能夠找到基態(tài)并描述復(fù)雜相互作用的量子系統(tǒng)的單位時(shí)間演化。Zhu等[12]將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于河流系統(tǒng)中河流水溫領(lǐng)域的研究,提出的關(guān)鍵控制學(xué)習(xí)模型被有效地用于河水溫度模擬。李曉峰團(tuán)隊(duì)在基于卷積神經(jīng)網(wǎng)絡(luò)的多樣性關(guān)鍵數(shù)據(jù)方面改進(jìn)了現(xiàn)有的并行推薦算法,解決了傳統(tǒng)數(shù)據(jù)推薦算法易受干擾因素影響的問題[13]。
“人工智能”在1956年的達(dá)特茅斯會(huì)議上被首次提出,這次會(huì)議也開啟了對(duì)這一新興領(lǐng)域的研究。研究人工智能的初心是希望它能在實(shí)現(xiàn)自然智能的基礎(chǔ)上,不斷擴(kuò)展甚至加快人類智能的發(fā)展水平,并逐漸實(shí)現(xiàn)超智能。雖然人工智能研究已經(jīng)走過60多年,但它依然在模擬、延伸和擴(kuò)展人的智能方面不斷探索,應(yīng)用領(lǐng)域在不斷擴(kuò)大,取得了許多驕人的成績。如Salehi等學(xué)者[14]將人工智能技術(shù)應(yīng)用于專家系統(tǒng),提出一種基于概率方法的數(shù)據(jù)挖掘方法,可有效地用于重建延遲和丟失的信號(hào),從而解決能源可用性的問題,解決各類智能基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)和智能城市中使用的專家系統(tǒng)收集的嘈雜信號(hào)和不完整信號(hào)可解釋的問題。Ramkumar[15]等學(xué)者將人工智能技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,探索下肢關(guān)節(jié)置換術(shù)的機(jī)器學(xué)習(xí)模型,這些模型能夠有效預(yù)測(cè)患者術(shù)前的價(jià)值指標(biāo)。Liu等學(xué)者[16]將人工智能技術(shù)引入暴雨風(fēng)險(xiǎn)的早期識(shí)別中。
大腦的工作過程是對(duì)接收的信號(hào)不斷迭代、不斷抽象并概念化的過程,是一個(gè)深度的認(rèn)知過程。而深度學(xué)習(xí)就是通過組合低層特征,形成更加抽象的高層特征的過程,是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次的過程,突破了淺層結(jié)構(gòu)學(xué)習(xí)模型的局限性。因此,深度學(xué)習(xí)已然成為機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)全新的研究方向,主要目的是讓機(jī)器同人一樣具有深度的分析學(xué)習(xí)能力。Gulshan等學(xué)者[17]應(yīng)用深度學(xué)習(xí)創(chuàng)建一種自動(dòng)檢測(cè)視網(wǎng)膜底照片中糖尿病性視網(wǎng)膜病變和糖尿病性黃斑水腫的算法,該算法具有很高的靈敏度和特異性。Ghorbanzadeh團(tuán)隊(duì)[18]將深度學(xué)習(xí)技術(shù)應(yīng)用于地質(zhì)災(zāi)害的預(yù)測(cè),通過大量的衛(wèi)星光學(xué)數(shù)據(jù)和地形地貌數(shù)據(jù),借助先進(jìn)的深度學(xué)習(xí)方法,不斷滿足全球?qū)υ敿?xì)而準(zhǔn)確的滑坡圖和清單的需求。Peng團(tuán)隊(duì)[19]則將深度學(xué)習(xí)應(yīng)用在通信系統(tǒng)中,依托大量數(shù)據(jù),自動(dòng)完成數(shù)據(jù)特征的選擇,大大降低了調(diào)制分類中任務(wù)的復(fù)雜程度。
機(jī)器學(xué)習(xí)是人工智能及模式識(shí)別領(lǐng)域共同的研究熱點(diǎn),其理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的各類復(fù)雜問題,取得了豐碩的研究成果。本文以機(jī)器學(xué)習(xí)研究領(lǐng)域的文獻(xiàn)為研究對(duì)象,借助文獻(xiàn)計(jì)量分析軟件,利用描述性分析、聚類分析、主題演化分析等方法,從該領(lǐng)域的年度發(fā)文情況、國家(地區(qū))合作情況、研究熱點(diǎn)趨勢(shì)、主題演化等角度,對(duì)機(jī)器學(xué)習(xí)研究進(jìn)行綜合分析和總結(jié)。從年度發(fā)文情況來看,機(jī)器學(xué)習(xí)論文呈現(xiàn)每年遞增的趨勢(shì),尤其在2017年以后,發(fā)文數(shù)量急劇增長,說明該領(lǐng)域的研究引起全球?qū)W者越來越多的關(guān)注,成為重點(diǎn)研究領(lǐng)域之一。從地區(qū)發(fā)文統(tǒng)計(jì)來看,美國、中國、英國在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)文量領(lǐng)跑其他國家,3國發(fā)文量累計(jì)占比高達(dá)約63%,德國發(fā)文總量雖然不夠突出,但在篇均被引頻次上位居第一,充分說明德國在機(jī)器學(xué)習(xí)領(lǐng)域的研究成果被學(xué)術(shù)界認(rèn)可。從合作關(guān)系來看,美國、日本、中國、韓國、英國、加拿大等國家聯(lián)系較為密切。從研究聚類情況來看,機(jī)器學(xué)習(xí)的研究基本集中在支持向量機(jī)、分類與預(yù)測(cè)、神經(jīng)網(wǎng)絡(luò)、人工智能、深度學(xué)習(xí)等領(lǐng)域。而通過主題演化分析來看,機(jī)器學(xué)習(xí)將會(huì)在量子計(jì)算、算法改進(jìn)、相變、風(fēng)險(xiǎn)等領(lǐng)域展開新一輪的研究。
沈陽大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2021年1期