江楠 汪琪 王召義
Citespace軟件是美國德雷賽爾大學(xué)華人學(xué)者陳超美博士開發(fā)的用于計量和分析科學(xué)文獻數(shù)的JAVA應(yīng)用程序,可以通過一系列可視化圖譜的繪制來形成對學(xué)科演化潛在動力機制的分析和學(xué)科發(fā)展前沿的探索。[14]通過Citespace軟件對文獻關(guān)鍵詞進行分析,可以得出關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中節(jié)點數(shù)就是關(guān)鍵詞個數(shù),邊數(shù)就是關(guān)鍵詞之間的連線數(shù)。只要關(guān)鍵詞在同一篇文獻中出現(xiàn)過,兩者之間就會有一條連線。關(guān)鍵詞大小代表的是關(guān)鍵詞頻次,頻次越大,關(guān)鍵詞越大。同時Citespace軟件還可以生成時域和空間網(wǎng)絡(luò)圖,時域圖可以更好地反映研究內(nèi)容隨時間的變化特點。本文選擇Citespace軟件對關(guān)鍵詞進行共現(xiàn)分析。
四、數(shù)據(jù)分析
本文將從數(shù)據(jù)整體描述、研究內(nèi)容、關(guān)鍵詞三個方面對產(chǎn)品屬性提取研究進行分析。
(一)描述性分析
中國知網(wǎng)(CNKI)是目前國內(nèi)期刊資源最完備、更新速度最快的論文期刊數(shù)據(jù)庫,文章以被中國知網(wǎng)(CNKI)收錄的有關(guān)商品屬性提取的論文為研究對象。專家學(xué)者對于“產(chǎn)品屬性提取”字段有不同的字段表達,相近詞主要包括“商品特征提取”,所以在中國知網(wǎng)(CNKI)設(shè)置“商品特征提取”并含“產(chǎn)品屬性提取”為檢索主題詞,檢索出初始文獻152條,剔除無關(guān)論文18篇,獲得有效論文134條。利用八爪魚軟件對文獻進行清洗與挖掘,將研究論文的年度發(fā)文量、研究機構(gòu)、基金支持等信息輸入Excel進行簡單的統(tǒng)計分析。
年度發(fā)文量可以反映專家學(xué)者對某一領(lǐng)域的研究和關(guān)注程度。如圖1所示,關(guān)于產(chǎn)品屬性提取的研究開始于2006年,2006年至2018年局部有減弱,整體呈上升趨勢,2019年和2020年文獻量有所下降。根據(jù)年度文獻量可以將研究階段分為三個階段:第一階段(2006-2010年)為起步階段,該階段為理論探索階段,文獻數(shù)量占總文獻數(shù)量的7.46%,文獻數(shù)量很少。第二階段(2011-2016年)為發(fā)展階段,該階段研究不斷深入,研究成果數(shù)量在快速增加,文獻數(shù)量占總文獻數(shù)量的37.3%,文獻數(shù)量較多。第三階段(2017-2020年)為穩(wěn)定期,該階段研究的范圍不斷擴大,文獻成果呈現(xiàn)穩(wěn)定高產(chǎn)特征,文獻數(shù)量占總文獻量的53.73%。近幾年文獻數(shù)量的穩(wěn)定高產(chǎn)與消費者逐漸認(rèn)識到在線商品評論中相關(guān)信息重要性有關(guān)。隨著近幾年在線商品評論數(shù)量的不斷增加,其中蘊含的有用信息逐漸被商家、消費者以及平臺所認(rèn)識到,而對于在線評論
中產(chǎn)品屬性提取研究的重要性逐漸被專家學(xué)者們所重視,對于其相關(guān)研究也就更加深入全面。
機構(gòu)發(fā)文量是判斷該機構(gòu)在相關(guān)領(lǐng)域研究深度的重要指標(biāo)。通過對產(chǎn)品屬性提取的134篇文獻作者工作機構(gòu)研究,排名前三的分別是電子科技大學(xué)、大連理工大學(xué)、北京郵電大學(xué)及天津大學(xué)(北京郵電大學(xué)與天津大學(xué)并列第三)。表1為研究機構(gòu)具體發(fā)文數(shù)量(發(fā)表論文數(shù)大于或等于3),從表中可以看出發(fā)表論文數(shù)量大于或等于3的機構(gòu)為12所,共計文獻48篇,剩余86篇以發(fā)表量1或2篇的形式分散于其他機構(gòu),說明對于產(chǎn)品屬性提取研究相對廣泛。
文獻基金支持狀況可以直觀反映相關(guān)部門對于該研究領(lǐng)域的重視程度。通過對產(chǎn)品屬性提取的134篇文獻基金支持狀況進行分析,具體數(shù)據(jù)見表2(文獻數(shù)量大于等于2篇),獲得國家自然科學(xué)基金支持文獻數(shù)量的最多,總計27篇,占比20.15%,在支持?jǐn)?shù)量超過2篇的基金中也可以發(fā)現(xiàn)國家級基金還有另外3項,教育部基金1項,省級基金2項,說明國家層面和省部級層面對產(chǎn)品屬性提取相關(guān)領(lǐng)域重視程度較高。
(二)研究內(nèi)容分析結(jié)果
對134篇文獻的研究內(nèi)容進行統(tǒng)計整理,并采用德爾菲法進行分析。根據(jù)分析結(jié)果發(fā)現(xiàn)文獻研究內(nèi)容主要包括四大部分,一是理論基礎(chǔ)研究,二是特征提取,三是情感分析,四是推薦系統(tǒng),每一大部分研究內(nèi)容中又包括小的研究內(nèi)容,具體研究內(nèi)容見表3。從表3中的統(tǒng)計數(shù)據(jù)可以看出,在商品屬性提取研究中,對于理論基礎(chǔ)的研究文獻數(shù)量并不多,大多文獻綜述集中于研究方法的介紹。涉及特征提取的研究文獻數(shù)量最多,其中,對于文本預(yù)處理以及特征詞提取與過濾的研究文獻數(shù)量最多,分別為65篇及37篇。對于情感分析的研究數(shù)量同樣較多,特別是情感詞典的構(gòu)建與情感極性預(yù)測,均為19篇。對于推薦系統(tǒng)的研究文獻數(shù)量較少,最多的部分僅為11篇。
從這些研究內(nèi)容的分布頻數(shù)來看,理論基礎(chǔ)研究并不是該領(lǐng)域的研究重點,這與商品屬性提取研究的性質(zhì)有關(guān)。產(chǎn)品屬性提取研究側(cè)重于技術(shù)研究,更加注重研究的方式方法,所以理論基礎(chǔ)研究相對較少。涉及特征提取的文獻數(shù)量最多,這與特征提取是情感分析以及推薦系統(tǒng)兩部分研究內(nèi)容的必備條件有關(guān)。由于文本預(yù)處理以及特征詞提取及過濾的方法較為復(fù)雜,所以對這兩部分研究文獻數(shù)量較多。近幾年的特征提取研究往往與情感分析相結(jié)合,從而分析特征詞的情感極性,并應(yīng)用于特征價格研究、商家信譽維度構(gòu)建及維護、用戶推薦等方面,所以情感分析內(nèi)容以及推薦系統(tǒng)的研究在近幾年逐漸成為該領(lǐng)域的研究熱點問題。從所涉及相關(guān)研究內(nèi)容的文獻數(shù)量來看,對于情感分析的研究相對推薦系統(tǒng)來說更加廣泛與成熟。未來對于產(chǎn)品屬性提取研究的重點應(yīng)向推薦系統(tǒng)等實際應(yīng)用方面轉(zhuǎn)變。
(三)關(guān)鍵詞分析結(jié)果
1.關(guān)鍵詞統(tǒng)計分析
利用Citespace對134篇文獻的關(guān)鍵詞進行共現(xiàn)分析,得出關(guān)鍵詞共現(xiàn)圖譜(圖2),其中,頻次排名靠前的關(guān)鍵詞為“特征提取”“情感分析”“商品評論”“在線評論”和“推薦系統(tǒng)”,可以看出特征提取、情感分析與推薦系統(tǒng)等應(yīng)用型研究是該領(lǐng)域的研究熱點,這與前文關(guān)于研究內(nèi)容的分析結(jié)果不謀而合。通過關(guān)鍵詞之間的線性連接發(fā)現(xiàn)“特征提取”“情感分析”這兩個關(guān)鍵詞與其他關(guān)鍵詞之間的連接更為密切,是商品特征提取研究領(lǐng)域的基礎(chǔ)。通過統(tǒng)計發(fā)現(xiàn)其中出現(xiàn)頻次大于3的關(guān)鍵詞如表4所示,從這些關(guān)鍵詞中我們可以發(fā)現(xiàn),多數(shù)關(guān)鍵詞集中于研究方法的表述,表明對于產(chǎn)品屬性提取的研究內(nèi)容比較固定,但是研究方法具有多樣性特點。
2.關(guān)鍵詞演化分析
關(guān)鍵詞的演化能夠反映該領(lǐng)域研究內(nèi)容的演變過程、研究熱點及研究重點,本文從關(guān)鍵詞的歷年分布情況、歷年新增熱門關(guān)鍵詞兩個方面進行分析研究。
首先是關(guān)鍵詞的歷年分布統(tǒng)計分析,從2006年至今共獲得關(guān)鍵詞491個,歷年關(guān)鍵詞具體數(shù)量見圖3,從圖3中可以發(fā)現(xiàn),自2006年以來,關(guān)鍵詞數(shù)量總體呈上升趨勢,特別是從2015年開始關(guān)鍵詞數(shù)量快速增長,說明對于產(chǎn)品屬性提取的研究重視程度得到大幅度提升。
新增關(guān)鍵詞在一定程度上反映該研究領(lǐng)域新的研究主題出現(xiàn),筆者利用citespace軟件對關(guān)鍵詞進行時區(qū)分析,得到關(guān)鍵詞時區(qū)圖譜(圖4)。從關(guān)鍵詞時區(qū)圖譜中可以看出研究熱點的變化情況,從最早的文本挖掘、情感分析為研究熱點,到產(chǎn)品屬性及特征提取,一直到近兩年對于推薦系統(tǒng)以及目標(biāo)檢測的研究,反映了研究內(nèi)容的不斷深入和研究的應(yīng)用性的不斷加強。根據(jù)關(guān)鍵詞時區(qū)分布,本文將關(guān)鍵詞研究年份按關(guān)鍵詞增長速度劃分為2006—2014年、2015—2020年兩個階段(表5),根據(jù)表5可以看出2006—2014年出現(xiàn)頻次排名靠前的關(guān)鍵詞分別是商品評論、特征提取、文本分類、文本挖掘、語義理解和極性分析,從這些關(guān)鍵詞可以看出,在2006—2014年對于產(chǎn)品屬性提取研究的主題主要集中于對評論文本的特征提取及基礎(chǔ)分析。2015-2020年出現(xiàn)頻次排名靠前關(guān)鍵詞分別為情感分析、特征提取、在線評論、推薦系統(tǒng)、卷積神經(jīng)網(wǎng)絡(luò)、商品評論、深度學(xué)習(xí)和主題模型等,
從關(guān)鍵詞分布可以看出,2015—2020年相較于2006—2014年,對于產(chǎn)品屬性提取的研究不再局限于特征提取,而是增加了情感分析、推薦系統(tǒng)這一類將文本分析運用到實際中的研究,同時也增加了卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、主題模型這一類方法研究關(guān)鍵詞,突出了現(xiàn)階段研究方法的重要性,表明對于該領(lǐng)域的研究方法在不斷更新完善。
五、研究結(jié)果與不足
(一)研究結(jié)果
論文主要通過對中國知網(wǎng)中以產(chǎn)品屬性提取為研究主題的134篇文獻進行總體數(shù)據(jù)統(tǒng)計、研究內(nèi)容、研究方法以及關(guān)鍵詞四個方面進行研究分析,得出以下四個方面的結(jié)果:
第一,在總體研究趨勢方面,通過統(tǒng)計分析得出,研究文獻數(shù)量在逐年增加,文獻基金支持狀況中國家自然科學(xué)基金數(shù)遙遙領(lǐng)先,說明對產(chǎn)品屬性提取領(lǐng)域的研究重視程度在不斷提高。通過機構(gòu)發(fā)文量研究發(fā)現(xiàn),機構(gòu)研究文獻數(shù)量相對比較平均,大多數(shù)機構(gòu)研究文獻數(shù)量僅為1篇,說明研究機構(gòu)分散,沒有代表性機構(gòu),機構(gòu)間合作性較差。在未來的研究工作中,機構(gòu)應(yīng)加強領(lǐng)域研究的系統(tǒng)性,充分發(fā)揮出研究機構(gòu)的研究優(yōu)勢,強化研究機構(gòu)之間的合作深度,使得該領(lǐng)域的研究范圍擴大,研究深度加深。
第二,在研究內(nèi)容方面,對于產(chǎn)品屬性提取的研究內(nèi)容主要包括特征提取、情感分析以及推薦系統(tǒng)這三部分應(yīng)用型研究,理論基礎(chǔ)研究薄弱,個別理論基礎(chǔ)研究也僅限于研究方法理論,缺乏其他相關(guān)領(lǐng)域的結(jié)合,在未來的研究中產(chǎn)品屬性提取可以結(jié)合經(jīng)濟學(xué)、市場營銷和心理學(xué)等領(lǐng)域的相關(guān)理論來進行研究,這些理論能夠為產(chǎn)品屬性提取研究提供新的視角。
第三,在關(guān)鍵詞分析方面,本文通過對歷年關(guān)鍵詞數(shù)量以及不同階段關(guān)鍵詞變化的研究清楚了解到產(chǎn)品屬性提取領(lǐng)域的研究熱點和研究趨勢,同時探知到這個領(lǐng)域的未來潛在研究價值點所在。[15]隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,產(chǎn)品屬性提取的研究主題也在不斷更新,推薦系統(tǒng),深度學(xué)習(xí)、記憶網(wǎng)絡(luò)等都是目前的研究熱點,未來與產(chǎn)品屬性提取相關(guān)的應(yīng)用研究如屬性提取與價格、屬性提取與消費者行為預(yù)測、屬性提取與供應(yīng)鏈管理等都將是未來研究的主題。
(二)不足
本文立足于中國知網(wǎng)(CNKI)進行文獻收集,收集主題僅為“產(chǎn)品屬性提取”“商品特征提取”,收集到的數(shù)據(jù)難免不足,而且筆者在統(tǒng)計作者數(shù)據(jù)時并未將重名作者進行處理,對研究的結(jié)果均具有一定的影響。在研究內(nèi)容方面,僅對文獻進行了描述性統(tǒng)計分析以及研究內(nèi)容和關(guān)鍵詞分析,研究的全面性不夠,這些都是本文的不足之處,爭取在以后的研究過程中慢慢改進。
參考文獻:
安徽商貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報·社會科學(xué)版2022年1期