国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學(xué)術(shù)論文研究亮點的語言特征與主題識別*

2023-08-08 09:32楊思洛莫瑩瑩
圖書館論壇 2023年7期
關(guān)鍵詞:維度論文特征

楊思洛,程 濛,莫瑩瑩

0 引言

在學(xué)術(shù)成果海量增長和網(wǎng)絡(luò)知識加速流動背景下,一篇學(xué)術(shù)論文受到讀者發(fā)現(xiàn)與認可的成本越來越高。為了更加精確地匹配讀者和論文,同時吸引受眾的閱讀興趣,愛思唯爾出版集團ScienceDirect數(shù)據(jù)庫推出了研究亮點(Research Highlight),并對其全部投稿論文提供研究亮點做出了強制性要求。根據(jù)作者指南的說明,在形式和內(nèi)容上,亮點由3-5個要點構(gòu)成,篇幅限制在85個字符以內(nèi),凸顯研究的新穎結(jié)果和創(chuàng)新方法,最終逐條展示于論文網(wǎng)頁版本的標題之下;在作用價值上,經(jīng)由數(shù)據(jù)庫的機器閱讀匹配,亮點被證明有助于提高論文在搜索引擎中的曝光度,擴大學(xué)術(shù)成果的傳播范圍,引發(fā)科學(xué)工作者的關(guān)注[1]。當用戶使用ScienceDirect 數(shù)據(jù)庫進行檢索時,可以發(fā)現(xiàn)在返還頁面中,每一條結(jié)果與檢索詞匹配的突出黃色標記有兩處,一是標題,二是“Extracts”欄目下的亮點文本,充分表明了亮點對于提升文章可發(fā)現(xiàn)性的重要作用。一方面,亮點語言簡明通俗,能夠更加精確地匹配論文與讀者,擴大論文的傳播范圍。對亮點的語言特征進行研究,在當前亮點寫作規(guī)范下,探究作者對這一體裁的具體呈現(xiàn)形式,以及受到更多讀者利用的論文如何撰寫亮點,有利于深度發(fā)揮亮點的宣傳作用,幫助作者提升文章潛在利用的可能性,促進學(xué)術(shù)交流與合作。另一方面,亮點作為獨立的組成部分,濃縮了一篇論文最重要且最具特色的新方法和新結(jié)論,能夠幫助學(xué)者快速獲取論文核心觀點[2],降低文獻閱讀和篩選的成本。對亮點的內(nèi)容主題進行識別,有利于發(fā)現(xiàn)一門學(xué)科領(lǐng)域最具突破性的創(chuàng)新貢獻,明確研究重點和發(fā)展方向,進一步推動知識流動與科研創(chuàng)新。

目前專門對于學(xué)術(shù)論文亮點的關(guān)注少,研究主題分散,主要在于亮點的概念特征和自動抽取兩方面。在亮點的概念特征上,Yang W以亮點的評價性語言和交互性語篇為研究對象,探究240篇期刊論文亮點的語言學(xué)特征,并利用問卷調(diào)查總結(jié)了編輯和作者對亮點的看法,認為亮點能夠支持論文的學(xué)術(shù)立場和塑造可靠的學(xué)術(shù)形象[3];索傳軍等借助關(guān)鍵詞分析法和自然語言處理算法,探索了亮點的語言學(xué)特征及其在論文中的位置分布規(guī)律,歸納出亮點具有新穎性、簡明性、易讀性、宣傳性等特點[2]。在亮點的自動抽取上,Wang W等對多種無監(jiān)督自動抽取文本方法進行評估,研究了亮點的提取特征[4];Cagliero L等通過預(yù)測文章句子和亮點的相似度,提出了基于回歸模型的有監(jiān)督的亮點自動抽取方法[5]。

已有研究成果對亮點的特征和價值做了總結(jié),探索了亮點的自動抽取方法,然而整體數(shù)量少,對這一具有獨特價值的文本的探索尚處于初步階段,認識有待深入,其中關(guān)于亮點語言特征的研究限于部分語法統(tǒng)計和關(guān)鍵詞頻數(shù)統(tǒng)計,沒有進行語言寫作風(fēng)格的深入分析,且尚未有研究探討亮點的內(nèi)容主題構(gòu)成。為了豐富亮點相關(guān)研究,提升學(xué)術(shù)界和出版界的認識,引發(fā)對于亮點應(yīng)用和普及的思考,本文參考現(xiàn)有其他類型學(xué)術(shù)文本的相關(guān)研究,從外部特征和內(nèi)部特征兩個方向?qū)α咙c展開探索性研究:結(jié)合亮點的宣傳性功能和創(chuàng)新性特點,用語言特征反映外部特征,用主題識別反映內(nèi)部特征,借助自然語言標注處理工具、主題模型以及科學(xué)知識圖譜聚類方法,建立較為系統(tǒng)的研究框架對亮點文本進行實證探索。

1 研究思路與數(shù)據(jù)

針對亮點內(nèi)外部特征的研究思路從語言特征和主題識別兩個方面展開,見圖1。具體步驟為:(1)獲取學(xué)科領(lǐng)域的研究亮點和摘要數(shù)據(jù)集,分別導(dǎo)入自然語言標注處理工具MAT,獲取表示語言特征頻率的標準化數(shù)據(jù);(2)將亮點和摘要語言特征的頻率標準化數(shù)據(jù)進行獨立樣本T檢驗,分析亮點的語言特征;(3)依據(jù)論文的被引次數(shù),將亮點的語言特征頻率標準化數(shù)據(jù)劃分為高被引、中被引和低被引3 個層次,通過Kruskal-Wallis檢驗探究論文被引次數(shù)與亮點語言特征的關(guān)系;(4)對研究亮點數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理、特征提取、文本向量化,通過構(gòu)建LDA主題模型進行亮點的整體主題識別;(5)通過人工標注對亮點進行分類,采用VOSviewer 文本主題挖掘工具識別亮點不同類型的主題。

圖1 亮點的語言特征與主題識別研究思路

在研究數(shù)據(jù)上,本文從愛思唯爾數(shù)據(jù)庫Science Direct 選擇期刊Journal of Informetrics(JOI)2013-2020 年發(fā)表的論文,獲取其每篇論文的亮點、摘要和被引次數(shù)等信息,經(jīng)過整理剔除缺失的數(shù)據(jù)后,得到亮點文本564篇。JOI創(chuàng)刊于2007年,2021年JCR分區(qū)位于Q2,期刊影響因子為4.373,是信息計量學(xué)領(lǐng)域權(quán)威期刊。國內(nèi)外許多研究者以JOI 為數(shù)據(jù)分析信息計量學(xué)領(lǐng)域的研究趨勢,如Halevi G 等通過JOI期刊論文的引文語境分析,揭示其跨學(xué)科領(lǐng)域的主題演變[6],劉麗敏等以JOI 為樣本分析國際信息計量學(xué)研究足跡與知識結(jié)構(gòu)[7]。JOI自2013年起實行ScienceDirect對出版論文亮點提出的要求,即規(guī)定亮點由3-5個獨立句子構(gòu)成,每一句的長度限定為包括空格在內(nèi)的85 個字符,內(nèi)容上主要介紹研究中新穎的成果和新方法。一篇論文的亮點如下例所示[8]:

·Exploring knowledge communication and scientific structure by author direct-citation.

·Author direct-citation analysis among prolific,highly cited,and core authors.

· Research subjects on information science around the world be divided into 10 clusters.

·Author direct-citation analysis is different from author co-citation analysis.

通過對亮點語料庫進行統(tǒng)計,564篇亮點文本主要由3-5個語句構(gòu)成,其中有3篇包含6條語句,羅列要點的語句總數(shù)量為2,341條,單詞總數(shù)為32,875 個,平均每篇亮點長度為58.29個單詞,每條要點平均長度為14.04 個單詞。表1描述不同語句長度亮點的基本統(tǒng)計概況。

表1 亮點語料庫統(tǒng)計描述

2 亮點的語言特征多維度分析

亮點位于論文摘要之前的重要位置,要求以簡短的篇幅和通俗的語言展示最重要的方法或結(jié)論,對學(xué)術(shù)論文進行宣傳推廣,能引起讀者的閱覽興趣,擴大文章的傳播范圍,提升文章潛在利用的可能性。作者進行亮點編寫時需要關(guān)注語言特征,在觀點表達以及讀者互動上使用一定的策略,才能達到更好的宣傳效果。本文使用多維度分析法,結(jié)合論文摘要進行比較研究,考察亮點語言特征的使用情況,并探究論文被引次數(shù)與亮點語言特征的關(guān)系,分析高被引論文的亮點在語言風(fēng)格上的傾向性,為作者撰寫亮點的語言表述提供參考。

2.1 多維度分析法

多維度分析法(Multidimensional Analysis,MDA)是由Douglas Biber提出的語言特征量化研究方法,其基本思想是文本的語言表達形式反映了文本的交際、認知和語境等功能,而文本的某一功能對應(yīng)一組具有相關(guān)性的詞匯語法特征。Biber利用LLC英語口語語料庫和LOB英語書面語語料庫,選取且確定了67個語言特征,并統(tǒng)計它們在每個語篇中的分布頻率,采用因子分析法將語篇中共現(xiàn)的語言特征歸結(jié)為7個因子,代表7個語言功能分析維度,每一維度的語言特征又根據(jù)因子載荷的正負值分為功能相反的兩類。不同語域的文本使用的語言特征在各維度上的分布不同,從而體現(xiàn)出文本語言功能的差異。7 個維度具體包括:維度1,交互性/信息性表達(Involved vs.Informational production);維度2,敘述性/非敘述性關(guān)切(Narrative vs. Nonnarrative concerns);維度3,明確指稱/情景依賴型指稱(Explicit vs. Situation- dependent Reference);維度4,顯性勸說型表述(Overt Expression of Persuasion);維度5,抽象信息/非抽象信息(Abstract vs.Non-abstract Information)維度6,即席信息組織精細度(Online Information Elaboration);維度7,學(xué)術(shù)性模糊表達(Academic Hedging),維度7由于數(shù)據(jù)量的單薄在實際研究中通常被省略。每個維度上分布有數(shù)量不同的語言特征,同一維度上可能存在性質(zhì)相對、功能相反的兩組特征,如維度1中代表文本強交互性的特征(如第一人稱代詞和現(xiàn)在時態(tài))為正特征,代表文本強信息性的特征(如名詞和形容詞)為負特征。多維度分析法廣泛應(yīng)用于語域差異研究,如高校學(xué)生學(xué)術(shù)英語寫作水平在培訓(xùn)前后的縱向?qū)Ρ萚9],博士論文摘要的歷時對比[10],英語學(xué)習(xí)者和母語者論文的寫作風(fēng)格對比[11],以及著作不同翻譯版本的特征對比[12]。該方法從不同功能維度考察亮點的語言特征使用情況,與多元統(tǒng)計分析結(jié)合可以針對不同的文本進行量化比較分析。

本文使用多維度標注與分析工具MAT(Multidimensional Analysis Tagger),該軟件整合Biber的8種語域類別、67個語言特征和前6個功能維度,借助斯坦福詞性賦碼器(Stanford Tagger)對詞性和語言功能特征進行標注,實現(xiàn)多維度分析過程中文本標注、特征提取和數(shù)據(jù)統(tǒng)計等一系列工作的自動化操作,并輸出文本最接近類型、每個語言特征的出現(xiàn)頻率、頻率標準化后的得分(Z-scores,Z分數(shù))、每個維度的維度分(Dimension Scores)。維度分的計算規(guī)則是,因子載荷為正值和負值的兩類語言特征Z分數(shù)之和相減,如維度1:D1=(ZPRIV+ZTHATD+ZVPRT+……)-(ZNN+ZAWL+ZJJ+……)。將564篇亮點文本分別以txt文件保存并導(dǎo)入MAT進行全部語言特征標簽的標記與分析,獲取每篇亮點文本的維度分和Z分數(shù),以及該篇亮點文本最接近的文本類型,將以上數(shù)據(jù)導(dǎo)入Excel和SPSS以備分析和檢驗。

2.2 亮點的文本類型和維度特征

根據(jù)MAT標注分析結(jié)果得到亮點文本564篇,學(xué)術(shù)論文亮點整體語料庫“最接近文本類型”為學(xué)術(shù)說明型(Learned Exposition)。學(xué)術(shù)說明型文本是典型的正式的信息說明文本,注重傳遞信息[13],表現(xiàn)在維度1得分較低,維度3和維度5得分較高。從單篇亮點的標注結(jié)果來看,所有文本歸類共呈現(xiàn)4種形式,學(xué)術(shù)說明型(481篇,85.3%)占據(jù)主體,另有少量文本最接近科學(xué)說明型(Scientific Exposition)(41篇,7.3%)、一般敘述型(General Narrative Exposition)(29 篇,5.1%)和交互勸說型(Involved Persuasion)(13篇,2.3%)。語料庫整體的維度分以及各類型亮點文本6個維度分平均值如圖2所示。維度1分數(shù)越低,表明文本的語言中偏向信息性的特征(負特征)越多,反之則傾向于情感交互性的表達,一般分別對應(yīng)書面語和口語對話,亮點文本在維度1的負值低分呈現(xiàn)出其較強的信息性。維度2的分值從正到負意味著文本語言特征由敘述性到非敘述性的轉(zhuǎn)換,亮點的負分值表明文本的非敘述性特征密集出現(xiàn)。維度3的高分表明亮點文本指稱明確且不依賴于時間地點等情境。維度4上,大量文本的負分值顯示其呈現(xiàn)較弱的勸說性。維度5的高分表明信息抽象程度較高,文本詞匯的技術(shù)性較強。維度6的負值表示文本以將信息囊括在較少的詞匯和句子中這樣完整的方式來詳述,并不是有限時間內(nèi)的即興語言組織[14]??傮w上,亮點的語言表達呈現(xiàn)信息性、技術(shù)性和精確性較強,互動性、敘述性和勸說性較弱的特點。

圖2 各類型亮點維度分平均值

2.3 亮點與摘要的語言特征多維度對比分析

亮點與摘要在內(nèi)容上有說明研究方法和結(jié)果結(jié)論的相似之處,但前者在語言上更為簡潔凝練,并要求面向一般受眾,不使用專業(yè)性強的文字表述。為了對比分析二者在語言風(fēng)格上的差異,將獲取的摘要數(shù)據(jù)利用MAT以同樣的方式完成標注分析,借助SPSS對兩類文本的6個維度分和全部語言特征Z 分數(shù)進行獨立樣本T 檢驗。檢驗結(jié)果顯示,在維度2、維度3、維度5、維度6上,亮點與摘要文本存在顯著差異,而維度1和維度4的差異不顯著,兩類文本均值差異如圖3所示。

圖3 亮點與摘要維度分均值差異

在語言特征上,由于文本長度和內(nèi)容撰寫重點的不同,摘要運用的語言特征種類和頻次明顯多于亮點。為了排除幾乎未被使用的語言特征的干擾,確定亮點文本中實際影響各維度的具體語言特征,先對亮點和摘要每個維度分及其對應(yīng)的語言特征Z分數(shù)進行逐步回歸,從而得到每個維度真實使用的語言特征變量,然后在回歸結(jié)果的基礎(chǔ)之上進行比較,表2展示了獨立樣本T檢驗結(jié)果中,亮點和摘要各維度存在明顯差異的具體語言特征。

表2 亮點與摘要的各維度語言特征差異

根據(jù)回歸分析結(jié)果,維度1“交互性/信息性表達”中,進入方程的語言特征變量有可能意義情態(tài)動詞(POMD)、定語形容詞(JJ)、名詞(NN)等。在偏向信息性表達的語言特征中,亮點的平均詞長(AWL)、名詞(NN)和定語形容詞(JJ)出現(xiàn)頻率均高于摘要,它們都用于確定具體的信息以增加文本的信息密度。交互性表達中,亮點中出現(xiàn)highly、strongly、very、completely、greatly等增強語(AMP)的相對頻率更高,體現(xiàn)在程度、數(shù)量關(guān)系、作用強度的表述上,用以強化觀點、表明文章立場,提升對論文的宣傳作用。整體而言維度1 差異不顯著,摘要的維度分平均值更高,因而兩類文本均偏向信息性表達,但摘要與讀者的情感互動性相對更強。

維度2“敘述性關(guān)切”中,回歸分析顯示,主要影響因素包括公動詞(PUBV)、現(xiàn)在分詞從句(PRESP)、完成時態(tài)(PEAS)等語言特征。存在顯著差異的第三人稱代詞(TPP3)、完成時態(tài)、現(xiàn)在分詞從句等3個語言特征在摘要的出現(xiàn)頻率均大于亮點,摘要的維度分均值更高,具有更強的敘述性。例如,文獻[15]的亮點指出研究方法:“An Index of National Orientation (INO) is used,based on the geographical distribution of a journals’publishing and citing authors.”在摘要中的對應(yīng)論述“It calculates for journals covered in Scopus an Index of National Orientation(INO),and analyses the distribution of INO values across disciplines and countries,and the correlation between INO values and journal impact factors”則展開說明了該方法的應(yīng)用場景和對象,使用到更多的分句和代詞。同時,亮點論述的研究結(jié)論并不涵蓋全部,而是在有限的篇幅內(nèi)選擇最重要的加以展示,相比摘要會省略“It is found that”“The main findings are”“Our analysis shows that”等引導(dǎo)性用語,顯示更弱的敘述性。

維度3“明確指稱/情景依賴型指稱”所識別的預(yù)測變量有并列短語(PHC)、地點狀語(PLACE)、名詞化(NOMZ)、時間狀語(TIME)等7個。呈現(xiàn)顯著差異的語言特征中,亮點的名詞化和并列短語的頻率高于摘要,偏向情景依賴的一般副詞和時間狀語的使用少于摘要;由于其逐條羅列的形式特點,不依賴上下文的程度明顯強于摘要。

維度4“顯性勸說型表述”,經(jīng)過6次逐步回歸分析,得到不定式(TO)、分裂助動詞(SPAU)、勸說性動詞(SUAV)等6個最佳預(yù)測變量。維度4的t檢驗結(jié)果差異不顯著,數(shù)值上摘要的得分平均值略高于亮點,有顯著差異的不定式、預(yù)期情態(tài)動詞和分裂助動詞等3 個語言特征均略高于亮點。

維度5“抽象信息”納入的預(yù)測變量包含4個:無主被動式(PASS)、過去分詞省略WH 式(WZPAST)、 連詞(CONJ)、 其他狀語從句(OSUB)。亮點得分均值顯著低于摘要,摘要中更多使用連詞和其他狀語從句,增加了信息的抽象程度和技術(shù)性,原因是摘要中闡述研究問題和研究背景的語句更多。但在有限的文本篇幅中,亮點不帶施動者的被動語態(tài)應(yīng)用的頻率更高,主因是“is proposed”“is compared”“is analyzed”“is constructed”“is used”“is introduced”等表示研究方法的被動形式的普遍應(yīng)用。

維度6“即席信息組織精細度”的最佳預(yù)測變量有2個:指示詞(DEMO)和that從句作動詞補語(THVC)。同樣地,摘要得分的平均值更高。that等指示詞及其引導(dǎo)從句作補語的情況出現(xiàn)較多,因而信息組織更為精細嚴密,是亮點相較于摘要語言篇幅更短的體現(xiàn)。

綜上所述,亮點與摘要整體維度趨勢具有相似性。在信息密集的同時,亮點相對不注重與讀者的互動,更加強調(diào)語言的描述性和說明性,比起摘要顯示出相對更弱的敘事性和勸說性,以及更強的內(nèi)容獨立性和指向明確性。另外,數(shù)據(jù)表明,摘要平均詞數(shù)(176.9)是亮點平均詞數(shù)(58.3)的3倍以上。摘要中研究背景和過程的敘述,增加了讀者獲取文章創(chuàng)新內(nèi)容的閱讀成本,而亮點用于增強語氣、增強信息密度的語法表達以及被動語態(tài)明顯多于摘要,且語言組織不求復(fù)雜精細,內(nèi)容表述不依賴上下文,對作者立場觀點的傳遞更為簡潔、明確有力。

2.4 論文被引次數(shù)與亮點語言特征關(guān)系分析

為探究論文被引次數(shù)與亮點語言特征的關(guān)系,借鑒文獻[16]引文預(yù)測模型的四分位數(shù)分類法,將564篇亮點文本依據(jù)論文被引次數(shù)劃分為4個區(qū)間,分別為Q1:被引次數(shù)0~5;Q2:被引次數(shù)6~10;Q3:被引次數(shù)11~20;Q4:被引次數(shù)21 及以上,使得每一區(qū)間亮點的篇數(shù)相當。由于數(shù)據(jù)樣本不完全滿足方差齊性,采用Kruskal-Wallis單因素ANOVA分析,對不同引文區(qū)間的亮點的維度分以及語言特征Z分數(shù)的差異進行檢驗,P<0.05認為有顯著差異。結(jié)果顯示,不同引文區(qū)間的亮點文本在6個維度上無明顯差異,在具體語言特征上差異達到顯著水平的有:獨立并列從句(ANDC)、勸說性動詞(SUAV)、強調(diào)語(EMPH)、基數(shù)詞(CD)和數(shù)量詞(QUAN)。

獨立并列從句主要指逗號后接and連詞引導(dǎo)的句式,如“Technical details on the construction,visualization,and analysis of citation networks are discussed.”。勸說性動詞主要指propose、suggest、allow、determine、recommend、intend、prefer 等帶有觀點性的動詞。強調(diào)語主要指more、most、really、so、do等表示強調(diào)副詞的應(yīng)用,在研究結(jié)果中突出比較關(guān)系。基數(shù)詞指文本中出現(xiàn)的所有數(shù)值,包括年份、比例、個數(shù)、版本等各種數(shù)字表示。數(shù)量詞指some、all、many、any、few、several等表示數(shù)量的修飾語。

根據(jù)表3的成對比較結(jié)果,除勸說性動詞在被引次數(shù)更高論文的亮點中使用較少(Q4>Q1)外,其余4 種語言特征在Q4 的使用頻率均更高。即,被引次數(shù)更高的論文,其亮點通常會更多使用獨立并列從句、強調(diào)語、基數(shù)詞、數(shù)量詞,更少使用的勸說性動詞。這可能是由于獨立并列從句比長句更容易閱讀,強調(diào)語、基數(shù)詞和數(shù)量詞以比較和量化的方式,直觀展示論文的重點信息,更容易被瀏覽發(fā)現(xiàn),吸引閱讀興趣。通過對語料庫標注信息的檢索,勸說性動詞在亮點中的使用以“propose”及其改變形式為主,而新提出的理論、方法、模型、技術(shù)可能需要歷經(jīng)更長時期的檢驗,才得到廣泛利用。

表3 不同引文區(qū)間亮點各維度和語言特征對比

3 亮點的內(nèi)容主題識別分析

在反映科技創(chuàng)新主題和研究熱點上,相比于廣泛應(yīng)用的文獻摘要等題錄信息,亮點經(jīng)由作者遴選,精練了論文中最具特色的方法和最重要的發(fā)現(xiàn),其獨立成句的形式排除了大量語義信息,為識別創(chuàng)新的研究方法和結(jié)論提供了更為便捷的條件。本文首先采用LDA主題建模方法從整體上識別亮點語篇,其次對亮點語句逐條進行人工分類標注,并根據(jù)分類結(jié)果使用VOSviewer進行文本挖掘,從而梳理亮點在表達論文創(chuàng)新主題上的內(nèi)部特征,以及不同類型亮點的分布特征。

3.1 亮點整體主題識別

LDA主題模型的應(yīng)用能增強學(xué)科領(lǐng)域研究熱點的語義信息解釋性[17]。針對亮點文本的總體內(nèi)容特征,利用Python對數(shù)據(jù)預(yù)處理,清洗不必要的符號并將亮點文本進行分詞和詞形還原,使用nltk 停用詞表對分詞結(jié)果進行停用詞過濾處理,調(diào)用WordNet內(nèi)置函數(shù)實現(xiàn)詞形還原,并自行設(shè)置同義詞和停用詞讀取替換,計算并保存文本詞頻結(jié)果。經(jīng)過統(tǒng)計和分類后,出現(xiàn)頻率較高的名詞和形容詞關(guān)鍵詞見表4。

表4 亮點高頻關(guān)鍵詞統(tǒng)計

在主題建模階段,通過工具包Gensim 中LdaModel 函數(shù)結(jié)合TF-IDF 加權(quán)處理方法對經(jīng)過清洗后的亮點文本進行迭代訓(xùn)練,在困惑度隨主題數(shù)目增加而上升的情況下,選用一致性檢驗方法確定最優(yōu)主題數(shù)目,形成主題-特征詞分布。不斷調(diào)整各項參數(shù)以提升主題結(jié)果的可解釋性,最終設(shè)置主題數(shù)為10,迭代次數(shù)為600,每組特征詞個數(shù)為100。形成主題特征詞分布后,分別依據(jù)主題詞內(nèi)容進行命名,選取每個主題前20個關(guān)鍵詞,如表5所示。引文分析主題趨向引文預(yù)測模型、網(wǎng)絡(luò)數(shù)據(jù)庫的比較評估、引文與其他因素的影響作用關(guān)系等研究??蒲兄黝}類涉及學(xué)術(shù)研究和社交網(wǎng)絡(luò)中的熱點主題挖掘以及學(xué)科領(lǐng)域的主題演化。期刊與出版物主題關(guān)注出版物的分類、影響力、書目特征和開放獲取。影響因子主題主要研究JIF為主的期刊影響力指數(shù),涉及計算方式的優(yōu)化比較以及標準化方法的應(yīng)用,如文獻[18]指出對于JIF計算,幾何平均值比算術(shù)平均值給出更穩(wěn)定的結(jié)果??冃гu價主題關(guān)注學(xué)者、高校等科研機構(gòu)績效的影響因素和評價方法。專利計量主題主要探討專利引用的方法和科學(xué)技術(shù)的聯(lián)系、發(fā)展與融合,如文獻[19]利用文本相似性論證專利引用可以表示知識鏈接。合作主題涉及研究人員、科研機構(gòu)、國家層面跨領(lǐng)域合作的動態(tài)網(wǎng)絡(luò)、合作模式、作用效果以及性別差異等??萍贾笜酥饕芯縣 指數(shù)、g指數(shù)基礎(chǔ)上新指標的構(gòu)建和應(yīng)用,同時關(guān)注基于社交網(wǎng)絡(luò)的替代計量指標。方法和技術(shù)主題指面向解決領(lǐng)域問題所提出的方法模型和軟件工具,如引文網(wǎng)絡(luò)分析與可視化工具CitNetExplorer[20]和科學(xué)地圖分析工具bibliometrix[21]。網(wǎng)絡(luò)分析主題主要包括社會網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)等分析方法在信息計量學(xué)中的應(yīng)用。對比目前已有利用題錄數(shù)據(jù)分析信息計量學(xué)知識結(jié)構(gòu)的研究,田沛霖等通過分析Journal of Informetrics的文獻題錄數(shù)據(jù),總結(jié)評價指標的理論與實踐、網(wǎng)絡(luò)指標對績效的影響、高校科研績效評價、期刊影響力與跨學(xué)科性測度、基于網(wǎng)絡(luò)數(shù)據(jù)庫的引文分析、研究的社會影響測度6個主題社區(qū)[22],其歸納的知識來源與上述部分識別結(jié)果基本對應(yīng),另有科研主題、專利計量、合作、方法和技術(shù)等主題與該研究總結(jié)的高頻關(guān)鍵詞大致契合,表明亮點在內(nèi)容特征上具有表達論文核心主題的功能,可用于揭示特定學(xué)科領(lǐng)域的研究結(jié)構(gòu)。

表5 亮點主題-特征詞分布

3.2 亮點分類主題識別

3.2.1 亮點類型分布特征

ScienceDirect作者指南要求,亮點應(yīng)突出創(chuàng)新的研究成果或研究方法。結(jié)合對亮點文本內(nèi)容的判讀,本文將亮點劃分為方法型亮點、結(jié)論型亮點和其他型亮點。方法型亮點描述了研究采用的具體研究方法、數(shù)據(jù)來源、研究設(shè)計流程,介紹提出的新方法、新方法的功能效果、新技術(shù)工具等,對應(yīng)“提出、測量、分析、使用、比較”等動詞關(guān)鍵詞。結(jié)論型亮點總結(jié)了研究結(jié)果或結(jié)論,以及結(jié)果相關(guān)討論,對應(yīng)了發(fā)現(xiàn)、確定、展現(xiàn)、揭示、建議等動詞關(guān)鍵詞。除此之外,部分亮點還會涉及研究目的和意義、研究背景和問題,歸屬于其他型亮點。人工分類標注由兩位成員共同進行,首先通過閱讀梳理就分類標準達成一致,然后相互獨立初步標注50篇作為試驗樣本,對存在分歧之處通過討論進一步調(diào)整和完善類型的定義,確定更加明確的區(qū)分細并完成全部文本的標注。最終分類結(jié)果Kappa 系數(shù)達到了0.8以上,具有較高的信度。

在單條語句層面,數(shù)據(jù)集共有2,341 條亮點,涵蓋方法型亮點1,053條,分布于428篇文獻;結(jié)論型亮點1,133條,分布于433篇文獻;其他型亮點155條,分布于132篇文獻,見表6。在語篇層面,亮點語篇包含6種結(jié)構(gòu):(1)全部為方法型,共96 篇;(2)全部為結(jié)論型,共106 篇;(3)方法型和結(jié)論型,共230篇;(4)方法型和其他型,共34 篇;(5)結(jié)論型和其他型,共29 篇;(6)方法型、結(jié)論型和其他型,共29 篇。另有1 篇只提出研究問題,為其他型亮點。圖4 展示了亮點語篇結(jié)構(gòu),藍色、紅色、黃色依次代表方法型、結(jié)論型和其他型的3 類亮點成分,交叉重疊后形成6 個系列色塊,分別代表了上述6 種結(jié)構(gòu)。由統(tǒng)計結(jié)果發(fā)現(xiàn),方法型亮點和結(jié)論型亮點總體數(shù)量接近,結(jié)構(gòu)(1)和結(jié)構(gòu)(2)的占比相當,約有一半的亮點語篇同時論述了方法和結(jié)論,通篇僅闡述方法或僅說明結(jié)論的分別約占四分之一,顯示了研究方法和研究結(jié)論在亮點中具有同等重要性。

表6 亮點語句類型分布

圖4 亮點語篇結(jié)構(gòu)

3.2.2 分類主題挖掘

圖5 方法型亮點主題共現(xiàn)

圖6 結(jié)論型亮點主題共現(xiàn)

在分類標注的基礎(chǔ)上,利用VOSviewer文本主題挖掘功能,將摘要字段替換為亮點文本,設(shè)置同義詞替換和不同詞性詞合并,如h-index 與hirsch index、h index,normalize 和normalization,對方法型亮點和結(jié)論創(chuàng)新型亮點分別進行主題可視化分析,見圖5-6。方法型亮點描述具體方法創(chuàng)新和特色,包括其他領(lǐng)域方法的引入或已有方法的創(chuàng)新,也包括新方法的提出或原有方法基礎(chǔ)上的有效改進。JOI鼓勵投稿使用其他定量領(lǐng)域的方法研究信息問題[23],如數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)、經(jīng)濟學(xué)和計量經(jīng)濟學(xué)以及網(wǎng)絡(luò)科學(xué)。由于樣本限制以及新穎方法的獨特性,聚類結(jié)果較為分散,參考輸出的分詞結(jié)果列表將方法進行歸類,主要有6 種。(1)信息計量指標。傳統(tǒng)引文分析指標中影響因子、h指數(shù)、g指數(shù)指標依舊出現(xiàn)頻率較高,Almetric指標及Mendeley、Twitter等社交媒體新型評價工具也受到學(xué)術(shù)界關(guān)注,還有如百分位數(shù)排序位置指標(percentage rank position,PRP)、引文時間窗(citation time window)和作者共引統(tǒng)計等指標。(2)科研績效評價方法。數(shù)據(jù)包絡(luò)分析方法(data envelopment analysis,DEA)在期刊、機構(gòu)、國家和地區(qū)績效評價中廣泛應(yīng)用創(chuàng)新。此外,統(tǒng)計標準化方法探索較多,如分數(shù)計數(shù)法(fractional counting)、被引端標準化(cited-side normalization)和施引端標準化(citingside normalization),以及具體的來源標準化方法(source normalization approach)和平均標準化讀者得分(mean normalized reader score,MNRS)。(3)數(shù)據(jù)統(tǒng)計方法,包括主成分分析法(principal component analysis)、回歸模型(regression model)、TF-IDF 算法、相似度計算(similarity)、 聚類(cluster)、時間序列分析(time series)、可視化方法(visualization)、魯棒性測試(robustness)。(4)網(wǎng)絡(luò)分析方法,如引文網(wǎng)絡(luò)、社會網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、作者共現(xiàn)網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、異構(gòu)網(wǎng)絡(luò)、二部網(wǎng)絡(luò)、度分布(degree distribution)。(5)數(shù)據(jù)挖掘方法,如機器學(xué)習(xí)(machine learning)、主題模型(topic model)、PageRank 算法、優(yōu)先連接算法(preferential attachment)。(6)跨學(xué)科方法,如以數(shù)學(xué)為基礎(chǔ)的公理化方法(axiom)、經(jīng)濟學(xué)的基尼系數(shù)(Gini coefficient)以及合作博弈與收益分配的沙普利值方法(shapley value)。除具體方法之外,部分文獻主要提出新理論和概念框架,通常伴隨案例研究的實證,WoS、Google Scholar、Scopus、國家自然科學(xué)基金委員會等平臺機構(gòu),以及意大利等國家地區(qū)大量出現(xiàn)于數(shù)據(jù)源中,醫(yī)藥學(xué)、物理學(xué)、3D打印領(lǐng)域是主要的熱點分析領(lǐng)域。

結(jié)論型亮點通常展示基于研究對象的數(shù)據(jù)結(jié)果、被確定的關(guān)系以及得到的效果或性能。從聚類結(jié)果來看,相較于方法型亮點,結(jié)論型亮點更難從語詞層面識別出解釋性較強的信息,更多涉及模式、參數(shù)、程度、表現(xiàn)、相關(guān)關(guān)系、強度、領(lǐng)域、結(jié)構(gòu)、重要性等表示領(lǐng)域重要內(nèi)容的詞匯。與亮點整體主題識別結(jié)果相似,引文、期刊影響因子、論文、專利、作者、國家、合作、出版物、績效評價、網(wǎng)絡(luò)分析等主題依舊是信息計量的重點研究方向。其次,更多主題和研究對象受到關(guān)注,如性別差異、開放獲取、生產(chǎn)力、信息政策、同行評議、主題挖掘,以及各個國家地區(qū)、學(xué)科領(lǐng)域、社交媒體平臺和學(xué)術(shù)平臺。另外,有一定數(shù)量的文獻針對不同的數(shù)據(jù)庫、計數(shù)方法或評價指標進行比較研究,在結(jié)論型亮點中直接指出各自的差異與優(yōu)勢。例如,有研究認為,在專家判斷一致的情況下,期刊質(zhì)量評價指數(shù)中,篇均來源期刊標準影響(source normalized impact per paper,SNIP)比粗計量篇均影響(row impact per paper,RIP)或期刊影響因子有著更好的效能[24]。

4 結(jié)語

學(xué)術(shù)論文亮點的提出旨在用簡明扼要的文字,介紹論文的研究要點,在搜索引擎中增強與用戶信息檢索的匹配程度,幫助讀者迅速篩選文獻,吸引不同學(xué)科領(lǐng)域研究者的關(guān)注和理解,起到宣傳推廣論文的效果,以提升其利用率,促進科研創(chuàng)新和知識流動。然而,這一學(xué)術(shù)體裁鮮少得到關(guān)注,本文對其外部特征和內(nèi)部特征進行了探索性研究。

在外部特征上,亮點的語言呈現(xiàn)較強的信息性和非敘述性,指稱明確不依賴語境,情感交互性和顯性勸說性較弱,信息表達傾向于抽象和技術(shù)性,即席信息組織較為精細。與摘要文本對比,亮點文本的主要功能在于展示最重要的研究方法和研究結(jié)論,既不包含摘要中的研究問題和研究過程,也不囊括摘要中的具體方法和全部結(jié)論。獨立語句的形式使其指示詞和各類型從句的應(yīng)用頻率較低,但詞匯密度較高,因而能更直觀地表達核心結(jié)論。被引次數(shù)較高的論文,其亮點更傾向于使用較多的基數(shù)詞、數(shù)量詞、強調(diào)語和獨立并列從句。在論文亮點撰寫的過程中,建議作者可以更多展示具體數(shù)據(jù)和數(shù)量關(guān)系,用數(shù)字和程度副詞說明研究所用的材料、得到的效能、確定的關(guān)系、對比的結(jié)果等,避免過于追求精煉而缺失實質(zhì)信息;必要時可以使用并列從句,避免長難句帶來的閱讀阻力,從而展現(xiàn)論文的核心價值和競爭力,提升編輯審稿和讀者閱讀的效率。

在內(nèi)部特征上,通過亮點主題識別結(jié)果與現(xiàn)有題錄信息相關(guān)研究的對比,發(fā)現(xiàn)亮點具有表達論文核心主題的功能,可以用于揭示特定學(xué)科領(lǐng)域的研究重點。亮點依據(jù)內(nèi)容可分為方法型亮點、結(jié)論型亮點和其他型亮點。單篇亮點基于文章屬性對研究方法和研究結(jié)論的側(cè)重有所不同,但整體結(jié)構(gòu)分布上數(shù)量相當;方法型亮點的文本比結(jié)論型更具可解釋性,能夠反映相關(guān)領(lǐng)域的前沿方法。亮點中對未來應(yīng)用進行展望,可以作為創(chuàng)新點事實單元[25],相比文摘更易于分解為問題、方法、結(jié)果的實體和語義關(guān)系,便于機器處理和閱讀,可應(yīng)用到學(xué)術(shù)資源檢索系統(tǒng)中助力知識問答功能的智能化。

本研究的不足體現(xiàn)在:(1)采用的數(shù)據(jù)僅限于JOI期刊的564篇亮點文本,樣本數(shù)量存在局限性,在語言特征與被引數(shù)量關(guān)系以及內(nèi)容挖掘可解釋性上需要謹慎考慮;(2)亮點人工標注分類標準上,沒有將理論創(chuàng)新單獨考慮,不同類型的亮點統(tǒng)計結(jié)果精確程度有待提升;(3)研究領(lǐng)域相對單一,而不同學(xué)科領(lǐng)域的論文亮點在方法和結(jié)論上的創(chuàng)新側(cè)重點不同,語言風(fēng)格傾向也不同,需要進行更多的實證對比。后續(xù)將針對以上問題,完善對學(xué)術(shù)論文亮點的認知和實踐探索,為亮點在知識交流和科研創(chuàng)新中的應(yīng)用提供參考。

猜你喜歡
維度論文特征
如何表達“特征”
淺論詩中“史”識的四個維度
不忠誠的四個特征
抓住特征巧觀察
光的維度
“五個維度”解有機化學(xué)推斷題
下期論文摘要預(yù)登
下期論文摘要預(yù)登
下期論文摘要預(yù)登
2013年5—12月最佳論文