国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學(xué)術(shù)文獻(xiàn)中知識(shí)單元的關(guān)系計(jì)量研究

2023-05-27 17:46:24彭澤葉光輝畢崇武
現(xiàn)代情報(bào) 2023年6期

彭澤 葉光輝 畢崇武

關(guān)鍵詞: 學(xué)術(shù)文獻(xiàn); 知識(shí)單元; 知識(shí)抽取; 知識(shí)關(guān)系; 知識(shí)交流

DOI:10.3969 / j.issn.1008-0821.2023.06.006

〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 06-0056-11

隨著電子出版物的普及, 學(xué)術(shù)文獻(xiàn)的數(shù)量呈爆炸式增長(zhǎng), “信息過載” 和“信息迷航” 等問題日趨嚴(yán)重。情報(bào)學(xué)界和出版業(yè)界正迫切地尋求學(xué)術(shù)文獻(xiàn)的語(yǔ)義表示方法, 以便將其從語(yǔ)義上關(guān)聯(lián)起來,滿足多樣化的信息需求。長(zhǎng)期以來, 雖然基于題錄數(shù)據(jù)的學(xué)術(shù)文獻(xiàn)關(guān)聯(lián)研究已十分豐富, 但始終沒有突破粒度的瓶頸深入到文本片段層面展開研究。與此同時(shí), 學(xué)術(shù)界中以刊物評(píng)價(jià)學(xué)術(shù)質(zhì)量的不良學(xué)術(shù)風(fēng)氣得到越來越多人士的關(guān)注, 從新的視角構(gòu)建一種學(xué)術(shù)評(píng)價(jià)方式成為學(xué)界尤其是圖書情報(bào)領(lǐng)域一項(xiàng)迫切的研究工作。在此背景下, 從更細(xì)小、更微觀的粒度——知識(shí)單元對(duì)學(xué)術(shù)文獻(xiàn)開展評(píng)價(jià)就是一個(gè)十分重要的方向。

從目前學(xué)者們對(duì)于知識(shí)單元的認(rèn)識(shí)上來看, “知識(shí)單元” 的概念常常與“知識(shí)元” 的概念聯(lián)系在一起, 知識(shí)元強(qiáng)調(diào)獨(dú)立性、完整性、單一性, 是不可再分的、最小粒度的知識(shí)單元, 知識(shí)元的排列組合構(gòu)成了不同粒度的知識(shí)單元[1] 。從表現(xiàn)形式上來看, 知識(shí)單元可以指一段文字、一段音頻、一段動(dòng)畫、一個(gè)程序等[2] 。本文以學(xué)術(shù)文獻(xiàn)為知識(shí)載體, 知識(shí)單元特指蘊(yùn)含了某一領(lǐng)域知識(shí)的文獻(xiàn)文本片段。要開展知識(shí)單元粒度的學(xué)術(shù)資源關(guān)聯(lián)和學(xué)術(shù)成果評(píng)價(jià), 就需要完成知識(shí)單元之間關(guān)系的定義、分類、識(shí)別等先行研究。知識(shí)單元的關(guān)系計(jì)量研究將揭示知識(shí)單元之間復(fù)雜的關(guān)聯(lián)關(guān)系, 分析知識(shí)單元在知識(shí)交流中所扮演角色的重要程度, 實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)間知識(shí)單元粒度的語(yǔ)義聯(lián)系, 使構(gòu)建更細(xì)粒度的學(xué)術(shù)評(píng)價(jià)體系成為可能。

1文獻(xiàn)回顧

1.1知識(shí)關(guān)系的抽取研究

1) 基于模式匹配的關(guān)系抽取方法, 即利用語(yǔ)言學(xué)規(guī)則, 從語(yǔ)義特征的視角, 結(jié)合語(yǔ)料庫(kù)特點(diǎn)編寫模板, 并以此從文本中獲取特定關(guān)系。例如, He?artst M A[3] 通過人工定義的語(yǔ)義模板抽取知識(shí)之間的等級(jí)關(guān)系。劉琦等[4] 利用人工抽取的上下文語(yǔ)義特征, 對(duì)知識(shí)中包含的實(shí)體進(jìn)行分類, 進(jìn)而提出了知識(shí)之間的類屬關(guān)系識(shí)別方法。除人工抽取關(guān)系模板之外, 一些研究也利用大規(guī)模優(yōu)化算法實(shí)現(xiàn)關(guān)系模板的自動(dòng)抽取, 并將這些關(guān)系模板應(yīng)用到不同的語(yǔ)料文本中[5-6] 。例如, Ponzetto S P 等[7] 從Wiki?pedia 中自動(dòng)獲取關(guān)系模板, Suchanek F M 等[8] 從Wikipedia 和Wordnet 中自動(dòng)獲取關(guān)系模板等。

2) 基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法, 即在大量標(biāo)注數(shù)據(jù)的基礎(chǔ)上, 設(shè)計(jì)關(guān)系識(shí)別所需的特征, 選擇、訓(xùn)練、評(píng)估數(shù)學(xué)模型。例如, 基于深度學(xué)習(xí)的流水線關(guān)系抽取方法, 具體包括CR-CNN[9] 、Att-Pooling-CNN[10] 、Att-BLSTM[11] 、depLCNN+NS[12] 、DepNN[13] 、CNN+Softmax[14] 等; 基于深度學(xué)習(xí)的聯(lián)合關(guān)系抽取方法, 具體包括LSTM - RNN[15] 、APCNNs[16] 、CNN-RL[17] 以及Bootstrapping 相關(guān)方法[19-20] 等??傮w說來, 流水線方法將實(shí)體識(shí)別和關(guān)系抽取作為兩個(gè)分離的過程獨(dú)立處理, 而聯(lián)合抽取方法將實(shí)體識(shí)別和關(guān)系抽取放在統(tǒng)一的模型中共同優(yōu)化。此外, 也有部分研究融合兩種方法, 在規(guī)則模板的基礎(chǔ)上采用基于統(tǒng)計(jì)或圖的機(jī)器學(xué)習(xí)方法進(jìn)行關(guān)系抽取, 但這類方法在很大程度上依賴語(yǔ)料庫(kù)的質(zhì)量和訓(xùn)練集的規(guī)模[21-22] 。

1.2知識(shí)關(guān)系的類型研究

知識(shí)關(guān)系類型的早期研究側(cè)重于理論依據(jù)的溯源與建立, 隨著學(xué)者們對(duì)相關(guān)概念的進(jìn)一步明確,現(xiàn)有研究已轉(zhuǎn)向利用內(nèi)容和結(jié)構(gòu)特征劃分知識(shí)之間的關(guān)系類型[23] 。例如, 趙蓉英[24] 從知識(shí)節(jié)點(diǎn)類型的角度, 將知識(shí)關(guān)聯(lián)分為同一性關(guān)聯(lián)、隸屬性關(guān)聯(lián)和相關(guān)性關(guān)聯(lián); 文庭孝等[25] 依據(jù)拓?fù)浣Y(jié)構(gòu)將知識(shí)之間的關(guān)系類型劃分為鏈?zhǔn)疥P(guān)系、等級(jí)關(guān)系和網(wǎng)絡(luò)關(guān)系; 高繼平等[26] 將知識(shí)之間的關(guān)系劃分為等同關(guān)系、交叉關(guān)系、隸屬關(guān)系、引用關(guān)系、共現(xiàn)關(guān)系等。此外, 還有部分學(xué)者從引文內(nèi)容視角探究知識(shí)節(jié)點(diǎn)之間的引用類型, 并以此作為對(duì)應(yīng)知識(shí)單元間關(guān)系類型的補(bǔ)充[27-29] 。

知識(shí)關(guān)系類型的劃分通常需要抽取對(duì)應(yīng)知識(shí)的上下文語(yǔ)法特征和語(yǔ)義特征, 并基于這些特征完成分類任務(wù)。在語(yǔ)法特征方面, Woods W A[30] 將知識(shí)描述中的組合詞語(yǔ)劃分到不同類別, 并利用這些組合詞語(yǔ)的頭部(head)及其修飾語(yǔ)(modifier)判斷知識(shí)之間的關(guān)系類型。張衛(wèi)等[31] 利用不同詞語(yǔ)在內(nèi)容與結(jié)構(gòu)上的相同之處, 定義了一組通用的特征模板, 以此判定知識(shí)之間的層次關(guān)系。在語(yǔ)義特征方面, 徐庶睿等[32] 利用引文內(nèi)容和學(xué)科信息識(shí)別主題級(jí)學(xué)科知識(shí)的交叉關(guān)系; Lipetz B A[33] 將施引文獻(xiàn)和被引文獻(xiàn)之間的知識(shí)關(guān)系歸納為4 類29 種,并通過分析學(xué)術(shù)文獻(xiàn)之間的知識(shí)關(guān)系, 篩選出更有價(jià)值的學(xué)術(shù)文獻(xiàn); 盧超等提出學(xué)術(shù)文獻(xiàn)知識(shí)及其復(fù)雜關(guān)系的深入挖掘與解析方法, 并強(qiáng)調(diào)研究視野、理論、技術(shù)和應(yīng)用應(yīng)隨著社會(huì)發(fā)展、數(shù)據(jù)積累和技術(shù)進(jìn)步, 做相應(yīng)轉(zhuǎn)變和調(diào)整[34-35] 。

2知識(shí)單元的關(guān)系計(jì)量方法

知識(shí)單元之間存在著語(yǔ)義、結(jié)構(gòu)、功能等方面的語(yǔ)義關(guān)聯(lián)。本文將知識(shí)單元間的關(guān)系劃分為兩大類: 在學(xué)術(shù)文獻(xiàn)內(nèi), 從文章結(jié)構(gòu)、知識(shí)主題等角度探究知識(shí)單元的關(guān)聯(lián)關(guān)系; 在學(xué)術(shù)文獻(xiàn)間, 從引用頻次、引用位置、引用傾向和引用主題等角度探究知識(shí)單元的關(guān)聯(lián)關(guān)系。

2.1學(xué)術(shù)文獻(xiàn)中的知識(shí)單元關(guān)系分類

學(xué)術(shù)文獻(xiàn)內(nèi)部知識(shí)單元之間的關(guān)系主要從篇章結(jié)構(gòu)角度出發(fā), 探究各知識(shí)單元在結(jié)構(gòu)分布和主題承接等方面的關(guān)聯(lián)關(guān)系。在此基礎(chǔ)上, 學(xué)術(shù)文獻(xiàn)內(nèi)知識(shí)單元關(guān)系又可進(jìn)一步劃分成同一結(jié)構(gòu)內(nèi)和不同結(jié)構(gòu)間的知識(shí)單元關(guān)系。

同一結(jié)構(gòu)內(nèi)的知識(shí)單元關(guān)系相較于不同結(jié)構(gòu)間的知識(shí)單元關(guān)系更復(fù)雜, 如表1 所示。引言、相關(guān)研究中的知識(shí)單元起到的作用往往是引入研究對(duì)象、描述研究背景、陳述研究成果, 大多以羅列的方式出現(xiàn), 這樣的知識(shí)單元往往不會(huì)直接描述研究的理論、方法等內(nèi)容。因此, 對(duì)于這兩種結(jié)構(gòu)內(nèi)的知識(shí)單元, 本文將其之間的關(guān)系全部稱為“并列”關(guān)系。摘要和結(jié)語(yǔ)是對(duì)一篇文獻(xiàn)全文內(nèi)容的凝練,每句話都有對(duì)應(yīng)的研究?jī)?nèi)容, 上下文具備很強(qiáng)的關(guān)聯(lián)關(guān)系。對(duì)于同出現(xiàn)在摘要或同出現(xiàn)在結(jié)語(yǔ)中的知識(shí)單元, 如果具有不同的知識(shí)主題, 則為“并列”關(guān)系; 如果具備相同的知識(shí)主題, 且情感傾向相同, 則為“承接” 關(guān)系; 如果具備相同的知識(shí)主題, 但情感極性相反, 則為“對(duì)立” 關(guān)系。值得注意的是, 由于摘要篇幅的限制, 很少會(huì)在摘要中出現(xiàn)“對(duì)立” 關(guān)系。正文是一個(gè)研究的主體內(nèi)容,作者會(huì)在這一部分詳細(xì)陳述研究的理論、方法、工具、過程、結(jié)果、分析等, 這部分內(nèi)容占據(jù)著文章的主要篇幅, 往往會(huì)詳細(xì)敘述研究細(xì)節(jié), 語(yǔ)句凝練程度不高。對(duì)出現(xiàn)在正文中的知識(shí)單元, “承接”和“對(duì)立” 關(guān)系的判斷規(guī)則仍與摘要一致, 但正文中陳述性文字較多, 知識(shí)單元的關(guān)聯(lián)性降低。因此, 本文將正文中主題不同的知識(shí)單元間關(guān)系稱為關(guān)聯(lián)程度更低的“獨(dú)立” 關(guān)系。

不同結(jié)構(gòu)間的知識(shí)單元關(guān)系相對(duì)而言較為簡(jiǎn)單, 如表2 所示?!俺薪印?關(guān)系是指, 兩個(gè)知識(shí)單元處于學(xué)術(shù)文獻(xiàn)中的兩個(gè)不同結(jié)構(gòu), 且知識(shí)主題和情感傾向都相同, 其描述內(nèi)容相關(guān), 均是對(duì)同一研究對(duì)象開展的不同層次探究; “對(duì)立” 關(guān)系是指,兩個(gè)知識(shí)單元處于學(xué)術(shù)文獻(xiàn)中的兩個(gè)不同結(jié)構(gòu), 且知識(shí)主題相同但情感傾向不同, 其描述的內(nèi)容相關(guān), 但一者是對(duì)另一者的否定; “獨(dú)立” 關(guān)系是指, 兩個(gè)知識(shí)單元處于學(xué)術(shù)文獻(xiàn)中兩個(gè)不同結(jié)構(gòu),但知識(shí)主題不同時(shí), 其描述內(nèi)容關(guān)聯(lián)性不強(qiáng)且沒有結(jié)構(gòu)上的強(qiáng)關(guān)聯(lián)。

2.2學(xué)術(shù)文獻(xiàn)間的知識(shí)單元關(guān)系分類

學(xué)術(shù)文獻(xiàn)間知識(shí)單元關(guān)系橋梁是學(xué)術(shù)文獻(xiàn)之間的相互引用行為, 知識(shí)單元在引用過程中經(jīng)過不同程度的吸收、改造、重組后, 出現(xiàn)在另一篇學(xué)術(shù)文獻(xiàn)中的現(xiàn)象十分普遍。因此, 本文從引文分析的視角出發(fā), 考慮引用頻次、引用位置、引用傾向、引用主題等因素, 探究學(xué)術(shù)文獻(xiàn)之間知識(shí)單元的關(guān)聯(lián)關(guān)系。

學(xué)術(shù)文獻(xiàn)之間通過題錄數(shù)據(jù)建立的引用關(guān)系并不能直接映射到兩個(gè)知識(shí)單元上, 因此, 如何確定知識(shí)單元間的相互引用關(guān)系是建立學(xué)術(shù)文獻(xiàn)間知識(shí)單元關(guān)系的基礎(chǔ)。對(duì)于被引文獻(xiàn)而言, 其包含的所有知識(shí)單元都有可能被施引文獻(xiàn)吸收; 對(duì)于施引文獻(xiàn)而言, 雖然引用標(biāo)識(shí)只會(huì)出現(xiàn)在文中特定位置,但吸收的知識(shí)單元也有可能被作者內(nèi)化后放置在文中的多個(gè)地方。所以知識(shí)單元之間的引用關(guān)系并不是簡(jiǎn)單的一對(duì)一關(guān)系, 在兩篇學(xué)術(shù)文獻(xiàn)之間, 一個(gè)知識(shí)單元可能被多個(gè)知識(shí)單元引用, 一個(gè)知識(shí)單元也可能是在引用多個(gè)知識(shí)單元后的產(chǎn)出。這就需要從語(yǔ)義層面揭示知識(shí)單元之間的關(guān)聯(lián): 對(duì)于兩篇有引用關(guān)系的敘述文獻(xiàn)中的所有知識(shí)單元, 本文兩兩計(jì)算其主題相似度和語(yǔ)義相似度, 并加權(quán)求和得到引用系數(shù), 當(dāng)引用系數(shù)超過預(yù)設(shè)的引用閾值時(shí), 即可認(rèn)定兩知識(shí)單元間存在引用關(guān)系。

引用頻次是判斷被引文獻(xiàn)知識(shí)單元對(duì)于施引文獻(xiàn)知識(shí)單元重要性的指標(biāo), 被引知識(shí)單元在施引文獻(xiàn)中引用的次數(shù)越多, 說明被引知識(shí)單元對(duì)施引文獻(xiàn)知識(shí)生產(chǎn)的重要性越強(qiáng)。引用位置體現(xiàn)了被引知識(shí)單元在施引文獻(xiàn)中承擔(dān)的功能, 施引文獻(xiàn)在不同結(jié)構(gòu)中引用被引知識(shí)單元, 其所起的作用也不同。引用傾向體現(xiàn)了施引知識(shí)單元對(duì)被引知識(shí)單元的所持態(tài)度, 在相互引用的過程中, 學(xué)者們對(duì)彼此研究的看法不一, 引用可能是正面引證, 也可能是反面對(duì)比。因此, 施引知識(shí)單元對(duì)被引知識(shí)單元持何種情感也是影響文獻(xiàn)間知識(shí)單元關(guān)系的重要因素。

基于以上因素, 本文將學(xué)術(shù)文獻(xiàn)間的知識(shí)單元關(guān)系按如表3 所示規(guī)則劃分: 當(dāng)被引頻次等于1時(shí), 只需要考慮引用位置和引用情感即可, 因此,將引用位置在引言和相關(guān)研究且持正面引用情感的知識(shí)單元關(guān)系稱為肯定性引用; 將引用位置在引言和相關(guān)研究但持反面引用情感的知識(shí)單元關(guān)系稱為批判性引用; 將引用位置在摘要、正文、結(jié)論且持正面引用情感的知識(shí)單元關(guān)系稱為肯定性繼承; 將引用位置在摘要、正文、結(jié)論但持反面引用情感的知識(shí)單元關(guān)系稱為批判性繼承。當(dāng)被引頻次大于1, 且存在一個(gè)及以上引用位置不在引言和相關(guān)研究時(shí), 說明被引知識(shí)單元轉(zhuǎn)化為多個(gè)知識(shí)單元出現(xiàn)在施引文獻(xiàn)中, 對(duì)于施引文獻(xiàn)研究?jī)?nèi)容有十分重要的作用, 因此這種情況下的知識(shí)單元之間均為繼承關(guān)系。當(dāng)其持正面引用情感時(shí)為肯定性繼承, 持反面引用情感時(shí)為批判性繼承。此外, 被引頻次大于1 但所有引用位置均在引言和相關(guān)研究時(shí), 仍按被引頻次等于1 時(shí)的規(guī)則判定。

2.3知識(shí)單元的知識(shí)交流角色劃分

知識(shí)單元關(guān)系的不斷鏈接形成了知識(shí)單元的關(guān)系網(wǎng)絡(luò), 在知識(shí)單元的關(guān)系網(wǎng)絡(luò)背后, 實(shí)質(zhì)上是知識(shí)在不同知識(shí)單元間的交流、轉(zhuǎn)化, 知識(shí)單元間關(guān)系的數(shù)量、類型、方向決定了知識(shí)單元在知識(shí)交流中的角色。如圖1 所示, 根據(jù)知識(shí)單元在知識(shí)交流網(wǎng)絡(luò)中的位置, 本文將沒有關(guān)系指入、只有關(guān)系指出的知識(shí)單元稱為起點(diǎn)型知識(shí)單元, 如知識(shí)單元A、B; 將既有關(guān)系指入、又有關(guān)系指出的知識(shí)單元稱為中介型知識(shí)單元, 如知識(shí)單元C、D、E、F、G; 將沒有關(guān)系指出、只有關(guān)系指入的知識(shí)單元稱為終點(diǎn)型知識(shí)單元, 如知識(shí)單元H、I、J。

起點(diǎn)、中介、終點(diǎn)型知識(shí)單元又可以根據(jù)指入、指出的關(guān)系類型分成更多細(xì)分類型。圖2 所示的是起點(diǎn)型知識(shí)單元的知識(shí)交流角色類型。當(dāng)起點(diǎn)指出的關(guān)系中肯定性繼承和肯定性引用關(guān)系類型占比最大時(shí), 為引導(dǎo)式起點(diǎn)。引導(dǎo)式起點(diǎn)首次提出對(duì)應(yīng)主題的知識(shí)單元, 得到領(lǐng)域內(nèi)學(xué)者的普遍認(rèn)可,由此開辟出新的研究?jī)?nèi)容。當(dāng)起點(diǎn)指出的關(guān)系中批判性繼承和批判性引用關(guān)系類型占比最大時(shí), 為爭(zhēng)議式起點(diǎn), 爭(zhēng)議式起點(diǎn)同樣首次提出對(duì)應(yīng)主題的知識(shí)單元, 但引發(fā)了領(lǐng)域內(nèi)學(xué)者的激烈討論, 由此引發(fā)學(xué)者關(guān)于新研究?jī)?nèi)容的思考。值得注意的是, 在討論引導(dǎo)式起點(diǎn)和爭(zhēng)議式起點(diǎn)時(shí), 起點(diǎn)指出的關(guān)系數(shù)量應(yīng)當(dāng)被一起討論, 因?yàn)楫?dāng)起點(diǎn)指出的關(guān)系過少時(shí), 該起點(diǎn)往往不會(huì)引起足夠的關(guān)注, 在知識(shí)交流方面意義不大。甚至有些起點(diǎn)并沒有指向其他知識(shí)單元的關(guān)系, 同樣也沒有被其他知識(shí)單元關(guān)系指入, 這樣的知識(shí)單元被創(chuàng)造后并沒有得到其他知識(shí)單元的關(guān)注, 其提出的觀點(diǎn)也湮滅在浩瀚的學(xué)術(shù)文獻(xiàn)中, 實(shí)際上是一種游離節(jié)點(diǎn)。

圖3 所示的是中介型知識(shí)單元的知識(shí)交流角色類型。當(dāng)指入中介節(jié)點(diǎn)的關(guān)系中批判性引用和肯定性引用關(guān)系類型占比最大時(shí), 為知識(shí)轉(zhuǎn)述型中介。知識(shí)轉(zhuǎn)述型中介在吸收其他知識(shí)單元時(shí), 以羅列、敘述為主, 多用作研究基礎(chǔ)或背景。當(dāng)指入中介節(jié)點(diǎn)的關(guān)系中批判性繼承和肯定性繼承關(guān)系類型占比最大時(shí), 為知識(shí)轉(zhuǎn)化型中介。知識(shí)轉(zhuǎn)化型中介在吸收其他知識(shí)單元時(shí), 不止進(jìn)行簡(jiǎn)單描述, 還通過改進(jìn)相關(guān)理論和方法產(chǎn)出新的知識(shí)。

圖4 所示的是終點(diǎn)型知識(shí)單元的知識(shí)交流角色類型。當(dāng)知識(shí)單元沒有任何指向其他知識(shí)單元的關(guān)系時(shí), 為絕對(duì)終點(diǎn)。絕對(duì)終點(diǎn)意味著到現(xiàn)階段為止, 其沒有向任何知識(shí)單元輸出知識(shí), 關(guān)于該研究?jī)?nèi)容的知識(shí)交流在該節(jié)點(diǎn)暫止。當(dāng)知識(shí)單元的指出關(guān)系全部指向的是其他領(lǐng)域的知識(shí)單元時(shí), 為相對(duì)終點(diǎn)。相對(duì)終點(diǎn)雖然沒有向本領(lǐng)域知識(shí)單元輸出知識(shí), 但其在跨學(xué)科知識(shí)交流方面發(fā)揮著重要作用。

2.4知識(shí)單元主題及情感極性計(jì)算方法

在2.1~2.3小節(jié)的知識(shí)單元關(guān)系分類過程中,知識(shí)單元主題及情感傾向是區(qū)別知識(shí)單元關(guān)系類別的重要因素。本文選擇可以同時(shí)反映主題分布和各主題下主題詞分布的LDA 主題聚類算法計(jì)算每個(gè)知識(shí)單元的主題分布情況。但是, LDA 算法以詞集的形式輸出主題提取結(jié)果, 每個(gè)詞集代表一個(gè)主題, 因此提取結(jié)果并沒有明確的主題名稱, 這不利于知識(shí)單元的主題定義?;诖?, 本文通過人工歸納的方式把每個(gè)主題下的多個(gè)主題詞歸納成一個(gè)主題名稱, 用于標(biāo)注知識(shí)單元主題。

目前, 常見情感極性計(jì)算方法有基于詞典的情感傾向計(jì)算和基于機(jī)器學(xué)習(xí)的情感傾向計(jì)算兩大類。其中, 基于詞典的情感傾向計(jì)算方法適用性廣, 對(duì)語(yǔ)料主題的依賴性低。但由于中文表達(dá)方式多樣、語(yǔ)法豐富多變, 因此準(zhǔn)確度相對(duì)較低。知識(shí)單元是從文獻(xiàn)中截取的文本片段, 單個(gè)語(yǔ)料長(zhǎng)度較短且與上下文語(yǔ)境剝離, 并不適用基于詞典的情感傾向計(jì)算方法?;跈C(jī)器學(xué)習(xí)的情感傾向計(jì)算方法雖然對(duì)訓(xùn)練集語(yǔ)料的依賴性強(qiáng)、主題針對(duì)性高, 但本文語(yǔ)料集主題集中, 十分適合使用機(jī)器學(xué)習(xí)的方法計(jì)算知識(shí)單元情感傾向: 首先, 抽取部分知識(shí)單元文本作為訓(xùn)練集語(yǔ)料, 并人工標(biāo)注這些語(yǔ)料的情感傾向; 然后, 對(duì)訓(xùn)練集語(yǔ)料進(jìn)行單詞切分、雙詞搭配、“Jieba” Python 包自動(dòng)分詞, 并根據(jù)訓(xùn)練結(jié)果選取準(zhǔn)確率最高的分詞方式作為特征表示方法;第三, 通過卡方檢驗(yàn)選取信息量較高詞匯進(jìn)行特征降維; 最后, 使用不同的訓(xùn)練器訓(xùn)練語(yǔ)料, 并挑選準(zhǔn)確率最高的訓(xùn)練器對(duì)剩余的知識(shí)單元文本進(jìn)行情感極性自動(dòng)標(biāo)注。

3實(shí)證研究

3.1數(shù)據(jù)獲取與預(yù)處理

筆者在前期研究《學(xué)術(shù)文獻(xiàn)中的知識(shí)單元抽取及其分布特征識(shí)別研究》一文中, 設(shè)計(jì)了一種基于“人工標(biāo)注—規(guī)則歸納—機(jī)器識(shí)別—規(guī)則補(bǔ)充” 流程的知識(shí)單元抽取方法, 用于識(shí)別文獻(xiàn)中各種類型的知識(shí)元[36] 。該方法為規(guī)避知識(shí)判斷客觀標(biāo)準(zhǔn)缺失的問題, 提出采用領(lǐng)域內(nèi)學(xué)者主觀判定的方法識(shí)別訓(xùn)練集語(yǔ)料中的知識(shí)單元文本片段。這種方法十分依賴領(lǐng)域內(nèi)學(xué)者的隱性知識(shí), 學(xué)者儲(chǔ)備的隱性知識(shí)與文獻(xiàn)集主題需要十分契合。作為人工標(biāo)注工作的主要完成者, 筆者及團(tuán)隊(duì)內(nèi)其他成員的研究主題聚焦于“知識(shí)單元” “知識(shí)元” 領(lǐng)域, 因此, 本文以“中國(guó)知網(wǎng)” 期刊數(shù)據(jù)庫(kù)為數(shù)據(jù)來源,以“知識(shí)單元” “知識(shí)元” 為關(guān)鍵詞進(jìn)行檢索, 得到實(shí)證的目標(biāo)文獻(xiàn)207 篇。隨后, 使用《學(xué)術(shù)文獻(xiàn)中的知識(shí)單元抽取及其分布特征識(shí)別研究》中的知識(shí)單元抽取方法, 從上述207 篇學(xué)術(shù)文獻(xiàn)中共抽取到知識(shí)單元3 187個(gè), 每條記錄包括知識(shí)單元文本、篇名、發(fā)表日期、期刊、學(xué)科分類號(hào)、所處結(jié)構(gòu)等字段, 如表4 所示。

3.2知識(shí)單元主題及情感極性計(jì)算結(jié)果

按照2.4小節(jié)的知識(shí)單元主題聚類方法, 本文從知識(shí)單元中得到“語(yǔ)義信息關(guān)聯(lián)” “網(wǎng)絡(luò)知識(shí)組織” “信息計(jì)量” “知識(shí)元抽取方法與描述規(guī)則”等7 個(gè)主題, 并以分布概率最高的主題作為知識(shí)單元主題, 如表5所示。

按照2.4 小節(jié)所述的知識(shí)單元情感極性計(jì)算方法, 本文抽?。?187個(gè)知識(shí)單元中的40%作為訓(xùn)練集語(yǔ)料, 分別使用單詞切分、雙詞搭配和“Jieba”自動(dòng)分詞結(jié)果作為特征表示方法。實(shí)驗(yàn)結(jié)果顯示,“Jieba” Python 包自動(dòng)分詞結(jié)果作為特征表示方法時(shí), 情感極性判定的準(zhǔn)確率最高。因此, 本文使用“Jieba” Python 包自動(dòng)分詞結(jié)果作為特征表示方法,并使用卡方檢驗(yàn)選取信息量排名前3 000的詞匯進(jìn)行特征降維。最后分別使用BernoulliNB、Multinomial?NB、LogisticRegression、SVC、LinearSVC 模型訓(xùn)練語(yǔ)料, 分別得到92.96%、94.21%、94.61%、94.01%、95.16%的準(zhǔn)確率。因此, 本文使用LinearSVC 模型對(duì)剩余知識(shí)單元進(jìn)行情感極性自動(dòng)標(biāo)注, 知識(shí)單元主題劃分及情感傾向計(jì)算結(jié)果如表6 所示。

3.3知識(shí)單元關(guān)系類型分布

3.3.1學(xué)術(shù)文獻(xiàn)中的知識(shí)單元關(guān)系類型分布

根據(jù)2.1小節(jié)文獻(xiàn)內(nèi)同一結(jié)構(gòu)內(nèi)知識(shí)單元關(guān)系類型的劃分規(guī)則, 本文獲取到結(jié)構(gòu)內(nèi)知識(shí)單元關(guān)系18 098對(duì), 其中承接關(guān)系9 350對(duì), 獨(dú)立關(guān)系5 447對(duì), 并列關(guān)系3 272對(duì), 對(duì)立關(guān)系29 對(duì)。整體來看,學(xué)者們傾向于將有一定關(guān)聯(lián)的知識(shí)單元置于同一結(jié)構(gòu)內(nèi), 而較少在同一結(jié)構(gòu)中提出截然相反的兩種學(xué)術(shù)觀點(diǎn)。從類型來看, 圖5 展示了結(jié)構(gòu)內(nèi)知識(shí)單元關(guān)系類型在各個(gè)結(jié)構(gòu)中的分布情況。

從圖5可以看出, 并列關(guān)系和對(duì)立關(guān)系中各結(jié)構(gòu)占比大致與各結(jié)構(gòu)篇幅占比一致(并列關(guān)系沒有在正文中分布, 是因?yàn)椴⒘嘘P(guān)系相對(duì)松散, 而正文中符合并列關(guān)系判定規(guī)則的知識(shí)單元之間的松散性會(huì)被放大, 因此, 正文中符合并列關(guān)系判定規(guī)則的知識(shí)單元之間會(huì)被劃分成獨(dú)立關(guān)系, 故圖5 中的并列關(guān)系應(yīng)當(dāng)和獨(dú)立關(guān)系一起分析)。承接關(guān)系大量分布在正文中, 這是因?yàn)閮蓚€(gè)具有承接關(guān)系的知識(shí)單元之間具有強(qiáng)邏輯關(guān)聯(lián), 這要求兩個(gè)知識(shí)單元之間有一定篇幅的議論、推導(dǎo)和敘述, 使之流暢地過渡。在學(xué)術(shù)文獻(xiàn)中, 只有正文的篇幅可以容納兩個(gè)知識(shí)單元完成這種邏輯過渡, 因此絕大部分承接關(guān)系會(huì)分布在正文中。

根據(jù)2.1小節(jié)文獻(xiàn)內(nèi)結(jié)構(gòu)間知識(shí)單元關(guān)系類型的劃分規(guī)則, 本文共獲取到結(jié)構(gòu)間知識(shí)單元關(guān)系16 064對(duì), 其中承接關(guān)系10 151對(duì), 獨(dú)立關(guān)系5 877對(duì), 對(duì)立關(guān)系36 對(duì)。整體來看, 學(xué)者們大多遵循承前所敘的行文思路, 不同結(jié)構(gòu)間的知識(shí)單元之間保持一定的貫序邏輯。偶有并敘或另敘其他主題知識(shí)的情況發(fā)生, 但不同結(jié)構(gòu)間出現(xiàn)前后相互對(duì)立的知識(shí)單元的情況依然比較少見。從不同結(jié)構(gòu)來看,不同結(jié)構(gòu)之間知識(shí)單元關(guān)系類型分布如表7 所示。

因?yàn)橹R(shí)單元之間的獨(dú)立和對(duì)立關(guān)系是相互的, 沒有順序之分, 而承接關(guān)系只能由后向前承接, 所以表7 的結(jié)構(gòu)—結(jié)構(gòu)矩陣只有一半元素(根據(jù)2.1 小節(jié)所述, 本文將引言和相關(guān)研究、摘要和結(jié)語(yǔ)從文獻(xiàn)功能上視為同一結(jié)構(gòu))。知識(shí)單元關(guān)系均由行結(jié)構(gòu)指向列結(jié)構(gòu), 在每個(gè)結(jié)構(gòu)指向另一個(gè)結(jié)構(gòu)的元素中, 又分為承接、獨(dú)立、對(duì)立3 種關(guān)系類型。從矩陣中各類型關(guān)系的分布情況可以發(fā)現(xiàn), 以下兩點(diǎn)值得關(guān)注的特征: ①知識(shí)單元結(jié)構(gòu)間關(guān)系較為集中地分布在正文指向其他結(jié)構(gòu)中, 導(dǎo)致這種情況出現(xiàn)的主要原因是正文篇幅較大, 知識(shí)單元較多, 因此, 各類型知識(shí)單元關(guān)系數(shù)量都得到了一定程度的增加。除此之外, 由結(jié)語(yǔ)指向正文的承接關(guān)系數(shù)量也很多, 雖然正文結(jié)構(gòu)篇幅對(duì)其也有一定影響, 但其中承接關(guān)系數(shù)量的增幅明顯更大。這表明作者學(xué)術(shù)文獻(xiàn)寫作時(shí), 習(xí)慣在結(jié)語(yǔ)對(duì)正文中的知識(shí)單元做歸納總結(jié)、形成結(jié)論, 所以承接關(guān)系會(huì)在結(jié)語(yǔ)對(duì)正文中大幅增加; ②雖然對(duì)立觀點(diǎn)數(shù)量不多,但86.1%以上的對(duì)立關(guān)系都由正文和結(jié)語(yǔ)指向引言和相關(guān)研究。這表明對(duì)立情況出現(xiàn)的場(chǎng)景大多是在文章開篇提出他人觀點(diǎn)或現(xiàn)有研究的不足, 并在文章中提出不同見解或更優(yōu)解決方案。

3.3.2學(xué)術(shù)文獻(xiàn)間的知識(shí)單元關(guān)系類型分布

根據(jù)2.2小節(jié)文獻(xiàn)間知識(shí)單元關(guān)系類型的劃分規(guī)則, 本文獲取到文獻(xiàn)間知識(shí)單元關(guān)系5 203對(duì),其中肯定性繼承關(guān)系2 304對(duì), 肯定性引用關(guān)系2 880對(duì), 批判性引用關(guān)系19 對(duì)(未抽取到批判性繼承關(guān)系)。文獻(xiàn)間知識(shí)單元關(guān)系主要由知識(shí)單元之間的相互引用關(guān)系建立, 因此, 文獻(xiàn)間知識(shí)單元關(guān)系主要反映的是領(lǐng)域內(nèi)相關(guān)學(xué)者對(duì)知識(shí)成果的應(yīng)用方式。整體來看, 目前“知識(shí)單元” “知識(shí)元”領(lǐng)域的知識(shí)單元關(guān)系密度不大, 研究尚處于起始階段, 是知識(shí)計(jì)量學(xué)中仍待突破的領(lǐng)域。學(xué)者們多“以我為主”, 在各自研究基礎(chǔ)上相互延伸, 研究重心在于突破自身課題瓶頸, 領(lǐng)域內(nèi)知識(shí)的爭(zhēng)議程度較低, 文獻(xiàn)間絕大多數(shù)的知識(shí)單元關(guān)系為“肯定性繼承” 和“肯定性引用”。

對(duì)于兩篇文章之間的關(guān)系, 可以從兩篇文獻(xiàn)之間知識(shí)單元關(guān)系的數(shù)量和類型占比來分析, 知識(shí)單元關(guān)系數(shù)量反映的是聯(lián)系的緊密程度, 知識(shí)單元關(guān)系類型占比反映的是施引文獻(xiàn)對(duì)被引文獻(xiàn)的引用態(tài)度。一般來講, 文獻(xiàn)間知識(shí)單元關(guān)系數(shù)量越多, 它們之間的聯(lián)系就越緊密; 引用關(guān)系占比越高, 被引文獻(xiàn)作為施引文獻(xiàn)研究基礎(chǔ)、背景的程度越高; 繼承關(guān)系占比越高, 施引文獻(xiàn)對(duì)被引文獻(xiàn)方法、理論吸收能力越強(qiáng); 表8 展示了文獻(xiàn)集中關(guān)系最緊密的8 對(duì)文獻(xiàn)之間的知識(shí)單元關(guān)系數(shù)量和各關(guān)系類型占比。從表8 可以看出, 將其他學(xué)者研究成果作為自身研究的基礎(chǔ)和背景是文獻(xiàn)間知識(shí)引用的最常見方式; 在其他成果基礎(chǔ)上繼續(xù)更深入研究的知識(shí)引用方式也有出現(xiàn); 但針鋒相對(duì)地與某一研究爭(zhēng)論, 以激烈反駁另一文獻(xiàn)作為主要知識(shí)引用方式的情況還暫未出現(xiàn)在“知識(shí)單元” “知識(shí)元” 領(lǐng)域。

3.4知識(shí)單元的知識(shí)交流角色分析

按照2.3 小節(jié)所述的知識(shí)交流角色劃分方法,本文從全部知識(shí)單元中識(shí)別出起點(diǎn)型知識(shí)單元2 926個(gè)(其中湮滅型游離起點(diǎn)1586個(gè)), 中介型知識(shí)單元112 個(gè), 終點(diǎn)型知識(shí)單元149 個(gè)。整體來看, 游離知識(shí)單元數(shù)量達(dá)到知識(shí)單元總量的半數(shù),知識(shí)在知識(shí)交流網(wǎng)絡(luò)中的流動(dòng)程度較低。這些知識(shí)單元沒有參與到知識(shí)交流中, 只以知識(shí)存量的形式固化在文獻(xiàn)載體中, 沒有發(fā)揮知識(shí)單元在知識(shí)交流活動(dòng)中的作用。從節(jié)點(diǎn)類型數(shù)量分布上來看, 即使將游離知識(shí)單元排除在外, 起點(diǎn)型知識(shí)單元數(shù)量仍遠(yuǎn)大于中介型和終點(diǎn)型知識(shí)單元數(shù)量。出現(xiàn)這種現(xiàn)象的原因在于, 起點(diǎn)型知識(shí)單元所屬的文獻(xiàn)在網(wǎng)絡(luò)中有著十分強(qiáng)大的影響力, 核心文獻(xiàn)中各個(gè)知識(shí)單元基本都會(huì)以起點(diǎn)形式發(fā)散出去, 頭部文獻(xiàn)中每篇文章的起點(diǎn)知識(shí)單元數(shù)量都在30 個(gè)以上。起點(diǎn)數(shù)量最多的50 篇文章(占文獻(xiàn)總數(shù)的24.15%)中包含的起點(diǎn)數(shù)量達(dá)到1060個(gè)(占非游離起點(diǎn)總數(shù)的79.1%), 知識(shí)交流網(wǎng)絡(luò)中引導(dǎo)領(lǐng)域研究方向的起點(diǎn)型知識(shí)單元十分集中地分布在少數(shù)頭部文獻(xiàn)中。各類型知識(shí)單元中各種知識(shí)交流角色的分布情況如圖6 所示。

由圖6 可知, 起點(diǎn)型知識(shí)單元中, 引導(dǎo)式起點(diǎn)占比達(dá)到99%以上, 只存在極少數(shù)幾個(gè)爭(zhēng)議式起點(diǎn), 這表明在“知識(shí)單元” “知識(shí)元” 領(lǐng)域, 學(xué)者們首次提出的學(xué)術(shù)觀點(diǎn)基本都能夠得到領(lǐng)域內(nèi)其他學(xué)者的認(rèn)可。這一方面與上文所述的少數(shù)權(quán)威學(xué)者主導(dǎo)著該領(lǐng)域的研究風(fēng)向有關(guān), 其他學(xué)者基本都沿著權(quán)威學(xué)者研究基礎(chǔ)進(jìn)一步深入, 很少提出不同見解; 另一方面也與3.3.2 小節(jié)提出的“知識(shí)單元”“知識(shí)元” 領(lǐng)域目前所處的發(fā)展階段相關(guān)。中介型知識(shí)單元中, 知識(shí)轉(zhuǎn)化型中介約占中介型知識(shí)單元總數(shù)的60%, 多數(shù)知識(shí)單元吸收知識(shí)后, 會(huì)創(chuàng)造出新的知識(shí)內(nèi)容流出, 這同樣印證了3.3.2 小節(jié)關(guān)于“知識(shí)單元”“知識(shí)元” 領(lǐng)域目前所處發(fā)展階段的論述: “知識(shí)單元” “知識(shí)元” 領(lǐng)域目前尚處于起始階段, 新方法、新理論不斷演化, 學(xué)者們研究靈感相繼迸發(fā), 在各自研究的基礎(chǔ)上相互延伸并創(chuàng)造新的知識(shí)內(nèi)容, 進(jìn)而推動(dòng)研究水平不斷提高。終點(diǎn)型知識(shí)單元中, 并沒有相對(duì)終點(diǎn)的出現(xiàn), 這是因?yàn)楸疚倪x取的文獻(xiàn)數(shù)據(jù)具有明顯的主題學(xué)科特征,絕大多數(shù)文獻(xiàn)來源于“情報(bào)學(xué)” “圖書館學(xué)” “檔案學(xué)” 領(lǐng)域, 知識(shí)單元與其他學(xué)科進(jìn)行知識(shí)交流的情況無法在本文數(shù)據(jù)集中體現(xiàn)出來。

4結(jié)語(yǔ)

本文深入到文本片段層面開展學(xué)術(shù)文獻(xiàn)中的知識(shí)單元關(guān)系計(jì)量。首先, 使用基于規(guī)則匹配的方法從文本中抽取知識(shí)單元, 并使用LDA 主題聚類、機(jī)器學(xué)習(xí)等方法分別計(jì)算知識(shí)單元的主題、情感傾向等屬性特征; 其次, 按照知識(shí)組織和知識(shí)引用邏輯, 根據(jù)知識(shí)單元主題、所處結(jié)構(gòu)、情感傾向、被引次數(shù)等特征, 分別劃分結(jié)構(gòu)內(nèi)、結(jié)構(gòu)間、文獻(xiàn)間的知識(shí)單元關(guān)系類型; 第三, 構(gòu)建文獻(xiàn)間知識(shí)單元關(guān)系形成的知識(shí)單元關(guān)系網(wǎng)絡(luò), 根據(jù)與知識(shí)單元連接的關(guān)系數(shù)量、類型等識(shí)別其在知識(shí)交流中的角色; 最后, 選取學(xué)術(shù)文獻(xiàn)開展實(shí)證研究, 得到知識(shí)單元的關(guān)系類型分布、知識(shí)單元關(guān)系類型和數(shù)量與知識(shí)交流角色之間的關(guān)聯(lián)等規(guī)律性結(jié)論: ①學(xué)術(shù)文獻(xiàn)內(nèi)部的知識(shí)單元間關(guān)系主要由作者的行文習(xí)慣決定, 挖掘?qū)W術(shù)文獻(xiàn)內(nèi)部知識(shí)單元關(guān)系是識(shí)別學(xué)者行文風(fēng)格等專家特征研究方向之一; ②學(xué)術(shù)文獻(xiàn)之間的知識(shí)單元間關(guān)系主要由所屬學(xué)科領(lǐng)域的發(fā)展階段決定, 挖掘?qū)W術(shù)文獻(xiàn)之間的知識(shí)單元關(guān)系可作為研判學(xué)科未來發(fā)展方向的新方法; ③明星學(xué)者、重要文獻(xiàn)的影響力十分強(qiáng)大, 核心文獻(xiàn)中各個(gè)知識(shí)單元基本都會(huì)以起點(diǎn)形式與其他知識(shí)單元產(chǎn)生關(guān)聯(lián)。這種關(guān)系結(jié)構(gòu)有利有弊, 一方面, 明星學(xué)者、重要文獻(xiàn)可以更高效地發(fā)揮學(xué)科主導(dǎo)作用, 引領(lǐng)學(xué)科研究方向; 另一方面, 知識(shí)單元關(guān)系過于集中于少量知識(shí)單元不利于知識(shí)的充分交流。因此, 知識(shí)單元的關(guān)系計(jì)量工作可以作為網(wǎng)絡(luò)中被埋沒的高質(zhì)量知識(shí)單元的挖掘工具, 使得明星學(xué)者、重要文獻(xiàn)高效發(fā)揮主導(dǎo)作用的同時(shí), 避免學(xué)科知識(shí)“馬太效應(yīng)”的出現(xiàn)。

通過劃分與識(shí)別知識(shí)單元關(guān)系類別, 以及對(duì)知識(shí)單元關(guān)系類型、數(shù)量與知識(shí)交流角色之間關(guān)聯(lián)的探究, 本文實(shí)現(xiàn)了學(xué)術(shù)文獻(xiàn)間知識(shí)單元粒度的語(yǔ)義關(guān)聯(lián), 將知識(shí)交流角色識(shí)別從知識(shí)載體層面深入到知識(shí)內(nèi)容層面, 在更細(xì)粒度上探究知識(shí)演化的具體路徑, 為知識(shí)組織、語(yǔ)義出版等從微觀粒度開展語(yǔ)義關(guān)聯(lián)的工作提供了一種新的思路, 也為知識(shí)單元粒度的學(xué)術(shù)評(píng)價(jià)提供了可能。

海口市| 天全县| 新营市| 崇礼县| 永宁县| 渝北区| 泗洪县| 安多县| 虎林市| 乐亭县| 牟定县| 响水县| 城口县| 庄浪县| 清苑县| 菏泽市| 舞阳县| 云龙县| 博白县| 沂南县| 古丈县| 四子王旗| 巴林左旗| 新和县| 宜兰县| 潮安县| 海门市| 剑阁县| 密云县| 文登市| 霍林郭勒市| 宁城县| 龙山县| 昭苏县| 饶河县| 龙海市| 思南县| 澄江县| 定西市| 英吉沙县| 乌兰县|