国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語言模型輔助的英語科技論文摘要語步語料庫構(gòu)建研究

2025-01-26 00:00:00李洪政王若錦劉芳馮沖
外語學(xué)刊 2025年1期
關(guān)鍵詞:語料庫

提 要:語步結(jié)構(gòu)是學(xué)術(shù)論文中的文本語篇單位,在學(xué)術(shù)用途英語等方面具有重要價(jià)值。盡管關(guān)于學(xué)術(shù)論文的語步研究非常豐富,但語步標(biāo)注數(shù)據(jù)資源仍然相對較少。本研究借助自然語言處理領(lǐng)域的語言模型構(gòu)建了涵蓋多個(gè)學(xué)科領(lǐng)域的英語科技論文摘要語步標(biāo)注語料庫,包括近3.4萬個(gè)語步結(jié)構(gòu)。語料庫構(gòu)建的第一階段依靠專家標(biāo)注形成高質(zhì)量語料,在第二階段也是主要階段,采用基于BERT架構(gòu)的自動標(biāo)注模型,在保證標(biāo)注質(zhì)量的同時(shí)能夠快速提升標(biāo)注速度、擴(kuò)大標(biāo)注規(guī)模。本研究隨后開展了摘要語步自動標(biāo)注識別實(shí)驗(yàn),對比自動標(biāo)注模型與大語言模型ChatGPT和Claude3識別不同學(xué)科領(lǐng)域的語步結(jié)構(gòu)的效果,驗(yàn)證了模型和語料庫的價(jià)值。該研究能為科技論文寫作智能批改等自然語言處理任務(wù)以及學(xué)術(shù)用途英語等外語教學(xué)與研究等提供必要的數(shù)據(jù)資源,也驗(yàn)證了大語言模型輔助構(gòu)建語言資源的可能性,體現(xiàn)了語言智能驅(qū)動的智慧外語教育的重要性,能有效推動外語教育數(shù)字化轉(zhuǎn)型。

關(guān)鍵詞:語步結(jié)構(gòu);語料庫;摘要文本;大語言模型

中圖分類號:H08 """"文獻(xiàn)標(biāo)識碼:A """"文章編號:1000-0100(2025)01-0029-10

DOI編碼:10.16263/j.cnki.23-1071/h.2025.01.004

Research on Language Model-assisted Construction of Corpus for

Move Structures in Abstracts of English Scientific Articles

Li Hong-zheng1,2 Wang Ruo-jin1,2 Liu Fang1,2 Feng Chong3

(1.School of" Foreign Languages, Beijing Institute of Technology, Beijing 102488; 2.Key Laboratory of" Language,

Cognition and Computation Ministry of Industry and Information Technology, Beijing 102488;

3.School of Computer Science, Beijing Institute of Technology, Beijing 100081, China)

Move structures are discourse units in research articles (RA) and are of great value in English for Academic Purposes. Although there is abundant research on move structures in academic articles, there are still relatively few move annotation data resources. Based on Natural Language Processing (NLP) technologies, this research constructed a corpus for annotating move structures in English RA abstracts, and nearly 34,000 move structures from multi-disciplines were annotated. The first stage of corpus construction relied on manual expert annotation to form high-quality corpus data. In the second and main stage, a BERT-based automatic annotation model was adopted to improve the annotation speed and expand the annotation scale while ensuring the annotation quality. We then conducted move structure recognition experiments and compared the performance of our mo-del with large language models (LLM) including ChatGPT and Claude3, indicating the effectiveness of the proposed model. This research can provide necessary data resources for NLP related tasks such as intelligent assistance of English scientific articles writing. It is beneficial to foreign language teaching and research such as English for Academic Purposes, and verifies the possibility of" LLM to assist in the construction of language resources. It also shows the importance of intelligent foreign language education empowered by language intelligence and can effectively promote the digital transformation of foreign language education.

Key words:move structure; corpus; abstract texts; large language model

1 引言

語步(Move)指具有具體交際功能和目的的文本切分單位和語義片段,用來表示特定意義,代表著學(xué)術(shù)論文各章節(jié)的表述結(jié)構(gòu)與序列(Swales 1990:83,2004:18)。語步能夠有效表征論文語篇的宏觀結(jié)構(gòu),并為實(shí)現(xiàn)整個(gè)語篇體裁的總體交際目的服務(wù),揭示論文語篇的目的性、步驟性和規(guī)約性(楊延寧" 鄒航" 2023:1)??萍紝W(xué)術(shù)論文,特別是研究論文(Research Article, 簡稱RA)是科技和學(xué)術(shù)交流的重要載體。在研究論文中,摘要是必不可少的組成部分,通過簡潔、清晰而有說服力的段落傳達(dá)整篇文章的核心思想和亮點(diǎn)??勺x性好的摘要應(yīng)該包括組織良好及邏輯合理的語步結(jié)構(gòu),分別論述論文的研究背景、目的、方法、結(jié)論等基本信息,以凸顯文章的重要性和價(jià)值。

下面是自然語言處理(NLP)領(lǐng)域的一個(gè)英文論文摘要示例,其中清楚包含幾種常見的語步結(jié)構(gòu)。

①lt;背景gt;Previous works on cross-lingual NER are mostly based on label projection with pairwise texts or direct model transfer. lt;差距gt;" However, such methods either are not applicable if the labeled data in the source languages is unavailable, or do not leverage information contained in unlabeled data in the target language. lt;目的gt;In this paper, we propose a teacher-student learning method to address such limitations. lt;方法gt;NER models in the source languages are used as teachers to train a student model on unlabeled data in the target language.lt;結(jié)論gt;Extensive experiments for 3 target languages on benchmark datasets well demonstrate that our method outperforms existing state-of-the-art methods for both single-source and multi-source cross-lingual NER.

語步研究在專門用途英語(English for Speci-fic Purposes, 簡稱ESP)和學(xué)術(shù)用途英語(English for Academic Purposes, 簡稱EAP)等領(lǐng)域具有比較久遠(yuǎn)的歷史,在外語科技論文寫作、語步分析等方面具有重要應(yīng)用價(jià)值(Hyland 2008:5; Moreno, Swales 2018:40; Swales 2019:75)。自從語步被提出以來,很多研究基于不同學(xué)科領(lǐng)域?qū)W術(shù)論文的不同部分如摘要、引言、方法、結(jié)論等內(nèi)容,針對語步、修辭結(jié)構(gòu)和語言學(xué)特征等開展了比較詳細(xì)的分析和討論(Cotos et al. 2017:90; Lu et al. 2021:63; Alsharif 2023:1268)。近年來也有一些研究工作關(guān)注語步結(jié)構(gòu)的檢測與自動識別等(王東波等 2018:997; Alliheedi et al. 2019:113; 丁良萍等 2019:16; 王末等 2020:60; 杜新玉" 李寧" 2024:74; 張鑫等 2024:117)。語步結(jié)構(gòu)識別可以使文獻(xiàn)中蘊(yùn)含的知識顯式地體現(xiàn)出來,提高知識利用效率,是內(nèi)容抽取、文本摘要等任務(wù)應(yīng)用的重要基礎(chǔ)性工作(黃紅等" 2022:991)。但是之前的研究工作多只關(guān)注某一特定學(xué)科領(lǐng)域論文中特定部分的語步分析,或某個(gè)特定語步的識別,幾乎沒有跨學(xué)科對比研究和全面的語步結(jié)構(gòu)研究;另一方面,目前面向?qū)W術(shù)寫作的語步結(jié)構(gòu)自動標(biāo)注的研究相對較少,同時(shí)也缺乏針對科技研究論文摘要部分中的語步標(biāo)注資源建設(shè)。這種不足為跨語言語步分析與識別、科技論文信息抽取等自然語言處理任務(wù)和計(jì)算機(jī)輔助語言學(xué)習(xí)(Computer-Assisted Language Learning, 簡稱CALL)等應(yīng)用場景帶來了很多挑戰(zhàn)。

為了解決這些問題,本研究應(yīng)用自然語言處理技術(shù)構(gòu)建一個(gè)大規(guī)模、多領(lǐng)域的英語科技論文摘要語步標(biāo)注語料庫,當(dāng)前已累計(jì)標(biāo)注近3.4萬個(gè)語步實(shí)例,涵蓋人工智能、通信工程和機(jī)械工程等學(xué)科領(lǐng)域。標(biāo)注主要分為兩個(gè)階段:在前期初始階段,通過人工標(biāo)注形成一部分高質(zhì)量的標(biāo)注數(shù)據(jù);在后期階段也是目前標(biāo)注的主要階段,在高質(zhì)量標(biāo)注數(shù)據(jù)的基礎(chǔ)上,訓(xùn)練了一個(gè)基于BERT語言模型架構(gòu)的自動標(biāo)注模型,實(shí)現(xiàn)語步自動標(biāo)注,然后人工進(jìn)行干預(yù),修正模型標(biāo)注不準(zhǔn)確或者錯(cuò)誤的語步,在快速擴(kuò)大標(biāo)注數(shù)量和規(guī)模的同時(shí)也能夠保證標(biāo)注質(zhì)量。隨后開展了語步結(jié)構(gòu)自動識別實(shí)驗(yàn),對比我們的標(biāo)注模型與GPT-4和Claude 3等大語言模型在不同學(xué)科領(lǐng)域的語步識別效果,并針對具體實(shí)例進(jìn)行了比較詳細(xì)的分析。

2 相關(guān)研究

2.1 語步分類

語步的概念最初來自修辭學(xué),最早由美國語言學(xué)家J. Swales提出。Swales開創(chuàng)性地提出CARS語步模型(Swales 1990:141, 2004:228)和語步分類體系(Swales, Feak 2009:6),為后來的語步研究帶來深遠(yuǎn)影響,此后不同時(shí)期的很多學(xué)者都在此基礎(chǔ)上針對語步的特點(diǎn)不斷改進(jìn)語步的相關(guān)理論,并進(jìn)行語步分類研究,包括Teufel等人提出的Argumentative Zoning (AZ) scheme(Teufel et al. 1999:110)及其修正后的理論等(Teufel et al. 2009:1493; Teufel 2010:443)。

2.2 語步標(biāo)注

隨著語步理論研究的發(fā)展,也出現(xiàn)一些在此類理論指導(dǎo)下建設(shè)的語步結(jié)構(gòu)數(shù)據(jù)資源。Alliheedi等人重點(diǎn)關(guān)注生物化學(xué)領(lǐng)域論文方法部分中的語義角色和修辭語步(Alliheedi et al. 2019:113);劉霞(2016)構(gòu)建了選自《應(yīng)用語言學(xué)》(Applied Linguistics)期刊摘要的數(shù)據(jù)集;Viera等人(2020)通過構(gòu)建摘要語料庫,調(diào)查了在英語母語國家和非英語國家發(fā)表的研究論文摘要中的修辭。已有的語步結(jié)構(gòu)語料庫通常都是面向特定單一領(lǐng)域的,而且規(guī)模相對較小,目前仍然缺乏多領(lǐng)域大規(guī)模的摘要語步語料庫。因此,有必要構(gòu)建涵蓋多個(gè)學(xué)科領(lǐng)域的論文摘要標(biāo)注語料庫。

3 語料庫構(gòu)建過程

3.1 理論基礎(chǔ)

本研究構(gòu)建語料庫的主要理論基礎(chǔ)是Hyland(Hyland 2000:132)關(guān)于論文摘要語步的五分類理論。他認(rèn)為,之前有關(guān)學(xué)術(shù)論文全文的語步分類可能并不完全適合分析摘要部分的語步結(jié)構(gòu)。經(jīng)過對純科學(xué)、應(yīng)用科學(xué)、人文科學(xué)和社會科學(xué)等學(xué)科門類的論文摘要的考察,他提出學(xué)術(shù)論文摘要語步五分類法:

研究介紹(Introduction):論述研究說明,包括研究重要性、關(guān)鍵術(shù)語概念、研究差距等;

研究目的(Purpose):指出該研究的一般或者特別目的;

研究方法(Method):指明該研究的具體方法,包括數(shù)據(jù)、處理過程等;

研究產(chǎn)出(Product):討論該研究的主要發(fā)現(xiàn)和結(jié)果;

研究結(jié)論(Conclusion):引出該研究的結(jié)論,包括研究重要性、研究不足、對未來研究的啟示等。

根據(jù)前期調(diào)研和先導(dǎo)標(biāo)注試驗(yàn)(Pilot Study),我們發(fā)現(xiàn)Hyland的分類無法完全適合特定領(lǐng)域的摘要語步,因此需要進(jìn)一步的詳細(xì)分類體系。如例②的類似表達(dá)在很多包括NLP在內(nèi)的人工智能領(lǐng)域論文中都非常常見,一般是開源論文研究的相關(guān)信息,通??梢哉J(rèn)為是對整個(gè)研究社區(qū)的貢獻(xiàn)和價(jià)值,無法采用Hyland分類中的任何一種進(jìn)行標(biāo)注。

②" We release source code for our models and experiments at Github.

在Hyland分類的基礎(chǔ)上,我們根據(jù)具體標(biāo)注需求,對該分類方法進(jìn)行調(diào)整和補(bǔ)充,提出表 1所示的8種基本語步類型,并為每種語步設(shè)置了標(biāo)注標(biāo)簽。

3.2 語料來源及處理

本研究選擇各專業(yè)領(lǐng)域?qū)<彝扑]的英文頂級期刊(JCR Q1)和國際知名頂級會議論文中的摘要作為標(biāo)注語料,涵蓋人工智能學(xué)科和工程學(xué)科兩個(gè)大類。其中人工智能學(xué)科包括NLP和計(jì)算機(jī)視覺(CV)兩個(gè)領(lǐng)域;工程大類包括通信工程(Communication Engineering, 簡稱CE)和機(jī)械工程(Mechanical Engineering, 簡稱ME)兩個(gè)領(lǐng)域。

對于人工智能領(lǐng)域,考慮到會議論文具有更高的時(shí)效性以及相比期刊更大的錄用比例,我們選擇了兩個(gè)頂級國際會議:國際計(jì)算語言學(xué)大會(ACL)主會論文和世界人工智能大會(AAAI)中CV Track的會議論文作為數(shù)據(jù)來源。從ACL會議論文收錄平臺ACL Anthology官網(wǎng)(https://aclanthology.org/)可以直接下載收錄所有論文信息的文獻(xiàn)文件(BibTex),從中篩選出3年(ACL2020-ACL2022)的長論文摘要作為標(biāo)注數(shù)據(jù);另外從AAAI 2022大會官網(wǎng)中獲取CV Track的會議論文。對于工程大類領(lǐng)域,選擇了3本頂級期刊(Journal of Mechanical Design, International Journal of Heat and Mass Transfer," IEEE Journal on Selected Areas in Communications)。在Web of Science (WOS)檢索平臺中檢索每本期刊的信息,然后將檢索得到的論文題目、摘要等基本信息進(jìn)行處理。

為了方便標(biāo)注語步結(jié)構(gòu),我們把兩個(gè)學(xué)科領(lǐng)域的所有摘要文本段落根據(jù)主要的句末標(biāo)點(diǎn)符號預(yù)處理為一句話一行的格式。同時(shí)在保留原文基本意義的前提下,對摘要文本進(jìn)行必要的數(shù)據(jù)清洗,忽略可能會影響標(biāo)注的特殊符號、引用格式等信息,以保證標(biāo)注文本的質(zhì)量。

3.3 語料庫構(gòu)建

語料庫構(gòu)建主要分為兩個(gè)階段:第一階段是人工標(biāo)注,第二階段是系統(tǒng)自動標(biāo)注+人工修正。我們采用開源標(biāo)注工具Doccano作為在線標(biāo)注平臺,圖1是該平臺的標(biāo)注界面。

3.3.1 人工標(biāo)注

為了保證標(biāo)注質(zhì)量和準(zhǔn)確性,我們的語料標(biāo)注團(tuán)隊(duì)由外國語學(xué)院的4名專業(yè)教師和1名外語語言學(xué)專業(yè)的博士生組成,進(jìn)行分工標(biāo)注。同時(shí)每周舉行例會討論標(biāo)注過程中存在的各種疑難問題。在標(biāo)注過程中,原則上語步以完整的句子為單位,標(biāo)注者需要為每個(gè)句子選擇最合適的語步標(biāo)簽。在標(biāo)注平臺中,選中一個(gè)句子以后,平臺即可彈出設(shè)計(jì)好的標(biāo)注標(biāo)簽,標(biāo)注者可以選擇一個(gè)標(biāo)簽完成標(biāo)注。如果需要修改,可以點(diǎn)擊標(biāo)簽,選擇其他合適的標(biāo)簽。

3.3.2 自動標(biāo)注

人工標(biāo)注雖然能夠保證標(biāo)注質(zhì)量,但無法提升標(biāo)注速度和語料庫標(biāo)注規(guī)模,因此需要自動標(biāo)注。本研究采用Lin等(2023)提出的基于BERT(Devlin et al. 2019)的語步自動標(biāo)注模型(圖 2),將語步識別標(biāo)注視為多標(biāo)簽識別和分類問題。

值得注意的是,在標(biāo)注識別語步的時(shí)候,句中的不同單詞對于預(yù)測句子語步類型具有不同的影響。每種語步的表達(dá)也都依賴于一些特別的詞語。像圖2中的例句,句中有results,performance等非常明顯的關(guān)鍵詞,它們對于快速識別為結(jié)果語步類型具有更高的貢獻(xiàn)程度。考慮到這種普遍情況,該模型引入顯著性注意力(saliency attention),句子中的每個(gè)單詞都被視為一個(gè)特征,并計(jì)算其對特定語步類型的貢獻(xiàn)(顯著性值)。模型從人工標(biāo)注的高質(zhì)量數(shù)據(jù)中學(xué)習(xí)句子的語義特征,每個(gè)句子首先被分配一個(gè)表達(dá)整體語義的語步標(biāo)簽,然后設(shè)計(jì)詞語顯著性向量(word saliency embeddings)與BERT模型的其他3種向量(即token,segment與position embeddings)一起作為輸入表示來捕捉特定詞語對于語步的貢獻(xiàn)情況,從而提升模型識別語步的能力,最終完成語步識別和標(biāo)注。

自動標(biāo)注結(jié)果上傳到標(biāo)注平臺以后,標(biāo)注團(tuán)隊(duì)分工檢查標(biāo)注結(jié)果,并進(jìn)行修正。標(biāo)注模型根據(jù)人工反饋的數(shù)據(jù),可以不斷進(jìn)行迭代優(yōu)化,進(jìn)一步提升標(biāo)注效果。通過這種方式,可以快速提高標(biāo)注速度和效率,在保證標(biāo)注質(zhì)量的同時(shí)擴(kuò)大標(biāo)注規(guī)模。語料標(biāo)注完成以后,可以直接從標(biāo)注平臺中導(dǎo)出如例③所示的JSONL格式標(biāo)注文件,其中包括標(biāo)注數(shù)據(jù)的ID、數(shù)據(jù)文本及相應(yīng)的標(biāo)簽等基本信息。

③ {\"id\": 20,

\"data\": \"Words can have multiple senses. Compositional distributional models of meaning have been argued to deal well with finer shades of meaning variation known as polysemy,but are not so well equipped to handle word senses that are etymologically unrelated, or homonymy.\",

\"label\": [[0, 31, \"BAC\"], [32, 265, \"GAP\"]]}

4 語料庫數(shù)據(jù)統(tǒng)計(jì)

本研究目前已標(biāo)注2,670篇人工智能學(xué)科(NLP方向1,340篇,CV方向1,330篇)和2,000篇工程學(xué)科(通信工程和信息工程各1,000篇)的論文摘要,共得到33,988個(gè)語步。兩個(gè)學(xué)科領(lǐng)域論文摘要文本中的數(shù)據(jù)統(tǒng)計(jì)信息如表2所示。其中,平均句子數(shù)、平均詞語數(shù)和平均語步數(shù)分別指每篇摘要中平均包含的句子數(shù)量、單詞數(shù)量和語步數(shù)量。

4.1 各類語步結(jié)構(gòu)在不同學(xué)科的標(biāo)注情況

表3是語料庫中標(biāo)注的各類語步的分布情況。從表3中可以看到,在摘要中不同類型語步的分布存在很大差異。MTD語步在兩個(gè)學(xué)科中的標(biāo)注次數(shù)都是最多的,標(biāo)注數(shù)量占比高約34%,甚至超過第二位BAC和第三位PUR的總和;而IMP的次數(shù)最少,只占低于1%的比例。表明不同領(lǐng)域的論文摘要均更關(guān)注MTD這一語步。這也跟直覺判斷是一致的,因?yàn)榉椒ù_實(shí)是摘要中最有吸引力和最重要的部分之一,在摘要中通常會重點(diǎn)說明論文研究使用的方法,體現(xiàn)出該論文的價(jià)值和亮點(diǎn)。在標(biāo)注過程中,我們也發(fā)現(xiàn),很多論文摘要中的方法語步甚至包括不止一個(gè)句子。

對比兩個(gè)學(xué)科領(lǐng)域可以看到不同學(xué)科的摘要文本特點(diǎn)和語步分布存在較大差異。結(jié)合表2和表3,工程領(lǐng)域的摘要文本數(shù)量比人工智能少了近700篇,但摘要文本的句子數(shù)量整體比人工智能領(lǐng)域多,而且平均詞語數(shù)量也遠(yuǎn)高于人工智能,工程領(lǐng)域摘要的句子長度更長。語步分布上,工程領(lǐng)域的MTD語步數(shù)量遠(yuǎn)高于人工智能領(lǐng)域,其他語步如BAC,GAP,PUR等數(shù)量均少于人工智能。這表明通信工程和機(jī)械工程這兩個(gè)工程學(xué)科的論文摘要更傾向用較多的語句來詳細(xì)論述研究方法。標(biāo)注團(tuán)隊(duì)在實(shí)踐中也確實(shí)發(fā)現(xiàn),很多論文摘要開頭很少交代研究背景和研究差距,而是直接用一句話交代研究目的,隨即用多個(gè)連續(xù)的句子討論研究采用哪些方法,同時(shí)也不太注重提及研究本身的價(jià)值以及對于本領(lǐng)域的啟發(fā)和貢獻(xiàn)等。由于人工智能領(lǐng)域整體上具有明顯的開源特點(diǎn),很多論文摘要中經(jīng)常提到研究相關(guān)的代碼、數(shù)據(jù)等面向公眾開源,體現(xiàn)了對于研究社區(qū)的貢獻(xiàn),我們會把這種表述統(tǒng)一標(biāo)注為CTN,因此這一語步在人工智能領(lǐng)域的數(shù)量更多。

下面的兩個(gè)標(biāo)注實(shí)例對比了NLP和ME兩個(gè)不同領(lǐng)域方向的摘要語步特點(diǎn)。

④"" [BAC]Knowledge graph (KG) entity ty-ping aims at inferring possible missing entity type instances in KG. [GAP]It is a very significant but still under-explored subtask of knowledge graph completion. [PUR]In this paper, we propose a novel approach for KG entity typing which is trained by jointly utilizing local typing knowledge from existing entity type assertions and global triple knowledge in KGs. [MTD]Specifically, we present two distinct knowledge-driven effective mechanisms of entity type inference ... [CLN]Experimental results on two real-world datasets (Freebase and YAGO) demonstrate the effectiveness of our proposed mechanisms and models for improving KG entity typing. [CTN]The source code and data of this paper can be obtained from GitHub...

⑤"" [PUR]This paper proposes a novel density-based method for structural design considering restrictions of multi-axis machining processes. [MTD]A new mathematical formulation based on Heaviside function is presented to transform the design field into a geometry which can be manufactured by multi-axis machining process. [MTD]The formulation is developed for 5-axis machining, which can be also applied to 2.5D milling restriction. The filter techniques are incorporated to effectively control the minimum size of void region. [MTD]The filter techniques are incorporated to effectively control the minimum size of void region. [CLN]The proposed method is demonstrated by solving the compliance minimization problem for different machinable freeform designs.

4.2" 各類語步結(jié)構(gòu)在不同學(xué)科的出現(xiàn)情況

在語步分布的基礎(chǔ)上,如果不考慮每種語步在摘要中的標(biāo)注次數(shù)(一次或者多次),只要標(biāo)注了該語步,則認(rèn)為該摘要文本中包括該語步類型。我們也對這種情況進(jìn)行統(tǒng)計(jì)。表4顯示在2,670篇人工智能論文摘要和2,000篇工程領(lǐng)域論文摘要中,包括每種語步類型的摘要數(shù)量以及占全部摘要的比重??梢钥吹?,標(biāo)注PUR的摘要數(shù)量最多,超過2,300篇的人工智能論文摘要中都有該語步,工程領(lǐng)域論文也類似。兩個(gè)領(lǐng)域中出現(xiàn)數(shù)量第二位的都是MTD. 對比表3和表4中的PUR和MTD語步,在全部摘要中標(biāo)注數(shù)量最多的MTD高于PUR,是因?yàn)樵谝黄?,通常只有一個(gè)句子被標(biāo)注為PUR,但可能有多個(gè)句子被標(biāo)注為MTD.

5 實(shí)驗(yàn)及分析

為了檢驗(yàn)自動標(biāo)注模型的效果,本部分基于已構(gòu)建的語料庫開展了語步結(jié)構(gòu)的自動標(biāo)注實(shí)驗(yàn),分別從人工智能學(xué)科領(lǐng)域和工程學(xué)科領(lǐng)域中各抽樣50篇研究論文摘要作為開放測試集,對比我們的標(biāo)注模型與大語言模型ChatGPT(GPT-4)和Claude3(Opus)的標(biāo)注效果。GPT-4和Claude3(Opus)分別是OpenAI和Claude兩家競爭公司中目前最強(qiáng)大的模型。實(shí)驗(yàn)采用F1值作為評價(jià)指標(biāo)。F1可根據(jù)精確率(Precision,P)和召回率(Recall,R),由下面的公式計(jì)算得出:

F1=2PRP+R

其中,精確率和召回率的計(jì)算方法如下:

P=模型標(biāo)注每類語步的正確數(shù)量模型標(biāo)注每類語步的總數(shù)量

R=模型標(biāo)注每類語步的正確數(shù)量數(shù)據(jù)集中每類語步的標(biāo)準(zhǔn)數(shù)量

5.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

表5是實(shí)驗(yàn)數(shù)據(jù)的基本統(tǒng)計(jì)信息。平均句子數(shù)和平均句長分別是每篇摘要中平均包含的句子數(shù)量和句子中的單詞數(shù)量。實(shí)驗(yàn)在兩個(gè)大模型的官方網(wǎng)頁界面進(jìn)行。為了盡可能地提高大語言模型識別語步類型的準(zhǔn)確性,我們?yōu)镚PT-4和Claude3設(shè)計(jì)了下面的提示語(prompt),包括每種語步的含義以及通過示例告訴大模型標(biāo)注語步的要求和格式等。大模型根據(jù)提示語給出反饋以后,正式開始語步識別與標(biāo)注任務(wù)。

Move structures are important semantic and discourse units in research articles (RA). You are a senior expert in the field of EAP and are very good at analyzing the move structures in English RAs from different disciplines. You will analyze the move structures with the pre-defined move types and their labels as follows:

(1) Background (BAC): States the research area and provides any historical, theoretical, or empirical related information. (2) Gap (GAP): Establishes a niche: indicates a gap, adds to what is known, pre-sents positive justification. (3) Purpose (PUR): Indicates purpose, hypothesis, outlines the intention behind the paper. (4) Method (MTD): Provides information on design, procedures, assumptions, approach, data, etc. (5) Result (RST): States main findings or results or what was accomplished. (6) Conclusion (CLN): Summarizes the results or extends results beyond scope of paper. (7) Implication (IMP): Draws inferences which has not been explicitly stated. (8) Contribution (CTN): Points out the theoretical and practical value of the methods used in the articles.

Please identity the most suitable move type and annotate it for [each sentence] in the abstract texts. That is, every complete sentence [must] have a move label. Here is an example: [BAC] Recent neural models for relation extraction with distant supervision alleviate the impact of irrelevant sentences in a bag by learning importance weights for the sentences. [GAP]Efforts thus far have focused on improving extraction accuracy but little is known about their explanability.

5.2 實(shí)驗(yàn)結(jié)果及分析

本研究的BERT標(biāo)注模型與兩個(gè)大語言模型的語步標(biāo)注對比結(jié)果如表6所示。其中第二列是經(jīng)人工核實(shí)后,數(shù)據(jù)集中每種語步類型的標(biāo)準(zhǔn)正確數(shù)量,其他幾列分別是每個(gè)模型識別標(biāo)注出來的語步總數(shù)量、正確數(shù)量及F1值。

5.2.1 自動標(biāo)注模型與大語言模型標(biāo)注效果對比

從表6中可以看到,在當(dāng)前實(shí)驗(yàn)中,本研究的標(biāo)注模型在兩個(gè)領(lǐng)域的語步識別F1指標(biāo)均明顯地遠(yuǎn)高于兩個(gè)大語言模型的結(jié)果,而且標(biāo)注每種語步類型的F1也相對更加穩(wěn)定。在人工智能領(lǐng)域和工程領(lǐng)域,識別效果最好的F1值均在95%以上,而GPT-4和Claude3的最高F1值僅接近85%。從圖3顯示的8種類型的語步整體識別的平均F1來看,也分別達(dá)到89%和86%(圖3);GPT-4和Claude3的整體平均F1則更低。

但值得說明的是,并不是所有語步的識別效果都優(yōu)于大模型。通過具體分析3個(gè)模型的識別結(jié)果,也發(fā)現(xiàn)在某些摘要文本的語步識別中存在我們的模型識別錯(cuò)誤、而大模型識別正確的情況。例如下面的實(shí)例:

⑥ [PUR]In this paper, we propose a novel

bipartite flat-graph network (BiFlaG) for nested named entity recognition (NER), which contains two subgraph modules: a flat NER module for outermost entities and a graph module for all the entities located in inner layers. [MTD]Bidirectional LSTM (BiLSTM) and graph convolutional network (GCN) are adopted to jointly learn flat entities and their inner dependencies.

在例⑥中,第二個(gè)句子出現(xiàn)在PUR語步之后,而且句中存在單詞adopted,是比較明顯的方法語步的信號。這個(gè)語步被我們的模型錯(cuò)誤識別為BAC,但被GPT-4正確地識別為MTD. 從中可以看出GPT對于文本語義的理解能力。

5.2.2" 不同學(xué)科領(lǐng)域的語步標(biāo)注效果對比

圖4是根據(jù)表6繪制的語步識別F1指標(biāo)熱力圖。3個(gè)模型在AI領(lǐng)域的語步識別效果均明顯優(yōu)于工程領(lǐng)域。特別是工程領(lǐng)域,藍(lán)色部分顯示的RST,CLN和CTN語步的識別效果都比較差。

具體從兩個(gè)領(lǐng)域來看,領(lǐng)域內(nèi)各類語步的識別情況存在較大差異。在AI領(lǐng)域中,3個(gè)模型識別效果最好的語步類型均不相同,分別是BAC(我們的模型)、MTD(GPT-4)和PUR(Claude3);在工程領(lǐng)域,我們的模型除了在IMP和CTN兩個(gè)語步識別完全正確以外,識別最好的是GAP語步,其次是MTD,GPT4和Claude3則均在MTD上識別最好。這也再次說明MTD語步在不同領(lǐng)域論文摘要中的重要性以及在語句表達(dá)上有其特殊之處,比其他語步更容易被識別。

5.2.3 大語言模型之間的語步標(biāo)注效果對比

接下來我們對比兩個(gè)大模型的標(biāo)注效果。圖4顯示,GPT-4在AI領(lǐng)域的識別效果明顯好于Claude3,平均F1值比Claude3高10個(gè)百分點(diǎn);而在工程領(lǐng)域,Claude3的效果略好于GPT-4,但二者都在50%附近,遠(yuǎn)低于AI領(lǐng)域的平均F1,主要是受到RST,CLN和CTN語步的影響。由此可見,整體上AI領(lǐng)域的摘要語步類型特征更加明顯,更容易被識別出來。從摘要寫作的規(guī)范性和可讀性來看,可以認(rèn)為AI領(lǐng)域論文摘要寫作的規(guī)范性和可讀性整體好于工程領(lǐng)域。

盡管兩個(gè)大語言模型的識別效果在兩個(gè)學(xué)科領(lǐng)域中存在差異,但二者的識別表現(xiàn)也具有一定的趨同性。例如:在兩個(gè)領(lǐng)域中,結(jié)論語步(CLN)的識別數(shù)量及準(zhǔn)確識別數(shù)量均遠(yuǎn)遠(yuǎn)低于標(biāo)準(zhǔn)的正確數(shù)量,甚至出現(xiàn)個(gè)位數(shù)的識別量,導(dǎo)致F1值急劇下降。我們試圖跟GPT-4了解CLN識別過少的原因,它給出的解釋是“CLN通常出現(xiàn)在章節(jié)或文檔的末尾,如果提供的文本大部分來自文檔的引言或方法部分,那么自然會導(dǎo)致CLN的實(shí)例減少”。 換句話說,由于我們在提示語中明確提到識別的是摘要文本中的語步,因此GPT-4認(rèn)為摘要中不應(yīng)該出現(xiàn)過多的CLN語步。

與CLN相反,兩個(gè)領(lǐng)域中結(jié)果語步(RST)的識別數(shù)量則均超過標(biāo)準(zhǔn)正確數(shù)量,也就是把大量原本不屬于RST的語步識別為RST. 這種情況在我們的識別模型中也很普遍。例如下面的實(shí)例:

⑦ [MTD]We propose a simple, effective transition-based model with generic neural encoding for discontinuous NER. [CLN]Through extensive experiments on three biomedical data sets, we show that our model can effectively recognize disconti-nuous mentions without sacrificing the accuracy on continuous mentions.

在例⑦中,第二個(gè)句子的語步都被兩個(gè)大模型識別為RST,但實(shí)際應(yīng)該是CLN. 因?yàn)槿绻渥又写嬖谥T如show,demonstrate等單詞,一般就能比較明確地判斷為CLN.

我們分析了GPT和Claude識別效果不穩(wěn)定的原因,認(rèn)為可能主要表現(xiàn)在兩個(gè)方面:第一,實(shí)驗(yàn)只使用了網(wǎng)頁版的大模型聊天模式,并未像專門訓(xùn)練我們的BERT模型那樣有針對性地訓(xùn)練大模型,因此大模型在一定程度上無法充分學(xué)習(xí)到摘要文本中的語義信息。第二,我們在提示語中也沒有為大模型提供太多的提示信息,包括幫助識別某種語步結(jié)構(gòu)的關(guān)鍵信息等,例如,show,demonstrate 等詞語可以快速識別為CLN. 我們相信如果進(jìn)一步優(yōu)化prompt,將會提升大語言模型的語步識別效果。

6 結(jié)束語

本文面向英語科技論文寫作,借助自然語言處理前沿技術(shù)構(gòu)建了一個(gè)涵蓋多個(gè)學(xué)科領(lǐng)域、較大規(guī)模的論文摘要語步結(jié)構(gòu)標(biāo)注語料庫,同時(shí)檢驗(yàn)了大語言模型在語步結(jié)構(gòu)識別上的性能與效果。主要通過人工標(biāo)注與自動標(biāo)注+人工校對的方式構(gòu)建,采用了基于BERT的語步自動識別與標(biāo)注模型,能夠保證語料庫建設(shè)的規(guī)模和質(zhì)量。在語步自動識別實(shí)驗(yàn)中,本文的模型在不同學(xué)科領(lǐng)域中的各類語步類型識別效果均優(yōu)于大語言模型GPT4和Claude3的識別效果,體現(xiàn)了所構(gòu)建的語料庫和自動識別模型的有效性和價(jià)值。實(shí)驗(yàn)結(jié)果呈現(xiàn)出來的幾個(gè)方面的結(jié)論對于研究者深入認(rèn)識不同學(xué)科領(lǐng)域的語步結(jié)構(gòu)和大模型的語義理解能力等也具有重要的啟發(fā)作用。

該語料庫能夠?yàn)榭萍颊撐男畔⒊槿 ⒖萍颊撐闹悄茌o助寫作和批改等自然語言處理任務(wù)以及跨學(xué)科領(lǐng)域語步分析等外語教學(xué)和研究提供必要的數(shù)據(jù)資源支持,幫助二語學(xué)習(xí)者更好地理解論文語步結(jié)構(gòu),提升寫作能力以及國際學(xué)術(shù)交流能力等,同時(shí)通過語言智能技術(shù)賦能外語場景,有助于推動外語教育數(shù)字化轉(zhuǎn)型,進(jìn)一步實(shí)現(xiàn)智慧外語教育的目標(biāo)。

在未來的研究中,我們將在現(xiàn)有工作成果的基礎(chǔ)上繼續(xù)標(biāo)注更多學(xué)科領(lǐng)域的摘要文本語步結(jié)構(gòu),持續(xù)擴(kuò)大語料庫的規(guī)模。我們同時(shí)也考慮標(biāo)注科技論文中的其他組成部分,例如引言和方法部分,目標(biāo)是建設(shè)大規(guī)模、多領(lǐng)域、多元化的語步數(shù)據(jù)資源,為開展科技論文寫作智能批改等后續(xù)研究提供堅(jiān)實(shí)基礎(chǔ)。

*劉芳為本文的通訊作者。

參考文獻(xiàn)

丁良萍 張智雄 劉 歡. 影響支持向量機(jī)模型語步自動識別效果的因素研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019(3).‖Ding, L.-P., Zhang, Z.-X., Liu, H. Factors Affecting Rhetorical Move Recognition with SVM Model[J]. Data Analysis and Knowledge Discovery, 2019(3).

杜新玉 李 寧. 中文學(xué)術(shù)論文全文語步識別研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2024(8).‖Du, X.-Y., Li, N. Identifying Moves in Full-text Chinese Academic Papers[J]. Data Analysis and Knowledge Discovery, 2024(8).

黃 紅 陳 沖 張婧瑩. 科技文獻(xiàn)內(nèi)容語義識別研究綜述[J]. 情報(bào)學(xué)報(bào), 2022(1).‖Huang, H., Chen, C., Zhang, J.-Y." Review on Identifying the Semantics of Scientific Literature Content[J]. Journal of the China Society for Scientific and Technical Information, 2022(1).

劉 霞. 英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動識別模型的構(gòu)建[D]. 北京外國語大學(xué)博士學(xué)位論文, 2016.‖Liu, X." Constructing a Model for the Automatic Identification of Move Structure in English Research Articles Abstracts[D]. Beijing Foreign Studies University, 2016.

王東波 高瑞卿 葉文豪 周 鑫 朱丹浩. 不同特征下的學(xué)術(shù)文本結(jié)構(gòu)功能自動識別研究[J]. 情報(bào)學(xué)報(bào), 2018(37).‖Wang, D.-B., Gao, R.-Q., Ye, W.-H., Zhou, X., Zhu, D.-H. Research on the Structure Re-cognition of Academic Texts Under Different Characteristics[J]. Journal of the China Society for Scientific and Technical Information, 2018(37).

王 末 崔運(yùn)鵬 陳 麗 李 歡. 基于深度學(xué)習(xí)的學(xué)術(shù)論文語步結(jié)構(gòu)分類方法研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2020(4).‖Wang," M., Cui, Y.-P., Chen, L.," Li, H. A Deep Learning-based Method of Argumentative" Zoning for Research Articles[J]. Data Analysis and Knowledge Discovery, 2020(4).

楊延寧 鄒 航. 基于語步結(jié)構(gòu)的學(xué)術(shù)論文語篇構(gòu)式研究[J]. 外語教學(xué)理論與實(shí)踐, 2023(2).‖Yang, Y.-N.," Zou, H. A Study of" Move-based Academic Discourse Construction[J]. Foreign Language Learning Theory and Practice, 2023(2).

張 鑫 許海云 楊 寧 方 肖 趙 爽. 有限樣本下的科技文獻(xiàn)語步識別方法探討[J]. 圖書情報(bào)工作, 2024(8).‖Zhang, X., Xu, H.-Y., Yang, N., Fang, X., Zhao, S. Discussion of Moves Recognition of Scientific Documents Under Limited Samples[J]. Library and Information Service, 2024(8).

Alliheedi, M., Mercer, R., Cohen, R. Annotation of" Rheto-rical Moves in Biochemistry Articles[R]. Proceedings of the 6th Workshop on Argument Mining, 2019.

Alsharif, M. Rhetorical Move Structure in Business Management Research Article Introductions[J]. Journal of" Language" and Linguistic Studies, 2023(4).

Cotos," E., Huffman, S., Link, S." A Move/Step Model for Methods Sections: Demonstrating Rigour and Credibility[J]. English for Specific Purposes, 2017(6).

Devlin, J., Chang," M., Lee, K., Toutanova, K. Bert: Pre-training of" Deep Bidirectional Transformers for Language Understanding[R]. Proceedings of NAACL-HLT, 2019.

Hyland," K." Disciplinary Discourses: Social Interactions in Academic Writing[M]. London: Longman, 2000.

Hyland, K. As Can Be Seen: Lexical Bundles and Disciplinary Variation[J]. English for Specific Purposes, 2008(1).

Lin, J., Li, H., Feng, C., et al. Move Structure Recognition in Scientific Papers with Saliency Attribution[R]. Proceedings of China Conference on Knowledge Graph and Semantic Computing, 2023.

Lu, X., Yoon, J., Kisselev, O. Matching Phrase-frames to Rhetorical Moves in Social Science Research Article Introductions[J]. English for Specific Purposes, 2021(1).

Moreno, A., Swales, J. Strengthening Move Analysis Met-hodology Towards Bridging the Function-form Gap[J]. English for Specific Purposes, 2018(5).

Swales, J. Genre Analysis: English in Academic and Research Settings[M]. Cambridge: Cambridge University Press, 1990.

Swales, J." Research Genres: Explorations and Applications[M]. Cambridge: Cambridge University Press, 2004.

Swales, J." The Futures of EAP Genre Studies: A Personal Viewpoint[J]. Journal of English for Academic Purposes, 2019(8).

Swales, J., Feak, C." Abstracts and the Writing of Abstracts[M]. London: University of Michigan Press, 2009.

Teufel, S. The Structure of Scientific Articles: Applications to Citation Indexing and Summarization[M]. Stanford: CSLI Publications, 2010.

Teufel, S., Carletta, J., Moens, M. An Annotation Scheme for Discourse-level Argumentation in Research Articles[R]. Ninth Conference of the European Chapter of the Association for Computational Linguistics, 1999.

Teufel, S., Siddharthan, A., Batchelor, C. Towards Domain-Independent Argumentative Zoning: Evidence from Chemistry and Computational Linguistics[R]. Procee-dings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009.

Viera, R. Rhetorical Move Structure in Abstracts of" Research Articles Published in Ecuadorian and American English-Speaking Contexts[J]. Arab World English Journal (AWEJ), 2020(10).

定稿日期:2024-12-10【責(zé)任編輯 謝 群】

猜你喜歡
語料庫
《語料庫翻譯文體學(xué)》評介
基于語料庫的“はずだ”語義用法分析
基于語料庫“隱秘”的詞類標(biāo)注初步探究
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于COCA語料庫的近義詞辨析 ——以choose和select為例
口譯不宜“任性”:基于語料庫的外事翻譯等效探索
語言與翻譯(2015年3期)2015-07-18 11:11:04
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于英漢雙語平行語料庫的無根回譯研究
基于語料庫的近義詞辨析研究——以suspect和doubt為例
低碳經(jīng)濟(jì)英語語料庫建設(shè)與應(yīng)用
屯门区| 留坝县| 平阳县| 准格尔旗| 石嘴山市| 文山县| 衡东县| 镇赉县| 蓬溪县| 枣庄市| 双柏县| 红桥区| 乳山市| 武胜县| 英超| 明溪县| 保康县| 九江市| 濮阳市| 祁阳县| 会同县| 汾西县| 岗巴县| 义马市| 安徽省| SHOW| 泸州市| 东阿县| 昌图县| 周至县| 廊坊市| 清远市| 磴口县| 射洪县| 长岭县| 仙游县| 荔浦县| 康马县| 台山市| 黎川县| 进贤县|