摘 要:通用大語(yǔ)言模型(large language model,LLM)缺乏對(duì)專(zhuān)業(yè)領(lǐng)域知識(shí)理解的深度和廣度,對(duì)專(zhuān)業(yè)領(lǐng)域問(wèn)題回答的準(zhǔn)確度不夠,常常產(chǎn)生幻覺(jué),阻礙了大語(yǔ)言模型的商業(yè)應(yīng)用落地。因此,基于專(zhuān)業(yè)領(lǐng)域特有數(shù)據(jù)提高大型語(yǔ)言模型的專(zhuān)業(yè)性成為當(dāng)前大語(yǔ)言模型應(yīng)用落地的關(guān)鍵挑戰(zhàn)。針對(duì)通用大語(yǔ)言模型在特定領(lǐng)域知識(shí)理解與生成內(nèi)容專(zhuān)業(yè)性不夠的問(wèn)題進(jìn)行了研究。基于P-Tuning v2與Freeze兩種參數(shù)高效微調(diào)方法,提出了一種專(zhuān)業(yè)級(jí)大語(yǔ)言模型的兩階段微調(diào)框架。依賴(lài)該框架與肝膽科臨床數(shù)據(jù)對(duì)ChatGLM-6B進(jìn)行微調(diào),得到一個(gè)針對(duì)肝膽專(zhuān)科的專(zhuān)業(yè)級(jí)大語(yǔ)言模型,命名為MedGLM.H。根據(jù)實(shí)驗(yàn)顯示,微調(diào)后的大語(yǔ)言模型對(duì)于肝膽專(zhuān)科問(wèn)題的準(zhǔn)確率從31%提升到了62%;得分率從57%提升到了73%。在進(jìn)行兩階段微調(diào)后,模型在肝膽專(zhuān)科的問(wèn)答中表現(xiàn)出更高的準(zhǔn)確性與專(zhuān)業(yè)性,根據(jù)三名臨床醫(yī)生進(jìn)行的對(duì)話(huà)實(shí)驗(yàn),證明了微調(diào)后的模型在更專(zhuān)業(yè)的醫(yī)療場(chǎng)景中具備應(yīng)用潛力。
關(guān)鍵詞:大語(yǔ)言模型;微調(diào);肝膽科;人工智能
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)10-004-2906-05
doi:10.19734/j.issn.1001-3695.2024.03.0071
Two-phases fine-tuning of professional large language model via clinical data
Sun Liping1, 2, Tong Zilong3, Qian Qian3, Lu Xintao3, Ling Chen1, Fang Cheng4, Tang Qiyu4, Jiang Xiao5
(1.Medical Instrumentation College, Shanghai University of Medicine & Health Sciences, Shanghai 201318, China; 2.School of Information Science & Technology, Fudan University, Shanghai 200433, China; 3.School of Health Sciences & Engineering, University of Shanghai for Science & Technology, Shanghai 200093, China; 4.Third Affiliated Hospital of Naval Medical University, Shanghai 200438, China; 5. 905th Hospital of PLA, Shanghai 200052, China)
Abstract:General large language model (LLM) lacks the depth and breadth of understanding of domain-specific knowledge, resulting in insufficient accuracy in addressing domain-specific questions and often leading to illusions, which hinders the commercial deployment of large language models. Therefore, enhancing the professionalism of large language models based on domain-specific data has become a key challenge for the practical application of large language models. This study aimed to address the issue of insufficient domain-specific knowledge understanding and content professionalism of general large language models in specific domains. This paper proposed a two-stage fine-tuning framework for professional large language models based on the efficient parameter fine-tuning methods of P-Tuning v2 and Freeze. This framework, relying on clinical data from hepatobiliary specialties, fine-tuned ChatGLM-6B to obtain a professional-level large language model for hepatobiliary specialties, named MedGLM.H. According to the experiments, the fine-tuned large language model exhibited an increase in accuracy for hepatobiliary specialist questions from 31% to 62%, and the scoring rate increased from 57% to 73%. After two-phase fine-tuning, the model demonstrates higher accuracy and professionalism in hepatobiliary specialty QA. Dialogue experiments conducted with three clinical doctors confirm the application potential of the fine-tuned model in more specialized medical scenarios.
Key words:large language model; fine-tune; hepatobiliary; artificial intelligence
0 引言
近期,LLM如ChatGPT[1]、Bard、ChatGLM[2]等備受矚目,它們展現(xiàn)出的對(duì)常識(shí)問(wèn)題的理解能力、流暢的對(duì)話(huà)能力、上下文記憶能力、文本生成能力以及邏輯推理能力,標(biāo)志著人類(lèi)邁向通用人工智能的這導(dǎo)致了在特定領(lǐng)域的應(yīng)用中存在著不準(zhǔn)確性和可信度問(wèn)題[3~6]。
特定領(lǐng)域的知識(shí)和理解對(duì)于LLM的成功應(yīng)用至關(guān)重要。舉例來(lái)說(shuō),對(duì)于醫(yī)療保健領(lǐng)域,LLM需要準(zhǔn)確理解醫(yī)學(xué)術(shù)語(yǔ)、診斷方法、藥物治療等內(nèi)容,以便提供準(zhǔn)確的建議或診斷。而在金融領(lǐng)域,LLM需要理解投資策略、市場(chǎng)分析、風(fēng)險(xiǎn)評(píng)估等方面的知識(shí),以支持投資決策或提供財(cái)務(wù)咨詢(xún)。因此,為了充分發(fā)揮LLM的潛力,需要針對(duì)不同領(lǐng)域進(jìn)行定制化的知識(shí)和技能培訓(xùn),從而使其能夠在特定領(lǐng)域中表現(xiàn)出專(zhuān)業(yè)水平。
然而,從零開(kāi)始訓(xùn)練特定領(lǐng)域的LLM是一項(xiàng)極具挑戰(zhàn)性和成本高昂的任務(wù)。這不僅需要大量的算力支持,還需要擁有深厚領(lǐng)域知識(shí)的AI算法工程師進(jìn)行指導(dǎo)和優(yōu)化。這種成本和復(fù)雜性對(duì)于許多機(jī)構(gòu)來(lái)說(shuō)是難以承受的,尤其是對(duì)于小型企業(yè)或研究機(jī)構(gòu)。因此,基于通用且可靠的大型語(yǔ)言模型進(jìn)行微調(diào)以適應(yīng)特定領(lǐng)域的需求成為了一種更加可行和經(jīng)濟(jì)的選擇。
通過(guò)微調(diào)通用模型,可以將其轉(zhuǎn)換為針對(duì)特定領(lǐng)域的大語(yǔ)言模型,從而獲得更高的準(zhǔn)確性和可信度。這種方法不僅可以節(jié)省大量的時(shí)間和資源,還可以確保模型具有足夠的靈活性,以適應(yīng)不斷變化的領(lǐng)域需求。同時(shí),微調(diào)過(guò)程中可以通過(guò)引入領(lǐng)域?qū)<业闹R(shí)和反饋來(lái)提高模型的性能,從而進(jìn)一步增強(qiáng)其在特定領(lǐng)域的應(yīng)用能力。
除了微調(diào)外,還可以采用其他策略來(lái)提高LLM在特定領(lǐng)域的應(yīng)用能力。例如,結(jié)合外部數(shù)據(jù)源進(jìn)行訓(xùn)練,引入領(lǐng)域?qū)<覅⑴c模型設(shè)計(jì)和評(píng)估過(guò)程,以及建立特定領(lǐng)域的知識(shí)圖譜來(lái)輔助模型理解和推理。這些策略可以進(jìn)一步增強(qiáng)模型在特定領(lǐng)域的專(zhuān)業(yè)性和適用性,從而提高其實(shí)際落地的可能性。
因此,盡管LLM在通用領(lǐng)域取得了巨大的進(jìn)步,但其在特定領(lǐng)域的應(yīng)用仍然面臨諸多挑戰(zhàn)。為了充分發(fā)揮其潛力,則需要通過(guò)微調(diào)和其他策略來(lái)提升其專(zhuān)業(yè)性和適用性,從而實(shí)現(xiàn)在特定領(lǐng)域的商業(yè)化落地。這不僅需要技術(shù)上的創(chuàng)新和優(yōu)化,還需要跨學(xué)科的合作和領(lǐng)域?qū)<业膮⑴c,以確保模型能夠真正服務(wù)于實(shí)際需求,并為社會(huì)帶來(lái)更大的價(jià)值和影響。
1 研究現(xiàn)狀
1.1 醫(yī)學(xué)通用大語(yǔ)言模型
醫(yī)療健康領(lǐng)域已經(jīng)出現(xiàn)一些基于通用大語(yǔ)言模型微調(diào)的醫(yī)學(xué)大語(yǔ)言模型,如德克薩斯大學(xué)西南醫(yī)學(xué)中心的Li等人[7]基于205 000條真實(shí)的醫(yī)患交流數(shù)據(jù)和ChatGPT生成的5 000條數(shù)據(jù)對(duì)LLaMA進(jìn)行微調(diào),得到ChatDoctor這一醫(yī)學(xué)通用的大語(yǔ)言模型。此外,上??萍即髮W(xué)的Xiong等人[8]利用ChatGPT和其他基于英語(yǔ)的醫(yī)學(xué)通用大語(yǔ)言模型收集了醫(yī)學(xué)對(duì)話(huà)數(shù)據(jù)庫(kù)并翻譯為中文,對(duì)清華大學(xué)開(kāi)源的中文大語(yǔ)言模型ChatGLM-6B進(jìn)行參數(shù)高效微調(diào),得到一個(gè)醫(yī)學(xué)通用的大語(yǔ)言模型——DoctorGLM;哈爾濱工業(yè)大學(xué)的Wang等人[9]通過(guò)醫(yī)學(xué)知識(shí)圖譜和GPT3.5API構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集,在此基礎(chǔ)上對(duì)ChatGLM-6B進(jìn)行了指令微調(diào),微調(diào)后的大語(yǔ)言模型命名為ChatGLM-Med?;谙嗤臄?shù)據(jù)Wang等人[9]還訓(xùn)練了醫(yī)療版本的LLaMA模型——華駝。這些醫(yī)學(xué)通用大語(yǔ)言模型的成功表明利用醫(yī)療數(shù)據(jù)對(duì)大語(yǔ)言模型微調(diào)可以得到醫(yī)學(xué)專(zhuān)業(yè)能力更強(qiáng)的大語(yǔ)言模型[10]。此外,這些通過(guò)微調(diào)得到的醫(yī)學(xué)通用大語(yǔ)言模型都能在消費(fèi)級(jí)顯卡部署或訓(xùn)練。這對(duì)于研發(fā)或部署專(zhuān)用醫(yī)學(xué)大語(yǔ)言模型的醫(yī)院或機(jī)構(gòu)有著巨大的誘惑。
1.2 參數(shù)高效微調(diào)方法
得益于以L(fǎng)oRA(low-rank adaptation,LoRA)[11]為代表的參數(shù)高效微調(diào)方法(parameter-efficient fine-tuning, PEFT),大語(yǔ)言模型微調(diào)的算力需求與訓(xùn)練時(shí)間相比全參數(shù)微調(diào)大大降低。對(duì)于某一專(zhuān)業(yè)領(lǐng)域的大語(yǔ)言模型的訓(xùn)練,一個(gè)很常見(jiàn)的策略是從公共的知識(shí)庫(kù)獲取相關(guān)領(lǐng)域的專(zhuān)業(yè)知識(shí)作為訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)對(duì)通用大語(yǔ)言模型進(jìn)行參數(shù)高效微調(diào)。值得注意的是,如果意向訓(xùn)練更加專(zhuān)業(yè)的大語(yǔ)言模型,那么僅僅使用公開(kāi)知識(shí)庫(kù)的數(shù)據(jù)微調(diào)得到的大語(yǔ)言模型的專(zhuān)業(yè)程度并不會(huì)十分令人滿(mǎn)意。一個(gè)主要的原因是公開(kāi)的知識(shí)庫(kù)對(duì)更細(xì)分領(lǐng)域的專(zhuān)業(yè)知識(shí)收錄不夠?qū)I(yè),難以得到從業(yè)者的認(rèn)可[3]。因此,使用專(zhuān)業(yè)性的文件或數(shù)據(jù)微調(diào)大語(yǔ)言模型被視為一個(gè)可行的方法。由于標(biāo)準(zhǔn)化作業(yè)流程的要求,專(zhuān)業(yè)性文件種包含了許多專(zhuān)業(yè)術(shù)語(yǔ)及專(zhuān)有名詞,文件的格式也有特殊的要求,往往并不適合直接用于微調(diào)。這些專(zhuān)業(yè)性文件需要有一定專(zhuān)業(yè)基礎(chǔ)的工作人員對(duì)數(shù)據(jù)進(jìn)行加工才適合用于大語(yǔ)言模型的微調(diào)。
1.3 本研究的貢獻(xiàn)
本文提出一種基于醫(yī)學(xué)領(lǐng)域?qū)I(yè)性文件訓(xùn)練醫(yī)學(xué)領(lǐng)域?qū)?拼笳Z(yǔ)言模型的兩階段微調(diào)框架,并基于此框架微調(diào)出面向肝膽醫(yī)學(xué)的專(zhuān)科大模型。本文的主要貢獻(xiàn)有兩點(diǎn),即:
a)利用公開(kāi)的知識(shí)圖譜或?qū)Υ笠?guī)模的語(yǔ)言模型進(jìn)行知識(shí)蒸餾,收集一定數(shù)量目標(biāo)域的訓(xùn)練數(shù)據(jù)對(duì)源模型進(jìn)行參數(shù)高效微調(diào);
b)對(duì)專(zhuān)業(yè)性文件進(jìn)行數(shù)據(jù)處理,使其符合微調(diào)的數(shù)據(jù)要求及格式,使用相對(duì)少量的更專(zhuān)業(yè)數(shù)據(jù)對(duì)第一階段微調(diào)后的模型進(jìn)行第二次freeze微調(diào)[12],最終訓(xùn)練了一個(gè)針對(duì)肝膽專(zhuān)科的大語(yǔ)言模型。
本文將這種兩次微調(diào)的框架命名為“造極”?;凇霸鞓O”與臨床病歷數(shù)據(jù), 本文訓(xùn)練了一個(gè)針對(duì)肝膽專(zhuān)科的醫(yī)療對(duì)話(huà)大語(yǔ)言模型——MedGLM.H。訓(xùn)練使用的臨床病歷數(shù)據(jù)是由東方肝膽外科醫(yī)院提供的肝膽專(zhuān)科的不帶有姓名的患者病歷、診療記錄和手術(shù)記錄, 本文期望經(jīng)過(guò)這些臨床專(zhuān)業(yè)數(shù)據(jù)的訓(xùn)練,它能夠準(zhǔn)確回答出肝膽專(zhuān)科的一些問(wèn)題,包括但不限于治療方案、手術(shù)要求、檢驗(yàn)指標(biāo)解讀及用藥規(guī)范等。由于目前整理的病歷文本數(shù)據(jù)量有限,MedGLM.H在對(duì)治療方案與檢驗(yàn)指標(biāo)解讀等回答上尚未達(dá)到專(zhuān)業(yè)水準(zhǔn)。在后續(xù)的更新迭代版本會(huì)針對(duì)這一缺陷進(jìn)行改進(jìn)。
2 基于ChatGLM-6B的兩階段微調(diào)方法
2.1 框架
MedGLM.H的訓(xùn)練包括通用醫(yī)學(xué)知識(shí)訓(xùn)練與肝膽專(zhuān)科的專(zhuān)業(yè)知識(shí)訓(xùn)練。這點(diǎn)類(lèi)似于中國(guó)臨床醫(yī)生的培養(yǎng)政策:中國(guó)的醫(yī)生在成為一名正式的臨床醫(yī)生之前必須首先在醫(yī)院的所有科室進(jìn)行輪轉(zhuǎn)實(shí)習(xí),以培養(yǎng)臨床醫(yī)生的綜合能力。各科室輪轉(zhuǎn)實(shí)習(xí)后,實(shí)習(xí)醫(yī)生會(huì)留在他最終選擇的科室成為該科室的實(shí)習(xí)醫(yī)生,繼續(xù)深入學(xué)習(xí)該科室的專(zhuān)業(yè)知識(shí)與臨床技能。MedGLM.H的兩階段微調(diào)對(duì)應(yīng)著臨床醫(yī)生的全科輪轉(zhuǎn)實(shí)習(xí)與定崗實(shí)習(xí)。
基于“造極”的兩階段微調(diào)的全過(guò)程如圖1所示,其中第一階段的微調(diào),使用公開(kāi)的醫(yī)學(xué)知識(shí)圖譜并借助GPT3.5的API接口生成通用的醫(yī)學(xué)知識(shí)問(wèn)答數(shù)據(jù),對(duì)ChatGLM-6B進(jìn)行P-Tuning v2微調(diào)。第一階段微調(diào)后的模型命名為MedGLM.General,MedGLM.General可以回答部分通用醫(yī)學(xué)方面的基礎(chǔ)問(wèn)題,但其回答問(wèn)題的性能尚無(wú)法與其他通過(guò)海量通用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練后的模型相比。第二階段的微調(diào)使用臨床的病歷數(shù)據(jù)進(jìn)行加工,用有限的數(shù)據(jù)對(duì)MedGLM.General進(jìn)行freeze微調(diào),訓(xùn)練得到的MedGLM.H能夠在保證通用醫(yī)學(xué)問(wèn)答的性能下解答針對(duì)肝膽專(zhuān)科的問(wèn)題。
2.2 源模型
許多研究人員在選擇源模型進(jìn)行微調(diào)時(shí)有著相似的偏好。在基于中文的大語(yǔ)言模型微調(diào)中,工程師通常選擇ChatGLM-6B作為源模型;而在英文方面的微調(diào)中,較為常見(jiàn)的源模型是LLaMA[13]。
這兩個(gè)模型具有幾個(gè)共同特點(diǎn),首先它們都是開(kāi)源的大語(yǔ)言模型,并且具有出色的性能表現(xiàn)。同時(shí),它們的參數(shù)量都達(dá)到了十億級(jí)別(ChatGLM-6B含有60億個(gè)參數(shù),LLaMA含有70億個(gè)參數(shù)),這個(gè)級(jí)別的參數(shù)量對(duì)于大型語(yǔ)言模型而言只是達(dá)到門(mén)檻要求。盡管如此,由于它們的參數(shù)量相對(duì)較小且性能仍然足夠,微調(diào)這些模型所需的計(jì)算資源可以被許多實(shí)驗(yàn)室支持。因此,十億級(jí)別參數(shù)量的大語(yǔ)言模型是進(jìn)行微調(diào)的一個(gè)熱門(mén)選擇。
MedGLM.H的訓(xùn)練源模型是ChatGLM-6B。該模型基于general language model(GLM)架構(gòu),參數(shù)量為62億。結(jié)合模型量化技術(shù),工程師可以在消費(fèi)級(jí)顯卡上進(jìn)行本地部署(INT4量化級(jí)別最低只需要6 GB顯存)。因此ChatGLM-6B被開(kāi)發(fā)了許多個(gè)訓(xùn)練版本。目前很多中文的醫(yī)學(xué)大語(yǔ)言模型都是基于ChatGLM-6B進(jìn)行微調(diào),例如:DoctorGLM、ChatGLM-Med。
2.3 構(gòu)建數(shù)據(jù)集
首次微調(diào)的數(shù)據(jù)集主要來(lái)自公開(kāi)的中文醫(yī)學(xué)知識(shí)庫(kù),并參考cMeKG生成了一些數(shù)據(jù)。這些數(shù)據(jù)集的內(nèi)容包括并發(fā)癥、臨床癥狀、藥物治療和輔助治療等。醫(yī)學(xué)知識(shí)庫(kù)以中心詞對(duì)應(yīng)疾病和癥狀到所屬科室與發(fā)病部位為一組的形式儲(chǔ)存。再利用GPT3.5的API接口圍繞醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建問(wèn)答數(shù)據(jù),訓(xùn)練數(shù)據(jù)為“問(wèn)題—回答”的形式。共計(jì)收集20 000條全科醫(yī)學(xué)的問(wèn)答數(shù)據(jù)。
第二次微調(diào)使用了1 300條肝膽專(zhuān)科臨床病患的病歷文本及診療記錄數(shù)據(jù),其中的檢驗(yàn)數(shù)據(jù)或治療方案通常有很強(qiáng)的獨(dú)特性(如:某藥物用量、注射的量;囊腫或腫瘤的尺寸以及超聲多普勒檢查的血液流速等)。這些過(guò)于精確的數(shù)據(jù)對(duì)于大語(yǔ)言模型來(lái)說(shuō)可參考性很低。因此,在處理病歷數(shù)據(jù)時(shí)需要將這些數(shù)值剔除。除此之外,為了使MedGLM.H的回答更加專(zhuān)業(yè)且準(zhǔn)確,病歷數(shù)據(jù)還需要進(jìn)行再加工,數(shù)據(jù)形式如圖2所示。
醫(yī)療記錄數(shù)據(jù)通過(guò)將查詢(xún)部分和檢查結(jié)果部分分類(lèi)為“Q”,并利用相應(yīng)的診斷結(jié)果、相關(guān)檢查措施、手術(shù)要求、藥物指南和執(zhí)行后結(jié)果作為它們各自的“A”來(lái)進(jìn)行處理。此外,鑒于醫(yī)療記錄數(shù)據(jù)的標(biāo)準(zhǔn)化和專(zhuān)業(yè)性質(zhì),對(duì)部分醫(yī)療用語(yǔ)的改寫(xiě)也是數(shù)據(jù)處理的一項(xiàng)重要工作。為了遵循數(shù)據(jù)保密原則,數(shù)據(jù)處理任務(wù)由本文的工作人員手動(dòng)完成。
由于患者醫(yī)療記錄和臨床數(shù)據(jù)的敏感性, 本文無(wú)法公開(kāi)發(fā)布MedGLM.H的源代碼和數(shù)據(jù)集。測(cè)試版本將在東方肝膽外科醫(yī)院內(nèi)部部署,由專(zhuān)業(yè)醫(yī)生及部分臨床患者進(jìn)行測(cè)試。根據(jù)測(cè)試的結(jié)果進(jìn)一步改進(jìn),以加速最終發(fā)布MedGLM.H的時(shí)間。值得一提的是,MedGLM.H的訓(xùn)練環(huán)境是隔離且安全的,確保對(duì)機(jī)密數(shù)據(jù)的保護(hù)并防止任何泄露。
2.4 階段1:基于通用醫(yī)學(xué)知識(shí)進(jìn)行P-Tuning v2微調(diào)
由于LoRA在LLM的多輪對(duì)話(huà)中表現(xiàn)不佳,正如Xiong等人在DoctorGLM的后續(xù)版本中所提到的,進(jìn)一步使用P-Tuning v2進(jìn)行微調(diào)相比LoRA微調(diào)版本表現(xiàn)出了改進(jìn)的測(cè)試結(jié)果。因此,本文利用P-Tuning v2進(jìn)行第一次通用醫(yī)學(xué)LLM的微調(diào)。
P-Tuning v2被視為Prefix-Tuning的一種版本,重點(diǎn)解決了prompt tuning在小模型上效果不佳的問(wèn)題,并將prompt tuning拓展至更復(fù)雜的自然語(yǔ)言理解(NLU)任務(wù)中,如機(jī)器閱讀理解(MRC)答案抽取、命名實(shí)體識(shí)別(NER)實(shí)體抽取等序列標(biāo)注任務(wù)。在不同模型規(guī)模和NLU任務(wù)的微調(diào)中,它的性能可以與全參數(shù)微調(diào)方法相媲美,而只有01%~3%的微調(diào)參數(shù)。在訓(xùn)練中P-Tuning v2凍結(jié)模型的主要部分,對(duì)前綴進(jìn)行多層提示優(yōu)化。不同層中的提示作為前綴token加入到輸入序列中。添加到更深層次的提示可以對(duì)輸出預(yù)測(cè)產(chǎn)生更多的影響[14]。
P-Tuning v2的運(yùn)算邏輯與結(jié)構(gòu)可以通過(guò)以下幾個(gè)關(guān)鍵部分來(lái)解釋?zhuān)?/p>
a)前綴編碼器 (prefixencoder): 這是一個(gè)自定義的模塊,用于生成可訓(xùn)練的前綴嵌入。它使用PyTorch的embedding層來(lái)為每個(gè)前綴ID創(chuàng)建一個(gè)嵌入向量。這些前綴嵌入將作為額外的輸入,與原始輸入一起參與模型的后續(xù)計(jì)算。
b)模型擴(kuò)展: 這個(gè)類(lèi)繼承自預(yù)訓(xùn)練的源模型,并且添加了前綴編碼器。在模型的前向傳播過(guò)程中,前綴編碼器生成的前綴嵌入會(huì)與原始輸入嵌入合并。
c)前向傳播過(guò)程:
(a)使用prefixencoder對(duì)前綴ID進(jìn)行編碼,得到前綴嵌入;
(b)獲取原始輸入ID的嵌入表示;
(c)將前綴嵌入與輸入嵌入連接起來(lái),形成一個(gè)擴(kuò)展的嵌入序列;
(d)將這個(gè)擴(kuò)展的嵌入序列輸入到源模型中,進(jìn)行正常的前向傳播。
d)訓(xùn)練與更新:
(a)在訓(xùn)練過(guò)程中,模型的參數(shù)和前綴嵌入會(huì)根據(jù)任務(wù)目標(biāo)進(jìn)行更新;
(b)通過(guò)反向傳播算法,計(jì)算損失函數(shù)關(guān)于模型參數(shù)的梯度,并更新模型參數(shù)和前綴嵌入。
P-Tuning v2的核心思想是通過(guò)在模型的每一層引入可訓(xùn)練的前綴,從而使模型能夠?qū)W習(xí)到特定任務(wù)的信息。這種方法不僅提高了模型的靈活性,而且在不增加過(guò)多參數(shù)的情況下,提升了模型對(duì)特定任務(wù)的適應(yīng)能力。
將模型的參數(shù)集合定義為θ,其中包含多層的模型參數(shù)(θ1,θ2,…,θn)。每一層(i)添加一組可學(xué)習(xí)的提示Pi,與模型的輸入X共同參與模型的計(jì)算。
每一層的提示Pi可以表示為:[Pi=fi(Pi-1,θi)],其中fi為計(jì)算函數(shù),θi是第i層的參數(shù),Pi-1為前一層的提示。在訓(xùn)練過(guò)程中,每層提示Pi通過(guò)最小化損失函數(shù)L進(jìn)行更新:
Pl:[minP1,…,PnL(Y,Y^(X,P1,…,Pn,Θ))](1)
其中:Y為真實(shí)標(biāo)簽,Y^是模型的預(yù)測(cè)輸出。
MedGLM.H模型的任務(wù)是在肝膽領(lǐng)域提供專(zhuān)業(yè)的問(wèn)答,基本上是一個(gè)涉及序列標(biāo)注的具有挑戰(zhàn)性的NLU任務(wù)。在Zhang等人進(jìn)行的研究中,當(dāng)面臨這些困難的NLU挑戰(zhàn)時(shí),P-Tuning v2表現(xiàn)出與Fine-Tune相當(dāng)?shù)男阅?,同時(shí)需要更低的計(jì)算資源。因此, P-Tuning v2更適合MedGLM的第一階段訓(xùn)練。
2.5 階段2:基于私有臨床數(shù)據(jù)微調(diào)
在第一階段之后,MedGLM.General的底層已經(jīng)得到很好的訓(xùn)練,在一般醫(yī)學(xué)問(wèn)答任務(wù)中表現(xiàn)出合理的準(zhǔn)確性。為了保留MedGLM.General在一般醫(yī)學(xué)問(wèn)答任務(wù)中的性能, 本文選擇在微調(diào)的第二階段凍結(jié)基礎(chǔ)層,僅允許更新最后5層的參數(shù)。
對(duì)于凍結(jié)的參數(shù)θi,(i≤k):[θ(t+1)i=θti]。
對(duì)于參與微調(diào)的參數(shù)θj,(j≤k):[θ(t+1)j=θtj-ηLθj],它們按照梯度下降法更新。其中t為迭代次數(shù),η為學(xué)習(xí)率,L是損失函數(shù)。
在數(shù)學(xué)上,這可以表示為在微調(diào)過(guò)程中,對(duì)于每個(gè)凍結(jié)的參數(shù)θi, 本文設(shè)置(Lθi=0)。這意味著這些參數(shù)的梯度為零,因此在反向傳播過(guò)程中不會(huì)更新。對(duì)于需要更新的參數(shù), 本文正常計(jì)算梯度并更新參數(shù)值。
freeze微調(diào)的優(yōu)點(diǎn)是能夠利用預(yù)訓(xùn)練模型的強(qiáng)大表示能力,同時(shí)通過(guò)微調(diào)少數(shù)參數(shù)來(lái)適應(yīng)特定任務(wù),這在數(shù)據(jù)量有限或者計(jì)算資源受限的情況下尤其有用。
鑒于已處理的專(zhuān)業(yè)臨床數(shù)據(jù)量有限,freeze微調(diào)使得可以使用少量數(shù)據(jù)進(jìn)行模型細(xì)化,同時(shí)保留源模型的一些性能。經(jīng)過(guò)freeze微調(diào)后,MedGLM.H能夠在保持MedGLM.General在一般醫(yī)學(xué)知識(shí)問(wèn)答任務(wù)中強(qiáng)大性能的同時(shí),解決肝膽e034b963c0f7cebd3ff043842b28dad1專(zhuān)業(yè)領(lǐng)域的特定問(wèn)題。
3 實(shí)驗(yàn)與結(jié)果
3.1 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證兩階段微調(diào)的有效性及MedGLM.H的專(zhuān)業(yè)性,本文設(shè)計(jì)了四個(gè)實(shí)驗(yàn)以評(píng)估微調(diào)方法的綜合性能、MedGLM.H模型對(duì)于臨床醫(yī)療問(wèn)題的解答效果、模型在微調(diào)前后的性能對(duì)比以及MedGLM.H對(duì)于肝膽專(zhuān)科醫(yī)學(xué)的專(zhuān)業(yè)性。
用模型微調(diào)效果的通用評(píng)價(jià)指標(biāo)進(jìn)行微調(diào)方法性能的評(píng)估;設(shè)置一項(xiàng)對(duì)于臨床醫(yī)療問(wèn)題的雙盲評(píng)估實(shí)驗(yàn),由臨床醫(yī)生根據(jù)通用醫(yī)療大語(yǔ)言模型與MedGLM.H對(duì)相同臨床醫(yī)療問(wèn)題的回答進(jìn)行評(píng)估
;設(shè)置肝膽專(zhuān)科試題集,對(duì)比微調(diào)前后模型的準(zhǔn)確率與得分率;最后,由三位臨床醫(yī)生進(jìn)行10輪的對(duì)話(huà)以評(píng)估模型在專(zhuān)業(yè)醫(yī)療場(chǎng)景的實(shí)用性。
1)微調(diào)效果評(píng)估實(shí)驗(yàn)
實(shí)驗(yàn)驗(yàn)證階段, 本文在東方肝膽外科醫(yī)院的病歷數(shù)據(jù)中避開(kāi)訓(xùn)練集,隨機(jī)選擇了500組肝膽科患者的問(wèn)診主訴作為Q(question),使用GPT-4對(duì)問(wèn)診進(jìn)行回答作為A(answer),以此作為驗(yàn)證集。 本文采用BLEU(bilingual evaluation understudy)值[15]和Rouge score(Rouge,recall-oriented understudy for gisting evaluation)[16]對(duì)微調(diào)后的模型進(jìn)行評(píng)估,評(píng)估結(jié)果在第3.3小節(jié)。然而,應(yīng)注意的是,BLEU和Rouge分?jǐn)?shù)僅在評(píng)估模型生成的答案在驗(yàn)證集中與參考答案匹配的程度方面是可靠的。對(duì)于真實(shí)的臨床應(yīng)用,仍然需要進(jìn)行進(jìn)一步的評(píng)估[17]。
2)雙盲問(wèn)答對(duì)比實(shí)驗(yàn)
為了對(duì)比MedGLM.H對(duì)于臨床醫(yī)療問(wèn)題的解答效果,本文選取MedGLM.H的源模型ChatGLM-6B以及該模型通過(guò)Instruct-Tuning微調(diào)后得到的醫(yī)學(xué)通用大語(yǔ)言模型ChatGLM-Med進(jìn)行雙盲評(píng)估實(shí)驗(yàn)。在實(shí)驗(yàn)中,三個(gè)模型對(duì)于同一肝膽科臨床醫(yī)療問(wèn)題進(jìn)行解答,由專(zhuān)業(yè)的肝膽科臨床醫(yī)生對(duì)模型生成的答案質(zhì)量進(jìn)行綜合評(píng)分。
3)微調(diào)前后對(duì)比實(shí)驗(yàn)
此外,在驗(yàn)證兩階段微調(diào)框架的有效性及MedGLM.H在肝膽專(zhuān)科的專(zhuān)業(yè)性方面,通過(guò)建立肝膽專(zhuān)科的真實(shí)題庫(kù)作為驗(yàn)證集,與未經(jīng)微調(diào)的ChatGLM-6B進(jìn)行對(duì)比實(shí)驗(yàn)。驗(yàn)證集中的真題來(lái)自中國(guó)執(zhí)業(yè)醫(yī)師資格考試、臨床醫(yī)院中肝膽科出科考試與臨床醫(yī)學(xué)專(zhuān)業(yè)考試中關(guān)于肝膽科的真實(shí)考題。整合后的肝膽專(zhuān)科試題包括100道單項(xiàng)選擇題與10道主觀題。統(tǒng)計(jì)對(duì)比選擇題的正確率與簡(jiǎn)答題的得分率。簡(jiǎn)答題的判分由東方肝膽外科醫(yī)院的臨床醫(yī)生進(jìn)行。
4)臨床醫(yī)生對(duì)話(huà)評(píng)估實(shí)驗(yàn)
為了驗(yàn)證MedGLM.H的臨床適用性和專(zhuān)業(yè)性, 本文邀請(qǐng)了三位有著豐富臨床經(jīng)驗(yàn)的肝膽科醫(yī)生與MedGLM.H進(jìn)行10輪對(duì)話(huà)。將MedGLM.H的回答在準(zhǔn)確性、對(duì)醫(yī)生的參考價(jià)值和對(duì)病人的適用性三個(gè)維度上進(jìn)行評(píng)估。旨在評(píng)估MedGLM.H的臨床適用性和專(zhuān)業(yè)性。
3.2 評(píng)價(jià)指標(biāo)
BLEU分?jǐn)?shù)是用于評(píng)估AI模型機(jī)器翻譯質(zhì)量的一項(xiàng)評(píng)價(jià)指標(biāo),它會(huì)根據(jù)模型生成的結(jié)果與驗(yàn)證集中答案的匹配程度給出分?jǐn)?shù),這個(gè)分?jǐn)?shù)在0~1,BLEU值越接近1則翻譯質(zhì)量越高。Rouge score是一種用于衡量自動(dòng)文摘生成質(zhì)量的指標(biāo),它根據(jù)生成的文摘與參考摘要之間的匹配程度給出分?jǐn)?shù),同樣在0~1,1表示最匹配,0表示最不相關(guān)。
BLEU值與Rouge score的評(píng)估僅能保證MedGLM.H的回答是否與GPT-4相接近(盡管GPT-4對(duì)于醫(yī)學(xué)問(wèn)題的回答質(zhì)量已經(jīng)非常高),無(wú)法表明MedGLM.H對(duì)肝膽科患者或醫(yī)生的適用性。因此設(shè)計(jì)準(zhǔn)確性、對(duì)醫(yī)生的可參考性、對(duì)病人的適用性三維度的評(píng)估是必要的。
3.3 結(jié)果與分析
本文對(duì)比了幾種基于ChatGLM-6B微調(diào)的醫(yī)學(xué)大語(yǔ)言模型的微調(diào)方法與硬件環(huán)境,并對(duì)驗(yàn)證集進(jìn)行BLEU與Rouge score指標(biāo)評(píng)估,各大語(yǔ)言模型的對(duì)比驗(yàn)證結(jié)果記錄在表1。
為了更加直觀地對(duì)比幾個(gè)醫(yī)療模型對(duì)于臨床問(wèn)題的解答效果, 本文進(jìn)行了一次雙盲問(wèn)答對(duì)比實(shí)驗(yàn),由東方肝膽外科醫(yī)院的臨床醫(yī)生對(duì)答案的質(zhì)量進(jìn)行綜合評(píng)分。在這個(gè)對(duì)比實(shí)驗(yàn)中, 本文展示了三個(gè)醫(yī)學(xué)模型對(duì)于臨床問(wèn)題的回答。對(duì)話(huà)的內(nèi)容和答案分別由三個(gè)不同的醫(yī)學(xué)模型生成,但在展示給評(píng)估者時(shí),沒(méi)有顯示模型的名稱(chēng),以確保評(píng)估是雙盲的。臨床醫(yī)生對(duì)這些答案的質(zhì)量進(jìn)行評(píng)估,并給出了綜合得分。評(píng)估者只根據(jù)內(nèi)容和質(zhì)量來(lái)評(píng)估答案,而不知道模型的身份。這種實(shí)驗(yàn)證明了醫(yī)學(xué)模型在回答臨床問(wèn)題時(shí)的性能,并提供了更直觀的比較。對(duì)話(huà)的內(nèi)容如表2所示。
對(duì)比實(shí)驗(yàn)的結(jié)果見(jiàn)表3,準(zhǔn)確率表示模型對(duì)于試題中單項(xiàng)選擇題的正確率,得分率為模型對(duì)于簡(jiǎn)答題生成的答案的得分。每道簡(jiǎn)答題的答案由肝膽專(zhuān)科的醫(yī)生進(jìn)行0~10分的打分,共計(jì)10道簡(jiǎn)答題。醫(yī)生對(duì)于簡(jiǎn)答題的評(píng)判標(biāo)準(zhǔn)與臨床醫(yī)學(xué)專(zhuān)業(yè)考試及肝膽科實(shí)習(xí)醫(yī)生出科考試一致,以此保證實(shí)驗(yàn)結(jié)果的有效性。
在基于肝膽專(zhuān)科試題的對(duì)比實(shí)驗(yàn)中,MedGLM.H展現(xiàn)了較高水準(zhǔn)的肝膽專(zhuān)業(yè)問(wèn)答水平。在得分上,與Flan-PaLM 540B在美國(guó)執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)[17]。其中MedGLM.H對(duì)于單項(xiàng)選擇題的準(zhǔn)確率達(dá)到了源模型的兩倍,簡(jiǎn)答題的得分率在源模型的對(duì)比下也顯示出了較大的改進(jìn)。盡管目前MedGLM.H對(duì)于執(zhí)業(yè)醫(yī)師資格考試等專(zhuān)業(yè)試題的準(zhǔn)確率與臨床醫(yī)生仍有一定差距。但就目前而言,本研究在輕量級(jí)大語(yǔ)言模型微調(diào)中進(jìn)行專(zhuān)業(yè)領(lǐng)域的針對(duì)性微調(diào)表現(xiàn)出了一定的潛力。
本文期望MedGLM.H能夠解答肝膽科常見(jiàn)的臨床問(wèn)題并且為醫(yī)生提供一些治療意見(jiàn)。因此,對(duì)于MedGLM.H生成的答案還需要進(jìn)行三個(gè)維度的評(píng)估,分別為:生成答案的準(zhǔn)確度、生成的答案對(duì)病人的適用度以及給醫(yī)生的參考價(jià)值。 本研究邀請(qǐng)了三位來(lái)自東方肝膽外科醫(yī)院的主治醫(yī)生與MedGLM.H進(jìn)行10輪的對(duì)話(huà),最終對(duì)MedGLM.H生成的答案進(jìn)行評(píng)估。圖3展示了三位醫(yī)生對(duì)MedGLM.H生成答案的評(píng)估。
可以證明MedGLM.H在更專(zhuān)業(yè)的醫(yī)療場(chǎng)景中執(zhí)行對(duì)話(huà)任務(wù)的效果有一定的專(zhuān)業(yè)水準(zhǔn)。這為訓(xùn)練更加專(zhuān)業(yè)的醫(yī)療大語(yǔ)言模型提供了一個(gè)思路:使用經(jīng)過(guò)加工的專(zhuān)科病歷文本數(shù)據(jù)對(duì)醫(yī)療通用大語(yǔ)言模型進(jìn)行微調(diào)可以得到一個(gè)聚焦于某一科室的大語(yǔ)言模型,并且它的成本是絕大部分醫(yī)院或臨床醫(yī)學(xué)研究團(tuán)隊(duì)能夠負(fù)擔(dān)得起的。
4 討論與展望
盡管醫(yī)學(xué)通用的大語(yǔ)言模型已經(jīng)在早前推出,但這些大語(yǔ)言模型并沒(méi)有廣泛地部署在臨床醫(yī)院。一個(gè)主要的原因是這些大語(yǔ)言模型的對(duì)話(huà)質(zhì)量對(duì)比此前一些醫(yī)院部署的問(wèn)答系統(tǒng)并沒(méi)有突破性的進(jìn)展。由于訓(xùn)練這些醫(yī)學(xué)通用大語(yǔ)言模型的數(shù)據(jù)集很多都是來(lái)自這些基于醫(yī)療咨詢(xún)數(shù)據(jù)庫(kù)的問(wèn)答系統(tǒng),所以這些大語(yǔ)言模型的回答不可避免地會(huì)與早先的問(wèn)答系統(tǒng)高度類(lèi)似,并沒(méi)有體現(xiàn)出AIGC技術(shù)的優(yōu)越性[18]。MedGLM.H解決這一問(wèn)題的方法是使用經(jīng)過(guò)處理的病人病歷及診療記錄的文本數(shù)據(jù)對(duì)大語(yǔ)言模型進(jìn)行微調(diào),以提高它的對(duì)話(huà)質(zhì)量。
本文的工作在低學(xué)術(shù)預(yù)算的情況下,基于通用醫(yī)學(xué)知識(shí)圖譜和專(zhuān)業(yè)的臨床數(shù)據(jù)通過(guò)“造極”訓(xùn)練了針對(duì)肝膽專(zhuān)科的醫(yī)療對(duì)話(huà)大語(yǔ)言模型。在中國(guó)執(zhí)業(yè)醫(yī)生資格考試等專(zhuān)業(yè)醫(yī)學(xué)考試中肝膽科試題的準(zhǔn)確率與更大參數(shù)級(jí)別的大語(yǔ)言模型Flan-PaLM 540B在美國(guó)執(zhí)業(yè)醫(yī)師資格考試中取得的準(zhǔn)確率相當(dāng)。這為許多有相似情況的學(xué)術(shù)團(tuán)隊(duì)提供了思路,對(duì)推廣訓(xùn)練或部署專(zhuān)業(yè)大語(yǔ)言模型也作出了一定的貢獻(xiàn)。
盡管MedGLM.H在實(shí)驗(yàn)驗(yàn)證階段展示了一定的專(zhuān)業(yè)水平,能夠回答肝膽科一些專(zhuān)業(yè)的問(wèn)題。但由于參與微調(diào)訓(xùn)練的數(shù)據(jù)并不十分完善且數(shù)據(jù)量有限,加之這項(xiàng)工作仍處于研究早期,它的回答不應(yīng)該被完全信任。 本研究期待接下來(lái)的工作能夠使它更加可信任,以便于部署到醫(yī)療資源匱乏的地區(qū)或社區(qū)醫(yī)院。
本研究的目標(biāo)是訓(xùn)練一個(gè)能夠給醫(yī)生提供專(zhuān)業(yè)診療意見(jiàn)、為臨床病患解答專(zhuān)業(yè)性醫(yī)學(xué)問(wèn)題的專(zhuān)業(yè)醫(yī)療對(duì)話(huà)大語(yǔ)言模型。就目前的工作而言, 本研究邁出了第一步。它仍有許多問(wèn)題亟待解決。如:MedGLM.H的回答需要保證相當(dāng)高的準(zhǔn)確率,給出的診療意見(jiàn)也需要大基數(shù)的實(shí)驗(yàn)來(lái)驗(yàn)證其有效性與無(wú)害性;對(duì)于醫(yī)學(xué)檢驗(yàn)結(jié)果的診斷與解答還需要進(jìn)一步的訓(xùn)練以提高準(zhǔn)確度。在未來(lái), 本研究預(yù)備進(jìn)行以下工作來(lái)改進(jìn)Med-GLM,使它的回答能夠更加準(zhǔn)確與多元。
a)在東方肝膽外科醫(yī)院不斷進(jìn)行測(cè)試,收集測(cè)試結(jié)果對(duì)大語(yǔ)言模型進(jìn)行改進(jìn)。
b)使用各科室的臨床數(shù)據(jù)與病歷文本設(shè)計(jì)醫(yī)學(xué)知識(shí)圖譜,以外接知識(shí)庫(kù)的形式接到MedGLM.General,使MedGLM.General能夠回答除肝膽科以外的專(zhuān)業(yè)問(wèn)題。
c)接入傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)對(duì)某些疾病的預(yù)測(cè)模型,醫(yī)生能夠向MedGLM提問(wèn)相關(guān)病癥發(fā)展階段的指標(biāo)特征或干預(yù)措施對(duì)病癥發(fā)展的影響。
d)通過(guò)設(shè)計(jì)prompt并使用特定數(shù)據(jù)微調(diào)使MedGLM能夠做到對(duì)部分疾病的早期篩查。
參考文獻(xiàn):
[1]Radford A, Narasimhan K, Salimans T,et al. Improving language understanding by generative pre-training [EB/OL]. (2018) [2024-03-13].
http://www.mikecaptain.com/resources/pdf/G PT-1.pdf.
[2]Du Zhengxiao, Qian Yujie, Liu Xiao,et al. GLM: general language model pretraining with autoregressive blank infilling [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 320-335.
[3]Himabindu L, Dylan S, Chen Yuxin,et al. Rethinking explainability as a dialogue: a practitioner’s perspective [EB/OL]. (2022) [2024-03-13]. http://doi.org/10.48550/arXiv.2202.01875.
[4]Esteva A, Chou K, Yeung S,et al. Deep learning-enabled medical computer vision [J]. NPJ Digital Medicine, 2021, 4(1): 5.
[5]Yim J, Chopra R, Spitz T,et al. Predicting conversion to wet age related macular [J]. Nature Medicine, 2020 (26): 892-899.
[6]Tomaev N, Harris N, Baur S,et al. Developing continuous risk mo-dels for adverse event prediction in electronic health records using deep learning [J]. Nature Protocol, 2021 (16): 2765-2787.
[7]Li Yunxiang, Li Zihan, Zhang Kai,et al. ChatDoctor: a medical chat model fine-tuned on LLaMA model using medical domain knowledge [EB/OL]. (2023) [2024-03-13]
https://doi.org/10.48550/arXiv.2303.14070.
[8]Xiong Honglin, Wang Sheng, Zhu Yitao,et al. DoctorGLM: fine-tuning your Chinese doctor is not a herculean task [EB/OL]. (2023) [2024-03-13].
https://doi.org/10.48550/arXiv.2304.01097.
[9]Wang Haochun, Liu Chi, Xi Nuwa,et al. HuaTuo: tuning LLaMA model with Chinese medical knowledge [EB/OL]. (2023) [2024-03-13].
https://doi.org/10.48550/arXiv.2304.06975.
[10]Liu Zhengliang, Yu Xiaowei, Zhang Lu,et al. DeID-GPT: zero-shot medical text de-identification by GPT-4 [EB/OL]. (2023) [20 24-03-13].
https://doi.org/10.48550/arXiv.2303.11032.
[11]Hu E, Shen Yelong, Wallis P,et al. LORA: low-rank adaptation of large language models [C]// Proc of the 10th International Confe-rence on Learning Representations. Washington, DC: IUR, 2022.
[12]Shin J, Choi S, Choi Y,et al. A pragmatic approach to on-device incremental learning system with selective weight updates [C]//Proc of 57th ACM/IEEE Design Automation Conference. Piscataway,NJ:IEEE Press, 2020: 1-6.
[13]Touvron H, Lavril T, Izacard G,et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023) [2024-03-13]. https://doi.org/10.48550/arXiv.2302.13971.
[14]Liu Xiao, Ji Kaixuan, Tam W,et al. P-Tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 61-68.
[15]Papineni K, Roukos S, Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002: 311-318.
[16]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// ACL Proc of Workshop on Text Summarization Branches Out. Stroudsburg, PA: ACL, 2004: 74-81.
[17]Singhal K, Azizi S, Tu T,et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-180.
[18]Cao Yihan, Li Siyu, Liu Yixin,et al. A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT [J]. Journal of the ACM, 2018, 4(37): 111-155.