国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成式大語言模型在醫(yī)療領域的潛在典型應用與面臨的挑戰(zhàn)*

2024-01-02 07:23:46顏見智何雨鑫駱子燁范士喜湯步洲
醫(yī)學信息學雜志 2023年9期
關鍵詞:集上醫(yī)學領域

顏見智 何雨鑫 駱子燁 胡 晗 范士喜 湯步洲

(1哈爾濱工業(yè)大學(深圳) 深圳518055 2鵬城實驗室 深圳518055 3深圳職業(yè)技術大學 深圳518055)

1 大語言模型簡介

語言模型是計算語言學范疇概念,用于建模任意字詞序列屬于自然語言的概率。在深度學習流行之前,語言模型多是基于統(tǒng)計的N-gram語言模型;隨后,基于人工神經網(wǎng)絡的語言模型(神經概率語言模型)逐漸占據(jù)主導地位。當神經概率語言模型的有效參數(shù)規(guī)模達到一定量級就成為大語言模型。

2003年Bengio Y[1]在其論文ANeuralProbabilisticLanguageModel中首次提出神經概率語言模型,基于詞嵌入向量和多層感知機計算文本中每個詞的條件概率。受限于當時的算力資源,該工作并沒有得到太多重視。2013年Mikolov T[2]延續(xù)Bengio的思想提出word2vec,利用各種高效的損失設計成功實現(xiàn)在包含16億詞的語料庫上的預訓練。2015年Dai A M等[3]提出基于長短期記憶神經網(wǎng)絡(long-short term memory,LSTM)的語言模型,提出先利用語言模型任務在大規(guī)模語料上進行預訓練,再在下游任務微調的思路。

然而前饋神經網(wǎng)絡的表示能力較弱,循環(huán)神經網(wǎng)絡又難以高效并行訓練,因此一種基于注意力機制的神經網(wǎng)絡Transformer[4]開始受到關注。從2018年起Transformer幾乎成為神經概率語言模型的標配,研究者也習慣將這類語言模型稱為預訓練語言模型(pre-trained language models,PLMs)。根據(jù)模型架構不同,可以將PLMs分為以下4類:一是基于雙向編碼器的PLMs,如雙向編碼器表征(bidirectional encoder representation from transformers,BERT)[5]及其變種。二是基于單向解碼器的PLMs,如生成式預訓練Transformer(generative pre-trained transformer,GPT)系列模型[6]、PaLM系列模型[7]、LLaMa系列模型[8]以及BLOOM/Z[9]。三是基于編碼器-解碼器的PLMs,如BART[10]、T5系列模型[11]和UL2[12]。四是基于混合掩碼解碼器的PLMs,如XLNet[13]、UniLM[14]以及GLM系列模型[15]。目前這4類PLMs中只有后3類能夠成功完成量變到質變的躍遷,成為大語言模型;而BERT等基于雙向編碼器的PLMs則止步不前。原因也許在于去噪自編碼這一預訓練目標較簡單,不需要大規(guī)模參數(shù)模型就能完成得很好。單純的去噪自編碼任務無法充分激發(fā)預訓練語言模型的潛力。

而自回歸生成的預訓練目標則更具挑戰(zhàn)性。模型需要在對世界進行高質量建模的同時具備強大的推理能力。研究結果表明只有當模型參數(shù)規(guī)模達到一定量級,模型才會涌現(xiàn)出這些能力[16]。沒有大語言模型就無法很好地完成自回歸生成;沒有自回歸生成這樣一個高難度的預訓練目標,大語言模型就沒有產生的必要。因此,當提及大語言模型(large language model,LLM)時,實際上是指生成式大語言模型。

雖然LLM能涌現(xiàn)語義理解、文本生成和邏輯推理能力,但還無法較好地服從人類指令,其生成內容也不一定符合人類價值理念。因此在完成LLM的預訓練后,一般會進行有監(jiān)督微調(supervised fine-tuning,SFT)[17]和基于人類反饋的強化學習(reinforcement learning from human feedback,RLHF)[18],使LLM能夠服從人類指令并生成符合人類價值觀的內容,成為實用的人工智能助手。此處有監(jiān)督微調采用的上下文指令學習樣本[19]是一種特殊的提示形式[20]。LLM經過有監(jiān)督微調,甚至能掌握調用外部工具的能力,具備成為人機交互的統(tǒng)一接口、重塑現(xiàn)代信息處理系統(tǒng)的潛力。

2 生成式大語言模型在醫(yī)療領域的潛在典型應用

生成式LLM因其出色的語義理解、文本生成和邏輯推理能力,正在被嘗試應用于多個領域。在醫(yī)療領域,從基礎的醫(yī)療信息抽取、醫(yī)療實體標準化,到常用的文本分類、信息檢索、問答和對話等應用,再到醫(yī)療領域特有的醫(yī)師考試、病歷生成、醫(yī)療結果預測、藥物研發(fā)和醫(yī)學影像分析等任務均有嘗試,取得了令人驚喜的結果。國內外代表性生成式大語言模型的基本特點及性能測試情況如下。

2.1 ChatGPT

ChatGPT(chat generative pre-trained transformer)是OpenAI于2022年11月30日發(fā)布的一款基于人工智能技術的聊天機器人,基于含有1 750億 參數(shù)的生成式大語言GPT-3.5模型[21]開發(fā),能與用戶以問答的形式進行自然語言交互,為用戶提供通用、有用信息和建議。盡管ChatGPT沒有專門針對醫(yī)療領域進行微調,但也具有良好的醫(yī)療領域任務處理能力。ChatGPT基本能通過美國職業(yè)醫(yī)師資格考試(United States Medical Licensing Exam,USMLE),并能提供較好的解釋[22];未能通過中國國家醫(yī)師資格考試(Chinese National Medical Licensing Examination,CNMLE),但已表現(xiàn)出很大潛力[23]。在基礎生命支持(Basic Life Support,BLS)和高級心血管生命支持(Advanced Cardivascular Life Support,ACLS)考試中,BLS成績較好,ACLS成績較差,但均未通過[24]。ChatGPT也可應用于臨床試驗人員招募,經過臨床實體識別、否定信息識別、關鍵詞抽取和臨床試驗檢索等系列提示學習指令,獲得優(yōu)于傳統(tǒng)檢索和基于BERT關鍵信息抽取檢索方法的性能[25]。2023年3月14日OpenAI發(fā)布GPT-4,更新之后的ChatGPT(即ChatGPT 4.0)能力得到很大提升。在USMLE問題上正確率達90%[26];在CNMLE的中英文數(shù)據(jù)集和中國全國醫(yī)學研究生入學考試的中文數(shù)據(jù)集上均獲得超過80%的分數(shù),明顯優(yōu)于前一版本[27]。盡管兩個版本的ChatGPT在回答語言流暢性方面性能出色,但在錯誤回答方面依然存在較大比例的幻覺,開放領域幻覺現(xiàn)象更為明顯。在出院小結邏輯一致性和小組學習語言流暢性與滿意度的小規(guī)模測試中,ChatGPT 3.5不能滿足出院小結邏輯一致性要求,ChatGPT 4.0能在60%的情況下滿足。兩個版本ChatGPT在小組學習任務上的語言流暢性和滿意度達到100%。

2.2 Med-PaLM

2023年5月10日谷歌發(fā)布新一代人工智能大語言模型PaLM 2以及基于PaLM 2的醫(yī)療領域變體Med-PaLM[28]。Med-PaLM可以檢索醫(yī)學知識、回答問題、生成有用的模板和解碼醫(yī)學術語,以及從圖像(如X光胸片)中解讀信息。在MedMCQA數(shù)據(jù)集上,Med-PaLM獲得72.3%的分數(shù),超過Flan-PaLM14%以上,但略低于GPT-4。在PubMedQA數(shù)據(jù)集上,Med-PaLM獲得75.0%的分數(shù),低于BioGPT-Large的81.0%。在MMLU臨床主題上,Med-PaLM在6個主題中的3個上表現(xiàn)最佳,而GPT-4在其他3個上表現(xiàn)更好。在1 000多個實際醫(yī)療場景問答中,Med-PaLM在9項基準測試中有8項表現(xiàn)良好,相較于人類醫(yī)生回答更受認可;72.9%的回答被認為與醫(yī)生回答一致。Med-PaLM在MedQA數(shù)據(jù)集上的測試結果很好,但醫(yī)學領域應用關乎人的健康,僅通過簡單的基準測試難以全面評估模型的生成事實性和回答安全性。因此,除了在MedQA數(shù)據(jù)集上的直觀定量對比,還進行了人工評估,選取1 066個消費者醫(yī)療問題,在9個與臨床效用相關的屬性(如事實性、醫(yī)學推理能力和低風險性)上,Med-PaLM在8個屬性上給出了比醫(yī)生評分更高的回答。

2.3 Galactica

大部分現(xiàn)有語言模型是基于爬蟲爬取、未經整理的大規(guī)模語料訓練構建的,而Galactica[29]大模型是在大量且精心構造的人類科學知識語料庫上訓練得到的。所使用語料庫包括4 800余萬篇論文、教科書和講義、數(shù)百萬種化合物和蛋白質、科學網(wǎng)站、百科全書等。Galactica在MedQA數(shù)據(jù)集上的準確率達到44.4%,在PubMedQA數(shù)據(jù)集上達到77.6%,在BioASQ數(shù)據(jù)集上達到94.3%。

2.4 GatorTronGPT

為了研究醫(yī)學領域的生成式大語言模型,并評估其在醫(yī)學研究和醫(yī)療保健領域的實用性,佛羅里達大學研究團隊整理了其附屬醫(yī)院包含820億token、去隱私信息的臨床文本,以及包含1 950億token的Pile數(shù)據(jù)集,將之一起用于訓練GatorTronGPT[30]。該模型使用GPT-3架構從頭開始訓練,在醫(yī)療信息抽取、文本相似度計算等任務上均超過以往最佳性能。在PubMedQA數(shù)據(jù)集上取得77.6%的準確率,在MedQA數(shù)據(jù)集上取得45.1%的準確率,在MedMCQA數(shù)據(jù)集上取得42.9%的準確率。

2.5 PubMedGPT

斯坦福基礎模型研究中心和MosaicML聯(lián)合開發(fā)了一種經訓練可以解釋生物醫(yī)學語言的大型語言模型PubMedGPT[31]。其采用Pile數(shù)據(jù)集的PubMed Abstracts和PubMed Central部分訓練得到。在MedQA數(shù)據(jù)集上的準確率達到50.3%,在PubMedQA數(shù)據(jù)集上達到74.4%,在BioASQ數(shù)據(jù)集上達到95.7%。在使用較少訓練數(shù)據(jù)的情況下獲得良好性能。

2.6 PMC-LLaMA

PMC-LLaMA[32]是上海交通大學于2023年4月發(fā)布的醫(yī)學大語言模型。其基于LLaMA-7B模型,在480萬篇生物醫(yī)學學術論文數(shù)據(jù)集基礎上微調得到。在3個生物醫(yī)學問答數(shù)據(jù)集(USMLE、MedMCQA和PubMedQA)上對比全量參數(shù)微調和PEFT微調兩種方式。與LLaMA-7B相比,全量參數(shù)微調得到的PMC-LLaMA在USMLE和MedMCQA上均獲得明顯的性能提升,在PubMedQA上則沒有提升;PEFT微調得到的PMC-LLaMA在3個數(shù)據(jù)集上均獲得明顯的性能提升。通過GPT-4評價,PMC-LLaMA比LLaMA在zero-shot任務上能提供更多和輸入相關的上下文,表現(xiàn)出對醫(yī)學背景知識更深入的理解能力。受限于設備性能,PMC-LLaMA僅在480萬篇生物醫(yī)學論文數(shù)據(jù)集上訓練了5輪,模型訓練可能并不充分,暗示PMC-LLaMA還存在很大潛能。

2.7 MedGPT

MedGPT是醫(yī)聯(lián)于2023年5月25日發(fā)布的國內首款基于Transformer框架的醫(yī)療大語言模型。模型從醫(yī)療知識圖譜中獲取大量準確、結構化的醫(yī)療知識,并使用經過整理的近20億條真實世界中的醫(yī)患溝通對話、檢驗檢測和病歷信息進行訓練,使用800萬條高質量結構化臨床診療數(shù)據(jù)進行微調,最后通過醫(yī)生的真實反饋進行強化學習。MedGPT率先實現(xiàn)使AI大模型與真實患者連續(xù)自由對話的功能,能夠整合多種醫(yī)學檢驗檢測模態(tài)能力,支持醫(yī)療問診中的多模態(tài)輸入和輸出。問診結束后,MedGPT還能給患者開具合適的醫(yī)學檢查項目,再根據(jù)問診和檢查結果,為患者設計治療方案,實現(xiàn)全流程覆蓋的智能化診療。醫(yī)聯(lián)抽取532名復診患者檔案進行信息脫敏,并進行模擬首診實驗,結果顯示MedGPT的診斷結果與線下門診的原有診斷吻合率超過97.5%,充分證明MedGPT的診斷能力。MedGPT能從多輪問診中收集足夠信息,逐步得出診斷結論,診斷的準確率和安全性較高,已達到主治醫(yī)師水平。

2.8 山海大模型

山海大模型是云知聲于2023年5月24日發(fā)布的通用領域大模型,已進入有序迭代階段。其能快速積累特定領域的專業(yè)知識,通過語料的不斷迭代升級突破專業(yè)能力,在醫(yī)療領域的性能也十分優(yōu)異。為提供更加全面、專業(yè)的醫(yī)療知識支持,山海大模型學習了大量醫(yī)學文獻、醫(yī)學教材和病歷數(shù)據(jù),得到醫(yī)療基座模型。2023年6月在MedQA任務上的準確率提升到87.1%,超越了Med-PaLM;臨床執(zhí)業(yè)醫(yī)師資格考試提升至523分(總分600分),超過99%的考生。同年7月28日迎來新一輪迭代升級,并在當月的全球大模型綜合性考試評測(C-Eval)中躋身榜單前10名。在同年8月24—27日舉辦的第十七屆全國知識圖譜與語義計算大會上,云知聲團隊通過大賽官方提供的訓練數(shù)據(jù)對醫(yī)療基座模型進行指令微調,并采取數(shù)據(jù)增強、思維鏈等技術手段不斷優(yōu)化模型表現(xiàn),再利用模型融合技術構建UNIGPT-MED比賽模型,在PromtCBLUE醫(yī)療大模型評測中奪得AB雙榜冠軍。同年8月28日山海大模型再次迭代升級,參數(shù)規(guī)模達到千億級。山海大模型2.0在預訓練階段使用海量的醫(yī)學病歷、醫(yī)學教材、臨床指南和醫(yī)學文獻等數(shù)據(jù),并在對齊階段使用人機結合方法構建近百萬級的病歷理解、醫(yī)學考試和醫(yī)學知識問答等指令學習數(shù)據(jù)。當月實測性能在全球大模型綜合性考試評測(C-Eval)中超越GPT-4,以平均70分的成績位列第3名。

2.9 添翼醫(yī)療大模型

添翼醫(yī)療大模型是東軟于2023年6月發(fā)布的醫(yī)療領域大模型,與飛標醫(yī)學影像標注平臺4.0、基于Web的虛擬內窺鏡等多款“AI+醫(yī)療行業(yè)應用”相結合,形成在“AI+醫(yī)療領域”的“1+N”組合,加速推動了東軟“AI+領域應用”的人工智能生態(tài)圖譜戰(zhàn)略布局。醫(yī)生能通過自然語言與添翼交互,快速準確地完成醫(yī)療報告與病歷、醫(yī)囑開立。添翼能成為患者全天私人專屬醫(yī)生,提供全面的診后健康飲食、營養(yǎng)與運動建議等。

2.10 百度靈醫(yī)

百度靈醫(yī)(靈醫(yī)bot)是基于百度文心大模型,融合全國超800家醫(yī)院、4 000多家基層診療機構的智慧醫(yī)療服務經驗,推出的醫(yī)療領域對話機器人。此外,靈醫(yī)bot所使用醫(yī)學知識圖譜包含萬級醫(yī)學專業(yè)書籍、億級權威專家審校的科普內容;訓練數(shù)據(jù)來自超百萬條經三甲醫(yī)院主任醫(yī)師帶隊的醫(yī)學專家隊伍標注、評估和整理的醫(yī)學數(shù)據(jù);涵蓋長/短醫(yī)療文本分類、醫(yī)療問答、醫(yī)患對話和病歷生成、沖突檢測、因果關系推理、病灶檢測、分割與分類等高質量標注語料。面向醫(yī)療領域從業(yè)者,靈醫(yī)bot能對自有知識內容進行快速問答,提供病歷生成、輔助治療、病歷質控等服務。面向患者,靈醫(yī)bot升級了智能分導診、預問診等功能,提升病因分析、危急情況識別、檢驗檢查識別、口語表達識別的及時性和準確性。2023年7月20日百度“靈醫(yī)智惠”與固生堂聯(lián)合舉辦了大模型戰(zhàn)略合作啟動儀式,促成了國內中醫(yī)藥領域首個大模型應用落地,并在同年9月19日正式發(fā)布。

2.11 Deepwise MetAI

Deepwise MetAI是深睿醫(yī)療于2023年4月推出的智慧影像和大數(shù)據(jù)通用平臺,也是國內首個融合計算機視覺、自然語言處理、深度學習等技術構建的平臺。以深睿自主研發(fā)的通用醫(yī)學影像理解模型DeepWise-CIRP Model為支撐,將影像科日常應用產生的數(shù)據(jù)結構化,進而實現(xiàn)影像處理、打印、診斷、會診、教學、科研一站式全周期智能管理,并實現(xiàn)跨越呼吸系統(tǒng)、心血管系統(tǒng)、神經系統(tǒng)、運動系統(tǒng)、女性關愛等多個領域圖文并茂的AI生成式結構化報告。Deepwise MetAI在科研和市場需求領域均獲得認可。在科研方面,2023年6月16日深睿醫(yī)療與香港大學、四川大學華西醫(yī)學院、澳門科技大學合作開展關于多模態(tài)數(shù)據(jù)的醫(yī)學診斷研究,使用IRENE深度學習框架在多模態(tài)數(shù)據(jù)上訓練醫(yī)學診斷模型,顯著改善4種疾病(支氣管擴張、氣胸、間質性肺疾病和結核病)的診斷效果[33]。

2.12 ClouD GPT

ClouD GPT是智云健康于2023年5月發(fā)布的慢性病管理領域的首個大語言模型,由ClouDr Machine Learning Infrastructure基礎平臺提供智能診斷技術,并成為智云醫(yī)療大腦的一部分。經過大量、專業(yè)的醫(yī)學數(shù)據(jù)訓練,ClouD GPT能夠應對不同模式下的復雜情況。目前智云健康已在醫(yī)院及互聯(lián)網(wǎng)醫(yī)院的軟件即服務(software as a service,SaaS)中安裝應用ClouD GPT,主要用于臨床輔助決策。在醫(yī)院SaaS方面,ClouD GPT能夠全面分析患者病情,為同類疾病提供預警及建議治療方案,協(xié)助醫(yī)師更快、更精準地確立診療方案。在互聯(lián)網(wǎng)醫(yī)院SaaS方面,ClouD GPT能夠協(xié)助醫(yī)生及藥師進行處方質量控制,并提升醫(yī)生診療方案的效率及準確性。此外,得益于智云醫(yī)療大腦,ClouD GPT還可以應用于AI藥物和器械研發(fā),為慢性病數(shù)字醫(yī)療提供多項關鍵技術。例如,在心血管疾病領域成功研發(fā)了“ClouDTx-CVD”數(shù)字療法,是首個公開發(fā)表的在心血管疾病治療領域采用數(shù)字療法干預血脂的臨床研究。

2.13 其他

國內已發(fā)布的其他醫(yī)療領域大模型,包括以開源通用預訓練大語言模型為基座的哈爾濱工業(yè)大學的本草(原名華佗)、香港中文大學(深圳)的華佗等,以華為鯤鵬生態(tài)下自研通用預訓練大語言模型腦海為基座的鵬城實驗室的扁鵲等。

3 生成式大語言模型在醫(yī)療領域應用面臨的挑戰(zhàn)

3.1 缺乏統(tǒng)一評估

醫(yī)學依賴于專家知識和經驗,生成式大語言模型依賴于數(shù)據(jù),醫(yī)療專家知識和經驗往往蘊含在醫(yī)療數(shù)據(jù)中,這為生成式大語言模型緩解醫(yī)療資源短缺提供了可能性。未來生成式大語言模型在醫(yī)療領域應用前景廣闊,但模型評估仍存在諸多挑戰(zhàn)。雖然已有在公開數(shù)據(jù)集上的模型評估、基于ChatGPT 4.0的自動評估,甚至還有專業(yè)醫(yī)生的人工評估,但這些評估均存在規(guī)模小、不全面、封閉和難以復制等問題。目前,盡管已經涌現(xiàn)出各種各樣的生成式大語言模型,但由于缺乏統(tǒng)一評估標準,不同模型的性能難以客觀全面地進行比較,這也導致不同研究結果難以互相驗證和重現(xiàn),從而大大降低模型可信度。

3.2 幻覺

幻覺指大模型在處理常識問題時,生成的內容在語義或句法上符合邏輯,但內容不正確或無意義[34]。醫(yī)療領域錯誤或不準確的信息可能對患者健康產生嚴重影響。因此,應用生成式大語言模型時準確性和可靠性至關重要。評估和減少生成式大語言模型在醫(yī)療領域中的幻覺是確保模型高準確性和可靠性的關鍵。為此,研究者最近提出了一些基準數(shù)據(jù)集。例如Med-HALT[35],包括創(chuàng)新的檢測方式,并涵蓋多國醫(yī)療檢查,可以評估Text-Davinci、GPT-3.5、LLaMa-2、MPT和Falcon等LLMs的性能??傮w而言,面向醫(yī)療領域的幻覺數(shù)據(jù)集仍然匱乏,這一情況可能是由醫(yī)療數(shù)據(jù)隱私和安全性導致的。

3.3 數(shù)據(jù)隱私保護

醫(yī)療數(shù)據(jù)通常包含敏感信息。在使用生成式大語言模型時,必須確保數(shù)據(jù)的隱私和安全得到充分保護,以防止數(shù)據(jù)泄露和濫用。否則可能會引發(fā)敏感信息濫用、患者對醫(yī)療機構信任度降低、醫(yī)患矛盾激化等一系列重大問題。一是在數(shù)據(jù)合規(guī)性方面,醫(yī)療數(shù)據(jù)通常受到法規(guī)(如美國《健康保險攜帶和責任法案》(Health Insurance Portability and Accountability Act,HIPPA)和歐盟《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)等)的約束,需要確保生成式大語言模型在訓練和應用時符合這些法規(guī),包括數(shù)據(jù)訪問控制、審計跟蹤、數(shù)據(jù)脫敏等合規(guī)性措施。在一些情況下,醫(yī)療領域需要多個組織之間共享數(shù)據(jù)以進行合作研究。確保這些共享數(shù)據(jù)的隱私和安全性是一個復雜的問題,需要設計安全的數(shù)據(jù)共享協(xié)議和技術。

3.4 倫理

為了確保生成式大語言模型的開發(fā)和應用符合道德準則和法規(guī),建立相應倫理審查和監(jiān)管機制將有助于提高醫(yī)療AI大模型系統(tǒng)的可信度。應建立專門的倫理審查委員會,對生成式大語言模型數(shù)據(jù)收集、存儲和處理,數(shù)據(jù)中偏見影響的評估等方面進行全面跟蹤監(jiān)管,以確保生成式大語言模型的合法性、道德性和可信度。

3.5 結果可控性

與通用領域相比,醫(yī)療領域因其特殊性,對生成式大語言模型的結果可控性要求更高,以確保其合理性、安全性和符合醫(yī)療實踐規(guī)范。但生成式大語言模型的高度復雜性和黑盒性質,使其生成的結果難以有效控制和管理。缺乏結果可控性表現(xiàn)在算法本身可控難度大,以及可能引發(fā)的醫(yī)療嚴重后果和法律法規(guī)風險等多個方面。

3.6 算法可解釋性

深度學習模型可解釋性差的問題至今仍難以解決。就醫(yī)療生成式大語言模型而言,難以解釋其決策過程以及模型的錯誤或不當行為會帶來以下問題。首先,醫(yī)療專業(yè)人士和患者難以理解模型為何作出特定的醫(yī)療決策或提供特定的診斷建議。醫(yī)生可能會不信任和否定模型建議,以作出最佳治療決策。同時患者希望了解為什么模型提供特定醫(yī)療建議,可解釋性的缺乏會導致患者對治療方案不信任。其次,可解釋性不足可能導致模型的錯誤無法被及時發(fā)現(xiàn)和修正。如果模型產生不準確結果或者基于不當數(shù)據(jù)進行決策,但無法解釋為何會出現(xiàn)這種情況,就可能延誤患者治療或帶來不當醫(yī)療建議。

3.7 跨領域遷移能力

一是不同領域數(shù)據(jù)具有不同特點和分布。醫(yī)療數(shù)據(jù)可能包含豐富的患者病歷、醫(yī)學圖像和實驗數(shù)據(jù),不同醫(yī)療領域的數(shù)據(jù)特征和分布截然不同。例如將一個肺部疾病模型遷移到眼科領域可能會面臨數(shù)據(jù)不匹配問題。模型需要適應新領域數(shù)據(jù),需要大量標記數(shù)據(jù)和領域適應技術。每個醫(yī)療細分領域都有其獨特的臨床實踐和標準,跨領域遷移需要將領域專業(yè)知識整合到模型中,以確保生成的結果與特定領域最佳實踐相符。二是醫(yī)療大模型跨領域遷移能力受到倫理和法律法規(guī)的影響。不同領域的醫(yī)療數(shù)據(jù)可能受到不同的倫理和法規(guī)約束。將模型遷移到新領域需要確保其符合新領域法規(guī)要求,尤其是涉及患者隱私和數(shù)據(jù)保護的問題。三是跨領域遷移面臨風險管理問題??珙I域遷移可能伴隨一定風險,包括模型性能下降、不準確的結果以及患者安全等問題。

4 醫(yī)療領域生成式大語言模型未來發(fā)展方向

4.1 建立統(tǒng)一評估體系

短期內發(fā)展醫(yī)療大語言模型的首要任務是建立統(tǒng)一評估體系。理想的評估體系應具備以下6個特點。一是全面性,能夠全面涵蓋各個科室,并覆蓋診療全流程(導診、首診、復診、復健、預防)。二是可重復性,能夠重復實施,并對相同模型給出一致的評估結果。三是區(qū)分性,能夠對不同水平的模型給出有區(qū)分度的評估結果。四是權威性,評估應由權威機關主持,評測內容應高度保密,評估流程應高度透明,評估結果應具有一定法律效力。五是時間可擴展性,生物醫(yī)學處于高速發(fā)展中,人類對疾病的認知和診療方式亦不斷進步,為了體現(xiàn)模型掌握最新醫(yī)學知識的能力,需要每隔一段時間對評測內容進行更新。六是多維度、多粒度,評估結果不單要體現(xiàn)模型綜合水平,還要具體反映模型在用戶友好性、事實性、內容一致性等不同維度的能力,并能夠細化指出模型的具體事實性錯誤或其他扣分項。目前可以從現(xiàn)有基礎任務數(shù)據(jù)集(如英文的I2B2、N2C2、PubMedQA[36]、MedMCQA[37]和USMLE[38]等,中文的CBLUE[39]、CNMLE、CMB[40]等)開始,逐漸組成多層次、多維度的評估體系和數(shù)據(jù)集矩陣。

4.2 多模態(tài)

雖然目前大語言模型已經能夠在文本信息處理上取得不錯效果,但文本只是醫(yī)學信息的一種模態(tài),醫(yī)學信息還包括視覺、聽覺、醫(yī)學影像、基因組學等其他重要模態(tài)。這些非文本模態(tài)信息一方面是醫(yī)患交互的重要接口,另一方面能夠為大語言模型提供豐富的真實世界語境,約束大語言模型的生成內容。因此,探索醫(yī)療多模態(tài)大語言模型是必由之路。

4.3 與知識圖譜深度結合

醫(yī)療知識圖譜涵蓋細粒度、高質量的人類醫(yī)學專家知識,恰好能與生成式大語言模型形成互補。因此將大語言模型與知識圖譜相結合有可能解決大語言模型的幻覺問題,提高生成內容的可控性和可解釋性。然而目前知識圖譜在大語言模型領域的應用主要還停留在信息檢索方面,如何將大語言模型輸入、輸出的文字和知識圖譜細粒度地對齊以實現(xiàn)文本生成過程與知識圖譜的深層次耦合是未來值得探索的方向。

4.4 個性化醫(yī)療

隨著個性化醫(yī)療的發(fā)展,大語言模型在醫(yī)療領域的應用也將更加個性化。未來,可以根據(jù)患者的個性化需求和特征,定制開發(fā)適用于不同場景和人群的大語言模型應用,如個性化健康管理、個性化藥物研發(fā)等。為了實現(xiàn)這一目標,一方面可以嘗試將患者的既往病歷或體檢報告等醫(yī)療記錄作為大語言模型的上下文(這需要模型能有效支持非常規(guī)的上下文長度);另一方面,可以嘗試采用更細粒度的數(shù)據(jù)分析和挖掘技術,顯式地挖掘患者的個性化特征和需求,為個性化醫(yī)療提供精準支持。

5 結語

生成式大語言模型在醫(yī)療領域的應用前景廣闊,但仍存在亟待解決的關鍵問題,有待進一步深入研究和持續(xù)改進。未來,需要學術界和企業(yè)界繼續(xù)加強相關研究和探索,快速推動生成式大語言模型在醫(yī)療領域的應用和發(fā)展。

猜你喜歡
集上醫(yī)學領域
醫(yī)學的進步
Cookie-Cutter集上的Gibbs測度
預防新型冠狀病毒, 你必須知道的事
祝您健康(2020年4期)2020-05-20 15:04:20
鏈完備偏序集上廣義向量均衡問題解映射的保序性
領域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
復扇形指標集上的分布混沌
醫(yī)學
新校長(2016年5期)2016-02-26 09:29:01
新常態(tài)下推動多層次多領域依法治理初探
醫(yī)學、生命科學類
肯定與質疑:“慕課”在基礎教育領域的應用
明水县| 普宁市| 论坛| 天津市| 伊川县| 米脂县| 行唐县| SHOW| 开封县| 新兴县| 建水县| 建昌县| 丰都县| 乌恰县| 确山县| 元氏县| 荃湾区| 定远县| 延吉市| 七台河市| 武功县| 志丹县| 内黄县| 禄劝| 黑水县| 抚州市| 永吉县| 从江县| 高邮市| 昂仁县| 莱阳市| 绥阳县| 林西县| 彭泽县| 泾川县| 武乡县| 阿瓦提县| 出国| 区。| 灵川县| 商河县|