[論文筆記/綜述] A survey of large language models for healthcare: from data, technology, and applications to accountability and ethics
A survey of large language models for healthcare: from data, technology, and applications to accountability and ethics

該文章于2025年發表在Information Fusion(中科院一區),早在2023年10月發布在arxiv。
文章地址:https://dl.acm.org/doi/10.1016/j.inffus.2025.102963
arXiv:https://arxiv.org/abs/2310.05694
一、Outline
1.概述了目前開發的醫療保健大語言模型(LLM)的能力,并闡述了他們的開發過程,提供了從傳統的預訓練語言模型(PLM)到LLM的發展路線圖的概述。
2.提供了訓練醫療LLM相關的開源資料LLM-for-Healthcare。
3.探討了醫療保健領域阻礙LLM應用的公平性、問責制、透明度和道德(fairness, accountability, transparency, and ethics)問題
二、Introduction
1.LLM與醫療保健的整合在改善臨床結果、節約資源和加強患者護理方面取得重大進展。
2.對于較簡單的任務,PLM在處理不復雜的病例時,在簡單性和效率方面優于LLM。然后,因為PLM通常作為單任務系統運行,缺乏與復雜醫療數據動態交互的能力,使PLM在醫療保健中的使用受到限制。
3.思維鏈(COT)的提出提高了AI-生成決策的信任和可靠性
4.除了模型參數量的不斷增大和能力的不斷提升等,許多研究已經定制LLM來解決特定醫療應用任務。
5.GPT-3代表一個階段的躍遷(大于100B模型的出現),如下圖。

三、What LLMs can do for healthcare? from fundamental tasks to advanced applications
總結: 在大部分傳統任務中,由于LLM的巨大參數量,使得LLM優于PLM。在一些簡單任務上PLM的效率優于LLM。
NER and RE for healthcare
1.命名實體識別 (Named Entity Recognition、NER)和關系抽取 (Relation Extraction、RE)是實現信息提取(information Extraction、IE)的主要任務。為其他的醫療應用提供基礎信息,例如醫學實體規范化與共指消解(medical entity normalization and coreference)、醫學知識庫和知識圖譜構建(medical knowledge base and knowledge graph construction)、實體增強對話(entity-enhanced dialogue)。
2.對于經常與藥物打交道的(藥物推薦等等方向),可以用到藥物數據庫Drugbank——DrugBank Online | Database for Drug and Drug Target Info。
3.在使用PLM研究NER的早期,大部分研究集中在序列標記任務上。在LLM時代,NER和RE已經被改進以在更復雜的條件下工作和更方便的使用。兩個典型方法:①LLM-NERRE,結合這兩種方法處理科學文本中的層次信息。②InstructGPT,使用零樣本或少樣本提示GPT,證明盡管沒有受到專門的訓練也能得到較好的效果。
①.Alexander Dunn, et al, Structured information extraction from complex scientific text with fine-tuned large language models, 2022, arXiv preprint arXiv: 2212.05238.
②.Long Ouyang, et al, Training language models to follow instructions with human feedback, Adv. Neural Inf. Process. Syst. 35 (2022) 27730–27744.
4.對于特定領域的知識,因為PLM已經對標記數據做了微調,和LLM相比有一定的競爭優勢。
TC for healthcare
1.文本分類(Text Classification、TC)是對醫學短語、句子、段落或文檔進行標簽劃分,也就是分類任務。像是情感分析、臨床預測等方向經常使用。一個典型例子:結合LSTM和Bi-GRU實現醫學TC。
Sunil Kumar Prabhakar, Dong-Ok Won, Medical text classification using hybrid deep learning models with multihead attention, Comput. Intell. Neurosci. 2021 (2021).
2.基于PLM的TC通常不能滿足醫療保健領域的可解釋性和可靠性要求,但借助LLM就可以一定程度上緩解這些問題。像是現在大部分模型都自帶推理鏈,可提供對回復的一部分解釋。
3.在TC任務上LLM比PLM有更大的優勢
STS for healthcare
1.語義文本相似度(Semantic Textual Similarity、STS)用于衡量兩個句子或兩個文檔之間的相似程度。
2.STS可用于檢查醫療筆記的質量,并有效地用于其他NLP(自然語言處理)任務。一個典型例子:基于ClinicalBERT的微調方法,提出迭代多任務學習技術,有助于模型從相關數據集中學習并選擇最佳數據集進行微調。
Diwakar Mahajan, et al, Identification of semantically similar sentences in clinical notes: Iterative intermediate training using multi-task learning, JMIR Med. Inform. 8 (11) (2020) e22508.
3.STS還可用于醫療保健信息檢索,對于QA問題,檢索出相關的文獻來提供證據,或者檢索出相似的患者病歷供醫生參考。
4.對于短文本語義分類,PLM和LLM是可比的,因為LLM在廠商下文和復雜語義理解才有一定的優勢。對于信息檢索,PLM輕量快速,較LLM有一定優勢。對于復雜語境與生成任務,毫無疑問LLM優勢。
QA for healthcare
1.問答(Question Answering、QA)是一項單獨的傳統任務,涉及生成或檢索給定問題的答案。一個論據:根據皮尤研究中心的報告,超過三分之一的美國成年人在網上搜索過他們可能患有的疾病。
Susannah Fox, Maeve Duggan, Health online 2013, 2012.
2.由于PLM有限的語言理解和生成能力,導致PLM很難在現在的現實世界的醫療保健場景中發揮重要作用。
3.現在的大部分醫療模型在醫療QA數據集(MedMCQA、PubMedQA、MMLU)上接近或超過了SOTA方法。模型例如PaLM 2等
4.視覺問答(VQA)通過問答促進醫學圖像的解釋,在輔助診斷和增強患者理解方面有很大潛力
Dialogue system for healthcare
1.對話系統(Dialogue system)通常分為兩類:任務導向和開放式對話系統。前者旨在解決醫療保健的特定問題,如醫院指南或藥物咨詢。后者通常用作聊天機器人,以提供情感支持或心理健康相關的應用程序。
2.基于LLM的對話系統,可以利用強大的LLM的端到端系統,實現一些PLM難以實現的高級功能。
Generation of medical reports from images
1.醫療報告對相關專家具有重要的臨床價值,醫療報告生成已經成為醫療保健領域一個很有前途的研究方向。可以幫助專家進行臨床決策,通過自動起草描述異常和相關正常發現的報告,制作和減少報告編寫的負擔。
2.下面附醫療報告生成發展過程中比較典型的方法。
Baoyu Jing, Pengtao Xie, Eric Xing, On the automatic generation of medical imaging reports, in: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2018, pp. 2577–2586.
Yuan Xue, Tao Xu, L. Rodney Long, Zhiyun Xue, Sameer Antani, George R.Thoma, Xiaolei Huang, Multimodal recurrent model with attention for automated radiology report generation, in: Medical Image Computing and Computer Assisted Intervention–MICCAI 2018: 21st International Conference, Granada, Spain, September 16-20, 2018, Proceedings, Part I, Springer, 2018, pp.457–466.
Jun Chen, et al, VisualGPT: Data-efficient adaptation of pretrained language models for image captioning, in: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2022, pp. 18030–18040.
Sheng Wang, et al, Chatcad: Interactive computer-aided diagnosis on medical image using large language models, 2023, arXiv preprint arXiv:2302.07257.
Zhihong Chen, Yan Song, Tsung-Hui Chang, Xiang Wan, Generating radiology reports via memory-driven transformer, in: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2020, pp.1439–1449.
Aaron Nicolson, et al, Improving chest X-Ray report generation by leveraging warm-starting, 2022, arXiv preprint arXiv:2201.09405.
Zihao Zhao, et al, ChatCAD+: Towards a universal and reliable interactive CAD using LLMs, 2023, arXiv preprint arXiv:2305.15964.
3.在此任務上LLM明顯優于PLM
四、From PLM to LLMs for healthcare
從PLM到LLM的轉變有兩個特點:①.從判別式AI(Discriminative AI)到生成式AI(Generative AI)的轉變。②.從以模型為中心到以數據為中心的轉變。
PLM for healthcare
1.PLM在醫療保健的研究有兩類,一類是增強神經網絡架構,一類是做更有效的預訓練任務
2.可能用到的公共知識庫:UMLS(醫學概念知識庫),CMeKG(中醫知識圖譜),BioModels和DrugBank(藥物知識圖)
3.PLM在醫療領域研究的兩個點:知識庫構建和使用,數據的指令微調方式。
LLM for healthcare
1.LLM在醫療領域的研究強調收集多樣化,精確和專業的醫療保健數據,以及數據安全和隱私保護。
2..LLM在醫療領域研究的四個點,不同的訓練方法(預訓練(PT)、監督微調(SFT),LoRA微調,基于人類反饋的強化學習(RLHF),直接偏好優化(DPO),檢索增強生成(RAG)等等,現在有了更多新方法,像是PPO、GRPO等。),不同的訓練數據(高質量、不同模態),不同的評估方法(醫學檢查、醫學問答、醫學生成和醫學綜合評價 | 準確率、安全性、專業性等),不同的特征(模型大小,語言,模態)。
3.不同的提示可以對模型的性能產生重大影響
五、Usage and data for healthcare LLM
Usage
1.從微調到情境學習(In-context learning,ICL),可以定制化模型以適應醫療專業人員的準確需求和期望
2.從系統1(圖像識別,機器翻譯,語音識別和自動駕駛)到系統2的轉變,利用思維鏈(COT),在不犧牲系統響應能力的前提下,提高透明度和可解釋性。
3.AI代理(Agents),利用LLM作為中央控制器,建立自治代理體系,醫療領域可以用到的點:醫院指導、輔助診斷、藥物推薦和預后隨訪等。
Data
電子健康記錄/檔案(EHR)、科學文獻/論文和網絡數據/資料
六、Improving fairness, accountability, transparency, and ethics
1.在醫療保健領域,首先關注的是患者的福祉和安全,最重要的是要確保患者公平獲得醫療服務,提供準確的醫療診斷和治療的問責制,提高透明性和可信賴性,保護患者的隱私。
七、healthcare core issues
圓越全表示技術越完善


浙公網安備 33010602011771號