《人工智能大模型赋能医疗健康产业白皮书(2023).docx》由会员分享,可在线阅读,更多相关《人工智能大模型赋能医疗健康产业白皮书(2023).docx(78页珍藏版)》请在优知文库上搜索。
1、人工智能大模型赋能医疗健康产业白皮书(2023年)2023年10月编制说明牵头单位人工智能医疗器械创新合作平台智能化医疗器械产业发展研究工作组、中国信息通信研究院云计算与大数据研究所参编单位北京邮电大学、北京大学、中国科学技术大学、北京大学第三医院、首都医科大学附属北京友谊医院、解放军总医院第六医学中心、温州医科大学附属眼视光医院、江苏省中医院、温州眼视光国际创新中心、国家药监局智能化医疗器械研究与评价重点实验室、网络与交换技术全国重点实验室、互联网医疗健康产业联盟、阿里云计算有限公司、腾讯医疗健康(深圳)有限公司、北京百度网讯科技有限公司、商汤科技、OPPo广东移动通信有限公司刖三随着全球新
2、一轮科技革命和产业变革深入发展,以人工智能(ArtificialIntelligence,Al)为代表的数字技术加速演进,成为经济增长的核心驱动力。近年来,人工智能大规模预训练模型(以下简称“大模型“)在知识、数据、算法和算力等关键要素的共同推动下,呈现爆发式增长,从自然语言处理逐步扩展、迁移到计算机视觉、多模态、科学计算等领域,增强了人工智能的泛化性、通用性,开启了人工智能发展新范式。人工智能大模型有望成为未来新型基础设施,赋能千行百业新一轮增长,落地应用和价值实现成为大模型下一步发展方向。生命科学和医疗健康是大模型等Al技术最重要的应用领域之一,大模型可赋能生命科学研究和新药研发,促进医疗
3、器械创新,提升医疗智能化水平。将大模型应用于医疗健康领域,推动医疗健康行业数字化转型升级,对满足人民群众健康需求和实现经济社会绿色、智能、可持续发展具有重要意义。本白皮书集中梳理了国内外医疗健康大模型的最新态势及发展成果,尤其是技术体系、应用场景、风险挑战、评价和监管等方面的内容。白皮书首先阐述了医疗健康大模型的概念内涵、发展优势、生态架构;对医疗健康大模型技术体系和演进趋势进行了分析;并对医疗健康大模型应用现状及优秀应用案例进行了系统性梳理。在此基础上,白皮书分析了医疗健康大模型面临的技术、应用、数据、伦理挑战,并结合医疗健康大模型标准、验证评价和监管治理情况,提出了进一步促进医疗健康大模型
4、发展的相关建议。白皮书旨在为我国生命科学与医疗健康大模型技术和产业发展提供参考和引导,共同推动技术研发创新,促进行业高质量发展。由于生命科学与医疗健康大模型仍处于快速发展阶段,我们的认识还有待持续深化,白皮书仍有不足之处,欢迎大家批评指正。下一步,我们将广泛采纳各方面的建议,进一步深入相关研究,适时发布新版报告。我们诚邀各界专家学者参与我们的研究工作,积极献言献策,为促进生命科学与医疗健康大模型发展作出贡献。一、医疗健康大模型发展概述9(一)医疗健康大模型的概念和优势9(二)医疗健康大模型的生态架构11二、医疔健康大模型的技术体系及演进14(一)大模型响应生物大数据时代的数据特征和应用需求14
5、(二)多类型基础模型为医疗健康大模型提供坚实源动力19(三)四种范式助力大模型在医疗健康垂直领域的应用实践.28(四)模型发展呈现家族化、多模态、融合化、协同化趋势.35三、医疗健康大模型的应用场景39(一)整体发展分析40(二)具体场景分析46四、医疗健康大模型面临的风险与挑战68(一)技术风险:精度不够,尚不能完全满足医疗场景安全性可靠性需求68(二)落地挑战:数据、成本、权责问题制约大模型在医疗领域落地应用70(三)数据安全和隐私:个人数据滥用、隐私泄露和网络攻击风险突出72(四)伦理道德问题:大模型加剧医疗偏见和有害、虚假信息传73播问题(一)标准和指南:基础信息安全标准开始起步,领域
6、平台规范指南需求迫切74(二)评价和验证:针对新能力、新特性、真实表现的动态评估方法有待建立76(三)政策和监管:促发展与防风险并重,奠定医疗大模型监管治理良好基础78六、医疗健康大模型发展建议80图目录图1人工智能大模型+医疗健康生态架构12图2人工智能发展历程16图3医疗健康大模型的类别和实例20图4LLaVA-Med的预训练和微调流程23图5Med-PaLMM所用基准数据集的模态和任务28图6生命科学与医疗领域开发与应用大模型的四种范式29图7GatOrTron模型的预训练和微调过程30图8BioBERT的预训练和微调过程32图9ChatDoctor模型的构建过程34图10Med-PaL
7、M2采用多种路径提升推理能力35图11ClinicalGPT的训练及对齐流程41图12商量大医模型工作原理和应用场景43图13灵医大模型输入“医-患-药”医疗健康数据和医学知识45图14灵医大模型的商业化服务模式46图15EyeGPT根据需求输出研究题目的文章大纲50图16未来EyeGPT在眼健康智能诊断一体化应用示范50图17腾讯医疗大模型多轮问询和智能问诊示意图59图18神经源性膀胱慢病管埋数字疗法平台示意图63图19运动健康助手应用架构和界面65-、医疗健康大模型发展概述(一)医疗健康大模型的概念和优势人工智能大模型(Al大模型)是“大数据+大算力+强算法”结合的深度神经网络模型,通过“
8、预训练+微调”模式增强了人工智能的通用性、泛化性,带来人工智能研发新范式,成为迈向通用人工智能(ArtificialGeneralIntelligence,AGI)的重要技术路径。AI大模型基于海量无标注数据进行预训练,提升模型前期学习的广度、深度和知识水平,从而能够低成本、高适应性地赋能大模型在后续下游任务中的应用。当模型参数规模足够大时,AI大模型出现“智能涌现(IntelligenceEmerging),例如少样本或零样本等能力!。因此,基于Al大模型进行下游应用开发时,对预训练好的大模型进行领域知识微调训练(在下游特定任务上的小规模有标注数据进行二次训练)或使用提示词工程,即可高水平地
9、完成多个应用场景的任务,实现通用的智能能力。AI大模型是实现多种人工智能应用的通用载体,或成为未来整个人工智能生态的核心。医疗健康大模型是面向复杂、开放医疗健康场景的基础大模型,具有大数据、大算力、大参数等关键要素,呈现涌现能力和良好的泛化性、通用性,可以根据不同的医疗健康任务,利用语言、视觉、语音乃至多模态融合的生物医学数据进行“预训练-微调”,从而为医疗健康领域提供高效、准确、个性化的服务和支持。大模型技术的突破,为医疗人工智能的发展注入新动力。相比传统的执行特定任务的医疗Al模型,大模型具有如下优势和潜力。一是大模型可应用于多个下游任务。现有医疗人工智能模型主要采用针对特定任务的模型开发
10、方法,在标记数据上进行训练,用于单任务学习。在美国食品和药品管理局(FDA)批准的521款临床医疗人工智能模型产品中,大多数仅获得了1或2个任务的批准?。大模型具有较强的泛化能力和上下文学习能力,可以灵活、直接地应用于多个医疗任务,而无需特定任务的训练和标注数据23。二是大模型突破数据标注的困境。开发传统有监督的医疗人工智能模型时,需要大规模的标注数据才能形成运行良好的模型二大规模、高质量的标注数据集需要医疗领域专家的参与,成本高、时间长。大模型利用自监督学习或强化学习方式,在无标注数据上进行预训练,在一定程度上减轻了标注负担和创建大规模标注数据集的工作量,也更加适配生物医学、临床和健康相关各
11、类数据爆炸式增长的时代4。在一些可用数据较少的临床场景,大模型可带来显著的人工智能效果提升。三是大模型更加用户友好和易于使用。大模型具有接受人类的自然语言(汉语、英语等)作为输入的能力,这使得外行和医疗专业人员都能够方便地访问大模型,也使得复杂的医疗信息更易于访问和理解3。大模型还提供通过自定义查询与模型进行交互的能力2。在当前实践中,AI模型通常处理单一任务,并产生预先确定的输出(例如,当前模型可能会检测某种特定疾病,输入一种图像,并始终输出该疾病的可能性)。相比之下,大型语言模型具有强大的生成能力,能够以自然语言的方式进行自定义查询,而不是传统检索式的查询方式,允许用户提出更加多样、更加口
12、语化和更加自然的问题,诸如“这张头部MRl扫描图中的肿块更可能是肿瘤还是脓肿?”之类的问题。四是大模型有望支持更加灵活的多种数据模态组合运用。一些严格的多模态模型通常将预定义的模态集合作为输入和输出(例如,必须始终同时输入图像、文本和实验室结果)2。相比之下,大模型具有更灵活的多模态交互方式,有望使用各种数据模态接受输入和产生输出(例如,可以接受文本、图像、实验室结果或任何组合),支持用户自由地组合各种医疗数据模态类型。五是大模型具有更深入理解医学知识的潜力。与临床医生不同,医学AI模型在接受特定任务训练之前通常缺乏医学领域知识,必须仅依赖于输入数据特征与预测目标之间的统计关联,来推导数据关系
13、。当针对特定医学任务的数据很少时,模型表现不佳。而大模型具有更复杂的网络结构和更多参数,通过结合知识图谱结构、检索式方法等技术,可以学习大量医学知识,更深入、更全面地理解医学概念和它们之间的关系,检索上下文中类似案例。这使得大模型能够推理出以前未见过的任务,并使用医学准确的语言解释相关的输出2。(一)医疗健康大模型的生态架构人工智能大模型赋能生命科学与医疗领域发展的生态架构主要由“上游基础层-中游模型层-下游应用层”三层构成。鉴于生物数据的敏感性和医疗场景的严肃性,监管治理和安全能力对医疗健康大模型的负责任创新发展至关重要,贯穿于行业发展各领域和全过程。I沱依八助人,;1服务用户管治理ft%a
14、1B QG1MlrIIl品城统发1111小门EQI卜?11 S ” 国I Im 一 大型语言模里视觉大模型图学习大模型哈仔m卜多模态大模型I 72,I I 9J加工I I开发干音I I,t找I11 I I I物法研发校 . W KLaLiL-,兑力菸础设的数据基础设施I I 7据采用数据标注 11安全能力持定安全能图1人工智能大横型+医疗健康生态架构基础层提供算力和数据支撑资源。基础层是支撑Al大模型研发和应用落地的必要资源,包括算力基础设施和数据基础设施。其中,算力基础设施包括通用计算芯片、Al计算加速芯片、计算服务器、存储服务器、通信网络、云服务、容器/虚拟化等;数据基础设施涉及数据采集和
15、标注、生物信息学数据库、专病数据库、多模态医疗数据库资源等。模型层形成大模型研发、管理和运维体系。模型研发是在算法研发所需的编程环境(语言)、算法框架、开发平台和工具等基础上,研发产出大型语言模型、视觉大模型、图学习大模型、语言条件多智体大模型、多模态大模型以及生物计算大模型等,完成生物医学自然语言处理、生物医学图像识别、生物医学语音语义识别、生物分子设计等任务。模型管理和运维主要包括系统管理、接口管理、数据处理等。应用层实现药、械、医、健多场景触达用户。大模型首先赋能生命科学和药械研发,相关应用起步早、发展快、成果较为突出。同时,大模型在医学影像、医疗问答和智能问诊、辅助诊疗和临床决策支持、医学信息提取和生成、行政流程优化、个人健康管理、医保商保、医学教育等方面的应用价值日益凸显,场景探索加速。大模型技术有望为生命科学与医疗行业多个环节带来更加精确、高效、人性化的服务,提升整个生态系统的质量和效率。二、医疗健康大模型的技术体系及演进(一)大模型响应生物大数据时代的数据特征和应用需求1 .大模型特点突出,赋能通用医疗人工智能发展大模型具有大参数、大数据、范式灵活、策略高效等特点。大模