《北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx》由会员分享,可在线阅读,更多相关《北京市人工智能医疗器械生产质量管理规范检查设计开发检查要点举例说明、人工智能医疗器械常用术语.docx(17页珍藏版)》请在优知文库上搜索。
1、附件1设计开发检查要点举例说明1 .算法策划算法开发策划阶段,应对算法需求、数据收集、算法设计、验证与确认、算法更新、风险管理、可追溯性分析等过程进行算法生命周期策划,输出算法开发计划书。2 .算法需求算法需求分析以用户需求与风险为导向,结合产品的预期用途、使用场景、核心功能,综合分析法律、法规、规章、标准、用户、产品、功能、性能、接口、用户界面、网络安全、警示提示等需求,重点考虑数据收集、算法性能、使用限制等要求。输出算法需求规范。3 .数据收集3. 1数据入选、排除标准在算法需求规范中明确算法数据入选、排除标准。3.2 数据来源及质控数据收集应确保数据来源的合规性,数据质控的充分性、有效性
2、、准确性。3.3 数据采集数据采集需考虑采集设备、采集过程、数据脱敏等质控要求,并建立数据采集操作规范。3.4 数据整理脱敏数据汇总形成原始数据库,不同模态的数据在原始数据库中需加以区分。数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。输出数据整理规范,同时数据整理规范中需明确样本类型、样本量、样品分布等信息,数据经整理后形成基础数据库。3.5 数据标注3.5.1数据标注前应建立数据标注操作规范,明确标注资源管理、标注过程质控、标注质量评估等要求。数据经标注后形成标注数据库。3.5.2数据标注可使用自动标注软件,但自动标注结果不得直接使用,应由标注人员审核后方可使用;同时,自动标注软
3、件亦需明确名称、型号规格、完整版本、制造商、运行环境等信息,并进行软件确认。3.6数据集构建3.6.1基于标注数据库构建训练集、调优集、测试集,明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例,输出数据集构建标准。3.6.2训练集应当保证样本分布具有均衡性,测试集、调优集应当保证样本分布符合临床实际情况,训练集、调优集、测试集的样本应当两两无交集并通过查重予以验证。3.6.3为解决样本分布不满足预期的问题,可对训练集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增,对抗测试除外。数据扩增需明确扩增的对象、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生
4、成对抗网络等)、倍数,扩增倍数过大应考虑数据偏倚的影响及风险。若采用生成对抗网络进行数据扩增,需明确算法基本信息以及算法选用依据。3.6.4数据经扩增后形成扩增数据库,需列表对比扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等差异,以证实扩增数据库样本量的充分性以及样本分布的合理性。3.7数据库管理3 .7.1数据库管理应遵循真实性、完整性、可用性、合规性、可追溯性、临床代表性、时效性、安全性、准确性9大原则。4 .7.2应定期对逻辑数据库的数据以及文件数据进行备份,备份文件保存在不同机架的机器磁盘上以提高备份的安全性。5 .7.3在整个数据转移过程中,应当明确数据转移方法、数据防污
5、染措施以及数据销毁方式。6 .算法设计人工智能算法设计主要考虑算法选择、算法目标设定分析、算法训练、算法性能评估等要求,形成算法设计说明书。对于黑盒算法,算法设计应开展算法性能影响因素分析,同时与现有医学知识建立关联,以提升算法可解释性。7 .验证与确认算法训练过程中,需要明确算法训练环境,应当对算法进行性能评估,以确保选择的算法准确、有效。算法验证阶段,明确算法性能评估环境,应完成算法性能指标评估、压力测试、对抗测试,黑盒需要算法性能影响因素分析,输出算法性能评估报告。同时,开展算法性能比较分析,详述各类测试场景(含临床评价)算法性能变异度较大的原因,基于分析结果明确产品使用限制和必要警示提
6、示信息,输出算法性能比较分析报告。最后,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。输出算法性能综合评价报告。8 .算法风险管理人工智能医疗器械的软件安全性级别可基于产品的预期用途、使用场景、核心功能进行综合判定,并开展风险管理活动,采取有效的风险控制措施将风险降至可接受水平,并贯穿于人工智能医疗器械全生命周期过程。人工智能医疗器械的主要风险从算法角度包括过拟合和欠拟合。从用途角度,辅助决策主要包括假阴性和假阳性,其中假阴性即漏诊,可能导
7、致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动;非辅助决策从算法设计目标能否得以实现角度,亦可参考辅助决策分为假阴性和假阳性。应输出风险管理报告,明确过拟合与欠拟合、假阴性与假阳性、数据扩增与数据偏倚等风险的控制措施。9 .算法可追溯性分析医疗器械全生命周期管理中,应实现算法的可追溯性,并形成算法可追溯性分析报告等相关文件及记录,即追溯算法需求、算法设计、算法实现、算法验证与确认、风险管理、数据集的管理。在数据收集过程中,数据采集、数据整理、数据标注、数据集构建过程中形成数据脱敏交接记录数据清洗记录数据标注记录数据审核记录数据仲裁记
8、录数据集构建记录,以上记录均由操作人员签字确认。数据集管理过程中,每一例数据都可追溯到唯一识别号、脱敏人员、清洗人员、标注人员、审核人员、仲裁人员、入库人员,保证了数据收集各环节的数据和操作人员的可追溯。10 算法更新控制人工智能医疗器械若发生算法更新、软件更新,均应当按照质量管理体系的要求,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯分析贯穿于更新全程,形成记录以供体系核查。对于算法更新,无论算法驱动型更新还是数据驱动型更新,均应开展算法性能评估、临床评价等验证与确认活动,以保证算法更新的安全有效性。对于软件更新,具体要求详见医疗器械软件指导原则、医疗
9、器械独立软件生产质量现场检查指导原则。人工智能医疗器械所含的每个人工智能算法,均应独立开展需求分析、数据收集、算法设计、验证与确认、更新控制等活动,同时考虑人工智能算法组合的整体评价要求,以保证产品的安全有效性。附件2人工智能医疗器械常用术语人工智能artificialintelligence(AI):表现出与人类智能(如推理和学习)相关的各种功能的功能单元的能力。人工智能医疗器械artiflcialintelligencemedicaldevice(AIMD):采用Al技术实现其预期用途的医疗器械。注1:如采用机器学习、模式识别、规则推理等技术实现其医疗用途的独立软件。注2:如采用内嵌Al算
10、法、Al芯片实现其医疗用途的医疗器械。机器学习machinelearning:功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。注:也可称为自动学习。深度学习deeplearning:通过训练具有多个隐层的神经网络来获得输入输出间映射关系的机器学习方法。训练training:基于机器学习算法,利用训练数据,建立或改进机器学习模型参数的过程。监督学习supervisedlearning:一种学习策略,获得的知识的正确性通过来自外部知识源的反馈加以测试的学习策略。注:也可称为监督式学习。无监督学习unsupervisedlearning:一种学习策略,它在于观察并分析不同
11、的实体以及确定某些子集能分组到一定的类别里,而无需在获得的知识上通过来自外部知识源的反馈,以实现任何正确性测试。注1:一旦形成概念,就对它给出名称,该名称就可以用于其他概念的后续学习了;注2:也可称为无师(式)学习。强化学习reinforcementlearning:一种学习策略,它强调从环境状态到动作映射的过程,目标是使动作从环境中获得的累积奖赏值最大。集成学习ensemblelearning:通过结合多个学习器来解决问题的一种机器学习范式。注:其常见形式是利用一个基学习算法从训练集产生多个基学习器,然后通过投票等机制将基学习器进行结合。迁移学习transferlearning利用一个学习领
12、域A上有关学习问题T(八)的知识,改进学习领域B上相关学习问题T(B)的学习算法的性能。过拟合OVer行tting:学习器对训练样本过度学习,导致训练样本中不具有普遍性的模式被学习器当作一般规律,降低了泛化性能;典型表现是训练集上的性能越高,测试集上的性能越低。欠拟合underfitting:学习器对训练样本学习不充分,导致训练样本中包含的重要模式没有被学习器获取,降低了泛化性能;典型表现是训练集上的性能可以继续提高,测试集上的性能同时得以提高。人工智能医疗器械生存周期模型AIMDlifecyclemodel:人工智能医疗器械从起始到退役的整个演进过程的框架。注1:包括:需求分析,设计与开发,
13、验证与确认,部署,运维与监控,再评价直至停运。注2:在人工智能医疗器械生存周期中,某些活动可出现在不同的过程中,个别过程可重复出现。例如为了修复系统的隐错和更新系统,需要反复实施开发过程和部署过程。数据data:信息的可再解释的形式化表示,以适用于通信、解释或处理。注:可以通过人工或自动手段处理数据。个人敏感数据personalsensitivedata:一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。注:个人敏感信息包括身份证件号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交
14、易信息、14岁以下(含)儿童的个人信息等。健康数据healthdata:与身体或心理健康相关的个人敏感数据。注:由于目前全球规定了不同的隐私合规性法律和法规。例如,在欧洲,可能需要采取的要求和参考变更为“个人数据”和“敏感数据”,在美国,健康数据可能会变更为“受保护的健康信息(PHI)”,这需要不同国家或地区的制造商进一步考虑中国当地的法律或法规。数据集dataset:具有一定主题,可以标识并可以被计算机化处理的数据集合。训练集trainingset:用于训练人工智能算法的数据集,其外部知识源可用于算法参数的计算。调优集tuningset:用于优化人工智能算法的数据集,其外部知识源可用于算法超
15、参数的选择。注:为避免与医疗器械领域所用术语“确认”进行区分,这里不使用通用人工智能领域的validationset,二者含义一致。测试集testingset:用于测试人工智能算法性能的数据集,其外部知识源可用于对算法的评估。参考标准referencestandard:筛查、诊断和治疗过程或基于标注过程建立的基准。注:参考标准可包含疾病、生理状态或生理异常以及位置和程度等信息标签。金标准goldstandard:筛查、诊断和治疗可依据的最佳参考标准。数据清洗datacleaning:检测和修正数据集合中错误数据项的预处理过程。数据采集dataacquisition:数据由生成装置按照数据采集规范生成,以数字化格式存储并传输到目标系统的过程。数据脱敏datamasking:通过去标识化或匿名化,实现对个人敏感信息的可靠保护。数据标注dataannotation:对数据进行分析,添加外部知识的过程。仲裁arbitration:多名标注人员对同一原始数据的标注结果不一致时用于决定最终结果的过程。软件质量softwarequality:在规定条件下使用时,软件产品满足明确或隐含要求的能力。软件质量保证softwarequalityassurance:a)为使某项目或产品遵循已建立的技术需求提供足够的置信度,而必须采取的有计划的和有系统的全部动作的