《2023骨质疏松症的人工智能管理工具(全文).docx》由会员分享,可在线阅读,更多相关《2023骨质疏松症的人工智能管理工具(全文).docx(17页珍藏版)》请在优知文库上搜索。
1、2023骨质疏松症的人工智能管理工具(全文)骨质疏松症是一种骨量减少和微结构退化导致骨脆性增加和骨折风险增加的疾病。通常,骨质疏松性骨折发生在脊柱、骸部、前臂远端和肱骨近端,但其他骨骼部位也可能受到影响。骨质疏松症治疗的主要挑战之一在于,尽管手术诊断是基于双能X线骨密度仪测量的骨矿物质密度(BMD),但大多数骨折发生在非骨质疏松症BMD值下。此外,无论潜在创伤的严重程度如何,骨质疏松症通常仍未诊断。在世界范围内的主要指南中,对于何时治疗、治疗谁以及使用哪种药物只有较弱的共识。在这种背景下,人工智能(AI)开发人员在过去几年中付出了越来越多的努力来支持和改善这种疾病的管理。许多这些新开发的人工智
2、能算法性能已被证明至少与内科专家相当,甚至更好。然而,即使乍看之下研究结果似乎很有希望,也应始终谨慎解读。使用不适当的参考标准或选择在临床实践中几乎没有或没有价值的变量是经常发现的局限性。因此,在人工智能这一领域显然需要高质量的临床研究。例如,这可以通过建立一个考虑所有相关利益攸关方的国际认可的”最佳实践框架”来实现。内分泌疾病未来篇I2023骨质疏松症的人工智能管理工具骨质疏松症被定义为一种全身性骨骼疾病,其特征为低骨量和骨组织的微结构退化,导致骨脆性和骨折易感性增加(AmJMed.1991;90(1):107-110)根据世界卫生组织(WHO)推荐的标准,骨质疏松症的手术诊断基于通过髓关节
3、、脊柱或所谓的挠骨三分之一部位(one-thirdradius)(Bone.2017;104:39-43;JClinDensitom.2019;22(4):453-471)0因此,如果个体的BMD等于或小于健康青年平均正常BMD值以下的2.5个标准差(即T评分2.5),则可诊断为骨质疏松症。然而,这种方法的主要局限性之一在于,大多数骨折发生在T评分-1.0至-2.5(即骨质减少BMD)或甚至高于-1.0(即正常BMD),这损害了这种金标准方法的敏感性及其作为筛查工具的潜在作用(BMJ.1996;312(7041):1254-1259)o脊柱(椎骨)、骸部(股骨近端)、肩部(肱骨近端)和腕部(前
4、臂远端、横骨远端)骨折已显示与后续骨折风险增加、生活质量下降、残疾以及除前臂远端骨折外死亡率增加(QUalLifeRes.2018;27(3):707-716;JBoneMinerRes.2000;15(4):721-739;OsteoporosInt2017;28(3):775-780;JClinEndocrinolMetab.2018;103(9):3205-3214)。因此,也称其为严重骨质疏松性骨折。据估计,50岁女性遭受严重骨质疏松性骨折的平均终生风险接近50%,男性接近22%,在全球范围内,骨质疏松症每年导致约900万例骨折,每3秒钟就会导致T列骨质疏松性骨折(OSteoPorOS
5、Int2005;16(Suppl2):S3-S7;OsteoporosInt.2006;17(12):1726-1733)o当前意义上的人工智能最有可能是在20世纪50年代中期创造的,当时一群数学家、认知科学家和计算机科学家在美国Dartmouth学院召开了一次会议。虽然会议本身没有达到与会者的预期,但它仍然可以被认为是随后人工智能研究热潮的最初火花。然而,这种繁荣预期至少被两次研究衰退所打断,有时也被称为人工智能研究的冬天/wintersofAIresearch,第一次持续于20世纪70年代中期至后期,第二次持续于20世纪80年代末至90年代初。在这两个冬天之前,几乎没有令人鼓舞的研究结果,
6、这反过来导致与人工智能相关的研究项目资金的减少。幸运的是,随着计算能力近乎指数级的增长,研究和资金在那之后又开始回升。1997年,一台名为IBM深蓝(IBMDeepBlue)的电脑击败了世界象棋冠军加里卡斯帕罗夫,2011年,另一台名为WatSOn的IBM电脑在数百万电视观众面前击败了Jeopardy游戏中有史以来最成功的人类玩家中的两个。毫无疑问,这些以及随后在人工智能发展中的许多亮点,已经形成了人类医学中基于人工智能的研究努力的完美基础。事实上,在过去的十年里,人类医学的许多领域都取得了长足的进步(NatMed.2019;25(1):44-56;NatMed.2022;28(1):31-3
7、8)o一般而言,医学上的人工智能可以分为虚拟和物理两种亚型,前者包括如成像解决方案和治疗决策支持工具,后者包括如智能假体和机器人辅助手术(MetabClinExp.2017;69S:S36-S40)o在骨质疏松症的管理方面,虚拟AI亚型目前发挥着主要作用,其解决方案可用于(或正在开发中)(JBoneMinerRes.2021;36:833-851)(图D:促进诊断骨折风险评估骨折检测骨质量评估治疗决策。图1骨质疏松症管理中,当前可用人工智能解决方案选择图片临床医学中人工智能的一些基础知识非常简单,考虑到目前还没有国际认可的定义,人工智能构成了一个将计算能力与数据集(理想情况下是大数据)相结合的
8、系统,从而能够解决问题。人工智能的一个典型分支是机器学习,它使用各种算法从数据中学习,因此明显不同于(人类)试图显式编写特定计算机程序来完成特定任务(BishopCM1ed.PatternRecognitionandMachineLearning.Springer;2006)o机器学习(ML)可以基于不同的学习方法,其中最重要的是监督学习和非监督学习(CUrrGenomics.2021;22(4):291-300)o在过去的十年里,监督式ML被证明是最有效的,因此已经成为人工智能支持的医疗应用的主要支柱。为了训练一个基于监督学习的系统,机器必须被输入已经可用和足够的数据,因为这些输入数据的质量
9、将决定输出的质量。例如,要训练机器在常规X光片上检测骸部骨折,必须向ML算法提供一组包含骨折和未骨折骸部的常规骰关节X光片。此外,人们必须告诉系统哪些骸部骨折,哪些没有,这个过程也被称为图像的注释一般而言,算法得到的注释图像越多,它在检测骨折方面就越好。深度学习是ML的一个更强大的子集,其体系结构类似于人脑,因为多层神经元彼此互连,形成了所谓的神经网络(NatUre.2015;521(7553):436-444)。在目前可用的神经网络中所谓的卷积神经网络(CNNS)是在医疗保健应用中最广泛使用的神经网络。一般而言,开发特定的人工智能算法需要一个训练数据集和一个测试数据集。在某些情况下,第三个数
10、据集被放在一边,仅供验证之用。理想情况下,在开发过程之前,将整个可用数据集(如一组X光片)随机分为这2或3组。这确保了来自同一患者的数据不被用于多于1个这些数据集,这种情况通常被称为数据泄漏/dataleakage,并且将损害测试和验证结果并且导致临床实践中的错误分类和误诊(MedImageAnaL2020;63:101694)o训练数据集用于算法训练,并且通常涉及也分别称为特征和对应预测的表征数据点的集合(CurrGenomics.202122(4):291-300)。这些特征可以仅仅是从电子病历中提取的X光照片、临床诊断或实验室参数中的像素或体素。典型地,训练数据集比测试数据集大得多,例如
11、,比率为80:20到60:40。然而,目前还没有可用的国际标准,例如,关于此类数据集的最小样本量。为了找到最佳模型,开发的算法必须通过交叉验证过程(KUbbenRDumontierM,DekkerA.FundamentalsofClinicalDataScience(OpenAccess).Springer;2019)o交叉验证的经典形式被称为留出法/holdoutmethod(仅用部分作为训练集,另外部分作为测试集),它只涉及数据训练集和数据测试集。然而,这种方法对于如比较多个模型是无效的。出于此目的和其他目的,使用所谓的k折交叉验证(k-foldcross-validation简单而言,在
12、这个方法中,整个数据集被分成k组(即指定数量的)数据。在其最简单的形式中,这也可以是1个训练数据集和1个测试数据集。然而,与留出法相反,测试数据集和训练数据集可互换使用。换句话说,如果例如k是10,整个数据集将被分成10组,并且将建立10个单独的模型。在第一次迭代中,十分之九的数据集将被用于训练目的,而十分之一的数据将被保留下来用于测试。在第二次迭代中,另一组将被搁置起来进行测试,而剩下的9组将用于训练等目的。该过程将重复8次。一旦发现新开发的模型足以用于例如馥部骨折检测,就根据人类的表现对其性能进行测试/验证。对于髓部骨折检测算法,可以由放射科医生和/或骨科医生等专业医生进行。性能结果通常采
13、用经典的性能指标来表示,例如灵敏度、特异性和接收器工作特性的曲线下面积(AUC)。如果测试一个以上的模型,则可以选择性能最佳的模型,以在临床研究中进行进一步测试和验证,获得监管机构的批准,并实施到各自的临床应用中。骨质疏松症的机会性诊断骨质疏松的机会性诊断,我个人理解是指患者因为其他原因而进行了与骨质疏松相关的检查如牙科照相的骨片、胸腹CT形成脊柱影像等等,可能会对骨质疏松的诊断有很大帮助;但此类非针对骨质疏松的检查所获得的资料需要进行一定的处理才可能用于骨折风险等评估,由于涉及的因素很多,在此过程中应用AI算法可能有很大的价值。在骨质疏松症的手术诊断中应用机会性方法的原因有很多。例如,根据W
14、HO的建议诊断骨质疏松症的金标准方法是基于使用DXA测量BMD(JClinDensitom.2019;22(4):453-471)o然而,对DXA设备的应用在很大程度上取决于它们的可用性。除了一个国家内可用的DXA医疗单位数量以及一些与患者相关的障碍(如旅行时间和交通机会)之外,监管限制和报销障碍也起着重要作用。最近的一项调查显示,一个国家每百万人口中的DXA单位数量从不到10个(这被认为是不够的)到超过50个(ArChOsteoporos.2021;16(1):82)e在全球大多数国家,可用的DXA设备数量均被视为不足。因此,显然需要应用理想情况下更广泛可用的替代方法,如常规放射照相术。例如
15、,在牙科医学和特定的牙科植入术中,全景射线照片已被使用多年以获得关于下颌骨的定量和定性性质的信息,但结果并不令人很满意(DentomaxillofacRadiol.2006;35(1):1-9;OsteoporosInt.2005;16(3):339-346)此外,如果根据全景X光片怀疑骨质疏松症,建议将患者转诊至医疗专业人员(DentOmaXillofaCRadiol.2019;48(1):20170344)o因此,有充分的理由开发人工智能支持的工具,以提高此类机会性骨质疏松症筛查方法的诊断性能。例如,在一项初步研究中(迄今尚未发表随后的完整研究),将一组不同的CNN应用于全景X光片以诊断骨
16、质疏松症(DentomaxillofacRadiol.2019;48(1):20170344)o根据所用的CNN,AUC值的范围为0.98-0.99o然而,如果由2名经验丰富的口腔颌面放射科医生在同一张X光片中观察到皮质侵蚀,则诊断为骨质疏松,而不是使用DXA作为金标准参考技术。在另一项研究中,对4种不同的CNN模型进行了研究,发现迁移学习(transferlearning)和微调此类CNNs可显著提高诊断性能,最高AUC为0.86(JClinMed.2020;9(2):392)。然而,不仅本研究的结果听起来不太有希望,而且,由于未提供所用参考技术的信息,临床相关性也受到严重影响。基于人工智能的骨质疏松症机会性诊断软件解决方案也已开发出来,使用的是手和腕部的常规X光片。事实上,在1项研究中,使用了来自第三掌骨轴的皮质放射测量法和来自槎骨远端的松质骨纹理分析来训练和测试该算法,并使用DXA作为参考标准(ComPUtMedImagingGmp