研究显示,乳腺 X 射线摄影中的人工智能可能会受患者年龄和种族的影响而产生误报,这凸显了多样化训练数据的重要性。最近的一项研究分析了近 5000 张由 FDA 批准的人工智能算法解读的乳腺筛查照片,发现患者的种族和年龄等特征会影响假阳性率。研究结果发表在今天(5 月 21 日)出版的北美放射学会(RSNA)期刊《放射学》上。
示例:一名 59 岁的黑人患者乳腺纤维腺体密度散在,乳房 X 光检查假阳性病例评分为 96 分。(A)左侧头尾切面和(B)内外侧斜切面显示外上象限中间深度(方框)有血管钙化,人工智能算法将其单独识别为可疑发现,并将单个病灶评分定为 90 分。因此,乳房 X 光检查的总分为 96 分。资料来源:北美放射学会(RSNA)
北卡罗来纳州达勒姆杜克大学助理教授、医学博士德里克-阮(Derek L. Nguyen)说:"人工智能已成为放射科医生提高乳房X光筛查阅读效率和准确性,同时减轻阅读者倦怠感的一种资源。然而,患者特征对人工智能性能的影响还没有得到很好的研究。"
阮博士介绍说,虽然初步数据表明,将人工智能算法应用于乳腺X光筛查检查可能会提高放射科医生对乳腺癌检测的诊断性能,并缩短判读时间,但人工智能也有一些方面需要注意。
他说:"用于人工智能算法训练的人口统计学多样化数据库很少,FDA 也不要求多样化的数据集进行验证。"由于患者群体之间存在差异,因此研究人工智能软件能否适应不同年龄、种族和民族的患者,并使其表现达到相同水平非常重要。"
一名 59 岁的西班牙裔患者,乳房密度不均,乳房 X 光检查假阳性风险评分为 1.0。图中显示了双侧重建的二维(A、B)头尾切面和(C、D)内外侧斜切面。该算法预测患者会在 1 年内罹患癌症,但该患者在接受乳房 X 光检查后 2 年内并未罹患癌症或出现不典型增生。资料来源:北美放射学会(RSNA)
在这项回顾性研究中,研究人员确定了2016年至2019年期间在杜克大学医学中心进行数字乳腺断层合成筛查的阴性(无癌症证据)患者。所有患者在接受乳房X光筛查后都接受了为期两年的随访,没有患者被确诊为乳腺恶性肿瘤。
研究人员从这一群体中随机抽取了一个子集,该子集由 4855 名患者组成(中位年龄 54 岁),广泛分布在四个民族/种族群体中。该子集包括 1316 名(27%)白人患者、1261 名(26%)黑人患者、1351 名(28%)亚裔患者和 927 名(19%)西班牙裔患者。
一种市售的人工智能算法对乳房 X 射线照片子集中的每次检查进行解读,生成病例评分(或恶性肿瘤的确定性)和风险评分(或一年后的恶性肿瘤风险)。
阮说:"我们的目标是评估人工智能算法在不同年龄、乳腺密度类型和不同患者种族/族裔中的表现是否一致。"
鉴于研究中的所有乳房 X 光检查结果均为阴性,因此该算法标记为可疑的任何结果均被视为假阳性结果。与白人患者和年龄在 51-60 岁之间的女性相比,黑人患者和年龄较大的患者(71-80 岁)更容易出现假阳性病例评分,而亚裔患者和年龄较小的患者(41-50 岁)则较少出现假阳性病例评分。
"这项研究非常重要,因为它强调了医疗机构购买的任何人工智能软件在所有患者年龄、种族/族裔和乳房密度方面的表现可能不尽相同。展望未来,我认为人工智能软件的升级应侧重于确保人口多样性。"阮博士说,医疗机构在购买用于乳房X光筛查解读的人工智能算法之前,应了解其服务的患者群体,并向供应商询问其算法培训情况。
掌握本机构的人口统计学基线知识,并向供应商询问其培训数据的种族和年龄多样性,将有助于你了解在临床实践中会面临的限制。
编译来源:ScitechDaily