DeepMind旗下对话式诊断系统AMIE通过图灵测试大模型医生来了？

AI在医疗领域再次发光！Google DeepMind团队发布的全新诊断对话式AI在测试中击败医生，通过了图灵测试，再次引领医疗AI的革命。

我们需要研发对人类有益AGI的原因之一：

我妻子的身体5年来经历了种种痛苦，最终被检查出一种叫肢体活动过度Ehlers-Danlos综合征的遗传病。现在的医疗体系是根据不同科室划分，而这个遗传病hEDS会影响人体各个系统和器官。大多医生都只关注自己专业相关的症状，很难整体诊断。

OpenAI联创Greg Brockman的一番话点明，当前先进AI系统还需不断演进，有望破解人类医学难题。

这足以成为巨大游戏规则的改变者。众所周知，医患对话是医学的基石。

当前医学大模型已取得很大的进展，以同理心回应患者情绪，总结医学摘要，根据临床病史鉴别诊断病情等等。

不过，若想研发一个与临床医生专业知识相当的AI，并且拥有强大的对话诊断能力，是一个巨大的挑战。

如今，GoogleDeepMind研究团队推出全新的医学对话AI——AMIE，竟通过了“图灵测试”！

论文地址：https://arxiv.org/pdf/2401.05654.pdf

具体来说，AMIE采用了一种强化学习算法中“自我博弈”方法，可以在一个模拟环境中自我对弈，并通过自动反馈机制，可在各种疾病、医学专科和环境中进行扩展学习。

在病人双盲文本测试中，AMIE在诊断呼吸系统和心血管疾病等疾病直接击败医生，比初级保健医生（PCP）更准确。

与此同时，AMIE还表现出一致的同理心。

论文称，虽然在AMIE在临床应用之前还需要进一步的研究，但代表着迈向对话式诊断人工智能的一个里程碑。

足见，Google最新研究暗示了AI驱动的诊断对话的未来。不久的将来，Greg口中的AGI便会降临。

GoogleAI医生通过图灵测试，诊断对话AI里程碑

除了开发和优化用于诊断对话的人工智能系统外，如何评估此类系统也是难题。

受现实世界中用于衡量会诊质量和临床沟通技巧的工具的启发，研究人员构建了一个试验性评估标准，按照病史采集、诊断准确性、临床管理、临床沟通技巧、关系培养和移情等标准来评估诊断对话的过程。

然后，研究人员设计了一项随机、双盲交叉研究，让经过验证的患者与经过认证的初级保健医生（PCP）或针对诊断对话进行优化的人工智能系统通过文字聊天的方式进行互动。

研究人员以客观结构化临床考试（OSCE）的形式设置咨询场景。

OSCE是现实世界中常用的实用评估方法，以标准化和客观的方式考察临床医生的技能和能力。

在典型的OSCE考试中，临床医生可能会轮流经过多个工作场景，每个工作场景都模拟了真实的临床场景。

例如与标准化病人演员（经过严格训练以模拟患有特定疾病的病人）进行会诊。

会诊是通过同步文本聊天工具进行的，模仿的是当今大多数使用LLM的消费者所熟悉的界面。

AMIE：基于LLM的对话式诊断研究AI系统

研究人员在真实世界的数据集上训练AMIE，这些数据集包括医学推理、医学总结和真实世界的临床对话。

使用通过被动收集和转录个人临床访问而开发的真实世界对话来训练LLM是可行的，但是，有两个重大挑战限制了它们在训练医学对话LLM方面的有效性。

首先，现有的真实世界数据往往无法捕捉到大量的医疗条件和场景，这阻碍了数据的可扩展性和全面性。

其次，从真实世界对话记录中获得的数据往往是嘈杂的，包含含糊不清的语言（包括俚语、行话、幽默和讽刺）、中断、不合语法的语句和不明确的引用。

为了解决这些局限性，研究人员设计了一个基于自演的模拟学习环境，该环境具有自动反馈机制，用于虚拟医疗环境中的诊断性医疗对话，使研究人员能够在多种医疗条件和环境中扩展AMIE的知识和能力。

除了所描述的真实世界数据的静态语料库之外，研究人员还利用该环境通过不断变化的模拟对话集对AMIE进行了反复微调。

这一过程包括两个自我循环：

（1）“内部”自演循环，即AMIE利用上下文中批评者的反馈来完善其与人工智能患者模拟器进行模拟对话的行为；

（2）“外部”自演循环，即完善的模拟对话集被纳入后续的微调迭代中。

由此产生的新版AMIE可以再次参与内循环，形成良性的持续学习循环。

此外，研究人员还采用了推理时间链策略（ inference time chain-of-reasoning strategy），使AMIE能够根据当前对话的情况逐步完善自己的回答，从而得出有理有据的答复。

研究人员采用上述随机方法测试了模拟患者（由专业的演员扮演）的问诊表现，并与20名真实初级保健医生的问诊表现进行了对比。

在一项随机、双盲交叉研究中，研究人员从专科主治医师和模拟患者的角度对AMIE和初级保健医生进行了评估，该研究包括来自加拿大、英国和印度OSCE提供者的149个病例场景，涉及各种专科和疾病。值得注意的是，研究人员的研究既不是为了模仿传统的面对面OSCE评估，也不是为了模仿临床医生通常使用的文本、电子邮件、聊天或远程医疗方式。

相反，研究人员的实验反映了当今消费者与LLM交互的最常见方式，这是人工智能系统参与远程诊断对话的潜在可扩展且熟悉的机制。

AMIE击败医生

在这种情况下，研究人员观察到AMIE在模拟诊断对话中的表现至少与初级保健医生不相上下。

从专科医生的角度来看，AMIE的诊断准确性更高，在32个指标中的28个指标上表现更优，从患者的角度来看，在26个指标中的24个指标上表现更优。

AMIE在研究人员设定的评估中各个指标上都超越了初级保健医生。

专家评定的top-k诊断准确率。在149种情况下，AMIE和初级保健医生的顶k鉴别诊断(DDx)准确率与基本真实诊断（a）和公认鉴别诊断中列出的所有诊断（b）进行比较。引导法（n=10,000）证实，经过误诊率（FDR）校正后，AMIE 和 PCP DDx 准确性之间的所有 top-k 差异均具有显著性，p <0.05。