
【编者按】当人工智能席卷医疗领域,我们是否真的迎来了“AI医生”时代?最新研究揭示了一个令人深思的现象:尽管AI模型在医学考试中表现优异,但在真实诊疗场景中却频频“翻车”。本文通过严谨实验发现,AI在医患沟通中存在致命短板——它无法像人类医生那样理解模糊描述、捕捉情绪线索、建立信任关系。当患者用“胃不太舒服”这类模糊表述时,AI可能陷入误判,而经验丰富的医生却能通过追问“是灼烧感还是胀痛”锁定问题。这并非否定AI的价值,而是提醒我们:医疗的本质不仅是信息处理,更是人与人的连接。在技术狂飙突进的今天,或许我们更需要思考如何让AI成为医生的“智能秘书”,而非替代那双温暖的手。
数百万人正转向人工智能聊天机器人寻求建议,从烹饪到报税无所不包。越来越多的人也开始向聊天机器人咨询健康问题。
但正如英国首席医疗官最近警告的那样,在医疗决策方面这样做可能并不明智。在最近的一项研究中,我和同事测试了大型语言模型聊天机器人如何帮助公众处理常见健康问题。结果令人震惊。
我们测试的聊天机器人尚未准备好扮演医生的角色。对此类研究的常见回应是:AI的发展速度远快于学术出版。论文发表时,被测试的模型可能已经更新。但使用这些系统新版本来进行患者分诊的研究表明,同样的问题依然存在。
我们向参与者提供了常见医疗状况的简要描述。他们被随机分配使用三种广泛可用的聊天机器人之一,或依赖他们通常在家使用的任何信息来源。在与聊天机器人互动后,我们问了两个问题:什么情况可以解释这些症状?以及他们应该去哪里寻求帮助?
使用聊天机器人的人比未使用者更不可能识别出正确的状况。他们在确定寻求护理的正确地点方面也不比对照组更出色。换句话说,与聊天机器人互动并没有帮助人们做出更好的健康决策。
知识强大,效果堪忧
这并不意味着模型缺乏医学知识,因为大型语言模型可以轻松通过医疗执照考试。当我们去除人为因素,将相同场景直接提供给聊天机器人时,它们的表现显著改善。在没有人类参与的情况下,模型在绝大多数情况下识别出了相关状况,并经常建议适当的护理级别。
那么,为什么当人们实际使用这些系统时,结果却变差了呢?当我们查看对话记录时,问题浮现了。聊天机器人经常在对话中提及相关诊断,但参与者在总结最终答案时并不总是注意到或记住它。
在其他情况下,用户提供了不完整的信息,或者聊天机器人误解了关键细节。问题不仅仅是医学知识的失败——更是人与机器之间沟通的失败。
这项研究表明,政策制定者需要了解技术在现实世界中的表现,然后才能将其引入像一线医疗这样的高风险环境。我们的发现突显了当前许多AI医学评估的一个重要局限。语言模型通常在结构化考试问题或模拟的“模型对模型”互动中表现极佳。
但现实世界的使用要混乱得多。患者描述症状时模糊或不完整,并且可能误解解释。他们以不可预测的顺序提问。一个在基准测试中表现令人印象深刻的系统,一旦真实的人开始与之互动,其行为可能大不相同。
这也强调了关于临床护理的一个更广泛的观点。作为一名全科医生,我的工作远不止回忆事实。医学常被描述为一门艺术而非科学。一次咨询不仅仅是确定正确的诊断。它涉及解读患者的故事、探索不确定性并协商决策。
医学教育者早已认识到这种复杂性。几十年来,未来的医生都使用卡尔加里-剑桥模型进行教学。这意味着与患者建立融洽关系,通过仔细提问收集信息,理解患者的担忧和期望,清晰地解释发现,并商定共同的管理计划。
所有这些过程都依赖于人际联系、量身定制的沟通、澄清、温和的探询、基于情境和信任形成的判断。这些品质很难简化为模式识别。
AI的不同角色
然而,我们研究得出的教训并非AI在医疗保健中没有立足之地。远非如此。关键在于理解这些系统目前擅长什么,以及它们的局限性在哪里。
思考当今聊天机器人的一个有用方式是,它们的功能更像秘书而非医生。它们在组织信息、总结文本和构建复杂文档方面非常有效。这些正是语言模型在医疗系统内已被证明有用的任务类型,例如起草临床记录、总结患者病历或生成转诊信。
AI在医学中的前景依然真实,但在短期内,其角色可能更多是支持性的而非革命性的。不应期望聊天机器人充当医疗保健的“前门”。它们尚未准备好诊断病情或指导患者获得适当级别的护理。
人工智能或许能够通过医学考试。但正如通过理论考试并不能使你成为一名合格的司机一样,行医涉及的远不止正确回答问题。它需要判断力、同理心以及驾驭每次临床接触背后复杂性的能力。至少就目前而言,这需要的是人,而不是机器人。
丽贝卡·佩恩是英国班戈大学和牛津大学的临床高级讲师。