近期有越来越多AI疾病诊断研究方面的新进展,微软与Google都曾发布研究论文,显示LLM大型语言模型在读取医疗记录后,能够准确诊断疾病。如今微软宣称,自家全新AI工具在近期的一项诊断疾病测试中,展现出准确率达到人类医师4倍的惊人表现。
微软团队根据《新英格兰医学期刊》(New England Journal of Medicine)上一共304篇的病例报告,设计出一项名为“循序诊断基准”(Sequential Diagnosis Benchmark)的测试。在测试中,语言模型会将每一则病例拆解为医师诊断时会采取的步骤流程,目的是测试微软新AI工具是否能正确诊断出病患的疾病。
微软研究人员并打造了一套名为MAI诊断协同器(Microsoft AI Diagnostic Orchestrator,MAI-DxO)的系统,它会同时向OpenAI GPT、Google Gemini、Anthropic Claude、Meta Llama以及xAI Grok等多个时下主流的AI模型提问,就好比同时集结多位人类专家一起会诊一样。
实证结果显示,MAI-DxO的诊断准确率达到80%,远高于人类医师的20%。不仅如此,该系统因为能选择较便宜的检测与处置方式,使得成本降低了20%。
采用类似“辨论链”的多代理机制,首度提出AI有望降低医疗成本的研究成果微软人工智能部门首席执行官Mustafa Suleyman表示,这种以类似“辩论链”(chain-of-debate)方式协作的多代理机制,正是推动我们迈向医疗超级智能(Medical Superintelligence)的关键。
这次微软的新研究与过去不同之处,在于它更精确复制了从分析症状、安排测试,再到深入分析,直至做出最终诊断结果的人类医师诊断方式。通过该研究也展现了AI有望协助降低医疗成本的强大效益,医疗成本一直是个重大议题,尤以美国为然。
斯克里普斯研究所(Scripps Research Institute)科学家Eric Topol表示,微软新研究处理的是极为复杂的诊断案例,所以让人印象深刻。更重要的是,该研究首度提出AI有望在理论上降低医疗成本,这本身就是一项创举。
他进一步指出,在微软MAI-DxO系统广泛部署之前,下一步的关键莫过于临床试验,以比较AI与实际医师在治疗真实病患时的诊断表现。
然而,微软尚未决定是否要将这项技术商业化,一位不具名的高层透露,该公司可能会将这项技术集成进Bing,以协助用户进行自我疾病诊断。此外,微软接下来还有可能开发出协助医疗专业人员提升或自动化病患看护的工具。
(首图来源:Microsoft.ai)