Evaluating diagnostic accuracy of large language models in neuroradiology cases using image inputs from JAMA neurology and JAMA clinical challenges

7.5
来源: Nature 关键字: medical imaging+deep learning
发布时间: 2025-11-27 23:34
摘要:

该研究评估了六种大型语言模型在神经放射学中的诊断准确性,特别是在图像输入的处理能力。研究结果表明,尽管这些模型在临床文本的诊断表现良好,但在独立解释复杂放射图像方面仍存在局限性。Claude 3.5模型在原始图像和文本输入上的准确率最高,达到了80.4%。该研究为AI在放射学中的应用提供了重要的见解,强调了进一步改进图像分析的必要性。

原文: 查看原文

价值分投票

评分标准

新闻价值分采用0-10分制,综合考虑新闻的真实性、重要性、时效性、影响力等多个维度。 评分越高,表示该新闻的价值越大,越值得关注。

价值维度分析

domain_focus

1.0分+重点关注领域符合度

business_impact

0.5分+商业影响力

scientific_rigor

1.5分+数据支撑的科学性

timeliness_innovation

1.5分+时效性与创新性

investment_perspective

2.5分+BOCG投资视角

market_value_relevance

1.0分+市场价值相关性

team_institution_background

0.5分+团队与机构背景

technical_barrier_competition

0.5分+技术壁垒与竞争格局

关键证据

LLMs exhibit strong diagnostic performance with clinical text, yet their ability to interpret complex radiologic images independently is limited.
Claude 3.5 achieved the highest accuracy (80.4%) on original image and text inputs.
Model performance was compared with three neuroradiologists, and consistency was assessed across five repetitions using Fleiss’ kappa.

真实性检查

AI评分总结

该研究评估了六种大型语言模型在神经放射学中的诊断准确性,特别是在图像输入的处理能力。研究结果表明,尽管这些模型在临床文本的诊断表现良好,但在独立解释复杂放射图像方面仍存在局限性。Claude 3.5模型在原始图像和文本输入上的准确率最高,达到了80.4%。该研究为AI在放射学中的应用提供了重要的见解,强调了进一步改进图像分析的必要性。

评论讨论

发表评论