Evaluating diagnostic accuracy of large language models in neuroradiology cases using image inputs from JAMA neurology and JAMA clinical challenges
7.5
来源:
Nature
关键字:
medical imaging+deep learning
发布时间:
2025-11-27 23:34
摘要:
该研究评估了六种大型语言模型在神经放射学中的诊断准确性,特别是在图像输入的处理能力。研究结果表明,尽管这些模型在临床文本的诊断表现良好,但在独立解释复杂放射图像方面仍存在局限性。Claude 3.5模型在原始图像和文本输入上的准确率最高,达到了80.4%。该研究为AI在放射学中的应用提供了重要的见解,强调了进一步改进图像分析的必要性。
原文:
查看原文
价值分投票
评分标准
新闻价值分采用0-10分制,综合考虑新闻的真实性、重要性、时效性、影响力等多个维度。
评分越高,表示该新闻的价值越大,越值得关注。
价值维度分析
domain_focus
1.0分+重点关注领域符合度
business_impact
0.5分+商业影响力
scientific_rigor
1.5分+数据支撑的科学性
timeliness_innovation
1.5分+时效性与创新性
investment_perspective
2.5分+BOCG投资视角
market_value_relevance
1.0分+市场价值相关性
team_institution_background
0.5分+团队与机构背景
technical_barrier_competition
0.5分+技术壁垒与竞争格局
关键证据
LLMs exhibit strong diagnostic performance with clinical text, yet their ability to interpret complex radiologic images independently is limited.
Claude 3.5 achieved the highest accuracy (80.4%) on original image and text inputs.
Model performance was compared with three neuroradiologists, and consistency was assessed across five repetitions using Fleiss’ kappa.
真实性检查
否
AI评分总结
该研究评估了六种大型语言模型在神经放射学中的诊断准确性,特别是在图像输入的处理能力。研究结果表明,尽管这些模型在临床文本的诊断表现良好,但在独立解释复杂放射图像方面仍存在局限性。Claude 3.5模型在原始图像和文本输入上的准确率最高,达到了80.4%。该研究为AI在放射学中的应用提供了重要的见解,强调了进一步改进图像分析的必要性。