Performance evaluation of large language models on Korean medical licensing examination: a three-year comparative analysis
6.5
来源:
Nature
关键字:
AI medical imaging
发布时间:
2025-10-15 23:41
摘要:
本研究评估了三种大型语言模型(GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro)在韩国医学执照考试中的表现,涵盖了2022至2024年的942道题目。结果显示,GPT-4o的平均准确率为83.2%,在内部医学和儿科等领域表现突出。研究还探讨了模型在处理文本和图像问题时的表现差异,强调了在医学教育和评估中的潜在应用。尽管模型表现良好,但在医学法律等专业领域的准确性较低,未来需要进一步的验证和优化。
原文:
查看原文
价值分投票
评分标准
新闻价值分采用0-10分制,综合考虑新闻的真实性、重要性、时效性、影响力等多个维度。
评分越高,表示该新闻的价值越大,越值得关注。
价值维度分析
domain_focus
1.0
business_impact
0.5
scientific_rigor
1.5
timeliness_innovation
1.5
investment_perspective
2.0
market_value_relevance
1.0
team_institution_background
0.0
technical_barrier_competition
0.0
关键证据
GPT-4o在2022至2024年间的准确率为83.2%,显示出其在医学知识评估中的潜力。
Claude 3.5 Sonnet和Gemini 1.5 Pro的表现也被评估,分别为79.5%和76.6%。
研究强调了大型语言模型在非英语医学环境中的应用潜力,特别是在韩国医学执照考试中。
真实性检查
否
AI评分总结
本研究评估了三种大型语言模型(GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro)在韩国医学执照考试中的表现,涵盖了2022至2024年的942道题目。结果显示,GPT-4o的平均准确率为83.2%,在内部医学和儿科等领域表现突出。研究还探讨了模型在处理文本和图像问题时的表现差异,强调了在医学教育和评估中的潜在应用。尽管模型表现良好,但在医学法律等专业领域的准确性较低,未来需要进一步的验证和优化。