Generating reliable software project task flows using large language models through prompt engineering and robust evaluation

4.0

来源： Nature 关键字： neural coding

发布时间： 2025-10-08 19:40

摘要：

本研究提出了一种新的混合语义相似度度量（HSSM），用于评估大型语言模型（LLMs）在生成软件项目任务流中的可靠性。通过对五种不同的LLMs（如Gemini 2.5 Pro和Grok 3）进行比较，研究探讨了不同提示策略（如Zero-Shot和Few-Shot）对生成任务流质量的影响。结果表明，Zero-Shot和Few-Shot提示策略在生成高质量任务流方面表现优异，HSSM提供了一种更为稳定和有效的评估标准，能够更好地捕捉任务流的结构和功能一致性。

原文：查看原文

价值分投票

评分标准

新闻价值分采用0-10分制，综合考虑新闻的真实性、重要性、时效性、影响力等多个维度。评分越高，表示该新闻的价值越大，越值得关注。

价值维度分析

domain_focus

0.0

business_impact

0.0

scientific_rigor

1.5

timeliness_innovation

1.5

investment_perspective

0.0

market_value_relevance

0.0

team_institution_background

1.0

technical_barrier_competition

0.0

关键证据

研究提出了一种新的混合语义相似度度量（HSSM），用于评估大型语言模型（LLMs）生成的软件项目任务流的可靠性。

研究涉及多个国家的五种大型语言模型（LLMs），并比较了它们在不同提示策略下的表现。

该研究的结果显示，Zero-Shot和Few-Shot提示策略在生成任务流的质量上表现优异。

真实性检查

否

AI评分总结