您的位置:首页 >金融 > 内容

阿里云通义发布首个推理步骤评估基准,Qwen2.5-Math-PRM模型惊艳亮相

2025-01-18 12:50:10来源:网易  用户:邢瑞豪

阿里云通义于1月16日开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM,其72B和7B版本在性能上均显著优于同类开源模型。尤其在识别推理错误步骤方面,Qwen2.5-Math-PRM的7B小尺寸版本就已超越GPT-4。

此外,通义团队还推出了首个步骤级的评估标准ProcessBench,这一创新填补了大型模型推理过程错误评估领域的空白,为行业提供了重要的评估工具。

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

猜你喜欢

最新文章