您的位置：首页 >金融 > 内容

阿里云通义发布首个推理步骤评估基准，Qwen2.5-Math-PRM模型惊艳亮相

2025-01-18 12:50:10来源：网易用户：邢瑞豪

阿里云通义于1月16日开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM，其72B和7B版本在性能上均显著优于同类开源模型。尤其在识别推理错误步骤方面，Qwen2.5-Math-PRM的7B小尺寸版本就已超越GPT-4。

此外，通义团队还推出了首个步骤级的评估标准ProcessBench，这一创新填补了大型模型推理过程错误评估领域的空白，为行业提供了重要的评估工具。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

猜你喜欢

最新文章