阿里云通义于1月16日开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM,其72B和7B版本在性能上均显著优于同类开源模型。尤其在识别推理错误步骤方面,Qwen2.5-Math-PRM的7B小尺寸版本就已超越GPT-4。
此外,通义团队还推出了首个步骤级的评估标准ProcessBench,这一创新填补了大型模型推理过程错误评估领域的空白,为行业提供了重要的评估工具。