您正在访问亚汇网香港分站,本站所提供的内容均遵守中华人民共和国香港特别行政区法律法规。

阿里云通义开源首个推理步骤评估标准

文 / 风致 2025-01-16 14:37:44 来源:亚汇网

【阿里云通义开源首个推理步骤评估标准】 1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

相关新闻

加载更多...

排行榜 日排行 | 周排行