阿里云通义开源首个推理步骤评估标准
文 / 风致
2025-01-16 14:37:44
来源:亚汇网
【阿里云通义开源首个推理步骤评估标准】 1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。
更多行情分析及广告投放合作加微信: hollowandy
请用微信扫一扫
【免责声明】本文仅代表作者本人观点,与亚汇网无关,且不构成任何投资建议,仅供参考,并自行承担全部风险与责任。本站部分文章信息来源于自由投稿人或网络转载,出于传递更多信息之目的,如对文章内容有疑议或侵权,请及时与我们联系处理。