文章来源:08ai导航网发布时间:2025-08-08 17:56:57
众所周知,大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。
在LLM后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。
起初,OpenAI开创了一种名为基于人类反馈的强化学习(RLHF)的技术,用于改进ChatGPT。RLHF的核心是让人类标注员对模型生成的多种响应进行打分,并选出最优答案作为训练参考。这一过程虽然有效,但也耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。
DeepSeek的重要创新在于用RL技术自动化了这一环节。算法不再依赖人工逐一评估,而是让模型在探索过程中,通过获得「奖励信号」自主学习正确行为,从而显著降低了成本,提高了效率,最终能以较低的成本实现高性能。
OpenAI在ChatGPT的训练中采用了近端策略优化(ProximalPolicyOptimization,PPO)。
而DeepSeek团队则认为,在一组样本中进行价值估计更加有效,因此提出了组相对策略优化(GroupRelativePolicyOptimization,GRPO)算法,这也是DeepSeek-R1中的核心技术,使DeepSeek-R1模型大放异彩。
GPRO与PPO的对比,摘自DeepSeekMath论文。
在几个月前Qwen3首次亮相的时候,其旗舰模型的性能就已经与DeepSeek-R1、o3-mini、Gemini2.5Pro等顶级模型表现相当。除此以外,Qwen3系列模型覆盖了MoE模型和密集模型,每一款模型又有许多细分版本。
近些天,Qwen3系列模型仍然在不停的迭代更新,例如Qwen3-235B-A22B-Instruct-2507-FP8在知识数学、编程、人类偏好对齐、Agent能力等众多测评中表现出色,甚至了超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。
最近,Qwen团队发布了一篇有关其模型后训练算法的论文,似乎揭示了Qwen3模型成功的核心技术细节。
论文标题:GroupSequencePolicyOptimization
论文链接:https://huggingface.co/papers/2507.18071
博客链接:https://qwenlm.github.io/blog/gspo/
而在昨天,来自清华大学校友创立的创业公司NetMind.AI发表了一篇博客,题为《QwenTeamProposesGSPOforQwen3,ClaimsDeepSeek"sGRPOisIll-Posed》,对Qwen团队为Qwen3模型提出的GSPO算法进行了详尽的介绍与分析。
博客链接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek"s_GRPO_is_Ill-Posed
最近Qwen的研究表明,使用GRPO训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。他们认为DeepSeek的GPRO方法存在一些严重问题:
在每个token级别应用重要性采样,会在长序列中积累高方差,导致训练不稳定。
这一问题在专家混合模型(Mixture-of-Experts,MoE)中尤为严重,因为token级别的路由变化会加剧不稳定性。
为缓解这一问题,基于GRPO的训练流程通常需要依赖一些额外策略,例如路由重放(RoutingReplay)。
因此,Qwen团队声称GRPO的token级重要性采样无法达到稳定训练,其优化目标是「病态的(ill-posed)」。
为了解决这些问题并训练其最新的Qwen3系列模型,Qwen团队提出了一种新的强化学习算法——组序列策略优化(GroupSequencePolicyOptimization,GSPO)。
Qwen团队指出,GRPO的不稳定性源于其对token级重要性采样权重的错误使用。在强化学习中,重要性采样(ImportanceSampling)用于校正行为策略(即用于收集训练数据的策略)与目标策略(当前正在优化的策略)之间的差异。
当两者不一致时,重要性采样通过为已有数据样本赋予权重,使其更能代表当前希望优化的目标策略,从而提高训练的稳定性与有效性。
在大语言模型(LLMs)的训练中,强化学习常常会复用旧策略生成的响应,以节省计算资源,这属于典型的「离策略」(off-policy)训练场景。重要性采样正是用于缓解这种策略不匹配带来的影响,并帮助稳定训练过程。
然而,GRPO将重要性采样的权重应用在每一个token上,而非整个生成的序列。这种做法会带来显著的方差,并在生成较长序列时造成「误差积累」与「训练不稳定性」。
从形式上讲,GRPO是在每一个token的生成步骤上单独计算重要性权重的:
Qwen团队指出,当在训练目标中应用此类重要性权重时,由于每个token的比值是独立计算的,会导致高方差的累积,从而破坏梯度稳定性,最终引发模型崩溃。
同时,这种做法会将高方差噪声引入训练梯度中,尤其在长序列上呈现累积效应,并且在存在「裁剪机制」时,这种不稳定性问题会进一步加剧。
Qwen团队通过实验证据验证了其理论分析,如图所示。
在所有展示的实验场景中,其新提出的算法GSPO均表现出比GRPO更高的训练效率。在CodeForces任务中,GRPO的最终得分收敛于2000分以下,而GSPO随着训练计算量的增加持续提升成绩,展现出更强的「可扩展性」。
GSPO与GRPO的训练曲线对比
那么,GSPO是如何解决上述问题的呢?
正如其名称所暗示的,GSPO的核心在于将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算:
这种采样权重的设计自然地缓解了逐token方差的累积问题,从而显著提升了训练过程的稳定性。
需要注意的是,指数中的因子用于「长度归一化」。如果不进行长度归一化,仅仅几个token的似然变化就可能导致序列级重要性比值的剧烈波动,而不同长度的生成响应在目标函数中也将需要不同的裁剪范围,这会进一步增加训练的不稳定性。
针对专家混合模型(MoE)所进行的专项实验进一步强调了GSPO的优势。
由于MoE模型具有稀疏激活特性,这会在使用GRPO时进一步加剧训练过程中的不稳定性。在经过一次或多次梯度更新后,相同响应所激活的专家网络可能发生显著变化。
Qwen团队在使用GRPO训练48层的Qwen3-30B-A3B-Base模型时发现:在每一次强化学习的梯度更新后,对于相同的rollout样本,新策略所激活的专家中约有10%与旧策略所激活的专家不同。这实际上意味着,每次梯度更新后,你都在用不同的数据样本训练不同的模型,毫无疑问这是一种极其低效的训练方式。
在引入GSPO之前,为缓解这一问题,他们甚至采取了一种名为「RoutingReplay」的技巧,即强制目标策略激活与旧策略相同的专家网络。
相比之下,GSPO无需使用RoutingReplay也能实现稳定收敛,从而消除了不必要的训练复杂性,并保留了MoE架构的全部潜力。
RoutingReplay策略在GRPO训练MoE模型的正常收敛中起到了关键作用
总结一下,GSPO的方法有两点创新:
将重要性采样从token级别提升到序列级别,并通过序列长度进行归一化处理;
显著降低了方差,同时消除了对「路由技巧」(如RoutingReplay)等辅助策略的依赖;
业界已普遍达成共识——在大语言模型的后训练阶段引入强化学习,对于提升其推理能力至关重要。
而论文中的大量实验结果也进一步证实,GRPO所采用的「逐token重要性采样」方法存在不稳定性和低效性的问题。
因此,GSPO提出的「序列级重要性采样」很可能会成为未来后训练强化学习的新标准。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/
https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek"s_GRPO_is_Ill-Posed
https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com
https://zhuanlan.zhihu.com/p/22845155602
相关攻略 更多
最新资讯 更多
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
更新时间:2025-08-08
GPT-5 信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
更新时间:2025-08-08
马斯克的AI女友比人类还懂人类
更新时间:2025-08-08
OpenAI GPT-5 发布:模型能力全面“屠榜”,构建“超级智能”第一步
更新时间:2025-08-08
前淘宝直播业务负责人道放再创业,要用AI做消费者的“赛博闺蜜”丨智能涌现独家
更新时间:2025-08-08
终于发布的GPT-5,和它改变世界的982天
更新时间:2025-08-08
全球大模型进化的下一个方向,OpenAI的GPT-5做出来了
更新时间:2025-08-08
GPT-5 能让普通人变成博士,但魔法依旧没有
更新时间:2025-08-08
AI时代,全球车企开始寻找自己的“Model Y”
更新时间:2025-08-08
刚刚,奥特曼发布GPT-5,人人免费用“博士级”智能,基准图错误遭全网吐槽
更新时间:2025-08-08