大模型强化学习算法概览

张开发
2026/5/18 0:33:43 15 分钟阅读
大模型强化学习算法概览
0. 算法概览与分类算法核心机制主要优势On/Off-PolicyDPO偏好数据直接优化无需RL循环,实现简单Off-PolicyPPO价值网络 + 绝对优势 + 截断稳定性强,RL标准范式On-PolicyGRPO组内相对优势无价值网络,计算高效On-PolicyDAPO解耦截断 + 动态采样缓解熵崩溃,提升效率On-PolicyGFPO最短-k采样鼓励简洁响应,减少长度膨胀On-PolicyGSPO序列级重要性比稳定MoE训练,无路由回放On-Policy

更多文章