强化学习 – Sniper

强化学习

【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和阅读更多…

由Sniper，1 年2025-03-21 前

强化学习

【强化学习】推理大模型：DeepSeek-R1 解读与复现

摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多…

由Sniper，1 年2025-02-10 前