强化学习 【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案前言 虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线,但是最关键的技术和 阅读更多… 由Sniper,1 月2025-03-21 前
强化学习 【强化学习】推理大模型:DeepSeek-R1 解读与复现摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多… 由Sniper,3 月2025-02-10 前