强化学习 【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案前言 虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线,但是最关键的技术和 阅读更多… 由Sniper,3 月2025-03-21 前
强化学习 【强化学习】推理大模型:DeepSeek-R1 解读与复现摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多… 由Sniper,4 月2025-02-10 前
深度学习笔记 【深度学习笔记】🍓o1之来龙去脉注:本文写于2024年9月24日,有些技术猜测可能已经被证伪或过时。但是主线技术没问题,只是最后的技 阅读更多… 由Sniper,9 月2024-09-24 前
深度学习笔记 【深度学习笔记】大模型中的一些FAQ开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会 阅读更多… 由Sniper,1 年2024-03-21 前
深度学习笔记 【深度学习笔记】大模型中一些有意思的idea这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。 有人催更请按1,有人提问请按 阅读更多… 由Sniper,1 年2024-03-21 前
深度学习笔记 【深度学习笔记】MoE的介绍以及调研MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下: 和标 阅读更多… 由Sniper,1 年2024-01-26 前
深度学习笔记 【深度学习笔记】SkyWork模型结构 使用了RoPE,RMSNorm和SwiGLU。 整体结构和llama类似,也看得出来整体技 阅读更多… 由Sniper,2 年2023-11-21 前
深度学习笔记 【深度学习笔记】BTLM-3B-8K跟随slimpajama一起出现的一个模型,主要是验证slimpajama的有效性,效果比一些7B的 阅读更多… 由Sniper,2 年2023-11-21 前