Sniper – Sniper

【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和阅读更多…

摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多…

注：本文写于2024年9月24日，有些技术猜测可能已经被证伪或过时。但是主线技术没问题，只是最后的技阅读更多…

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标阅读更多…

拿大蒙特利尔的两所大学的工作，主要是验证继续预训练中，如何warmup你的模型。写在notion上阅读更多…

google的一个工作，本文使用小模型来验证在训练大模型时会产生的loss问题（训练不稳定），成功的阅读更多…

现在的模型一直在堆叠规模，但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700 阅读更多…

模型结构使用了RoPE，RMSNorm和SwiGLU。整体结构和llama类似，也看得出来整体技阅读更多…