深度学习笔记

【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和阅读更多…

摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多…

注：本文写于2024年9月24日，有些技术猜测可能已经被证伪或过时。但是主线技术没问题，只是最后的技阅读更多…

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标阅读更多…

现在的模型一直在堆叠规模，但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700 阅读更多…

模型结构使用了RoPE，RMSNorm和SwiGLU。整体结构和llama类似，也看得出来整体技阅读更多…

跟随slimpajama一起出现的一个模型，主要是验证slimpajama的有效性，效果比一些7B的阅读更多…

数据使用了3T token 数据采用了和slimpajama类似的做法，去重：标准化、miniha 阅读更多…