深度学习 – Sniper

【深度学习笔记】大模型中的一些FAQ

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标阅读更多…

拿大蒙特利尔的两所大学的工作，主要是验证继续预训练中，如何warmup你的模型。写在notion上阅读更多…

google的一个工作，本文使用小模型来验证在训练大模型时会产生的loss问题（训练不稳定），成功的阅读更多…

现在的模型一直在堆叠规模，但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700 阅读更多…

模型结构使用了RoPE，RMSNorm和SwiGLU。整体结构和llama类似，也看得出来整体技阅读更多…

跟随slimpajama一起出现的一个模型，主要是验证slimpajama的有效性，效果比一些7B的阅读更多…

数据使用了3T token 数据采用了和slimpajama类似的做法，去重：标准化、miniha 阅读更多…

模型细节词表从140~2000左右，留了超过2000个保留token，其中195、196分别被用来阅读更多…