Blog – Sniper

【深度学习笔记】大模型中的一些FAQ

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。因为我会在notion先记，有时间了再整理到博客上，所阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按2，有人讨论请按山，有人搬运请直接拨110！！最新更新时间：2024.04.20 1.预训练时，对阅读更多…

1. 列出 5 个常用 Python 标准库？很多，os、time、random、re、math、sys等 2. Python 内建数据类型有哪些？ str,bytes,int,float,list 阅读更多…

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和细节往往被隐藏，因此社区内还没有复现他们的结果。字节跳动Seed+清华大学提出了解耦裁剪和动态采样阅读更多…

摘要 (Scaling Test-Time Compute/Human-like Long Thought o1, R1/RL) (SFT/DPO/PPO, Open-Ended Solution e 阅读更多…

注：本文写于2024年9月24日，有些技术猜测可能已经被证伪或过时。但是主线技术没问题，只是最后的技术猜测可能有错。本文将试图以OpenAI历年来的研发思路变化为主线，涉及到可能的技术以及扩展，直至阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标准Transformer模型的结构区别如下如所示[5]，主要是将FFN层进行了更改，添加一个gate 阅读更多…

拿大蒙特利尔的两所大学的工作，主要是验证继续预训练中，如何warmup你的模型。写在notion上了，懒得搬运。链接如下（可能需要翻墙） https://daffodil-square-501.no 阅读更多…

google的一个工作，本文使用小模型来验证在训练大模型时会产生的loss问题（训练不稳定），成功的在小模型上复现了这一问题，并验证了当前解决大模型的loss问题的方法，在小模型上依然有效。并成功预测阅读更多…

现在的模型一直在堆叠规模，但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700B的token，就超过了llama2很多。整体流程如下。在llama2 13B的基础上，分了三个阶阅读更多…

模型结构使用了RoPE，RMSNorm和SwiGLU。整体结构和llama类似，也看得出来整体技术报告处处对比llama，应该是跟随llama的一个工作。不过比llama2更加的“细长”，增大了l 阅读更多…