深度学习笔记
【深度学习笔记】大模型中的一些FAQ
开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。 因为我会在notion先记,有时间了再整理到博客上,所 阅读更多…
开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。 因为我会在notion先记,有时间了再整理到博客上,所 阅读更多…
这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。 有人催更请按1,有人提问请按2,有人讨论请按山,有人搬运请直接拨110!! 最新更新时间:2024.04.20 1.预训练时,对 阅读更多…
1. 列出 5 个常用 Python 标准库? 很多,os、time、random、re、math、sys等 2. Python 内建数据类型有哪些? str,bytes,int,float,list 阅读更多…
前言 虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线,但是最关键的技术和细节往往被隐藏,因此社区内还没有复现他们的结果。 字节跳动Seed+清华大学提出了解耦裁剪和动态采样 阅读更多…
摘要 (Scaling Test-Time Compute/Human-like Long Thought o1, R1/RL) (SFT/DPO/PPO, Open-Ended Solution e 阅读更多…
注:本文写于2024年9月24日,有些技术猜测可能已经被证伪或过时。但是主线技术没问题,只是最后的技术猜测可能有错。 本文将试图以OpenAI历年来的研发思路变化为主线,涉及到可能的技术以及扩展,直至 阅读更多…
MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下: 和标准Transformer模型的结构区别如下如所示[5],主要是将FFN层进行了更改,添加一个gate 阅读更多…
拿大蒙特利尔的两所大学的工作,主要是验证继续预训练中,如何warmup你的模型。 写在notion上了,懒得搬运。链接如下(可能需要翻墙) https://daffodil-square-501.no 阅读更多…
google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的在小模型上复现了这一问题,并验证了当前解决大模型的loss问题的方法,在小模型上依然有效。并成功预测 阅读更多…
现在的模型一直在堆叠规模,但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700B的token,就超过了llama2很多。 整体流程如下。在llama2 13B的基础上,分了三个阶 阅读更多…
模型结构 使用了RoPE,RMSNorm和SwiGLU。 整体结构和llama类似,也看得出来整体技术报告处处对比llama,应该是跟随llama的一个工作。不过比llama2更加的“细长”,增大了l 阅读更多…