深度学习笔记
【深度学习笔记】大模型中的一些FAQ
开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。 因为我会在notion先记,有时间了再整理到博客上,所 阅读更多…
开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。 因为我会在notion先记,有时间了再整理到博客上,所 阅读更多…
这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。 有人催更请按1,有人提问请按2,有人讨论请按山,有人搬运请直接拨110!! 最新更新时间:2024.04.20 1.预训练时,对 阅读更多…
1. 列出 5 个常用 Python 标准库? 很多,os、time、random、re、math、sys等 2. Python 内建数据类型有哪些? str,bytes,int,float,list 阅读更多…
MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下: 和标准Transformer模型的结构区别如下如所示[5],主要是将FFN层进行了更改,添加一个gate 阅读更多…
拿大蒙特利尔的两所大学的工作,主要是验证继续预训练中,如何warmup你的模型。 写在notion上了,懒得搬运。链接如下(可能需要翻墙) https://daffodil-square-501.no 阅读更多…
google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的在小模型上复现了这一问题,并验证了当前解决大模型的loss问题的方法,在小模型上依然有效。并成功预测 阅读更多…
现在的模型一直在堆叠规模,但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700B的token,就超过了llama2很多。 整体流程如下。在llama2 13B的基础上,分了三个阶 阅读更多…
模型结构 使用了RoPE,RMSNorm和SwiGLU。 整体结构和llama类似,也看得出来整体技术报告处处对比llama,应该是跟随llama的一个工作。不过比llama2更加的“细长”,增大了l 阅读更多…
跟随slimpajama一起出现的一个模型,主要是验证slimpajama的有效性,效果比一些7B的模型要好。不过由于论文时间比较久,所谓的比7B的好很可能效果也没有那么好。 结构 SwiGLU、AL 阅读更多…
数据 使用了3T token 数据采用了和slimpajama类似的做法,去重:标准化、minihash、LSH。质量:启发式和模型(模型ppl、文本质量评分、冒犯识别、不当内容识别)筛。同时对于低质 阅读更多…
模型细节 词表从140~2000左右,留了超过2000个保留token,其中195、196分别被用来当做user token id 和 assistant token id。 base模型的拼接方式为 阅读更多…