深度学习笔记
【深度学习笔记】Ziya2
现在的模型一直在堆叠规模,但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700B的token,就超过了llama2很多。 整体流程如下。在llama2 13B的基础上,分了三个阶 阅读更多…
现在的模型一直在堆叠规模,但是很少有人在数据上细致的下功夫。所以ziya2在13B模型上只训练700B的token,就超过了llama2很多。 整体流程如下。在llama2 13B的基础上,分了三个阶 阅读更多…
模型结构 使用了RoPE,RMSNorm和SwiGLU。 整体结构和llama类似,也看得出来整体技术报告处处对比llama,应该是跟随llama的一个工作。不过比llama2更加的“细长”,增大了l 阅读更多…
跟随slimpajama一起出现的一个模型,主要是验证slimpajama的有效性,效果比一些7B的模型要好。不过由于论文时间比较久,所谓的比7B的好很可能效果也没有那么好。 结构 SwiGLU、AL 阅读更多…
数据 使用了3T token 数据采用了和slimpajama类似的做法,去重:标准化、minihash、LSH。质量:启发式和模型(模型ppl、文本质量评分、冒犯识别、不当内容识别)筛。同时对于低质 阅读更多…
模型细节 词表从140~2000左右,留了超过2000个保留token,其中195、196分别被用来当做user token id 和 assistant token id。 base模型的拼接方式为 阅读更多…
https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 2.模型结构与数据构造 2.1 数据构造 GLM通过设计自回归的完形填空任务,将NLU和NLG较好的 阅读更多…
传统的Bert采用了Post-Norm的方法,而例如最近的Bloom、LLama都使用了Pre-Norm的方法。那么这两个有什么区别呢? 首先查看Bert的Post-Norm,是在Add操作后进行No 阅读更多…
http://arxiv.org/abs/2203.00555 1.动机 我们知道transformer的深度比广度更为重要,因此理论上同等参数量的网络,更深比更宽更为重要。但是训练深层transfo 阅读更多…
1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练,BLOOMZ在BLOOM的基础上,继续使用xp3进行了训练。 ROOTS与xp3的多语言数据分布如下: 2.1 ROOTS 阅读更多…
最近在阅读复旦的moss的源码时,发现了一个没见过的操作,他们在学习率衰减时,认为的跳过了一些参数。 查了下原因,主要原因是因为: 1.在神经网络的前向传播中,bias的作用比权重小得多,对于大多数情 阅读更多…