Blog – 第 2 页

【深度学习笔记】BTLM-3B-8K

跟随slimpajama一起出现的一个模型，主要是验证slimpajama的有效性，效果比一些7B的模型要好。不过由于论文时间比较久，所谓的比7B的好很可能效果也没有那么好。结构 SwiGLU、AL 阅读更多…

数据使用了3T token 数据采用了和slimpajama类似的做法，去重：标准化、minihash、LSH。质量：启发式和模型（模型ppl、文本质量评分、冒犯识别、不当内容识别）筛。同时对于低质阅读更多…

模型细节词表从140~2000左右，留了超过2000个保留token，其中195、196分别被用来当做user token id 和 assistant token id。 base模型的拼接方式为阅读更多…

https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 2.模型结构与数据构造 2.1 数据构造 GLM通过设计自回归的完形填空任务，将NLU和NLG较好的阅读更多…

传统的Bert采用了Post-Norm的方法，而例如最近的Bloom、LLama都使用了Pre-Norm的方法。那么这两个有什么区别呢？首先查看Bert的Post-Norm，是在Add操作后进行No 阅读更多…

http://arxiv.org/abs/2203.00555 1.动机我们知道transformer的深度比广度更为重要，因此理论上同等参数量的网络，更深比更宽更为重要。但是训练深层transfo 阅读更多…

1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练，BLOOMZ在BLOOM的基础上，继续使用xp3进行了训练。 ROOTS与xp3的多语言数据分布如下： 2.1 ROOTS 阅读更多…

最近在阅读复旦的moss的源码时，发现了一个没见过的操作，他们在学习率衰减时，认为的跳过了一些参数。查了下原因，主要原因是因为： 1.在神经网络的前向传播中，bias的作用比权重小得多，对于大多数情阅读更多…

论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文地址：http://arxiv.org/abs/2212.10560 1.动机由于instruction tuning严重阅读更多…

之前介绍了【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$（scaling）,提到了scaling的作用。但是在例如、GPT-2、GLM等模型中，均使用了动态scaling，那阅读更多…