深度学习笔记 【深度学习笔记】大模型中的一些FAQ开一个新坑,这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。 看到新的论文也会 阅读更多… 由Sniper,10 月2024-03-21 前
深度学习笔记 【深度学习笔记】大模型中一些有意思的idea这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。 有人催更请按1,有人提问请按 阅读更多… 由Sniper,10 月2024-03-21 前
深度学习笔记 【深度学习笔记】MoE的介绍以及调研MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下: 和标 阅读更多… 由Sniper,12 月2024-01-26 前
深度学习笔记 【深度学习笔记】SkyWork模型结构 使用了RoPE,RMSNorm和SwiGLU。 整体结构和llama类似,也看得出来整体技 阅读更多… 由Sniper,1 年2023-11-21 前
深度学习笔记 【深度学习笔记】BTLM-3B-8K跟随slimpajama一起出现的一个模型,主要是验证slimpajama的有效性,效果比一些7B的 阅读更多… 由Sniper,1 年2023-11-21 前
深度学习笔记 【深度学习笔记】Baichuan2模型细节 词表从140~2000左右,留了超过2000个保留token,其中195、196分别被用来 阅读更多… 由Sniper,1 年2023-11-21 前
深度学习笔记 【深度学习笔记】Pre-Norm、Post-Norm与DeepNorm传统的Bert采用了Post-Norm的方法,而例如最近的Bloom、LLama都使用了Pre-No 阅读更多… 由Sniper,2 年2023-05-27 前
深度学习笔记 【深度学习笔记】transformer中学习率衰减相关问题最近在阅读复旦的moss的源码时,发现了一个没见过的操作,他们在学习率衰减时,认为的跳过了一些参数。 阅读更多… 由Sniper,2 年2023-04-23 前