Sniper
  • 首页
  • github
  • 我的简历

Blog

深度学习笔记

【深度学习笔记】BTLM-3B-8K

跟随slimpajama一起出现的一个模型,主要是验证slimpajama的有效性,效果比一些7B的模型要好。不过由于论文时间比较久,所谓的比7B的好很可能效果也没有那么好。 结构 SwiGLU、AL 阅读更多…

由Sniper,1 年2023-11-21 前
深度学习笔记

【深度学习笔记】Qwen

数据 使用了3T token 数据采用了和slimpajama类似的做法,去重:标准化、minihash、LSH。质量:启发式和模型(模型ppl、文本质量评分、冒犯识别、不当内容识别)筛。同时对于低质 阅读更多…

由Sniper,1 年2023-11-21 前
深度学习笔记

【深度学习笔记】Baichuan2

模型细节 词表从140~2000左右,留了超过2000个保留token,其中195、196分别被用来当做user token id 和 assistant token id。 base模型的拼接方式为 阅读更多…

由Sniper,1 年2023-11-21 前
论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 2.模型结构与数据构造 2.1 数据构造 GLM通过设计自回归的完形填空任务,将NLU和NLG较好的 阅读更多…

由Sniper,2 年2023-05-29 前
深度学习笔记

【深度学习笔记】Pre-Norm、Post-Norm与DeepNorm

传统的Bert采用了Post-Norm的方法,而例如最近的Bloom、LLama都使用了Pre-Norm的方法。那么这两个有什么区别呢? 首先查看Bert的Post-Norm,是在Add操作后进行No 阅读更多…

由Sniper,2 年2023-05-27 前
论文

【论文】DeepNet: Scaling Transformers to 1,000 Layers

http://arxiv.org/abs/2203.00555 1.动机 我们知道transformer的深度比广度更为重要,因此理论上同等参数量的网络,更深比更宽更为重要。但是训练深层transfo 阅读更多…

由Sniper,2 年2023-05-27 前
论文

【论文】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练,BLOOMZ在BLOOM的基础上,继续使用xp3进行了训练。 ROOTS与xp3的多语言数据分布如下: 2.1 ROOTS 阅读更多…

由Sniper,2 年2023-05-23 前
深度学习笔记

【深度学习笔记】transformer中学习率衰减相关问题

最近在阅读复旦的moss的源码时,发现了一个没见过的操作,他们在学习率衰减时,认为的跳过了一些参数。 查了下原因,主要原因是因为: 1.在神经网络的前向传播中,bias的作用比权重小得多,对于大多数情 阅读更多…

由Sniper,2 年2023-04-23 前
论文

【论文】Self-Instruct: Aligning Language Model with Self Generated Instructions

论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权禁止转载。 论文地址:http://arxiv.org/abs/2212.10560 1.动机 由于instruction tuning严重 阅读更多…

由Sniper,2 年2023-04-17 前
深度学习笔记

【深度学习笔记】动态scaling的作用

之前介绍了【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling),提到了scaling的作用。但是在例如、GPT-2、GLM等模型中,均使用了动态scaling,那 阅读更多…

由Sniper,2 年2023-04-15 前

文章导航

上一页 1 2 3 … 31 下一页
分类
  • QQ红包的呓语 (2)
  • 其他资料 (7)
    • idea快捷键整理 (1)
    • others (6)
  • 学习笔记 (296)
    • JAVA SE (1)
    • Java虚拟机 (4)
    • JSP (8)
    • Python (27)
    • Ubuntu (2)
    • 云计算:概念,技术与架构 (9)
    • 机器学习实战 (11)
    • 深度学习 (92)
      • Bert (9)
      • transformers (7)
      • 动手学深度学习 (4)
      • 对话系统 (8)
      • 深度学习基础 (12)
      • 深度学习笔记 (42)
        • 强化学习 (2)
      • 翻译搬运 (5)
      • 自然语言处理基础 (3)
      • 论文 (15)
    • 算法 (91)
    • 算法分析与设计 (20)
    • 网络爬虫实战 (24)
    • 设计模式 (16)
近期文章
  • 【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案
  • 【强化学习】推理大模型:DeepSeek-R1 解读与复现
  • 【深度学习笔记】🍓o1之来龙去脉
  • 【深度学习笔记】大模型中的一些FAQ
  • 【深度学习笔记】大模型中一些有意思的idea

attention bert transformer 基础 比赛 汇总 深度学习 爬虫 笔记 翻译搬运 论文 面试


如果哪里有不同见解或者有不懂的可以在文章下评论或email我,我会第一时间联系。

  • 首页
  • github
  • 我的简历
Sniper | 辽ICP备18006775号