Sniper
  • 首页
  • github
  • 我的简历

深度学习笔记

深度学习笔记

【深度学习笔记】Pre-Norm、Post-Norm与DeepNorm

传统的Bert采用了Post-Norm的方法,而例如最近的Bloom、LLama都使用了Pre-No 阅读更多…

由Sniper,1周2023-05-27 前
深度学习笔记

【深度学习笔记】transformer中学习率衰减相关问题

最近在阅读复旦的moss的源码时,发现了一个没见过的操作,他们在学习率衰减时,认为的跳过了一些参数。 阅读更多…

由Sniper,1月2023-04-23 前
深度学习笔记

【深度学习笔记】动态scaling的作用

之前介绍了【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling) 阅读更多…

由Sniper,2月2023-04-15 前
深度学习笔记

【深度学习笔记】keras中Layer、Node与Tensor之间的关系

本文主要讲述在Keras中,Layer、Node与Tensor在网络构建中的关系。 一些关于kera 阅读更多…

由Sniper,9月2022-09-18 前
深度学习笔记

【深度学习笔记】Seq2Seq中的曝光偏差(exposure bias)现象

在Seq2Seq模型的训练与验证过程中,经常会出现输出句和输入句子有一些gap或者明显不符合常识的情 阅读更多…

由Sniper,9月2022-09-12 前
深度学习基础 深度学习笔记

【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling)

首先查看一下注意力的计算方式: 主要是有几个方面可以进行解释。 梯度传播 首先说梯度传播的问题,由于 阅读更多…

由admin,11月2022-07-15 前
深度学习笔记

【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?

这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多…

由admin,2年 前
深度学习笔记

【深度学习笔记】ECISA-2021总结

最近打了一个比赛,算是第一次比较认真系统的打比赛,搞了两个月,最后A榜第一,B榜第四,也算还行,写个 阅读更多…

由admin,2年 前
Bert 深度学习笔记

【深度学习笔记】Bert相关知识点问答汇总

本文只代表自己的观点。如有错误或者其他问题,欢迎批评指正。 1. 为什么BERT在第一句前会加一个[ 阅读更多…

由admin,2年 前
深度学习笔记

【深度学习笔记】R-drop

目前大家对于提升bert的能力大体上可以分为几个方向。 一个是在embedding上添加扰动(比如C 阅读更多…

由admin,2年 前

文章导航

1 2 … 4 下一页
分类
  • QQ红包的呓语 (2)
  • Uncategorized (1)
  • 其他资料 (7)
    • idea快捷键整理 (1)
    • others (6)
  • 学习笔记 (282)
    • JAVA SE (1)
    • Java虚拟机 (4)
    • JSP (8)
    • Python (27)
    • Ubuntu (2)
    • 云计算:概念,技术与架构 (9)
    • 机器学习实战 (11)
    • 深度学习 (78)
      • Bert (9)
      • transformers (7)
      • 动手学深度学习 (4)
      • 对话系统 (8)
      • 深度学习基础 (12)
      • 深度学习笔记 (31)
      • 翻译搬运 (5)
      • 自然语言处理基础 (3)
      • 论文 (12)
    • 算法 (91)
    • 算法分析与设计 (20)
    • 网络爬虫实战 (24)
    • 设计模式 (16)
近期文章
  • 【论文】General Language Model Pretraining with Autoregressive Blank Infilling
  • 【深度学习笔记】Pre-Norm、Post-Norm与DeepNorm
  • 【论文】DeepNet: Scaling Transformers to 1,000 Layers
  • 【论文】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
  • 【深度学习笔记】transformer中学习率衰减相关问题

attention bert transformer 基础 比赛 汇总 深度学习 爬虫 笔记 翻译搬运 论文 面试


如果哪里有不同见解或者有不懂的可以在文章下评论或email我,我会第一时间联系。

  • 首页
  • github
  • 我的简历
Sniper | 辽ICP备18006775号