Sniper
  • 首页
  • github
  • 我的简历

深度学习笔记

深度学习笔记

【深度学习笔记】R-drop

目前大家对于提升bert的能力大体上可以分为几个方向。 一个是在embedding上添加扰动(比如C 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】熵 KL散度与交叉熵

首先用一句话进行总结:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】batch size与learning rate的选择

学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】优化器集合

今天面试被虐了,回来补一下知识。 1.(随机)梯度下降 /( random )gradient de 阅读更多…

由admin,4 年 前
深度学习笔记

【深度学习笔记】self-attention(Synthesizer)

既然已经有了【深度学习笔记】Attention和self Attention的联系和区别,为什么这里 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】激活函数集合

本篇写一些对激活函数的一些理解。如果有错误欢迎各位大佬指出。 首先是损失函数的一般要求: 非线性。非 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】ReLU以及其他激活函数的思考

最近在研究激活函数,有一些问题与思考在这里写下来,如果有不对的欢迎各位大佬指正。 在研究激活函数的时 阅读更多…

由admin,4 年 前
深度学习基础 深度学习笔记

【深度学习笔记】BLEU与ROUGE

本章用来说明一些深度学习翻译(文本生成)任务中的几个指标。 BLEU和ROUGE可以说是基本上一摸一 阅读更多…

由admin,4 年 前
Bert 深度学习笔记

【深度学习笔记】ELECTRA

本文来自Goggle的论文 ELECTRA: Pre-training Text Encoders 阅读更多…

由admin,4 年 前
深度学习笔记

【深度学习笔记】门控线性单元(Gated Linear Unit)

本文思路来自论文 GLU Variants Improve Transformer ,而这篇论文又借 阅读更多…

由admin,4 年 前

文章导航

上一页 1 2 3 4 5 下一页
分类
  • QQ红包的呓语 (2)
  • 其他资料 (7)
    • idea快捷键整理 (1)
    • others (6)
  • 学习笔记 (296)
    • JAVA SE (1)
    • Java虚拟机 (4)
    • JSP (8)
    • Python (27)
    • Ubuntu (2)
    • 云计算:概念,技术与架构 (9)
    • 机器学习实战 (11)
    • 深度学习 (92)
      • Bert (9)
      • transformers (7)
      • 动手学深度学习 (4)
      • 对话系统 (8)
      • 深度学习基础 (12)
      • 深度学习笔记 (42)
        • 强化学习 (2)
      • 翻译搬运 (5)
      • 自然语言处理基础 (3)
      • 论文 (15)
    • 算法 (91)
    • 算法分析与设计 (20)
    • 网络爬虫实战 (24)
    • 设计模式 (16)
近期文章
  • 【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案
  • 【强化学习】推理大模型:DeepSeek-R1 解读与复现
  • 【深度学习笔记】🍓o1之来龙去脉
  • 【深度学习笔记】大模型中的一些FAQ
  • 【深度学习笔记】大模型中一些有意思的idea

attention bert transformer 基础 比赛 汇总 深度学习 爬虫 笔记 翻译搬运 论文 面试


如果哪里有不同见解或者有不懂的可以在文章下评论或email我,我会第一时间联系。

  • 首页
  • github
  • 我的简历
Sniper | 辽ICP备18006775号