深度学习笔记
【深度学习笔记】Seq2Seq中的曝光偏差(exposure bias)现象
在Seq2Seq模型的训练与验证过程中,经常会出现输出句和输入句子有一些gap或者明显不符合常识的情 阅读更多…
深度学习基础 深度学习笔记
【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling)
首先查看一下注意力的计算方式: 主要是有几个方面可以进行解释。 梯度传播 首先说梯度传播的问题,由于 阅读更多…
深度学习笔记
【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?
这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多…
深度学习基础 深度学习笔记
【深度学习笔记】batch size与learning rate的选择
学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多…