深度学习笔记
【深度学习笔记】Seq2Seq中的曝光偏差(exposure bias)现象
在Seq2Seq模型的训练与验证过程中,经常会出现输出句和输入句子有一些gap或者明显不符合常识的情 阅读更多…
深度学习基础 深度学习笔记
【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling)
首先查看一下注意力的计算方式: 主要是有几个方面可以进行解释。 梯度传播 首先说梯度传播的问题,由于 阅读更多…
深度学习笔记
【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?
这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多…