深度学习基础 深度学习笔记
【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling)
首先查看一下注意力的计算方式: 主要是有几个方面可以进行解释。 梯度传播 首先说梯度传播的问题,由于 阅读更多…
首先查看一下注意力的计算方式: 主要是有几个方面可以进行解释。 梯度传播 首先说梯度传播的问题,由于 阅读更多…
学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多…
什么是注意力? 当人类观察一张图片或者一段文字时,可以将重点放到某一部分,从而可以更好的处理图中或文 阅读更多…