深度学习笔记 【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多… 由admin,2年 前
深度学习基础 深度学习笔记 【深度学习笔记】Attention和self Attention的联系和区别什么是注意力? 当人类观察一张图片或者一段文字时,可以将重点放到某一部分,从而可以更好的处理图中或文 阅读更多… 由admin,3年 前