深度学习笔记
【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?
这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多…
深度学习基础 深度学习笔记
【深度学习笔记】batch size与learning rate的选择
学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多…
这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多…
学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多…