深度学习笔记 【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多… 由admin,3 年2021-09-03 前
Bert 深度学习笔记 【深度学习笔记】Bert相关知识点问答汇总本文只代表自己的观点。如有错误或者其他问题,欢迎批评指正。 1. 为什么BERT在第一句前会加一个[ 阅读更多… 由admin,3 年 前
深度学习基础 深度学习笔记 【深度学习笔记】熵 KL散度与交叉熵首先用一句话进行总结:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而 阅读更多… 由admin,3 年 前
深度学习基础 深度学习笔记 【深度学习笔记】batch size与learning rate的选择学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有 阅读更多… 由admin,3 年 前
深度学习笔记 【深度学习笔记】self-attention(Synthesizer)既然已经有了【深度学习笔记】Attention和self Attention的联系和区别,为什么这里 阅读更多… 由admin,3 年 前
深度学习基础 深度学习笔记 【深度学习笔记】ReLU以及其他激活函数的思考最近在研究激活函数,有一些问题与思考在这里写下来,如果有不对的欢迎各位大佬指正。 在研究激活函数的时 阅读更多… 由admin,3 年 前