深度学习 – Sniper

【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维？

这里我们以Bert的12头注意力进行举例。我们都知道，bert采用了12头注意力，同时每一个注意力阅读更多…

最近打了一个比赛，算是第一次比较认真系统的打比赛，搞了两个月，最后A榜第一，B榜第四，也算还行，写个阅读更多…

本文只代表自己的观点。如有错误或者其他问题，欢迎批评指正。 1. 为什么BERT在第一句前会加一个[ 阅读更多…

目前大家对于提升bert的能力大体上可以分为几个方向。一个是在embedding上添加扰动（比如C 阅读更多…

首先用一句话进行总结：KL散度可以被用于计算代价，而在特定情况下最小化KL散度等价于最小化交叉熵。而阅读更多…

学习率的选择首先是学习率，不要太高，不要太低，高了学不到东西，低了学习的慢。到这里仿佛什么都没有阅读更多…

今天面试被虐了，回来补一下知识。 1.（随机）梯度下降 /（ random ）gradient de 阅读更多…

既然已经有了【深度学习笔记】Attention和self Attention的联系和区别，为什么这里阅读更多…

本篇写一些对激活函数的一些理解。如果有错误欢迎各位大佬指出。首先是损失函数的一般要求：非线性。非阅读更多…

最近在研究激活函数，有一些问题与思考在这里写下来，如果有不对的欢迎各位大佬指正。在研究激活函数的时阅读更多…