transformer – Sniper

深度学习笔记

【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维？

这里我们以Bert的12头注意力进行举例。我们都知道，bert采用了12头注意力，同时每一个注意力阅读更多…

由admin，4 年2021-09-03 前

深度学习笔记

【深度学习笔记】手写Transformer以及思考

最近在手写Transformer，有了一些理解，之前虽然感觉自己理论（Transformer理论图解阅读更多…

由admin，5 年前

Bert 翻译搬运

【深度学习】Transformer

在上一篇文章中，我们了解了注意力——这是一种在现代深度学习模型中普遍存在的一种方法。注意力机制是一个阅读更多…

由admin，5 年前