深度学习笔记 【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维?这里我们以Bert的12头注意力进行举例。 我们都知道,bert采用了12头注意力,同时每一个注意力 阅读更多… 由admin,3 年2021-09-03 前
深度学习笔记 【深度学习笔记】手写Transformer以及思考最近在手写Transformer,有了一些理解,之前虽然感觉自己理论(Transformer理论图解 阅读更多… 由admin,4 年 前