bert – Sniper

【深度学习笔记】为什么transformer(Bert)的多头注意力要对每一个head进行降维？

这里我们以Bert的12头注意力进行举例。我们都知道，bert采用了12头注意力，同时每一个注意力阅读更多…

最近打了一个比赛，算是第一次比较认真系统的打比赛，搞了两个月，最后A榜第一，B榜第四，也算还行，写个阅读更多…

本文只代表自己的观点。如有错误或者其他问题，欢迎批评指正。 1. 为什么BERT在第一句前会加一个[ 阅读更多…

本文来自Goggle的论文 ELECTRA: Pre-training Text Encoders 阅读更多…

之前对于bert的MLM任务一直都是模棱两可，今天对于实现细节进行了补全。想看结论的直接拉到最后。阅读更多…

众所周知，Bert只能处理最长512长度的文本，那么如何处理超长文本呢？我们可以使用nezha，因阅读更多…

本篇文章我们将拆分Bert，细究Bert的结构以及每一层的参数个数我们以bert-base为例（7 阅读更多…

汇总用过或者见过的一些比较新奇的bert变种。 roberta xxx wwm albert nez 阅读更多…

在过去的几年，在语言处理方向的机器学习模型取得了飞快的进步，这些成果已经不再仅仅是停留在实验室阶段，阅读更多…

2018年是机器学习模型处理文本（更准确的说是自然语言处理，NLP）的转折点。我们对于如何以最佳方式阅读更多…