Bert 深度学习笔记
【深度学习笔记】Bert相关知识点问答汇总
本文只代表自己的观点。如有错误或者其他问题,欢迎批评指正。 1. 为什么BERT在第一句前会加一个[CLS]标志? [CLS]用来作为整个句子的向量表示。 为什么要单独引入一个标记呢,是因为如果使用别 阅读更多…
本文只代表自己的观点。如有错误或者其他问题,欢迎批评指正。 1. 为什么BERT在第一句前会加一个[CLS]标志? [CLS]用来作为整个句子的向量表示。 为什么要单独引入一个标记呢,是因为如果使用别 阅读更多…
目前大家对于提升bert的能力大体上可以分为几个方向。 一个是在embedding上添加扰动(比如ConSERT[ACL2021],和对抗训练,主要目的就是通过在embedding上添加随机性从而增加 阅读更多…
首先用一句话进行总结:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而交叉熵的运算更简单,所以用交叉熵来当做代价。 熵(Entropy) 熵度量的是所包含的信息量。 举例 阅读更多…
学习率的选择 首先是学习率,不要太高,不要太低,高了学不到东西,低了学习的慢。 到这里仿佛什么都没有说,我们怎么确定一个比较合适的学习率呢? 我们通过从一个较小的学习率(比如1e-5[这个学习率在训练 阅读更多…
今天面试被虐了,回来补一下知识。 1.(随机)梯度下降 /( random )gradient descent 梯度下降其实就是我们常见的”求导然后反向传播“的过程。 模型参数的更新调整,与代价函数关 阅读更多…
既然已经有了【深度学习笔记】Attention和self Attention的联系和区别,为什么这里要再开一篇来讲self-attention呢? 因为这篇文章主要是用来推翻自注意力机制的。 其实深度 阅读更多…
本篇写一些对激活函数的一些理解。如果有错误欢迎各位大佬指出。 首先是损失函数的一般要求: 非线性。非线性保证了网络的深度;使用线性激活函数会让多层网络坍塌成一层。 (几乎)处处可微。可微性保证了在优化 阅读更多…
最近在研究激活函数,有一些问题与思考在这里写下来,如果有不对的欢迎各位大佬指正。 在研究激活函数的时候有一个问题困扰我很久,那就是 Q:既然ReLU激活函数将负输入直接置为0,那是不是意味着这个神经元 阅读更多…
本章用来说明一些深度学习翻译(文本生成)任务中的几个指标。 BLEU和ROUGE可以说是基本上一摸一样了,区别就是BLEU只计算准确率,而ROUGE只计算召回率。 为了说明这两种评价指标,我们首先引入 阅读更多…
本文来自Goggle的论文 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generator 相比Bert,ELE 阅读更多…