深度学习笔记

【深度学习笔记】Bert相关知识点问答汇总

本文只代表自己的观点。如有错误或者其他问题，欢迎批评指正。 1. 为什么BERT在第一句前会加一个[ 阅读更多…

目前大家对于提升bert的能力大体上可以分为几个方向。一个是在embedding上添加扰动（比如C 阅读更多…

首先用一句话进行总结：KL散度可以被用于计算代价，而在特定情况下最小化KL散度等价于最小化交叉熵。而阅读更多…

学习率的选择首先是学习率，不要太高，不要太低，高了学不到东西，低了学习的慢。到这里仿佛什么都没有阅读更多…

今天面试被虐了，回来补一下知识。 1.（随机）梯度下降 /（ random ）gradient de 阅读更多…

既然已经有了【深度学习笔记】Attention和self Attention的联系和区别，为什么这里阅读更多…

本篇写一些对激活函数的一些理解。如果有错误欢迎各位大佬指出。首先是损失函数的一般要求：非线性。非阅读更多…

最近在研究激活函数，有一些问题与思考在这里写下来，如果有不对的欢迎各位大佬指正。在研究激活函数的时阅读更多…

本章用来说明一些深度学习翻译（文本生成）任务中的几个指标。 BLEU和ROUGE可以说是基本上一摸一阅读更多…

本文来自Goggle的论文 ELECTRA: Pre-training Text Encoders 阅读更多…