深度学习基础 深度学习笔记
【深度学习笔记】BLEU与ROUGE
本章用来说明一些深度学习翻译(文本生成)任务中的几个指标。 BLEU和ROUGE可以说是基本上一摸一样了,区别就是BLEU只计算准确率,而ROUGE只计算召回率。 为了说明这两种评价指标,我们首先引入 阅读更多…
本章用来说明一些深度学习翻译(文本生成)任务中的几个指标。 BLEU和ROUGE可以说是基本上一摸一样了,区别就是BLEU只计算准确率,而ROUGE只计算召回率。 为了说明这两种评价指标,我们首先引入 阅读更多…
本文来自Goggle的论文 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generator 相比Bert,ELE 阅读更多…
本文思路来自论文 GLU Variants Improve Transformer ,而这篇论文又借用了 Language Modeling with Gated Convolutional Netw 阅读更多…
各大网站反爬手段汇总。 之前研究完时间久了就忘了,用那么就研究的js解密,回头全忘了太亏了。 简单写几笔。 0.大众点评 github链接(欢迎点star) 笔记1 笔记2 1.亚马逊 这个我没有实操 阅读更多…
之前对于bert的MLM任务一直都是模棱两可,今天对于实现细节进行了补全。 想看结论的直接拉到最后。 mlm的流程实际上是使用token,通过变换获得一个vocab size大小的输出,从而判断预测位 阅读更多…
滑动平均(exponential mobing average),也叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部值,是的变量的 阅读更多…
这篇文章讨论binary_crossentropy、(sparse)categorical_crossentropy的区别 还有 sigmoid和softmax 的区别 首先定义简称: binary_ 阅读更多…
这个问题其实并不难,但是最近遇到了一个比较新奇的F1算法,因此记录下来。 首先我们定义几个变量: TP:预测为1,实际为1. TN:预测为0,实际为0. FP:预测为1,实际为0. FN:预测为0,实 阅读更多…
L215:数组中的第K个最大元素 https://leetcode-cn.com/problems/kth-largest-element-in-an-array/ 这道题有点奇怪(指数据),其实按说 阅读更多…
本文思路来源于苏建林大佬的Conditional Layer Normalization,本人整理消化后写的笔记。 如果你有两个相似的任务,比如文本生成,但是要根据指令生成积极的和消极的文本,那么怎么 阅读更多…