深度学习笔记
【深度学习笔记】门控线性单元(Gated Linear Unit)
本文思路来自论文 GLU Variants Improve Transformer ,而这篇论文又借用了 Language Modeling with Gated Convolutional Netw 阅读更多…
本文思路来自论文 GLU Variants Improve Transformer ,而这篇论文又借用了 Language Modeling with Gated Convolutional Netw 阅读更多…
各大网站反爬手段汇总。 之前研究完时间久了就忘了,用那么就研究的js解密,回头全忘了太亏了。 简单写几笔。 0.大众点评 github链接(欢迎点star) 笔记1 笔记2 1.亚马逊 这个我没有实操 阅读更多…
之前对于bert的MLM任务一直都是模棱两可,今天对于实现细节进行了补全。 想看结论的直接拉到最后。 mlm的流程实际上是使用token,通过变换获得一个vocab size大小的输出,从而判断预测位 阅读更多…
滑动平均(exponential mobing average),也叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部值,是的变量的 阅读更多…
这篇文章讨论binary_crossentropy、(sparse)categorical_crossentropy的区别 还有 sigmoid和softmax 的区别 首先定义简称: binary_ 阅读更多…
这个问题其实并不难,但是最近遇到了一个比较新奇的F1算法,因此记录下来。 首先我们定义几个变量: TP:预测为1,实际为1. TN:预测为0,实际为0. FP:预测为1,实际为0. FN:预测为0,实 阅读更多…
L215:数组中的第K个最大元素 https://leetcode-cn.com/problems/kth-largest-element-in-an-array/ 这道题有点奇怪(指数据),其实按说 阅读更多…
本文思路来源于苏建林大佬的Conditional Layer Normalization,本人整理消化后写的笔记。 如果你有两个相似的任务,比如文本生成,但是要根据指令生成积极的和消极的文本,那么怎么 阅读更多…
啊,要找工作了,耽误了好久的刷题重新捡起来。 不再按顺序刷题了(有时间也可以),主要按专题来刷,挑典型题。 L167:两数之和 II 这就是一个典型的双指针法。 原题链接:https://leetco 阅读更多…
众所周知,Bert只能处理最长512长度的文本,那么如何处理超长文本呢? 我们可以使用nezha,因为它是基于相对位置编码的。 我们还可以将Bert的绝对位置编码处理一下,使其能够处理超长文本。 思路 阅读更多…