Blog – 第 6 页

【深度学习笔记】门控线性单元（Gated Linear Unit）

本文思路来自论文 GLU Variants Improve Transformer ，而这篇论文又借用了 Language Modeling with Gated Convolutional Netw 阅读更多…

各大网站反爬手段汇总。之前研究完时间久了就忘了，用那么就研究的js解密，回头全忘了太亏了。简单写几笔。 0.大众点评 github链接（欢迎点star）笔记1 笔记2 1.亚马逊这个我没有实操阅读更多…

之前对于bert的MLM任务一直都是模棱两可，今天对于实现细节进行了补全。想看结论的直接拉到最后。 mlm的流程实际上是使用token，通过变换获得一个vocab size大小的输出，从而判断预测位阅读更多…

滑动平均（exponential mobing average），也叫做指数加权平均（exponentially weighted moving average），可以用来估计变量的局部值，是的变量的阅读更多…

这篇文章讨论binary_crossentropy、(sparse)categorical_crossentropy的区别还有 sigmoid和softmax 的区别首先定义简称： binary_ 阅读更多…

这个问题其实并不难，但是最近遇到了一个比较新奇的F1算法，因此记录下来。首先我们定义几个变量： TP：预测为1，实际为1. TN：预测为0，实际为0. FP：预测为1，实际为0. FN：预测为0，实阅读更多…

L215：数组中的第K个最大元素 https://leetcode-cn.com/problems/kth-largest-element-in-an-array/ 这道题有点奇怪（指数据），其实按说阅读更多…

本文思路来源于苏建林大佬的Conditional Layer Normalization，本人整理消化后写的笔记。如果你有两个相似的任务，比如文本生成，但是要根据指令生成积极的和消极的文本，那么怎么阅读更多…

啊，要找工作了，耽误了好久的刷题重新捡起来。不再按顺序刷题了（有时间也可以），主要按专题来刷，挑典型题。 L167：两数之和 II 这就是一个典型的双指针法。原题链接：https://leetco 阅读更多…

众所周知，Bert只能处理最长512长度的文本，那么如何处理超长文本呢？我们可以使用nezha，因为它是基于相对位置编码的。我们还可以将Bert的绝对位置编码处理一下，使其能够处理超长文本。思路阅读更多…