Blog – 第 3 页

【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

<prompt>、<T5> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文地址：http://arxiv.org/abs/2110.08207 摘要本文通过阅读更多…

本文主要讲述在Keras中，Layer、Node与Tensor在网络构建中的关系。一些关于keras.engine.base_layer的一些笔记核心的详见github。 1.Layer与Node 阅读更多…

在Seq2Seq模型的训练与验证过程中，经常会出现输出句和输入句子有一些gap或者明显不符合常识的情况出现。这种情况很有可能是因为Seq2Seq的exposure bias问题。此外，对于高频的安全词阅读更多…

本文汇总一些python常见的内置函数以及python类的内置函数 1.breakpoint() 该函数可以在不适用IDE的情况下debug python代码，十分方便在服务器上调试代码（但是需要py 阅读更多…

<端到端对话>、 <框架>、 <数据集> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文原文：http://arxiv.org/abs 阅读更多…

<Bert>、<NSP>、<zero-shot> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文原文：https://arxiv.or 阅读更多…

<对话系统>、 <知识注入> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文原文：http://arxiv.org/abs/2203.11399 阅读更多…

首先查看一下注意力的计算方式：主要是有几个方面可以进行解释。梯度传播首先说梯度传播的问题，由于$attention$的计算使用了$Softmax$，而$Softmax$的曲线在输入值较大时，梯度阅读更多…

<数据增强>、 <基于角色的对话系统>、 <GPT-2> 、 <Transformer> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁阅读更多…

<T5>、<微调>、<任务型对话> 论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。论文原文：http://arxiv.org/abs/21 阅读更多…