【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。

论文地址：http://arxiv.org/abs/2110.08207

摘要

本文通过使用多个数据集创建多个task，对于不同的task和不同的prompt/instruct来对T5进行instruction turning，最终使模型具备了较好的zero-shot能力。

本文在prompt的数量和dataset个数两个角度验证了他们对模型产生的影响，并做了大量的对比实验。

实验结果表明，T0的效果在部分任务上超过了GPT-3的表现，增加prompt可以显著的提高模型的zero-shot能力。而增加dataset个数在一定程度之后，并不会获得特别明显的收益。

本文开源了P3数据集、3B~13B的T0、以及所有的prompt模板。

方法

作者收集了62个数据集组成了12个任务。如下图，其中黄色部分为参与训练的数据集和任务。而绿色部分则用来做测评，从任务层面的zero-shot，并还是用了在大模型（LLM）领域使用的BIG-Bench来进行zero-shot测评。

同时，对于每一条数据，通过人工的方式，设计了多个prompt模板，这些模板开源在https://github.com/bigscience-workshop/promptsource。方式如下图所示

实验

本文的baseline采用了11B的T5+LM结构，不适用prompt。同时，训练时T5的encoder和decoder限制长度分别问1024和256，使用Adafactor优化器，batch size为1024，学习率为1e-3，dropout rate 0.1来进行训练。

尝试了3B的T0、11B的T0、T0+、T0++（逐步增加用于训练的dataset）。

结论

首先是不同模型的效果，下图的每一个点代表一个prompt。对于大部分数据集，11B的T0甚至由于175B的GPT-3（不过GPT-3只是用了一个prompt）。

同时，本文也做了一些消融实验，预先定义了prompt数量p与dataset数量d。

下图是T0、T0+、T0++的对比，可以发现他们基本都优于LM的性能，并且随着d的增加，性能并不会有一个持续的提升。并且他们的prompt内的差距会更大（最大值和最小值的差变大）。

同时对于prompt的数量p，本文也进行了实验，我们可以发现对于大部分数据集，prompt的提升可以有效并且稳定的提升模型的性能。

作者还验证了模型在政治、人种等问题上的偏置问题，在CrowS-Pairs和WinoGender两个数据集上进行了验证，模型识别准确率分别达到了60%+和80%+。

同时，作者还开源了3B的T0，性能区别如下图所示，基本均超过11B的T5+LM的性能。

【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

于2023-02-192023-02-19由Sniper发布

摘要

方法

实验

结论

0 条评论

发表回复取消回复

论文

【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?

论文

【论文】Small-scale proxies for large-scale Transformer training instabilities

论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

于2023-02-192023-02-19由Sniper发布

摘要

方法

实验

结论

0 条评论

发表回复 取消回复

相关文章

论文

【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?

论文

【论文】Small-scale proxies for large-scale Transformer training instabilities

论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

发表回复取消回复