【ACL 2022】Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System

论文解读仅代表个人观点，才疏学浅，如有错误欢迎指正，未经授权禁止转载。

摘要

本文提出了一个统一的即插即用任务型对话模型，主要通过使用T5+prompt learning [PS:说道prompt learning，推荐阅读：近代自然语言处理技术发展的“第四范式”——刘鹏飞] ，通过在同一个T5模型上完成多个对话任务（比如TOD、POL等），使得模型可以得到充分的训练，从而获得较为优秀的效果。

整体来看，本文创造性的尝试了多个任务一个模型，并使用prompt来进行任务区分，获得了SOTA。并且PPTOD在低数据量下的表现依然较为出色。但是有一些实验结果本人有一些质疑。

本文的主要贡献如下：

提出了一个异构的生成模型，可以节省生成时间（存疑）
在全量与低数据量下均达到了SOTA

方法

本文方法如下图所示，使用T5作为PPTOD的预训练语言模型，区分了四种任务，分别为：

生成beilef state
生成act state
判别用户intent
生成系统回复

其中这四个任务都在最开始拼接上对应的prompt提示以增强效果（具体提示词见上图）。

这四个任务可以使用各自相关的数据集，并且都训练同一个预训练语言模型，因此共享的参数与共享的数据有利于模型更好的理解数据集。

同时，对于识别用户intent（意向），可以和文本生成任务并行，从而节省了系统时间开销（这里我就有第一个疑问了。。从哪儿节省的，其他的对话系统（即使是串行系统）也并没有intent这个步骤啊。。）

之所以存疑是因为常规的端到端对话系统（使用db信息），如果是使用MultiWOZ这类的belief state ->db state -> act state -> response 的那本文的生成策略也依然需要belief state -> db state -> act state -> response ，并没有减少步骤，上文说的intent可以并行但是之前的模型也没。。这个步骤哇。

如果是类似于TicketTalk这种API call的生成策略，那人家仅需要input -> api call -> response，轮次上甚至比PPTOD要少。

而对于不使用db信息，PPTOD倒是确实可以并行输出beilef state、act state和response。确实会节省一些时间。

实验

最终结果评估采用三个指标：

Inform，用来度量系统提供的实体准确率。
Success，用来度量系统是否能够回答用户所有的请求。
BLEU，用来度量系统生成响应的流畅程度。

整体的评价指标采用BLEU+0.5*（Inform+Success）。

预训练语言模型使用T5，并使用了12个数据集共计2.3M个对话进行微调。（这里我就有第二个疑问了，首先2.3M的微调过于豪华，其次微调数据集中包含了随后跑SOTA验证的MultiWOZ数据集，使用跑指标的数据集进行微调算不算作弊？虽然我注意到，像SOLOIST确实使用了MultiWOZ进行了微调，但是其他模型并没有使用MultiWOZ进行微调）

结果&分析

PPTOD的结果如下图所示：

PPTOD small base large分别使用了T5-small base 和large，分别包含60M，220M和770M（前面是原文数据。google research的github的数据分别为77M、250M、800M。。是我魔怔了吗？为啥感觉哪里都有问题，还是这里去掉了哪部分。。但是论文里并没提）。

These three models are initialized with T5-small, T5-base, and T5-large models (Raffel et al., 2020) that contain ∼60M, ∼220M, and ∼770M parameters, respectively.

可以看到PPTOD-base的效果要好一些。

这里我又有第三个疑问了，上表UBAR的指标说明如下：

†: the models require the history of oracle dialogue states when making predictions at current turn. ‡: UBAR scores are acquired with the author-released models.

这里使用了UBAR作者释放的模型跑的数据，而不是UBAR论文中的数据，我倒是没有去跑UBAR，只是这个指标前后差了10个多点，如果UBAR是这个指标甚至不会达到当年SOTA。而例如SimpleTOD则和原论文指标一致。

随后作者还尝试了PPTOD在1%、5%、10%、20%几个规格训练数据上的表现，均达到了不错的效果。

随后作者还从速度上进行了一些对比，证明PPTOD不管是质量还是生成速度上（并行）相比其他模型都具有很大的优势。

如上表所示，60M的T5-small和117M的GPT-2（SOLOIST）差了10倍的速度。

总结

总结就是思路确实不错，而且prompt也是一个十分有前景的新方向，但是里面很多说法和做法以及实验数据和我的前置知识有一些冲突，由于我也是初入茅庐的弱鸡，写出来大家一起思考，如果大佬们有什么见解麻烦在评论区指正或者邮件 zhaoyu@sniper97.cn

这篇论文我有较多疑惑，希望大佬能够批评指正

【ACL 2022】Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System

于2022-07-06由admin发布

摘要

方法

实验

结果&分析

总结

0 条评论

发表回复取消回复

论文

【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?

论文

【论文】Small-scale proxies for large-scale Transformer training instabilities

论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

【ACL 2022】Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System

于2022-07-06由admin发布

摘要

方法

实验

结果&分析

总结

0 条评论

发表回复 取消回复

相关文章

论文

【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?

论文

【论文】Small-scale proxies for large-scale Transformer training instabilities

论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

发表回复取消回复