论文
【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?
拿大蒙特利尔的两所大学的工作,主要是验证继续预训练中,如何warmup你的模型。 写在notion上 阅读更多…
论文
【论文】Small-scale proxies for large-scale Transformer training instabilities
google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的 阅读更多…
论文
【论文】General Language Model Pretraining with Autoregressive Blank Infilling
https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 阅读更多…
论文
【论文】DeepNet: Scaling Transformers to 1,000 Layers
http://arxiv.org/abs/2203.00555 1.动机 我们知道transform 阅读更多…
论文
【论文】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练,BLOOMZ在BLOO 阅读更多…
论文
【论文】Self-Instruct: Aligning Language Model with Self Generated Instructions
论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权禁止转载。 论文地址:http://ar 阅读更多…
论文
【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION
<prompt>、<T5> 论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权 阅读更多…
对话系统 论文
【ACL 2022】SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues
<端到端对话>、 <框架>、 <数据集> 论文解读仅代表个人观点 阅读更多…
Bert 论文
【arxiv】NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task–Next Sentence Prediction
<Bert>、<NSP>、<zero-shot> 论文解读仅代表 阅读更多…