google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的在小模型上复现了这一问题,并验证了当前解决大模型的loss问题的方法,在小模型上依然有效。并成功预测了训练不稳定问题的出现。

写在notion上了,懒得搬运。链接如下(可能需要翻墙)

https://daffodil-square-501.notion.site/Small-scale-proxies-for-large-scale-Transformer-training-instabilities-80425d883bfe44a88fa63dee559d2eae?pvs=4

分类: 论文

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用*标注