google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的在小模型上复现了这一问题,并验证了当前解决大模型的loss问题的方法,在小模型上依然有效。并成功预测了训练不稳定问题的出现。 写在notion上了,懒得搬运。链接如下(可能需要翻墙) https://daffodil-square-501.notion.site/Small-scale-proxies-for-large-scale-Transformer-training-instabilities-80425d883bfe44a88fa63dee559d2eae?pvs=4 分类: 论文 0 条评论 发表回复 取消回复您的邮箱地址不会被公开。 必填项已用 * 标注 名称 * 电子邮件 * 网站 在想些什么? 在此浏览器中保存我的显示名称、邮箱地址和网站地址,以便下次评论时使用。 Δ
0 条评论