论文
【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?
拿大蒙特利尔的两所大学的工作,主要是验证继续预训练中,如何warmup你的模型。 写在notion上 阅读更多…
论文
【论文】Small-scale proxies for large-scale Transformer training instabilities
google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的 阅读更多…