这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。

有人催更请按1,有人提问请按2,有人讨论请按山,有人搬运请直接拨110!!


最新更新时间:2024.04.20


1.预训练时,对新数据进行微调可能会加剧对预训练时没有充分依据的新数据的幻觉。

也就是说,没学好就是没学好,后期是改不过来的。

finetuning on newer data can aggravate hallucination for new data that is not well-grounded at pretraining time.

from:http://arxiv.org/abs/2305.13169 https://www.youtube.com/watch?v=hhiLw5Q_UFg

2.模型学的是A is B,但是很难推广到 B is A。

from:http://arxiv.org/abs/2309.12288

3.transformer模型没有”创造“的功能,它只能归纳整理已经见过的数据。(不过是用数学公式而非自然语言做的实验)。

模型其实不会创造东西,只会对训练数据进行总结拟合。Google的一个实验,可能颠覆所谓的AGI?不过局限性是实验是基于数学公式的,并不是自然语言。

from:http://arxiv.org/abs/2311.00871

4.大模型是通过构建知识图谱来记忆知识的。(嘿嘿 特意和2,3放在一起)

from:http://arxiv.org/abs/2309.14316


(2024.01.26更)

5.预训练模型实际上并不是在学习拟合数据集,而是在拟合数据集的生成过程。

learning a CFG from the data/learning addition rules from the data. Train on RNN(transformer) and find CFG algorithm

intelligence = the generative process of human language within your brain

from: Fu Yao

6.涌现是否存在?涌现是宇宙从一直存在的现象,化学可以反过来被视为物理定律的突现属性。生物学(包括生物进化)可以被视为化学定律的突现属性。同样,心理学可以理解为神经生物学定律的突现属性。最后,一些经济理论将经济视为心理学的突现特征。

Chemistry can in turn be viewed as an emergent property of the laws of physics. Biology (including biological evolution) can be viewed as an emergent property of the laws of chemistry. Similarly, psychology could be understood as an emergent property of neurobiological laws. Finally, some economic theories understand economy as an emergent feature of psychology.

但是大概半年前我也确实看过一篇论文说涌现其实是测量尺度不统一带来的,比如7b→13b,差了几b,13b→30b也不过是十几b,而再往上就差出了几十b甚至百b。模型其实并不是显著的“涌现”能力,而是在这中间持续的慢慢变好,但是并没有获得真实答案。

拿数学题举例:计算1+1=?,7b可能输出100,13b可能是50,30b可能是5,慢慢的直至100b输出了2可以被观测到正确,那么说模型在100b这里发生了涌现。似乎也不是很合理。(http://arxiv.org/abs/2304.15004)。不过从结果论,这就是涌现。只要没有从0~1,即使是0.99循环,也是0。

7.目前多模态大模型效果还不错,是大模型把从文本中学到的世界知识和逻辑能力,经过grounding绑定到实体外在形象后,在多模态场景下语言模型把丰富的世界知识迁移给了多模态模型,是文本模型带着多模态在飞,而不是反过来。

从Gemini的榜单表现看

from: https://www.zhihu.com/question/633684692/answer/3316675674

8.Transformer模型可以很细致的通过拟合出三角恒等变换这类数学基础公式来完成下游任务——即使这个任务不用三角恒等解决。总之模型可以通过embedding计算输入数值的cos/sin值,将输入值变换到数学的“圆”上,随后通过三角恒等变换等一系列操作,最后输出输入值的一些关系。很好对Transformer拟合进行了可解释性。反正给我看的很迷惑,震惊于Transformer竟然可以做到这种级别的拟合。

from: http://arxiv.org/abs/2301.05217

9.—delete—

10.模型的warmup似乎是没必要的?从我们和baichuan的实验来看好像确实是这样的,像Llama-MoE这种在训练好的模型基础上新增初始化gate的做法,直觉上需要优先训练gate,询问了一下他们,似乎冻结/warmup也是没啥区别的。

from: https://arxiv.org/abs/2308.04014、https://github.com/pjlab-sys4nlp/llama-moe/issues/55#issuecomment-1909369574

11.Transformer模型是在一个点的时候突然拥有”智能“的。首先死记硬背,随后在一个点瞬间 ”开窍“(grokking)具有泛化性。

from:https://pair.withgoogle.com/explorables/grokking/ http://arxiv.org/abs/2301.05217


(2024..4.20更)

12. 同尺寸下,一个更深的模型会比更宽的模型效果更好(这也就是为什么post-norm要比pre-norm效果更好的原因,但是pre-norm训练更加稳定)。这一点应该在古老的DeepNorm论文中就提到过。最近的很多研究也说明深层的模型具备更加优秀的推理能力。

from:https://arxiv.org/pdf/2312.17276.pdf

13. 对于一些尺寸较小的模型,通过对第一个epoch进行loss选择(选择loss较大的数据),继续训练第二个epoch,控制整体采样率小于50%,依然可以显著提升模型性能。不过该结论是考虑到小尺寸模型整体容量较小,对于大loss数据遗忘明显,不确定能否向大尺寸数据进行推广。不过我们的一些实验也表明多epoch会对验证集loss产生积极影响。

from:https://arxiv.org/pdf/2312.17276.pdf

14. sft没有学习能力,只是对预训练知识的整理,以及格式对齐。也就是说,sft基本不会学习到新知识。如果sft的世界知识和预训练的不一致,会导致模型崩溃。

from:http://arxiv.org/abs/2402.05119、http://arxiv.org/abs/2402.18243

15. scaling law相关。可以通过一系列预实验,推断出大模型全流程的loss变化。同时验证这些loss变化是超参无关的(和训练数据、tokenize和max len有关。在能够获得足够训练的情况下,和lr、lr调度、batch size均无关),同时方法对领域外的数据集具有一定的普适性。 这有点类似于23年上半年OpenAI说他们能够预测模型的训练曲线了。

from: http://arxiv.org/abs/2403.06563

16. 课程学习/分阶段学习 似乎是一个十分简单并且有效的学习方案。很多论文和实验都指明分阶段训练(甚至不需要严格的课程学习)对模型最终效果是有增益的。 不过有说法学习率的多次warmup和decay会让模型更好的学习数据(http://arxiv.org/abs/2403.08763),不太确定是否是因为这个,因为warmup其实也会加剧遗忘。有关这个论文的更详细一点的说明看 17

from: http://arxiv.org/abs/2403.19270

17. 还是上面那个论文,但是这篇论文里的好多实验也可以说明,同样的数据分批次训练效果>放到一起训练,甚至会存在节省数百B token就达到一样的下游能力的情况。

This is curious as these model have seen 150B and 100B fewer tokens of D1 than their respective baselines.(D1 ∪ D0)

同时,还验证了多阶段里适当的replay数据可以在较少的遗忘代价里(完美)拟合新数据,相似领域5%,偏差较大25%。第二阶段总token不变的情况下(比如第二阶段训练300B,混合20B前一阶段数据那就只使用280B新数据),可以做到既减少遗忘,又不影响新数据的拟合(这就是为什么上面说节省百B同性能)。

from:http://arxiv.org/abs/2403.08763

18. 最近看到了ChatGPT倾向于选择42,突然发现世界收束了哈哈哈哈哈(虽然ChatGPT选择42大概率也是因为这个彩蛋)。

为啥大家的随机种子总喜欢设置成42呢?这源于道格拉斯·亚当斯(Douglas Adams)的作品《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)。在这个系列中,一个超级电脑被询问“生命、宇宙以及一切”的答案,它得出的答案是“42”。然后可能就作为一个小“彩蛋”被一直沿用。

然后随着42出现的概率变多,所以这种基于统计的模型就会更倾向于选择42?

from:https://twitter.com/infobeautiful/status/1778059112250589561

19. 回到6说到涌现可能是因为测量指标非连续造成的。最近智谱做了一个连续性指标实验。说明即使是连续性指标依然存在涌现现象。虽然这篇论文主要方向不是这个。但是我认为这是这篇论文唯一拿得出手的观点了emmm。其余的什么loss才是涌现的关键,说法有点牵强,整体结果依然还是呈现模型规模(超)强相关的趋势。

from:https://arxiv.org/abs/2403.15796


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注