这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样,慢慢更新。

有人催更请按1,有人提问请按2,有人讨论请按山,有人搬运请直接拨110!!

1.预训练时,对新数据进行微调可能会加剧对预训练时没有充分依据的新数据的幻觉。

也就是说,没学好就是没学好,后期是改不过来的。

finetuning on newer data can aggravate hallucination for new data that is not well-grounded at pretraining time.

from:http://arxiv.org/abs/2305.13169 https://www.youtube.com/watch?v=hhiLw5Q_UFg

2.模型学的是A is B,但是很难推广到 B is A。

from:http://arxiv.org/abs/2309.12288

3.transformer模型没有”创造“的功能,它只能归纳整理已经见过的数据。(不过是用数学公式而非自然语言做的实验)。

模型其实不会创造东西,只会对训练数据进行总结拟合。Google的一个实验,可能颠覆所谓的AGI?不过局限性是实验是基于数学公式的,并不是自然语言。

from:http://arxiv.org/abs/2311.00871

4.大模型是通过构建知识图谱来记忆知识的。(嘿嘿 特意和2,3放在一起)

from:http://arxiv.org/abs/2309.14316


(2024.01.26更)

5.预训练模型实际上并不是在学习拟合数据集,而是在拟合数据集的生成过程。

learning a CFG from the data/learning addition rules from the data. Train on RNN(transformer) and find CFG algorithm

intelligence = the generative process of human language within your brain

from: Fu Yao

6.涌现是否存在?涌现是宇宙从一直存在的现象,化学可以反过来被视为物理定律的突现属性。生物学(包括生物进化)可以被视为化学定律的突现属性。同样,心理学可以理解为神经生物学定律的突现属性。最后,一些经济理论将经济视为心理学的突现特征。

Chemistry can in turn be viewed as an emergent property of the laws of physics. Biology (including biological evolution) can be viewed as an emergent property of the laws of chemistry. Similarly, psychology could be understood as an emergent property of neurobiological laws. Finally, some economic theories understand economy as an emergent feature of psychology.

但是大概半年前我也确实看过一篇论文说涌现其实是测量尺度不统一带来的,比如7b→13b,差了几b,13b→30b也不过是十几b,而再往上就差出了几十b甚至百b。模型其实并不是显著的“涌现”能力,而是在这中间持续的慢慢变好,但是并没有获得真实答案。

拿数学题举例:计算1+1=?,7b可能输出100,13b可能是50,30b可能是5,慢慢的直至100b输出了2可以被观测到正确,那么说模型在100b这里发生了涌现。似乎也不是很合理。(http://arxiv.org/abs/2304.15004)。不过从结果论,这就是涌现。只要没有从0~1,即使是0.99循环,也是0。

7.目前多模态大模型效果还不错,是大模型把从文本中学到的世界知识和逻辑能力,经过grounding绑定到实体外在形象后,在多模态场景下语言模型把丰富的世界知识迁移给了多模态模型,是文本模型带着多模态在飞,而不是反过来。

从Gemini的榜单表现看

from: https://www.zhihu.com/question/633684692/answer/3316675674

8.Transformer模型可以很细致的通过拟合出三角恒等变换这类数学基础公式来完成下游任务——即使这个任务不用三角恒等解决。总之模型可以通过embedding计算输入数值的cos/sin值,将输入值变换到数学的“圆”上,随后通过三角恒等变换等一系列操作,最后输出输入值的一些关系。很好对Transformer拟合进行了可解释性。反正给我看的很迷惑,震惊于Transformer竟然可以做到这种级别的拟合。

from: http://arxiv.org/abs/2301.05217

9.模型其实不会创造东西,只会对训练数据进行总结拟合。Google的一个实验,可能颠覆所谓的AGI。不过局限性是实验是基于数学公式的,并不是自然语言。

from: http://arxiv.org/abs/2311.00871

10.模型的warmup似乎是没必要的?从我们和baichuan的实验来看好像确实是这样的,像Llama-MoE这种在训练好的模型基础上新增初始化gate的做法,直觉上需要优先训练gate,询问了一下他们,似乎冻结/warmup也是没啥区别的。

from: https://arxiv.org/abs/2308.04014、https://github.com/pjlab-sys4nlp/llama-moe/issues/55#issuecomment-1909369574

11.Transformer模型是在一个点的时候突然拥有”智能“的。首先死记硬背,随后在一个点瞬间 ”开窍“(grokking)具有泛化性。

from:https://pair.withgoogle.com/explorables/grokking/ http://arxiv.org/abs/2301.05217


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用*标注