Blog – Sniper

【深度学习笔记】大模型中的一些FAQ

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会更新已有的FAQ。所以其实也不都是增量更新。因为我会在notion先记，有时间了再整理到博客上，所阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按2，有人讨论请按山，有人搬运请直接拨110！！最新更新时间：2024.04.20 1.预训练时，对阅读更多…

1. 列出 5 个常用 Python 标准库？很多，os、time、random、re、math、sys等 2. Python 内建数据类型有哪些？ str,bytes,int,float,list 阅读更多…

由于self-Attention太贵，出现了2个方案：这两个方案一个是linear-Attention，从复杂的核函数入手，试图将self-Attention从二次复杂度转换为线性复杂度。例如Min 阅读更多…

本文主要介绍我们的iclr 2026投稿。研究动机今年来随着OpenAI o1、o3、DeepSeek R1等模型的出现，推理模型通过预先生成一段长思维链（CoT）确实可以显著提升模型的推理性能，阅读更多…

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和细节往往被隐藏，因此社区内还没有复现他们的结果。字节跳动Seed+清华大学提出了解耦裁剪和动态采样阅读更多…

摘要 (Scaling Test-Time Compute/Human-like Long Thought o1, R1/RL) (SFT/DPO/PPO, Open-Ended Solution e 阅读更多…

注：本文写于2024年9月24日，有些技术猜测可能已经被证伪或过时。但是主线技术没问题，只是最后的技术猜测可能有错。本文将试图以OpenAI历年来的研发思路变化为主线，涉及到可能的技术以及扩展，直至阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标准Transformer模型的结构区别如下如所示[5]，主要是将FFN层进行了更改，添加一个gate 阅读更多…

拿大蒙特利尔的两所大学的工作，主要是验证继续预训练中，如何warmup你的模型。写在notion上了，懒得搬运。链接如下（可能需要翻墙） https://daffodil-square-501.no 阅读更多…

google的一个工作，本文使用小模型来验证在训练大模型时会产生的loss问题（训练不稳定），成功的在小模型上复现了这一问题，并验证了当前解决大模型的loss问题的方法，在小模型上依然有效。并成功预测阅读更多…