学习笔记 – Sniper

【深度学习笔记】下一代大模型应该是什么架构？

由于self-Attention太贵，出现了2个方案：这两个方案一个是linear-Attenti 阅读更多…

本文主要介绍我们的iclr 2026投稿。研究动机今年来随着OpenAI o1、o3、DeepS 阅读更多…

前言虽然DeepSeek R1为大家提供了一个使用强化学习来完成推理能力的路线，但是最关键的技术和阅读更多…

摘要 (Scaling Test-Time Compute/Human-like Long Thou 阅读更多…

注：本文写于2024年9月24日，有些技术猜测可能已经被证伪或过时。但是主线技术没问题，只是最后的技阅读更多…

开一个新坑，这个坑主要用来总结一些FAQ和遇到的一些有趣的结论。会慢慢的持续更新。看到新的论文也会阅读更多…

这个系列其实也和【深度学习笔记】大模型中的一些FAQ 一样，慢慢更新。有人催更请按1，有人提问请按阅读更多…

MoE介绍 MoE(Mixture of Experts)和标准Dense模型的整体区别如下：和标阅读更多…

拿大蒙特利尔的两所大学的工作，主要是验证继续预训练中，如何warmup你的模型。写在notion上阅读更多…

google的一个工作，本文使用小模型来验证在训练大模型时会产生的loss问题（训练不稳定），成功的阅读更多…