Sniper
  • 首页
  • github
  • 我的简历

论文

论文

【论文】Continual Pre-Training of Large Language Models: How to (re)warm-up your model?

拿大蒙特利尔的两所大学的工作,主要是验证继续预训练中,如何warmup你的模型。 写在notion上 阅读更多…

由Sniper,2 年2023-11-21 前
论文

【论文】Small-scale proxies for large-scale Transformer training instabilities

google的一个工作,本文使用小模型来验证在训练大模型时会产生的loss问题(训练不稳定),成功的 阅读更多…

由Sniper,2 年2023-11-21 前
论文

【论文】General Language Model Pretraining with Autoregressive Blank Infilling

https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 阅读更多…

由Sniper,2 年2023-05-29 前
论文

【论文】DeepNet: Scaling Transformers to 1,000 Layers

http://arxiv.org/abs/2203.00555 1.动机 我们知道transform 阅读更多…

由Sniper,2 年2023-05-27 前
论文

【论文】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练,BLOOMZ在BLOO 阅读更多…

由Sniper,2 年2023-05-23 前
论文

【论文】Self-Instruct: Aligning Language Model with Self Generated Instructions

论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权禁止转载。 论文地址:http://ar 阅读更多…

由Sniper,2 年2023-04-17 前
论文

【ICLR 2022】MULTITASK PROMPTED TRAINING ENABLES ZERO-SHOT TASK GENERALIZATION

<prompt>、<T5> 论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权 阅读更多…

由Sniper,2 年2023-02-19 前
对话系统 论文

【ACL 2022】SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues

<端到端对话>、 <框架>、 <数据集> 论文解读仅代表个人观点 阅读更多…

由Sniper,3 年2022-07-31 前
Bert 论文

【arxiv】NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task–Next Sentence Prediction

<Bert>、<NSP>、<zero-shot> 论文解读仅代表 阅读更多…

由admin,3 年 前
对话系统 论文

【ACL 2022】Achieving Conversational Goals with Unsupervised Post-hoc Knowledge Injection

<对话系统>、 <知识注入> 论文解读仅代表个人观点,才疏学浅,如有错误欢迎 阅读更多…

由admin,3 年 前

文章导航

1 2 下一页
分类
  • QQ红包的呓语 (2)
  • 其他资料 (7)
    • idea快捷键整理 (1)
    • others (6)
  • 学习笔记 (296)
    • JAVA SE (1)
    • Java虚拟机 (4)
    • JSP (8)
    • Python (27)
    • Ubuntu (2)
    • 云计算:概念,技术与架构 (9)
    • 机器学习实战 (11)
    • 深度学习 (92)
      • Bert (9)
      • transformers (7)
      • 动手学深度学习 (4)
      • 对话系统 (8)
      • 深度学习基础 (12)
      • 深度学习笔记 (42)
        • 强化学习 (2)
      • 翻译搬运 (5)
      • 自然语言处理基础 (3)
      • 论文 (15)
    • 算法 (91)
    • 算法分析与设计 (20)
    • 网络爬虫实战 (24)
    • 设计模式 (16)
近期文章
  • 【强化学习】DAPO:基于GRPO专为长推理优化的强化学习方案
  • 【强化学习】推理大模型:DeepSeek-R1 解读与复现
  • 【深度学习笔记】🍓o1之来龙去脉
  • 【深度学习笔记】大模型中的一些FAQ
  • 【深度学习笔记】大模型中一些有意思的idea

attention bert transformer 基础 比赛 汇总 深度学习 爬虫 笔记 翻译搬运 论文 面试


如果哪里有不同见解或者有不懂的可以在文章下评论或email我,我会第一时间联系。

  • 首页
  • github
  • 我的简历
Sniper | 辽ICP备18006775号