Python
【Python】python核心知识点(全)
1. 列出 5 个常用 Python 标准库? 很多,os、time、random、re、math、sys等 2. Python 内建数据类型有哪些? str,bytes,int,float,list 阅读更多…
1. 列出 5 个常用 Python 标准库? 很多,os、time、random、re、math、sys等 2. Python 内建数据类型有哪些? str,bytes,int,float,list 阅读更多…
https://arxiv.org/pdf/2103.10360.pdf 1.动机 – 2.模型结构与数据构造 2.1 数据构造 GLM通过设计自回归的完形填空任务,将NLU和NLG较好的 阅读更多…
传统的Bert采用了Post-Norm的方法,而例如最近的Bloom、LLama都使用了Pre-Norm的方法。那么这两个有什么区别呢? 首先查看Bert的Post-Norm,是在Add操作后进行No 阅读更多…
http://arxiv.org/abs/2203.00555 1.动机 我们知道transformer的深度比广度更为重要,因此理论上同等参数量的网络,更深比更宽更为重要。但是训练深层transfo 阅读更多…
1.动机 – 2.数据集 BLOOM使用ROOTS数据集进行训练,BLOOMZ在BLOOM的基础上,继续使用xp3进行了训练。 ROOTS与xp3的多语言数据分布如下: 2.1 ROOTS 阅读更多…
最近在阅读复旦的moss的源码时,发现了一个没见过的操作,他们在学习率衰减时,认为的跳过了一些参数。 查了下原因,主要原因是因为: 1.在神经网络的前向传播中,bias的作用比权重小得多,对于大多数情 阅读更多…
论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权禁止转载。 论文地址:http://arxiv.org/abs/2212.10560 1.动机 由于instruction tuning严重 阅读更多…
之前介绍了【深度学习笔记】为什么$attention$中要除以$\sqrt{k}$(scaling),提到了scaling的作用。但是在例如、GPT-2、GLM等模型中,均使用了动态scaling,那 阅读更多…
<prompt>、<T5> 论文解读仅代表个人观点,才疏学浅,如有错误欢迎指正,未经授权禁止转载。 论文地址:http://arxiv.org/abs/2110.08207 摘要 本文通过 阅读更多…
本文主要讲述在Keras中,Layer、Node与Tensor在网络构建中的关系。 一些关于keras.engine.base_layer的一些笔记核心的详见github。 1.Layer与Node 阅读更多…
在Seq2Seq模型的训练与验证过程中,经常会出现输出句和输入句子有一些gap或者明显不符合常识的情况出现。这种情况很有可能是因为Seq2Seq的exposure bias问题。此外,对于高频的安全词 阅读更多…