什么是asp网站seo交流博客
本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系比较庞大,还有待持续深入。以下各部分的笔记,我尽可能通过图示和极简的代码DEMO说明,以加深对原理的理解。
主要内容
一、transformer学习笔记-神经网络原理
 二、transformer学习笔记-词嵌入embedding原理
 三、transformer学习笔记-自注意力机制(1)(原理部分)
 四、transformer学习笔记-自注意力机制(2)(代码部分)
 五、transformer学习笔记-位置编码
参考:
神经网络部分
 深度!图解神经网络的数学原理
 卷积神经网络(CNN)基础知识整理
 什么是欠拟合和过拟合,以及如何避免
 深度学习之神经网络的结构 Part 1 ver 2.0
 深度学习之梯度下降法 Part 2 ver 0.9 beta
 深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta
词嵌入部分
 Embedding技术的本质(图解)
 没有思考过 Embedding,不足以谈 AI
 https://blog.51cto.com/u_15671528/5929544
 如何在7分钟内彻底搞懂word2vec
 词嵌入、word2vec模型,如何将文字转化为数值
 word2vec连续词袋模型CBOW详解
 什么是词嵌入,Word Embedding算法
注意力部分
 三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
 如何理解attention中的Q,K,V?
 超详细图解Self-Attention
 全方位解析Transformer模型:一文彻底掌握其架构、原理与应用精髓!
 transformer中的attention为什么scaled?
  从梯度最大化看Attention的Scale操作
 为什么Attention计算公式中,QK的点积要除以根号d
 直观解释注意力机制,Transformer的核心
 白话transformer(二)_QKV矩阵
 transformer的细节到底是怎么样的?Transformer 连环18问!
 Attention is all you need
位置编码部分
 图解Transformer系列一:Positional Encoding(位置编码)
 transformer 中的 RoPE 位置编码
 大模型系列:快速通俗理解Transformer旋转位置编码RoPE
 RoPE原论文
 十分钟读懂旋转编码(RoPE)
 再论大模型位置编码及其外推性(万字长文)
 【大模型理论篇】RoPE旋转位置编码底层数学原理分析
