LlamaDecoderLayer内部结构

Transformer架构的核心: attention(注意力机制)

(self_attn): LlamaAttention(
  (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (k_proj): Linear(in_features=2048, out_features=512, bias=False)
  (v_proj): Linear(in_features=2048, out_features=512, bias=False)
  (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (rotary_emb): LlamaRotaryEmbedding()
)

LLM智能应用开发

LLM结构的学习路径

Transformer经典结构

HF LlaMA模型结构

LlamaDecoderLayer内部结构

Attention内部结构

Attention模块的输入

标准Attention的第一步: 获得

标准Attention的第一步: 获得

标准Attention的第二步: 计算

标准Attention的第三步: 计算Attention

标准Attention的第四步: 计算输出

标准Attention回顾

Attention中mask的作用

Attention中mask的作用

对应的实现

MuliHeadAttention

MultiHeadAttention

对应的实现

Attention计算开销

BlockedAttention第一步: 获得

BlockedAttention第二步: 计算

BlockedAttention第二步: 计算

BlockedAttention第三步: 计算Attention

BlockedAttention第三步: 计算Attention

BlockedAttention第三步: 计算Attention

BlockedAttention第四步: 计算

BlockedAttention回顾