LlamaDecoderLayer内部结构

(self_attn): LlamaAttention(
  (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (k_proj): Linear(in_features=2048, out_features=512, bias=False)
  (v_proj): Linear(in_features=2048, out_features=512, bias=False)
  (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (rotary_emb): LlamaRotaryEmbedding()
)
(mlp): LlamaMLP(
  (gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (up_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (down_proj): Linear(in_features=8192, out_features=2048, bias=False)
  (act_fn): SiLU()
)
(input_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
(post_attention_layernorm): LlamaRMSNorm((2048,), eps=1e-05)

LLM智能应用开发

LLM结构的学习路径

Transformer经典结构

HF LlaMA模型结构

LlamaDecoderLayer内部结构

LlamaDecoderLayer内部结构

Normalization

Normalization示例

Normalization在机器学习中的应用

Normalization v.s. Regularization

大语言模型引入Normalization

Normalization案例

Normalization的设计思路

LayerNorm

RMSNorm

手搓RMSNorm

编码实现RMSNorm

RoPE实现

RoPE公式

RoPE实现

RoPE高效实现

RoPE高效实现

前馈神经网络(FFN)

FFN实现，LlamaMLP

FFN流程

激活函数(引入非线性)

经典激活函数

激活函数(引入非线性)

激活函数(引入非线性)

SwiGLU模块

SwiGLU实现