LlamaDecoderLayer内部结构

(self_attn): LlamaAttention(
  (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (k_proj): Linear(in_features=2048, out_features=512, bias=False)
  (v_proj): Linear(in_features=2048, out_features=512, bias=False)
  (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
  (rotary_emb): LlamaRotaryEmbedding()
)
(mlp): LlamaMLP(
  (gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (up_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (down_proj): Linear(in_features=8192, out_features=2048, bias=False)
  (act_fn): SiLU()
)
(input_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
(post_attention_layernorm): LlamaRMSNorm((2048,), eps=1e-05)

LLM智能应用开发

LLM结构的学习路径

Transformer经典结构

HF LlaMA模型结构

LlamaDecoderLayer内部结构

LlamaDecoderLayer内部结构

Normalization

Normalization示例

Normalization在机器学习中的应用

Normalization v.s. Regularization

大语言模型引入Normalization

大语言模型引入Normalization

Normalization的设计思路

RMSNorm

手搓RMSNorm

RoPE实现

RoPE实现

前馈神经网络(FFN)

FFN实现，LlamaMLP

FFN流程