一维的输入,归一化后的输出
“药效”:加速训练收敛,让输入更“规整”,降低过拟合(overfitting),增强泛化(generalization)
Normalization:“调整数据分布”
当前流行的LayerNorm:RMSNorm
如何利用torch算子自行实现RMSNorm?
我们来试试
RoPE的2D实现
RoPE的n维实现
目标:实现RoPE(对应的
构建RoPE矩阵:
我们来试试
(mlp): LlamaMLP(
(gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
(up_proj): Linear(in_features=2048, out_features=8192, bias=False)
(down_proj): Linear(in_features=8192, out_features=2048, bias=False)
(act_fn): SiLU()
)
摘抄自transformers/src/models/modeling_llama.py
down_proj = self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x)
https://marp.app/
