十进制本身是周期性的,二进制也是周期性的
构建n维的位置编码,每一维用不同的周期函数刻画取值
“叠加旋转位置编码的方式由加法改乘法”
假设两个token的embedding为
RoFormer提出Rotary PE,在embedding维度为2的情况下:
回忆下欧拉公式:
因此,上述函数
RoPE的2D实现
RoPE的n维实现
不同于经典Transformers结构,只对输入的token做位置编码的叠加
LlaMA中的RoPE在Transformer的每一层都会对Q和K进行位置编码的叠加
Hugging Face
Accelerating a Hugging Face Llama 2 and Llama 3 models with Transformer Engine
RoPE部分
Transformer升级之路:10、RoPE是一种β进制编码. 苏剑林
RoFormer: Enhanced Transformer with Rotary Position Embedding
https://marp.app/
<p align="center"> <img width="500" height="200" src="images/l4/nju.png"> <img width="500" height="200" src="images/l4/nju2.png"> </p>