MatMul on GPU（示例）

以 32×32 矩阵乘法为例，我们把输出矩阵拆成 16×16 的 tile，并让一个 block 专门负责一个 tile 的计算
该 block 中的线程会先从 global memory 读入对应的、子块到 shared memory，再把乘加的中间结果保存在各自的 register 中
SM 会把 block 划分成多个 warp，例如把 16×16 tile 拆成 4 个 warp，每个 warp 处理 tile 内若干行或列，确保 warp 内线程执行路径一致
完成 tile 计算后，线程再把 register 中的结果回写到 global memory，把 block、warp、shared memory 等概念串联起来

LLM智能应用开发

LLM结构的学习路径

Transformer经典结构

HF 相关参考链接

FlashAttention

Note

FlashAttention

GPU Architecture

Streaming Multiprocessors（SM）

Streaming Multiprocessors（SM）

Thread Hierarchy

Thread Hierarchy

什么是 Tile

MatMul on GPU（示例）

Memory Hierarchy

Memory Hierarchy

Memory Hierarchy

Memory补充说明

Memory补充说明

从 GPU 基础到 FlashAttention

FlashAttention

Basic Info

标准 Self Attention

优化维度

从 block 出发思考问题

Tiling 技术

Tiling 技术 (cont'd)

Tiling 技术 (cont'd)

Tiling 技术 (cont'd)

Unfortunately

Unfortunately

Safe Softmax

Softmax 的数学本质

Softmax 的数值风险

LogSumExp (LSE) 与稳定形式

LSE 在 Softmax 中的作用

一种迭代式的 Safe Softmax 的算法（V1）

Online Softmax（V2）

Online Softmax（V2）

Again, Unfortunately

But

一种 2-pass 的 Self Attention 的算法（V1）

改良版的 1-pass 算法（V2）

改良版的 1-pass 算法（V2）（cont'd）

FlashAttention V1

FlashAttention V1

FlashAttention

改进一：调整内外循环

改进二：减少了非矩阵乘法的运算次数

改进三：Warp Level 并行度

改进三：Warp Level 并行度（cont'd）

FlashAttention

FlashAttention 使用途径