https://marp.app/

--- # GPU 上的矩阵乘法 - GPU 将矩阵划分为很多小块（thread block） - 每个 block 在显存和共享内存之间做高速数据交换 - CUDA 核函数中： - 每个线程负责计算 $Y$ 中的一个或一小片元素 - 通过 warp/wavefront 协同提高吞吐