相关工作提出了一些方法来解决激活值占用过多显存的问题，包括：

Offload：将模型划分为多个模块，计算时在显卡和主机之间卸载、加载；
- 缺点：计算效率很低；
TP + PP：一定程度上缓解了问题，但是仍有部分激活值未能并行化切分；
Sequence Parallelism：将长序列输入划分并在多个 GPU 上并行处理，虽然可以缓解激活值占用显存的问题，但会导致模型的其他参数需要复制到所有模型副本中，因此不适用于大型模型的训练。

LLM智能应用开发

背景介绍

Megatron

Overall: TP + DP

TP in Megatron

TP on MLP

TP on MLP

TP on MLP

All-reduce

Broadcast

TP on Attention

TP on Attention

Default pipeline in GPipe

Default pipeline in GPipe

1F1B in PipeDream-Flush

1F1B in PipeDream-Flush

1F1B in PipeDream-Flush

PP in Megatron

PP in Megatron

Communication Optimizations

Communication Optimizations

Activations Memory Problem

Analysis

Analysis

Analysis

Analysis

With TP

TP + SP

TP + SP

all-gather

reduce-scatter

TP + SP

Summary of TP + SP

Conclusion

LLM智能应用开发

背景介绍

Megatron

Overall: TP + DP

TP in Megatron

TP on MLP

TP on MLP

TP on MLP

All-reduce

Broadcast

TP on Attention

TP on Attention

Default pipeline in GPipe

Default pipeline in GPipe

1F1B in PipeDream-Flush

1F1B in PipeDream-Flush

1F1B in PipeDream-Flush

PP in Megatron

PP in Megatron

Communication Optimizations

Communication Optimizations

Activations Memory Problem

Related Work

Analysis

Analysis

Analysis

Analysis

With TP

TP + SP

TP + SP

all-gather

reduce-scatter

TP + SP

Summary of TP + SP

Conclusion