反向传播的启动过程

当执行out.backward()时，PyTorch 会从out.grad_fn出发，沿着计算图往回追踪，调用每个grad_fn对应的backward()方法，逐步计算出各个叶子节点（比如参数x）的梯度。

几个注意点：

特性	`no_grad`	`inference_mode`	说明
构图	关闭	关闭	两者都不记录计算图
版本计数/视图跟踪	保留	跳过	`inference_mode` 更省内存/检查更少
内存/速度	省	更省/更快	大模型推理建议 `inference_mode`
训练期使用	可用于局部（如指标、EMA）	不建议	`inference_mode` 仅用于纯推理
原地修改检测	有检查	检查更少/可能被绕过	训练期更安全用 `no_grad`

大语言模型基础：从零到一实现之路