DeepLearning Chapter 3 | 冰芯糖果屋

type

Post

date

Dec 16, 2025

slug

llm/learning/3Blue1Brown/chapter3

summary

3Blue1Brown LLM 相关视频的笔记

status

Published

Backpropagation, intuitively | Deep Learning Chapter 3

✨

反向传播的直观目的，是回答这样一个问题：

某一个训练样本的预测误差，究竟应该如何“分摊”到网络中每一个权重和偏置上？

即输出层错了多少 → 每一层的参数各自“该负多少责任”。

在理论上，代价函数通常定义为整个训练集（或一个 batch）上误差的平均值；但在实际计算梯度时，反向传播是针对单个样本或小批量样本进行的，然后再对梯度取平均，用于更新参数

依据对应权重大小对激活值做出呈比例的改变
虽然不能直接修改上一层的激活值，但可以通过修改更早层的权重和偏置，间接改变这些激活值。反向传播正是沿着这一依赖链条，逐层向前传递“应该改变多少”的信息。

在实际训练中，这一反向传播过程会对多个训练样本（一个 batch）重复执行，然后对这些样本产生的梯度取平均，用于一次参数更新。
当 batch 规模较小时，这种方式被称为随机梯度下降（SGD）或小批量梯度下降（mini-batch SGD），它在计算效率和优化稳定性之间取得平衡。

总结
“当模型错了，我们如何有条不紊地把‘错因’分配给网络中每一个参数”
尽管现代大模型拥有极其复杂的结构和海量参数，但其训练时的核心误差信号传递方式，依然遵循这一章中所展示的反向传播思想。所谓“大模型”，并不是改变了学习原理，而是将同一套反向传播机制扩展到了前所未有的规模。