DeepLearning Chapter 2 | 冰芯糖果屋

type

Post

date

Dec 16, 2025

slug

llm/learning/3Blue1Brown/chapter2

summary

3Blue1Brown LLM 相关视频的笔记

status

Published

tags

LLM

AI

category

技术茶点

icon

password

✨

3Blue1Brown LLM 相关视频的笔记

3Blue1Brown YouTube 主页
3Blue1Brown
My name is Grant Sanderson. Videos here cover a variety of topics in math, or adjacent fields like physics and CS, all with an emphasis on visualizing the core ideas. The goal is to use animation to help elucidate and motivate otherwise tricky topics, and for difficult problems to be made simple with changes in perspective. For more information, other projects, FAQs, and inquiries see the website: https://www.3blue1brown.com
https://www.youtube.com/@3blue1brown/videos

notion image

Gradient descent, how neural networks learn | Deep Learning Chapter 2

✨

尽管现代大模型在结构上远比早期神经网络复杂（例如 Transformer、LLM），但其训练核心仍然遵循同一范式：

定义代价函数 → 前向传播计算输出 → 反向传播计算梯度 → 梯度下降更新参数。

大模型的创新，更多体现在结构设计、参数规模、优化技巧和工程实现层面，而非训练逻辑本身的改变。

第二章讲解的核心是：神经网络是如何在一个几乎不可能穷举的参数空间中，通过数据自动找到一组有效参数的。

使用训练数据

MNIST Database

notion image

Cost Function / Loss Function

神经网络通过最小化代价函数（Cost Function / Loss Function）来实现学习
输入 → 神经网络 → 输出 → 代价函数 → 一个标量（Cost）

代价函数的输出是一个标量
它用于衡量：在当前参数（权重与偏置）配置下，模型在数据上的整体表现
无论神经网络结构多复杂，不管包含多少层、多少神经元、多少参数，最终都会被映射为一个标量数值，用于指导参数更新。

代价函数评价的是：这一整套参数，在数据集上的表现好不好

防止模型只“记住”单个样本
强制模型学习统计意义上的规律
在 LLM 中，这一步对应的是：对大规模语料 token loss 的期望最小化

无论网络多复杂，不管有多少层、多少神经元，最终都被压缩为 一个标量数值

越大 → 模型预测得越差
越小 → 模型预测得越好
训练目标：在参数空间中不断寻找使 Cost 下降的方向

代价函数通常不是针对单一样本，而是成百上千甚至数百万训练样本的整体平均误差
通过斜率可以找到接近函数局部的最小值

如果使步长与斜率成正比，那么当斜率趋近最小值步长也会变小，从而避免过度调整

如果参数更新的步长与梯度大小成正比，那么当接近代价函数的局部最小值时，梯度会逐渐变小，从而使参数更新幅度自然减小，避免过度调整或震荡。

为了降低代价函数，需要知道：应该如何调整每一个权重和偏置，才能让 Cost 减小得最快。

notion image

notion image

notion image

notion image

梯度下降与反向传播

梯度

代价函数关于所有参数的梯度（gradient），刻画了每一个参数的微小变化，对 Cost 产生多大、朝哪个方向的影响。
梯度是一个向量
每个分量对应一个权重或偏置
数值大小反映“敏感程度”

Gradient descent

梯度下降是一种利用梯度信息，逐步更新参数以减小代价函数的优化方法。
成本函数的梯度表明所有权重和偏置的改变会导致成本函数值发生最快的变化——即哪些权重的变化最重要

不同权重参数的调整对成本函数的影响不同
梯度指向 Cost 增长最快的方向
沿着梯度的反方向更新参数，可以最快降低 Cost

反向传播——一种有效计算梯度的算法

反向传播不是一种优化方法，而是一种高效计算梯度的算法

在深层神经网络中，直接对每个参数求梯度在计算上是不可行的。反向传播利用链式法则（Chain Rule），将误差从输出层逐层向前传播，从而高效计算每一层参数的梯度。

梯度下降告诉我们“怎么用梯度更新参数”，反向传播告诉我们“梯度怎么高效算出来”。

More on gradient vectors

梯度是定义在高维参数空间中的向量，它指向代价函数增长最快的方向。在实际训练中，神经网络的学习过程可以被视为：在一个高维、非凸的损失曲面上，不断沿着局部最陡下降方向移动的过程。

分析神经网络

即使神经网络学会了认手写数字，但是完全不知道如何画出这个数字（并非认识了手写数字的像素表示）

即使神经网络成功学会了识别手写数字，它也并不“理解”如何绘制这个数字。
神经网络只是学会了一种从输入空间到输出空间的映射关系，而非掌握了人类意义上的概念或生成规则。
LLM 会“用语言”，但并不真正“理解语言”
模型学习的是统计结构，而非符号规则

如何优化这种古老的技术

为了让梯度下降更高效，需要对网络结构、初始化方式和数据分布进行合理设计。在结构化良好、数据分布清晰的情况下，代价函数的形态会更加平滑，从而更容易通过梯度下降找到较优的局部最小值。

notion image

notion image

Author:沈林曦
URL:https://blog.aibhtt.com/article/llm/learning/3Blue1Brown/chapter2
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

Agent 背书零知识证明

Lazy loaded image

“造物主”偏好是什么

Lazy loaded image

ClaudeCode+openclaw 本地部署

Lazy loaded image

使用 unsloth 微调 LLM

Lazy loaded image

DeepLearning Chapter 7+8

Lazy loaded image

DeepLearning Chapter 6

Lazy loaded image

DeepLearning Chapter 3 DeepLearning Chapter 1

Loading...

沈林曦

INFP-A AIGC UE5 Web3 SoloDeveloper

Latest posts

ClaudeCode+openclaw 本地部署

Announcement

冰芯糖果的博客上线啦

来逛逛吧~

Catalog

0%