type
Post
date
Dec 17, 2025
slug
llm/learning/3Blue1Brown/chapter7
summary
3Blue1Brown LLM 相关视频的笔记
status
Published
tags
LLM
AI
category
技术茶点
icon
password
3Blue1Brown LLM 相关视频的笔记
3Blue1Brown YouTube 主页
章节
内容核心
Deep Learning Chapter 1
什么是神经网络
Deep Learning Chapter 2
梯度下降、神经网络如何学习
Deep Learning Chapter 3
反向传播直观理解
Deep Learning Chapter 4
反向传播 微积分细节
Deep Learning Chapter 5
Transformer 与 LLM 介绍
Deep Learning Chapter 6
注意力机制详解
Deep Learning Chapter 7
变压器中如何存储知识/事实
Additional
Diffusion Models、图像生成等解释

How might LLMs store facts | Deep Learning Chapter 7

回顾:每一个词都需要编码远远超出一个词的含义的东西——足以预测接下来会发生什么。LLM 并不是“存储事实”,而是“学会了一种生成事实的函数结构”。
一个事实,体现为在大量上下文下,模型倾向于产生一致输出的参数结构,且这个事实不是局部存储的。
 
notion image
notion image
在 Transformer 中,每一层包含:
  • Attention
  • MLP(Feed Forward Network)
MLP 层比 Attention 更“像是在承载事实模式”
  • MLP 是逐 token 的非线性映射
  • 能把一种表示稳定地映射成另一种表示
  • 非常适合学习:
    • “某类上下文 → 某类输出倾向”
  • 这不是显式存储
  • 而是函数形状的体现

为什么微调不能当“改数据库”用

  • 微调改变的是整个函数空间
  • 不是单条事实
  • 容易引发灾难性遗忘

为什么 RAG 是必要的

  • LLM 擅长生成
  • 不擅长精确存储
  • 外部知识库提供:
    • 可控
    • 可更新
    • 可审计的事实来源

为什么“让模型记住新知识”这么难

  • 你在试图改一个连续函数
  • 而不是插入一条记录

But how do AI images and videos actually work? | Guest video by Welch Labs

  • 可迭代的过程
    • notion image
      notion image
使用 unsloth 微调 LLMDeepLearning Chapter 6
Loading...