How LLMs Actually Work: 0xkato Transformer Walkthrough¶

Ch01.877 How LLMs Actually Work: 0xkato Transformer Walkthrough¶

📊 Level ⭐⭐⭐ | 8.8KB | entities/how-llms-actually-work-0xkato.md

How LLMs Actually Work: 0xkato Transformer Walkthrough¶

原文存档：原文存档

概述¶

0xkato 2026-06-01 发布的 transformer 完整 walkthrough 长文，9 节系统覆盖 LLM 内部机制，避免数学但保留工程准确性。目标读者：能读 modern LLM papers 和 model cards 的人。

9 节路径（即 transformer pipeline 的"数据流"）： 1. Tokens — 字符串如何变整数序列 2. Embeddings — 整数如何获得语义 3. Positional encoding — 模型如何知道 token 顺序 4. Attention — tokens 如何相互通信 5. Multi-head attention — 多种关系并行追踪 6. Feed-forward network — 模型"存储结构"的主要载体 7. Residual stream + layer norm — 深度堆叠可训练性 8. Next-token prediction — 实际输出 + generation loop 9. Architecture vs trained weights — 跨模型共性 vs 差异性

风格特征：每节穿插 "Tiny explainer" 灰色小框（如 vector / vocabulary / positional encoding 定义），让非专业读者也能跟上。

关键内容精要¶

1. Tokenization¶

核心机制：string → 整数 ID 序列，每个 ID 对应 vocabulary 中一个 entry
现代 vocabulary size：数万到数十万
Subword 分词：whole-word vocab 太大、character-level 太小 → subword 折中
"tokenization" → ["token", "ization"]
"running" → ["run", "ning"]
多 tokenizer 并存：
GPT 系列用 BPE 变种
LLaMA 系列用 SentencePiece
著名"strawberry 计数 R 失败"现象：不是 counting 失败，是 LLM 操作 token ID 而非字母

2. Embeddings¶

Embedding matrix：vocab_size × hidden_size 查找表（7B 模型 4096 dim）
语义几何：相似 token 邻近（"king" ≈ "queen"），arithmetic 有时工作（king − man + woman ≈ queen）
核心局限：embedding 不携带位置信息

3. Positional encoding¶

核心问题：plain self-attention 不知道 word order（"dog bites" vs "bites dog" 顺序颠倒）
Vaswani 2017 sinusoidal：给每个 position 一个 sine/cosine 模式，加到 embedding 上
RoPE（Su et al. 2021）：现代 LLaMA 系模型用 rotation-based 方案，更好的 length extrapolation

4. Attention + 5. Multi-head¶

Self-attention：tokens 相互 share information
Multi-head：并行追踪多种关系（语法、语义、上下文依赖...）

6. Feed-forward network¶

存储结构的主要载体：参数量在 FFN 中通常占大头
这是"模型 knowledge 集中地"的概念框架

7. Residual stream + Layer norm¶

Residual stream：让 deep stack 可训练（gradient flow）
Layer norm：稳定训练

8. Next-token prediction¶

模型实际输出 = vocabulary 上的概率分布
Generation loop：predict → sample → append → repeat

9. Architecture vs trained weights¶

跨模型共性：所有 modern LLM 共享 transformer skeleton
跨模型差异：训练数据、scale、configuration、post-training

实践价值¶

0 数学门槛：避开公式但保工程准确性——适合 onboarding 工程师 / 研究者
可读 LLM papers：读完能区分 paper 中讲的"哪段对应 transformer 哪部分"
Tiny explainer 设计：把概念凝练成 1 段，可作为团队内部 onboarding 材料
Vaswani 2017 + Su 2021 引用：原始论文锚点准确

与现有 LLM 架构实体的差异化¶

entities/agent-security-three-step-sequence-harness-governance-identity-crewai.md 等大量 entities 涉及 LLM 应用层（agent / harness），但没有任何现有 entity 专门做"LLM 内部机制 walkthrough"——本 entity 填补了"基础架构教学层"的空白。

适合做以下 wiki 内部引用： - concepts/llm-architecture 章节的入门 reference（待该 concept 存在时再链接） - 新人工程师 onboarding 路径上的"必读材料"

上线状态¶

原文 URL: https://www.0xkato.xyz/how-llms-actually-work/
作者：0xkato
发布日期：2026-06-01
阅读时长：26 分钟
篇幅：~30KB（含 tiny explainer callouts）

深度分析¶

1. "LLM 如何工作"的教育必要性¶

在 LLM 被广泛使用但很少被理解的当下，0xKato 的拆解填补了一个关键空白：大多数 LLM 用户不了解 tokenization、attention、sampling 的工作原理，导致错误的使用预期和不合理的信任/不信任。

2. Tokenization 是理解 LLM 行为的第一把钥匙¶

LLM 不是"读文字"而是"读 token"——这一事实解释了 LLM 的许多"奇怪"行为：对拼写变化的敏感度、对某些语言的处理劣势、对重复 token 的偏好。理解 tokenization 是理解 LLM 能力边界的前提。

3. Sampling 温度的工程含义¶

温度参数不只是"创造性旋钮"——它控制的是概率分布的熵，直接影响输出的多样性和可重复性。温度=0 时输出确定但保守，温度高时输出多样但不可控。工程实践中应根据任务类型而非"感觉"设定温度。

4. Attention 机制的可解释性价值¶

Attention 权重的可视化是理解"模型在看什么"的最佳工具——它不是黑箱，而是可审查的加权图。对安全敏感场景，attention 热力图可以揭示模型是否在关注正确的输入部分。

5. 从机制理解到使用策略¶

理解 LLM 的工作机制直接导向更好的使用策略：知道 tokenization 的特性后可以优化提示词格式、知道 sampling 的特性后可以调参、知道 attention 的特性后可以设计上下文结构。

实践启示¶

1. 用 tokenizer 可视化工具检查你的提示词¶

在提交重要提示词前，用 tokenizer 工具检查 token 分割——某些措辞可能产生不理想的 token 序列。

2. 按任务类型而非感觉设定温度¶

代码生成/数学推理：温度 0-0.2；创意写作/头脑风暴：0.7-1.0；通用对话：0.3-0.5。这是实践验证的经验范围。

3. 利用 attention 热力图调试输出¶

当 LLM 给出错误答案时，检查 attention 热力图（如果可用）——模型可能关注了错误的输入部分，而非"不理解"问题。

4. 将 LLM 机制知识纳入团队培训¶

不要只教"如何写提示词"，还要教"为什么这样写"——机制理解使团队能独立解决新问题而非依赖模板。

5. 对非技术用户隐藏机制但保留影响¶

面向非技术用户的 AI 产品应隐藏 tokenization/sampling 细节，但通过预设配置（"精确模式"/"创意模式"）让用户间接控制这些参数。

原文链接¶

→ 原文存档

How LLMs Actually Work: 0xkato Transformer Walkthrough¶

Ch01.877 How LLMs Actually Work: 0xkato Transformer Walkthrough¶

How LLMs Actually Work: 0xkato Transformer Walkthrough¶

概述¶

关键内容精要¶

1. Tokenization¶

2. Embeddings¶

3. Positional encoding¶

4. Attention + 5. Multi-head¶

6. Feed-forward network¶

7. Residual stream + Layer norm¶

8. Next-token prediction¶

9. Architecture vs trained weights¶

实践价值¶

与现有 LLM 架构实体的差异化¶

上线状态¶

深度分析¶

1. "LLM 如何工作"的教育必要性¶

2. Tokenization 是理解 LLM 行为的第一把钥匙¶

3. Sampling 温度的工程含义¶

4. Attention 机制的可解释性价值¶

5. 从机制理解到使用策略¶

实践启示¶

1. 用 tokenizer 可视化工具检查你的提示词¶

2. 按任务类型而非感觉设定温度¶

3. 利用 attention 热力图调试输出¶

4. 将 LLM 机制知识纳入团队培训¶

5. 对非技术用户隐藏机制但保留影响¶

相关实体¶

原文链接¶