跳转至

Ch01 AI 与 LLM 基础

理解大语言模型的内部机制:从 Token 到 Transformer,从预训练到推理

本章收录 913 篇实体,按深度递增排列。


本章导航

Level 含义 篇数
⭐ 入门 零基础可读 155
⭐⭐ 工程师 需编程基础 688
⭐⭐⭐ 专家 需ML基础 52
⭐⭐⭐⭐ 科学家 需研究背景 9
⭐⭐⭐⭐⭐ 大师 前沿/哲学 9

导读

你每天都在用 ChatGPT、Claude、Gemini,但你知道它内部发生了什么吗?

本章从最基础的概念开始:文字如何变成数字(Tokenization),数字如何获得语义(Embedding),模型如何理解上下文(Attention),以及它为什么能生成看似"智能"的回答(Next-Token Prediction)。

你不需要懂数学,但读完本章后,你应该能回答一个关键问题:当模型给出糟糕的回答时,是"齿轮坏了"还是"你喂错了原料"?

本章还涵盖训练动力学(模型在预训练中并非稳定进化,而是频繁跳跃)、推理优化(投机解码让吞吐提升 4 倍)、以及混合架构(Transformer 不是唯一的答案)。

这是全书的地基——后面讲 Agent、Harness、RAG 时,你会反复回到这里。



本章内容