【斯坦福 AI 编程系列课程】01 从”猜词”到”智能”——LLM 原理揭秘

CS146S: 现代软件开发（The Modern Software Developer） 是斯坦福大学 2025 年秋季开设的一门前沿课程，由 Mihail Eric 教授主讲。课程聚焦 AI 时代的软件开发新范式——从 Coding Agent、AI IDE 到自动化运维，邀请了 Claude Code 创建者、Devin 团队、Warp CEO、a16z 合伙人等行业顶尖嘉宾分享实战经验。这是学习笔记系列的第一篇。

你有没有想过，ChatGPT 是怎么"理解"你说的话，又是怎么"生成"回答的？

如果你每天都在用 AI，却不清楚它背后的原理，这篇文章就是为你准备的。理解 LLM 的工作方式，能让你更好地使用它、驾驭它，而不是被它牵着鼻子走。

一切从"下一个词"开始

LLM 的核心原理，简单到让人难以置信：

预测下一个词。

就这么简单？是的。但就是这个简单的机制，当规模足够大时，涌现出了惊人的能力。

举个最简单的例子

你看到这句话：

今天天气真不_

你的大脑会自动预测下一个字是什么。"错"？不错。"好"？也可以。但最自然的是"错"。

LLM 做的事情和你的大脑一样：根据前面的内容，预测下一个最可能出现的词。

为什么简单却强大？

关键在于规模。

想象一下，如果一个人读过互联网上几乎所有的文字，看过无数的对话、文章、代码、书籍，他会变得多么博学。

LLM 就是这样被训练出来的。它"读"过的文本量是人类无法企及的。在这个海量阅读的基础上，它学会了语言的规律、知识之间的联系、甚至推理的能力。

LLM 是怎么被"教"出来的

一个 LLM 的诞生，要经历三个阶段。

第一阶段：预训练（Pre-training）

这是最耗资源的阶段。

模型被投喂海量文本——整个维基百科、数百万本书、几十亿个网页。它的任务很简单：读完前文，预测下一个词。

预测对了？参数微调。预测错了？参数修正。

重复几万亿次后，模型就学会了语言的"感觉"。这时候的模型叫基座模型（Base Model），它已经会说话了，但说话方式可能不太符合人类习惯。

第二阶段：监督微调（SFT）

基座模型虽然会说话，但它不懂"问答"的格式。你问它问题，它可能接着你的问题继续往下编。

所以需要教它：当用户这样问时，你应该那样答。

方法是用高质量的问答数据来训练。人类标注员精心编写问题和答案，让模型学习这种对话模式。

经过这一步，模型就变成了"助手"——它会回答问题，而不是继续编故事。

第三阶段：人类反馈强化学习（RLHF）

这时候的模型已经能用了，但它的回答可能不符合人类偏好。比如，同一个问题可能有多种回答方式，有些更准确、更友好、更安全。

RLHF 的做法是：让模型生成多个回答，人类来排序哪个更好。然后用这些偏好数据来"奖励"模型，让它更倾向于生成人类喜欢的回答。

这一步让模型从"能用"变成"好用"。

几个你必须知道的概念

使用 LLM 时，你会遇到一些参数。理解它们，能让你更好地控制输出。

Token（词元）

LLM 不直接处理文字，而是处理 Token。一个 Token 大约是 0.75 个英文单词，或者 1-2 个中文字。

"Hello World" = 2 tokens
"你好世界" = 4 tokens

计费、限流、上下文长度，都是按 Token 算的。

Context Window（上下文窗口）

这是模型能"记住"的最大 Token 数。就像人的短期记忆容量有限一样，LLM 也有上限。

GPT-4 Turbo: 128K tokens
Claude 3: 200K tokens

超过这个限制，早期的内容就会被"遗忘"。

Temperature（温度）

控制输出的随机性。取值 0-2。

Temperature = 0：每次回答都一样，确定性最高
Temperature = 0.7：有变化，但还算稳定
Temperature = 1+：更有创意，但也更不可控

写代码用 0，写诗用 0.7-1。

Top-p（核采样）

另一种控制多样性的方式。模型会考虑累积概率达到 p 的那些词，忽略剩下的。

Top-p = 0.1：只考虑最可能的 10% 的词
Top-p = 0.9：考虑最可能的 90% 的词

通常 Temperature 和 Top-p 调一个就够了。

实用建议

如何选择模型？

场景	推荐模型
日常对话、写作	GPT-4o, Claude 3.5 Sonnet
代码生成	Claude 3.5 Sonnet, GPT-4o
长文档处理	Claude 3 (200K context)
快速响应	GPT-4o mini, Claude 3 Haiku
本地部署	Llama 3, Qwen 2.5

参数怎么调？

写代码、分析任务：

Temperature: 0
Top-p: 1

日常对话、内容创作：

Temperature: 0.7
Top-p: 0.9

创意写作、头脑风暴：

Temperature: 1-1.5
Top-p: 0.9

小结

LLM 的核心原理是"预测下一个词"，但当规模足够大时，它涌现出了理解和推理的能力。

一个 LLM 的训练要经历三个阶段：

预训练：学习语言的基础模式
监督微调：学会对话的格式
RLHF：对齐人类的偏好

理解这些原理，能帮你更好地选择模型、调整参数、设计提示词。

下一期，我们会深入 Prompt Engineering 的基础技巧，包括 Zero-shot、Few-shot 和 Chain of Thought。

下期预告：Prompt Engineering 基础篇——如何让 AI 更懂你

本文基于 Stanford CS146S: The Modern Software Developer 课程内容整理

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31