学院/AI提示工程师/大语言模型是如何工作的？

免费章节 8分钟Chapter 1/5

大语言模型是如何工作的？

用通俗语言理解LLM的原理，为学习Prompt Engineering打下基础

本章学习要点

第 1 / 5 章

用通俗语言理解大语言模型(LLM)的工作原理

区分主流LLM（GPT/Claude/DeepSeek/Gemini）的特点

理解Temperature、Token等核心参数的含义

认识LLM的能力边界——能做什么、不能做什么

建立Prompt Engineering的价值认知与学习框架

在学习Prompt Engineering之前，你需要先理解大语言模型（LLM）是如何工作的。不需要深入数学细节，但理解基本原理能帮助你写出更好的提示词，知道为什么有些提示词有效、有些无效。

大语言模型是什么？

大语言模型（Large Language Model，简称LLM）本质上是一个经过海量文本训练的「文字预测器」。给它一段文字，它会预测接下来最可能出现的文字。ChatGPT、Claude、DeepSeek、Gemini，底层都是LLM。

打个比方：如果你在手机输入法里打「今天天气」，输入法会自动建议「真好」「不错」等词。LLM的原理与此类似，只是它的「词库」和「理解能力」强大了亿万倍——它读过互联网上几乎所有的公开文本，因此能生成连贯、有逻辑甚至有创意的内容。

更准确地说，LLM做的是「条件概率预测」：给定之前的所有Token（后面会详细解释Token），计算下一个Token是什么的概率分布，然后从中选择一个。这个看似简单的机制，在足够大的模型和数据规模下，涌现出了令人惊叹的能力——包括推理、编程、翻译、创作等。

它是怎么学会的？

LLM的训练过程可以简化为三个阶段：

阶段一：预训练（Pre-training）

模型阅读互联网上海量的文本数据——书籍、文章、网页、代码、论文、维基百科等，学习语言的模式和知识。这就像一个学生读了全世界的书，形成了广泛的知识储备。

预训练的数据量非常惊人。GPT-4级别的模型训练数据可能超过13万亿Token（相当于数十亿页文字）。训练需要数千张高端GPU（如NVIDIA A100/H100）运行数月，成本超过1亿美元。这也是为什么只有少数大公司能从头训练基础模型。

阶段二：有监督微调（Supervised Fine-tuning, SFT）

预训练后的模型只是一个「补全器」——给它半句话它能接下去，但不擅长按指令回答问题。SFT阶段用大量高质量的「指令-回答」对来训练模型，教它理解用户意图并给出有帮助的回答。

这些训练数据通常由专业的人类标注员编写。例如：指令是「用Python写一个快速排序函数」，回答是一段完整的Python代码加上解释。通过数万到数十万条这样的高质量示例，模型学会了「当用户这样问时，应该这样答」的模式。

阶段三：对齐（Alignment / RLHF）

通过人类反馈的强化学习（RLHF）等技术，让模型学会按照人类的价值观和偏好来回答问题。这一步解决的是「安全性」问题——让模型拒绝有害请求、避免偏见、保持诚实。

RLHF的过程是：让模型对同一个问题生成多个回答 → 人类评估员选出最好的 → 训练一个「奖励模型」来学习人类偏好 → 用奖励模型指导LLM生成更符合人类期望的回答。

你可以把整个过程类比为教育：预训练 = 博览群书（建立知识储备），SFT = 做习题（学习怎么回答问题），RLHF = 老师批改作业（学习什么样的回答才是好回答）。

实用建议

理解训练三阶段对Prompt Engineering很重要：预训练决定了模型「知道什么」，SFT决定了模型「怎么回答」，RLHF决定了模型「什么不能说」。当你的Prompt触发了安全过滤时，就是RLHF在起作用。

LLM的核心参数

在使用AI工具时，你会接触到几个关键参数，理解它们能帮助你更精准地控制输出：

Temperature（温度）

控制输出的随机性。Temperature=0时模型总是选择概率最高的Token，输出最确定、每次几乎一样；Temperature=1时模型会探索更多可能性，输出更多样但也更不可预测。

**使用建议**：事实性问答、代码生成 → 0-0.3（要准确）；商业文案、日常对话 → 0.5-0.7（要自然）；创意写作、头脑风暴 → 0.8-1.0（要新鲜）。

上下文窗口（Context Window）

模型一次能处理的最大Token数量，相当于模型的「工作记忆」。GPT-4o支持128K Token（约一本300页书），Claude 3.5支持200K Token。超出窗口的内容会被截断或丢失。

**对Prompt Engineering的影响**：上下文窗口决定了你能在一次对话中塞入多少背景信息、示例和指令。窗口越大，你能给AI的上下文越多，回答质量通常越好——但Token也越贵。

Top-P（核采样）

另一种控制多样性的参数。Top-P=0.1表示只从累计概率前10%的Token中选择。通常建议固定Top-P=1，只调Temperature——同时调两者容易产生不可预测的结果。

LLM能做什么？不能做什么？

理解了LLM的原理后，我们可以明确它的能力边界——这对写出好的Prompt至关重要：

擅长的领域

**语言理解和生成**：翻译、总结、改写、扩写、风格转换——这是LLM的核心能力。

**代码生成和调试**：从自然语言描述生成代码、解释代码、发现bug。顶级模型在标准编程测试中已超过大多数人类开发者。

**创意写作**：故事、诗歌、广告文案、剧本。擅长模仿各种写作风格和语气。

**信息整合和分析**：阅读大量文档并提取关键信息、生成结构化摘要、对比分析。

**逻辑推理**：在足够好的Prompt引导下，能完成多步逻辑推理、因果分析、决策支持。

不擅长的领域

**实时信息**：训练数据有截止日期。如果你问的是最近发生的事，模型可能不知道或给出过期信息。解决方案：使用RAG（检索增强生成）或联网搜索功能。

**精确数学计算**：LLM在「预测文字」而非真正「计算」，多位数乘法、复杂方程求解经常出错。解决方案：让LLM调用代码解释器或计算器工具。

**记忆管理**：LLM没有跨对话的长期记忆。每次新对话都从零开始。上下文窗口内的信息如果太长，模型可能会「遗忘」中间部分的内容（称为「中间丢失」问题）。

**100%准确性**：LLM会「幻觉」——自信地编造不存在的事实。这不是bug，而是预测机制的固有局限。

重要提醒

LLM的幻觉问题是Prompt Engineer必须时刻警惕的。在涉及数据、法律、医学、财务等关键信息时，务必进行人工核实。好的Prompt Engineer知道如何通过设计来降低幻觉风险（如要求模型引用来源、在不确定时说「我不知道」）。

主流LLM对比

了解不同模型的特点有助于选择最合适的工具：

**GPT-4o（OpenAI）**：综合能力强，工具调用和代码能力优秀，生态最丰富。适合大多数场景。

**Claude 3.5 Sonnet（Anthropic）**：长文分析和代码能力突出，安全性设计领先，200K超长上下文。适合长文档处理和需要高安全性的场景。

**Gemini 1.5 Pro（Google）**：超长上下文窗口（1M Token），多模态能力强，与Google生态深度集成。适合处理超长文档和视频内容。

**DeepSeek V3（深度求索）**：推理能力突出，中文表现优秀，开源可部署。适合需要本地部署或预算有限的场景。

**Qwen 2.5（阿里）**：中文能力顶级，开源且免费商用，参数规模选择多。适合中文为主的应用场景。

注意事项

不要迷信「最强模型」。不同模型在不同任务上各有优势。好的Prompt Engineer会根据任务特点选择最合适（而不是最贵）的模型。例如简单的文本分类用GPT-4o mini就够了，没必要用GPT-4o。

这和Prompt Engineering有什么关系？

理解了LLM的本质是「文字预测器」，你就明白了为什么提示词如此重要——你给它的提示词决定了它的预测方向。Prompt Engineering本质上就是「通过精心设计输入来引导模型的预测方向，获得最优输出」。

好的提示词就像好的考试题目：清晰、具体、有上下文。模糊的问题会得到模糊的答案，就像一道表述不清的考试题会让学生不知所措。

差Prompt vs 好Prompt的对比

**差**：「写一篇文章」→ 模型不知道写什么主题、多长、什么风格、给谁看，输出结果随机且泛泛。

**好**：「你是一个有10年经验的科技记者，请为36氪的读者写一篇800字的深度分析，主题是AI对会计行业的影响，要求包含数据支撑和具体案例，语气专业但不晦涩」→ 模型有了明确的方向，输出质量会高出数倍。

**为什么好？** 因为好Prompt包含了5个关键信息：角色（科技记者）、受众（36氪读者）、格式（800字深度分析）、主题（AI对会计行业影响）、要求（数据+案例+语气）。这些信息帮助模型大幅缩小了预测空间，从而生成更精准的内容。

Prompt Engineering的价值

Prompt Engineering是目前投入产出比最高的AI技能，原因有三：

**零门槛**：不需要编程基础，不需要数学背景。会打字就能开始学习。

**即时见效**：学完一个技巧就能立刻应用到工作中。不像学编程需要积累很久才能产出。

**通用性强**：无论你是什么行业——营销、法律、金融、教育、设计——Prompt技巧都能提升你使用AI的效率。

**职业价值高**：据LinkedIn 2025年数据，具备Prompt Engineering技能的职位薪资平均高出同类岗位15-25%。这一技能正从独立岗位扩散到几乎所有知识工作者的必备技能。

实用建议

学习Prompt Engineering的最佳方式是「边学边练」。从今天开始，每次使用AI工具时有意识地优化你的提示词，对比优化前后的效果差异。一周之内你就能感受到明显的进步。

下一章我们将进入实战，学习角色设定、Few-shot和格式控制三大基础技巧——这三个技巧就能让你的AI使用效率至少提升3倍。

LLM训练三阶段

预训练(博览群书/建立知识)

SFT有监督微调(做习题/学会回答)

RLHF对齐(批改作业/学会安全)

LLM能力边界

擅长:语言理解+代码生成+创意写作+信息分析 | 不擅长:实时信息+精确计算+长期记忆+100%准确

Temperature与输出质量关系

Temperature 0(最确定/重复)

0.3(准确/适合代码)

0.7(自然/适合文案)

1.0(多样/适合创意)

章节小测验

1/5

1大语言模型(LLM)的本质是什么？

你的第一个高质量Prompt

本课程章节

大语言模型是如何工作的？你的第一个高质量Prompt 思维链提示：让AI一步步推理实战项目：为企业搭建一套Prompt模板库完成评估解锁提示工程师求职指南与职业发展完成评估解锁

学完了吗？标记为已完成

完成所有章节后可获得证书

想解锁全部课程内容？

购买完整学习包，获得所有章节 + 认证指南 + 求职模板

查看完整课程