大语言模型是如何工作的?
用通俗语言理解LLM的原理,为学习Prompt Engineering打下基础
本章学习要点
用通俗语言理解大语言模型(LLM)的工作原理
区分主流LLM(GPT/Claude/DeepSeek/Gemini)的特点
理解Temperature、Token等核心参数的含义
认识LLM的能力边界——能做什么、不能做什么
建立Prompt Engineering的价值认知与学习框架
在学习Prompt Engineering之前,你需要先理解大语言模型(LLM)是如何工作的。不需要深入数学细节,但理解基本原理能帮助你写出更好的提示词,知道为什么有些提示词有效、有些无效。
大语言模型是什么?
大语言模型(Large Language Model,简称LLM)本质上是一个经过海量文本训练的「文字预测器」。给它一段文字,它会预测接下来最可能出现的文字。ChatGPT、Claude、DeepSeek、Gemini,底层都是LLM。
打个比方:如果你在手机输入法里打「今天天气」,输入法会自动建议「真好」「不错」等词。LLM的原理与此类似,只是它的「词库」和「理解能力」强大了亿万倍——它读过互联网上几乎所有的公开文本,因此能生成连贯、有逻辑甚至有创意的内容。
更准确地说,LLM做的是「条件概率预测」:给定之前的所有Token(后面会详细解释Token),计算下一个Token是什么的概率分布,然后从中选择一个。这个看似简单的机制,在足够大的模型和数据规模下,涌现出了令人惊叹的能力——包括推理、编程、翻译、创作等。
它是怎么学会的?
LLM的训练过程可以简化为三个阶段:
阶段一:预训练(Pre-training)
模型阅读互联网上海量的文本数据——书籍、文章、网页、代码、论文、维基百科等,学习语言的模式和知识。这就像一个学生读了全世界的书,形成了广泛的知识储备。
预训练的数据量非常惊人。GPT-4级别的模型训练数据可能超过13万亿Token(相当于数十亿页文字)。训练需要数千张高端GPU(如NVIDIA A100/H100)运行数月,成本超过1亿美元。这也是为什么只有少数大公司能从头训练基础模型。
阶段二:有监督微调(Supervised Fine-tuning, SFT)
预训练后的模型只是一个「补全器」——给它半句话它能接下去,但不擅长按指令回答问题。SFT阶段用大量高质量的「指令-回答」对来训练模型,教它理解用户意图并给出有帮助的回答。
这些训练数据通常由专业的人类标注员编写。例如:指令是「用Python写一个快速排序函数」,回答是一段完整的Python代码加上解释。通过数万到数十万条这样的高质量示例,模型学会了「当用户这样问时,应该这样答」的模式。
阶段三:对齐(Alignment / RLHF)
通过人类反馈的强化学习(RLHF)等技术,让模型学会按照人类的价值观和偏好来回答问题。这一步解决的是「安全性」问题——让模型拒绝有害请求、避免偏见、保持诚实。
RLHF的过程是:让模型对同一个问题生成多个回答 → 人类评估员选出最好的 → 训练一个「奖励模型」来学习人类偏好 → 用奖励模型指导LLM生成更符合人类期望的回答。
你可以把整个过程类比为教育:预训练 = 博览群书(建立知识储备),SFT = 做习题(学习怎么回答问题),RLHF = 老师批改作业(学习什么样的回答才是好回答)。
实用建议
理解训练三阶段对Prompt Engineering很重要:预训练决定了模型「知道什么」,SFT决定了模型「怎么回答」,RLHF决定了模型「什么不能说」。当你的Prompt触发了安全过滤时,就是RLHF在起作用。
LLM的核心参数
在使用AI工具时,你会接触到几个关键参数,理解它们能帮助你更精准地控制输出:
Temperature(温度)
控制输出的随机性。Temperature=0时模型总是选择概率最高的Token,输出最确定、每次几乎一样;Temperature=1时模型会探索更多可能性,输出更多样但也更不可预测。
**使用建议**:事实性问答、代码生成 → 0-0.3(要准确);商业文案、日常对话 → 0.5-0.7(要自然);创意写作、头脑风暴 → 0.8-1.0(要新鲜)。
上下文窗口(Context Window)
模型一次能处理的最大Token数量,相当于模型的「工作记忆」。GPT-4o支持128K Token(约一本300页书),Claude 3.5支持200K Token。超出窗口的内容会被截断或丢失。
**对Prompt Engineering的影响**:上下文窗口决定了你能在一次对话中塞入多少背景信息、示例和指令。窗口越大,你能给AI的上下文越多,回答质量通常越好——但Token也越贵。
Top-P(核采样)
另一种控制多样性的参数。Top-P=0.1表示只从累计概率前10%的Token中选择。通常建议固定Top-P=1,只调Temperature——同时调两者容易产生不可预测的结果。
LLM能做什么?不能做什么?
理解了LLM的原理后,我们可以明确它的能力边界——这对写出好的Prompt至关重要:
擅长的领域
**语言理解和生成**:翻译、总结、改写、扩写、风格转换——这是LLM的核心能力。
**代码生成和调试**:从自然语言描述生成代码、解释代码、发现bug。顶级模型在标准编程测试中已超过大多数人类开发者。
**创意写作**:故事、诗歌、广告文案、剧本。擅长模仿各种写作风格和语气。
**信息整合和分析**:阅读大量文档并提取关键信息、生成结构化摘要、对比分析。
**逻辑推理**:在足够好的Prompt引导下,能完成多步逻辑推理、因果分析、决策支持。
不擅长的领域
**实时信息**:训练数据有截止日期。如果你问的是最近发生的事,模型可能不知道或给出过期信息。解决方案:使用RAG(检索增强生成)或联网搜索功能。
**精确数学计算**:LLM在「预测文字」而非真正「计算」,多位数乘法、复杂方程求解经常出错。解决方案:让LLM调用代码解释器或计算器工具。
**记忆管理**:LLM没有跨对话的长期记忆。每次新对话都从零开始。上下文窗口内的信息如果太长,模型可能会「遗忘」中间部分的内容(称为「中间丢失」问题)。
**100%准确性**:LLM会「幻觉」——自信地编造不存在的事实。这不是bug,而是预测机制的固有局限。
重要提醒
LLM的幻觉问题是Prompt Engineer必须时刻警惕的。在涉及数据、法律、医学、财务等关键信息时,务必进行人工核实。好的Prompt Engineer知道如何通过设计来降低幻觉风险(如要求模型引用来源、在不确定时说「我不知道」)。
主流LLM对比
了解不同模型的特点有助于选择最合适的工具:
**GPT-4o(OpenAI)**:综合能力强,工具调用和代码能力优秀,生态最丰富。适合大多数场景。
**Claude 3.5 Sonnet(Anthropic)**:长文分析和代码能力突出,安全性设计领先,200K超长上下文。适合长文档处理和需要高安全性的场景。
**Gemini 1.5 Pro(Google)**:超长上下文窗口(1M Token),多模态能力强,与Google生态深度集成。适合处理超长文档和视频内容。
**DeepSeek V3(深度求索)**:推理能力突出,中文表现优秀,开源可部署。适合需要本地部署或预算有限的场景。
**Qwen 2.5(阿里)**:中文能力顶级,开源且免费商用,参数规模选择多。适合中文为主的应用场景。
注意事项
不要迷信「最强模型」。不同模型在不同任务上各有优势。好的Prompt Engineer会根据任务特点选择最合适(而不是最贵)的模型。例如简单的文本分类用GPT-4o mini就够了,没必要用GPT-4o。
这和Prompt Engineering有什么关系?
理解了LLM的本质是「文字预测器」,你就明白了为什么提示词如此重要——你给它的提示词决定了它的预测方向。Prompt Engineering本质上就是「通过精心设计输入来引导模型的预测方向,获得最优输出」。
好的提示词就像好的考试题目:清晰、具体、有上下文。模糊的问题会得到模糊的答案,就像一道表述不清的考试题会让学生不知所措。
差Prompt vs 好Prompt的对比
**差**:「写一篇文章」→ 模型不知道写什么主题、多长、什么风格、给谁看,输出结果随机且泛泛。
**好**:「你是一个有10年经验的科技记者,请为36氪的读者写一篇800字的深度分析,主题是AI对会计行业的影响,要求包含数据支撑和具体案例,语气专业但不晦涩」→ 模型有了明确的方向,输出质量会高出数倍。
**为什么好?** 因为好Prompt包含了5个关键信息:角色(科技记者)、受众(36氪读者)、格式(800字深度分析)、主题(AI对会计行业影响)、要求(数据+案例+语气)。这些信息帮助模型大幅缩小了预测空间,从而生成更精准的内容。
Prompt Engineering的价值
Prompt Engineering是目前投入产出比最高的AI技能,原因有三:
**零门槛**:不需要编程基础,不需要数学背景。会打字就能开始学习。
**即时见效**:学完一个技巧就能立刻应用到工作中。不像学编程需要积累很久才能产出。
**通用性强**:无论你是什么行业——营销、法律、金融、教育、设计——Prompt技巧都能提升你使用AI的效率。
**职业价值高**:据LinkedIn 2025年数据,具备Prompt Engineering技能的职位薪资平均高出同类岗位15-25%。这一技能正从独立岗位扩散到几乎所有知识工作者的必备技能。
实用建议
学习Prompt Engineering的最佳方式是「边学边练」。从今天开始,每次使用AI工具时有意识地优化你的提示词,对比优化前后的效果差异。一周之内你就能感受到明显的进步。
下一章我们将进入实战,学习角色设定、Few-shot和格式控制三大基础技巧——这三个技巧就能让你的AI使用效率至少提升3倍。
LLM训练三阶段
LLM能力边界
Temperature与输出质量关系
章节小测验
1大语言模型(LLM)的本质是什么?
学完了吗?标记为已完成
完成所有章节后可获得证书