学院/AI核心概念百科/大语言模型核心概念：Token、Embedding与Transformer

免费章节 14分钟Chapter 2/5

大语言模型核心概念：Token、Embedding与Transformer

深入理解LLM的核心机制、主流模型和关键参数

本章学习要点

第 2 / 5 章

区分AI/AGI/ASI/ANI四个层次的含义

理解机器学习、深度学习与神经网络的关系

掌握训练(Training)与推理(Inference)的区别

了解模型参数量(7B/70B/405B)的实际意义

区分开源模型与闭源模型的优劣势

当你使用ChatGPT或Claude时，你输入的每一个字都会经历一系列精密的处理步骤。本章将揭开大语言模型的核心机制，帮你真正理解Token、Embedding、Transformer这些高频术语背后的含义。

Token：AI的最小阅读单位

**Token是什么？** 大语言模型不是逐字阅读文本的，而是将文本切分成一个个Token来处理。Token是模型处理文本的最小单位。

**英文Token**：大约1个Token ≈ 0.75个单词，或者说1个单词 ≈ 1.3个Token。「Hello world」= 2个Token，「Artificial intelligence」= 2-3个Token。

**中文Token**：中文的Token切分更复杂。一个汉字通常占1-2个Token，常用词组可能被编码为1个Token。「人工智能」可能是2-3个Token。

**为什么Token很重要？** 因为LLM的所有限制和计费都基于Token：上下文窗口（Context Window）用Token衡量，API调用按Token计费，生成速度按Token/秒衡量。

实用建议

快速估算Token数：英文约为单词数×1.3，中文约为字符数×1.5。大多数AI平台都提供Token计数器工具，实际使用时可以先测试几条典型请求来估算成本。

上下文窗口（Context Window）

上下文窗口是模型一次能处理的最大Token数量。你可以把它理解为模型的「工作记忆」——窗口越大，模型能同时考虑的信息越多。

**主流模型的上下文窗口**：GPT-4o（128K Token）、Claude 3.5 Sonnet（200K Token）、Gemini 1.5 Pro（1M Token）、Kimi（200K Token）。128K Token大约相当于一本300页的书。

**上下文窗口的影响**：窗口太小 → 长对话或长文档无法完整处理。窗口很大 → 可以一次分析整本书、整个代码库，但Token成本也更高。

Embedding：将文字变成数字

**Embedding是什么？** 计算机不能直接理解文字，需要将文字转换成数字向量（一串数字）来处理。Embedding就是这个转换过程。

**向量（Vector）**：每个Token被转换成一个高维向量，例如一个包含768或1536个数字的数组。这些数字编码了Token的语义信息——意思相近的词在向量空间中距离更近。

**语义相似度**：在Embedding空间中，「国王」和「女王」的向量距离很近，「国王」和「苹果」的距离很远。这就是AI能理解语义的基础。

**Embedding的应用**：语义搜索（找到意思相近而不只是关键词匹配的结果）、RAG（检索增强生成）、推荐系统、文本分类。

重要提醒

Embedding是理解RAG（检索增强生成）的前置知识。RAG的核心就是：先把文档转成Embedding存入向量数据库，查询时通过Embedding相似度找到相关文档。

向量数据库（Vector Database）

普通数据库存储结构化数据（表格、数字、文字），向量数据库专门存储和检索Embedding向量。它的核心能力是「相似度搜索」——给一个查询向量，快速找到最相似的向量。

**主流向量数据库**：Pinecone（云托管，开箱即用）、Weaviate（开源，功能全面）、Milvus（开源，国内用户多）、ChromaDB（轻量级，适合原型开发）、Qdrant（高性能，Rust编写）。

Transformer：现代AI的基石架构

Transformer是2017年Google论文《Attention Is All You Need》提出的神经网络架构，是GPT、BERT、Claude等所有主流大模型的底层架构。

**核心创新——注意力机制（Attention）**：Transformer的核心是「自注意力机制」（Self-Attention）。通俗地说，当模型处理一个句子时，注意力机制让每个词都能「关注」句子中的其他词，理解词与词之间的关系。

**例子**：「小明把苹果给了小红，她很高兴」——注意力机制能让模型理解「她」指的是「小红」而不是「苹果」，因为模型会计算「她」与句中其他词的关联强度。

**为什么Transformer如此重要？** 之前的RNN（循环神经网络）只能逐步处理文本，无法并行计算，训练速度慢。Transformer可以并行处理整个序列，训练效率大幅提升，这使得训练超大规模模型成为可能。

主流大模型速览

**GPT系列（OpenAI）**：GPT-4o是当前旗舰，GPT-4o mini是性价比版本。强项是通用能力和工具调用。

**Claude系列（Anthropic）**：Claude 3.5 Sonnet是综合性能最强的模型之一。强项是长文分析、代码和安全性。

**Gemini系列（Google）**：Gemini 1.5 Pro拥有超长上下文窗口（1M Token）。强项是多模态和信息整合。

**开源代表**：LLaMA 3（Meta，通用能力强）、Qwen 2.5（阿里，中文能力优秀）、DeepSeek V3（深度求索，推理能力突出）、Mistral（法国，效率高）。

关键参数：Temperature和Top-P

**Temperature（温度）**：控制输出的随机性。Temperature=0时输出最确定（每次一样），Temperature=1时输出更随机多样。写代码建议0-0.3，创意写作建议0.7-1.0。

**Top-P（核采样）**：另一种控制多样性的参数。Top-P=0.1表示只从概率最高的前10%Token中选择，Top-P=1.0表示从所有Token中选择。通常与Temperature配合使用。

注意事项

Temperature和Top-P通常不需要同时调整。建议固定其中一个（如Top-P=1），只调整另一个（Temperature）来控制输出风格。同时调整两者容易产生不可预测的结果。

本章术语速查表

**Token**：LLM处理文本的最小单位。**上下文窗口**：模型一次能处理的最大Token数。**Embedding**：将文字转换为数字向量的过程。**向量数据库**：专门存储和检索Embedding的数据库。**Transformer**：现代大模型的基石架构。**注意力机制**：让模型理解词与词之间关系的核心技术。**Temperature**：控制输出随机性的参数。**Top-P**：控制采样范围的参数。

文本处理流程

输入文本

Token化(分词)

Embedding(向量化)

Transformer处理

生成输出Token

解码为文本

主流模型对比

GPT-4o(OpenAI/闭源) | Claude 3.5(Anthropic/闭源) | Gemini 1.5(Google/闭源) | LLaMA 3(Meta/开源) | Qwen 2.5(阿里/开源)

章节测验

1/4

1Token是什么？

理解了大语言模型的核心机制后，下一章我们将学习如何与AI交互的关键技术——Prompt工程、RAG和Function Calling。

AI基础概念与模型：从机器学习到大语言模型

提示词与交互技术：Prompt、RAG与Function Calling

本课程章节

AI基础概念与模型：从机器学习到大语言模型大语言模型核心概念：Token、Embedding与Transformer 提示词与交互技术：Prompt、RAG与Function Calling AI Agent与工具生态：MCP、LangChain与开发工具 AI行业术语与商业概念：从SaaS到AI治理

学完了吗？标记为已完成

完成所有章节后可获得证书

想解锁全部课程内容？

购买完整学习包，获得所有章节 + 认证指南 + 求职模板

查看完整课程