学院/AI核心概念百科/大语言模型核心概念:Token、Embedding与Transformer
免费章节 14分钟Chapter 2/5

大语言模型核心概念:Token、Embedding与Transformer

深入理解LLM的核心机制、主流模型和关键参数

本章学习要点

2 / 5
1

区分AI/AGI/ASI/ANI四个层次的含义

2

理解机器学习、深度学习与神经网络的关系

3

掌握训练(Training)与推理(Inference)的区别

4

了解模型参数量(7B/70B/405B)的实际意义

5

区分开源模型与闭源模型的优劣势

当你使用ChatGPT或Claude时,你输入的每一个字都会经历一系列精密的处理步骤。本章将揭开大语言模型的核心机制,帮你真正理解Token、Embedding、Transformer这些高频术语背后的含义。

Token:AI的最小阅读单位

**Token是什么?** 大语言模型不是逐字阅读文本的,而是将文本切分成一个个Token来处理。Token是模型处理文本的最小单位。

**英文Token**:大约1个Token ≈ 0.75个单词,或者说1个单词 ≈ 1.3个Token。「Hello world」= 2个Token,「Artificial intelligence」= 2-3个Token。

**中文Token**:中文的Token切分更复杂。一个汉字通常占1-2个Token,常用词组可能被编码为1个Token。「人工智能」可能是2-3个Token。

**为什么Token很重要?** 因为LLM的所有限制和计费都基于Token:上下文窗口(Context Window)用Token衡量,API调用按Token计费,生成速度按Token/秒衡量。

实用建议

快速估算Token数:英文约为单词数×1.3,中文约为字符数×1.5。大多数AI平台都提供Token计数器工具,实际使用时可以先测试几条典型请求来估算成本。

上下文窗口(Context Window)

上下文窗口是模型一次能处理的最大Token数量。你可以把它理解为模型的「工作记忆」——窗口越大,模型能同时考虑的信息越多。

**主流模型的上下文窗口**:GPT-4o(128K Token)、Claude 3.5 Sonnet(200K Token)、Gemini 1.5 Pro(1M Token)、Kimi(200K Token)。128K Token大约相当于一本300页的书。

**上下文窗口的影响**:窗口太小 → 长对话或长文档无法完整处理。窗口很大 → 可以一次分析整本书、整个代码库,但Token成本也更高。

Embedding:将文字变成数字

**Embedding是什么?** 计算机不能直接理解文字,需要将文字转换成数字向量(一串数字)来处理。Embedding就是这个转换过程。

**向量(Vector)**:每个Token被转换成一个高维向量,例如一个包含768或1536个数字的数组。这些数字编码了Token的语义信息——意思相近的词在向量空间中距离更近。

**语义相似度**:在Embedding空间中,「国王」和「女王」的向量距离很近,「国王」和「苹果」的距离很远。这就是AI能理解语义的基础。

**Embedding的应用**:语义搜索(找到意思相近而不只是关键词匹配的结果)、RAG(检索增强生成)、推荐系统、文本分类。

重要提醒

Embedding是理解RAG(检索增强生成)的前置知识。RAG的核心就是:先把文档转成Embedding存入向量数据库,查询时通过Embedding相似度找到相关文档。

向量数据库(Vector Database)

普通数据库存储结构化数据(表格、数字、文字),向量数据库专门存储和检索Embedding向量。它的核心能力是「相似度搜索」——给一个查询向量,快速找到最相似的向量。

**主流向量数据库**:Pinecone(云托管,开箱即用)、Weaviate(开源,功能全面)、Milvus(开源,国内用户多)、ChromaDB(轻量级,适合原型开发)、Qdrant(高性能,Rust编写)。

Transformer:现代AI的基石架构

Transformer是2017年Google论文《Attention Is All You Need》提出的神经网络架构,是GPT、BERT、Claude等所有主流大模型的底层架构。

**核心创新——注意力机制(Attention)**:Transformer的核心是「自注意力机制」(Self-Attention)。通俗地说,当模型处理一个句子时,注意力机制让每个词都能「关注」句子中的其他词,理解词与词之间的关系。

**例子**:「小明把苹果给了小红,她很高兴」——注意力机制能让模型理解「她」指的是「小红」而不是「苹果」,因为模型会计算「她」与句中其他词的关联强度。

**为什么Transformer如此重要?** 之前的RNN(循环神经网络)只能逐步处理文本,无法并行计算,训练速度慢。Transformer可以并行处理整个序列,训练效率大幅提升,这使得训练超大规模模型成为可能。

主流大模型速览

**GPT系列(OpenAI)**:GPT-4o是当前旗舰,GPT-4o mini是性价比版本。强项是通用能力和工具调用。

**Claude系列(Anthropic)**:Claude 3.5 Sonnet是综合性能最强的模型之一。强项是长文分析、代码和安全性。

**Gemini系列(Google)**:Gemini 1.5 Pro拥有超长上下文窗口(1M Token)。强项是多模态和信息整合。

**开源代表**:LLaMA 3(Meta,通用能力强)、Qwen 2.5(阿里,中文能力优秀)、DeepSeek V3(深度求索,推理能力突出)、Mistral(法国,效率高)。

关键参数:Temperature和Top-P

**Temperature(温度)**:控制输出的随机性。Temperature=0时输出最确定(每次一样),Temperature=1时输出更随机多样。写代码建议0-0.3,创意写作建议0.7-1.0。

**Top-P(核采样)**:另一种控制多样性的参数。Top-P=0.1表示只从概率最高的前10%Token中选择,Top-P=1.0表示从所有Token中选择。通常与Temperature配合使用。

注意事项

Temperature和Top-P通常不需要同时调整。建议固定其中一个(如Top-P=1),只调整另一个(Temperature)来控制输出风格。同时调整两者容易产生不可预测的结果。

本章术语速查表

**Token**:LLM处理文本的最小单位。**上下文窗口**:模型一次能处理的最大Token数。**Embedding**:将文字转换为数字向量的过程。**向量数据库**:专门存储和检索Embedding的数据库。**Transformer**:现代大模型的基石架构。**注意力机制**:让模型理解词与词之间关系的核心技术。**Temperature**:控制输出随机性的参数。**Top-P**:控制采样范围的参数。

文本处理流程

输入文本
Token化(分词)
Embedding(向量化)
Transformer处理
生成输出Token
解码为文本

主流模型对比

GPT-4o(OpenAI/闭源) | Claude 3.5(Anthropic/闭源) | Gemini 1.5(Google/闭源) | LLaMA 3(Meta/开源) | Qwen 2.5(阿里/开源)

章节测验

1/4

1Token是什么?

理解了大语言模型的核心机制后,下一章我们将学习如何与AI交互的关键技术——Prompt工程、RAG和Function Calling。

学完了吗?标记为已完成

完成所有章节后可获得证书

想解锁全部课程内容?

购买完整学习包,获得所有章节 + 认证指南 + 求职模板

查看完整课程