学院/AI核心概念百科/AI基础概念与模型：从机器学习到大语言模型

免费章节 12分钟Chapter 1/5

AI基础概念与模型：从机器学习到大语言模型

系统理解AI/ML/DL的区别、训练与推理、开源与闭源模型

本章学习要点

第 1 / 5 章

区分AI/AGI/ASI/ANI四个层次的含义

理解机器学习、深度学习与神经网络的关系

掌握训练(Training)与推理(Inference)的区别

了解模型参数量(7B/70B/405B)的实际意义

区分开源模型与闭源模型的优劣势

AI正在重塑每一个行业，但很多人对AI的基础概念仍然模糊不清。本章将用最通俗的语言，帮你建立从AI到ML到DL的完整知识框架，并理解训练、推理、微调等核心流程。

AI、ML、DL：三层嵌套关系

这三个术语经常被混用，但它们有清晰的层级关系：

**人工智能（Artificial Intelligence, AI）**：最广义的概念，指让机器表现出「智能行为」的所有技术。从最简单的规则引擎（if-else逻辑）到最先进的大语言模型，都属于AI的范畴。

**机器学习（Machine Learning, ML）**：AI的一个子集。核心思想是让机器通过数据自动学习规律，而不是人工编写规则。你给它1万张猫的图片，它自己学会识别猫——而不需要你告诉它「猫有胡须、有尖耳朵」。

**深度学习（Deep Learning, DL）**：ML的一个子集。使用多层神经网络（Neural Network）来处理复杂模式。ChatGPT、Midjourney、Sora等当前最热门的AI产品，底层都是深度学习。

实用建议

记忆口诀：AI是最大的圈，ML是中间的圈，DL是最小的圈——它们是包含关系，不是并列关系。面试或日常沟通中要注意区分。

训练（Training）vs 推理（Inference）

这是理解AI系统运作的最关键的一对概念：

**训练（Training）**：用大量数据「教」模型学习知识和能力的过程。训练GPT-4级别的模型需要数千张GPU、数月时间和数亿美元投入。训练是「学习」阶段，产出的是一个模型文件（即模型权重）。

**推理（Inference）**：使用训练好的模型来处理新输入、产生输出的过程。当你向ChatGPT提问时，它做的就是推理。推理的成本远低于训练，但需要实时响应，对延迟有要求。

类比：训练就像学生花4年上大学学习知识，推理就像毕业后用学到的知识工作。大学很贵（训练成本高），但工作时的「用脑成本」相对低（推理成本低）。

微调（Fine-tuning）

微调是在已经训练好的基础模型上，用特定领域的数据进行额外训练，让模型在某个专业方向上表现更好。

**为什么需要微调？** 基础模型（如GPT-4、Claude）是通才，什么都懂但不够专。如果你需要一个专精医疗问答的AI，可以用医学文献和问答数据微调基础模型，让它在医疗领域的准确率大幅提升。

**微调的成本**：远低于从头训练。基础模型训练需要数亿美元，微调可能只需要几千到几万美元。

**常见微调方法**：全参数微调（Full Fine-tuning，调整所有参数）、LoRA（Low-Rank Adaptation，只调整少量参数，效率更高）、QLoRA（量化版LoRA，进一步降低硬件要求）。

重要提醒

区分三个层次：训练是从零建造一栋楼（数亿美元），微调是对楼做精装修（数千到数万美元），提示词工程是告诉住客怎么使用房间（几乎零成本）。大多数人和企业需要的是后两者，而非从零训练。

开源模型 vs 闭源模型

**闭源模型（Closed-source）**：模型权重不公开，只能通过API或官方产品使用。代表：GPT-4（OpenAI）、Claude（Anthropic）、Gemini（Google）。优点是性能顶尖、使用方便；缺点是数据隐私受限、无法自定义部署。

**开源模型（Open-source）**：模型权重公开，任何人可以下载、部署和修改。代表：LLaMA 3（Meta）、Qwen（阿里）、DeepSeek（深度求索）、Mistral。优点是可以本地部署保护数据隐私、可自由微调；缺点是部署和维护需要技术能力。

**开源 vs 闭源的选择**：个人学习和轻量使用 → 闭源API最方便；企业核心业务且涉及敏感数据 → 开源模型本地部署更安全；需要深度定制 → 开源模型微调。

模型参数量：7B、70B、405B是什么意思？

模型名称中的「7B」「70B」等数字代表模型的参数量（B = Billion，十亿）。参数量可以粗略理解为模型的「大脑容量」——参数越多，模型的能力上限越高，但对硬件的要求也越高。

**常见参数量级**：7B（入门级，单张消费级GPU可运行）、13B-34B（中等，需要专业GPU）、70B（高端，需要多张A100/H100）、405B+（顶级，需要GPU集群）。

注意事项

参数量不等于模型质量。经过精心微调的7B模型在特定任务上可能超过粗糙训练的70B模型。选择模型时要综合考虑任务需求、硬件条件和使用成本。

本章术语速查表

**AI（人工智能）**：让机器表现出智能行为的技术总称。**ML（机器学习）**：让机器从数据中自动学习的AI子集。**DL（深度学习）**：使用多层神经网络的ML子集。**训练**：用数据教模型学习的过程。**推理**：用训练好的模型处理新输入。**微调**：在基础模型上用专业数据做额外训练。**LoRA**：一种高效微调方法。**参数量**：衡量模型规模的指标（B=十亿）。

AI/ML/DL层级关系

人工智能(AI)

机器学习(ML)

深度学习(DL)

大语言模型(LLM)

模型生命周期

预训练(数月+数亿$)

微调(数天+数万$)

推理部署(实时+低成本)

持续优化

章节测验

1/4

1AI、ML、DL三者的关系是什么？

掌握了这些基础概念后，下一章我们将深入大语言模型的核心机制——Token、Embedding和Transformer架构。

大语言模型核心概念：Token、Embedding与Transformer

本课程章节

AI基础概念与模型：从机器学习到大语言模型大语言模型核心概念：Token、Embedding与Transformer 提示词与交互技术：Prompt、RAG与Function Calling AI Agent与工具生态：MCP、LangChain与开发工具 AI行业术语与商业概念：从SaaS到AI治理

学完了吗？标记为已完成

完成所有章节后可获得证书

想解锁全部课程内容？

购买完整学习包，获得所有章节 + 认证指南 + 求职模板

查看完整课程