学院/AI核心概念百科/AI基础概念与模型:从机器学习到大语言模型
免费章节 12分钟Chapter 1/5

AI基础概念与模型:从机器学习到大语言模型

系统理解AI/ML/DL的区别、训练与推理、开源与闭源模型

本章学习要点

1 / 5
1

区分AI/AGI/ASI/ANI四个层次的含义

2

理解机器学习、深度学习与神经网络的关系

3

掌握训练(Training)与推理(Inference)的区别

4

了解模型参数量(7B/70B/405B)的实际意义

5

区分开源模型与闭源模型的优劣势

AI正在重塑每一个行业,但很多人对AI的基础概念仍然模糊不清。本章将用最通俗的语言,帮你建立从AI到ML到DL的完整知识框架,并理解训练、推理、微调等核心流程。

AI、ML、DL:三层嵌套关系

这三个术语经常被混用,但它们有清晰的层级关系:

**人工智能(Artificial Intelligence, AI)**:最广义的概念,指让机器表现出「智能行为」的所有技术。从最简单的规则引擎(if-else逻辑)到最先进的大语言模型,都属于AI的范畴。

**机器学习(Machine Learning, ML)**:AI的一个子集。核心思想是让机器通过数据自动学习规律,而不是人工编写规则。你给它1万张猫的图片,它自己学会识别猫——而不需要你告诉它「猫有胡须、有尖耳朵」。

**深度学习(Deep Learning, DL)**:ML的一个子集。使用多层神经网络(Neural Network)来处理复杂模式。ChatGPT、Midjourney、Sora等当前最热门的AI产品,底层都是深度学习。

实用建议

记忆口诀:AI是最大的圈,ML是中间的圈,DL是最小的圈——它们是包含关系,不是并列关系。面试或日常沟通中要注意区分。

训练(Training)vs 推理(Inference)

这是理解AI系统运作的最关键的一对概念:

**训练(Training)**:用大量数据「教」模型学习知识和能力的过程。训练GPT-4级别的模型需要数千张GPU、数月时间和数亿美元投入。训练是「学习」阶段,产出的是一个模型文件(即模型权重)。

**推理(Inference)**:使用训练好的模型来处理新输入、产生输出的过程。当你向ChatGPT提问时,它做的就是推理。推理的成本远低于训练,但需要实时响应,对延迟有要求。

类比:训练就像学生花4年上大学学习知识,推理就像毕业后用学到的知识工作。大学很贵(训练成本高),但工作时的「用脑成本」相对低(推理成本低)。

微调(Fine-tuning)

微调是在已经训练好的基础模型上,用特定领域的数据进行额外训练,让模型在某个专业方向上表现更好。

**为什么需要微调?** 基础模型(如GPT-4、Claude)是通才,什么都懂但不够专。如果你需要一个专精医疗问答的AI,可以用医学文献和问答数据微调基础模型,让它在医疗领域的准确率大幅提升。

**微调的成本**:远低于从头训练。基础模型训练需要数亿美元,微调可能只需要几千到几万美元。

**常见微调方法**:全参数微调(Full Fine-tuning,调整所有参数)、LoRA(Low-Rank Adaptation,只调整少量参数,效率更高)、QLoRA(量化版LoRA,进一步降低硬件要求)。

重要提醒

区分三个层次:训练是从零建造一栋楼(数亿美元),微调是对楼做精装修(数千到数万美元),提示词工程是告诉住客怎么使用房间(几乎零成本)。大多数人和企业需要的是后两者,而非从零训练。

开源模型 vs 闭源模型

**闭源模型(Closed-source)**:模型权重不公开,只能通过API或官方产品使用。代表:GPT-4(OpenAI)、Claude(Anthropic)、Gemini(Google)。优点是性能顶尖、使用方便;缺点是数据隐私受限、无法自定义部署。

**开源模型(Open-source)**:模型权重公开,任何人可以下载、部署和修改。代表:LLaMA 3(Meta)、Qwen(阿里)、DeepSeek(深度求索)、Mistral。优点是可以本地部署保护数据隐私、可自由微调;缺点是部署和维护需要技术能力。

**开源 vs 闭源的选择**:个人学习和轻量使用 → 闭源API最方便;企业核心业务且涉及敏感数据 → 开源模型本地部署更安全;需要深度定制 → 开源模型微调。

模型参数量:7B、70B、405B是什么意思?

模型名称中的「7B」「70B」等数字代表模型的参数量(B = Billion,十亿)。参数量可以粗略理解为模型的「大脑容量」——参数越多,模型的能力上限越高,但对硬件的要求也越高。

**常见参数量级**:7B(入门级,单张消费级GPU可运行)、13B-34B(中等,需要专业GPU)、70B(高端,需要多张A100/H100)、405B+(顶级,需要GPU集群)。

注意事项

参数量不等于模型质量。经过精心微调的7B模型在特定任务上可能超过粗糙训练的70B模型。选择模型时要综合考虑任务需求、硬件条件和使用成本。

本章术语速查表

**AI(人工智能)**:让机器表现出智能行为的技术总称。**ML(机器学习)**:让机器从数据中自动学习的AI子集。**DL(深度学习)**:使用多层神经网络的ML子集。**训练**:用数据教模型学习的过程。**推理**:用训练好的模型处理新输入。**微调**:在基础模型上用专业数据做额外训练。**LoRA**:一种高效微调方法。**参数量**:衡量模型规模的指标(B=十亿)。

AI/ML/DL层级关系

人工智能(AI)
机器学习(ML)
深度学习(DL)
大语言模型(LLM)

模型生命周期

预训练(数月+数亿$)
微调(数天+数万$)
推理部署(实时+低成本)
持续优化

章节测验

1/4

1AI、ML、DL三者的关系是什么?

掌握了这些基础概念后,下一章我们将深入大语言模型的核心机制——Token、Embedding和Transformer架构。

学完了吗?标记为已完成

完成所有章节后可获得证书

想解锁全部课程内容?

购买完整学习包,获得所有章节 + 认证指南 + 求职模板

查看完整课程