从 LLM 到 Agent Skill:一条更完整的 AI 应用理解路径
基于一支系统讲解视频,整理 LLM、Token、Context、Prompt、Tool、MCP、Agent 与 Agent Skill 之间的关系。
最近看了一支很适合入门和梳理概念的视频,标题是:
《从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!》
它最有价值的地方,不是单独解释某一个术语,而是把一整条 AI 应用链路串了起来:
- LLM
- Token
- Context
- Prompt
- Tool
- MCP
- Agent
- Agent Skill
很多人平时会反复听到这些词,但脑子里是散的。这个视频做的事情,是把这些概念从“名词堆”整理成一张连续的结构图。
这篇文章就是我看完之后的整理版笔记。
1. LLM 是起点,但不是完整系统
最底层当然是 LLM(大语言模型)。
如果把整个 AI 系统比作一个能工作的数字员工,那 LLM 更像是它的大脑内核。它最擅长的是:
- 理解自然语言
- 生成文本
- 做模式归纳
- 根据已有上下文继续推断
但问题也很明确:
LLM 本身并不是数据库、浏览器、终端、搜索引擎,也不是带长期记忆的完整智能体。它更像一个强大的语言处理器,而不是一个自带全部能力的系统。
所以,后面那些 Prompt、Tool、Agent、Skill,本质上都不是为了替代模型,而是在模型外面给它补系统能力。
2. Token 是模型处理信息的基本单位
很多人第一次接触大模型时,会把 token 理解成“一个字”或者“一个词”,但实际上它更像模型内部使用的文本切片单位。
它之所以重要,是因为它直接影响:
- 你一次能输入多少内容
- 模型一次能输出多少内容
- 上下文窗口的占用
- 推理成本
也就是说,token 不是一个无关紧要的底层细节,而是一个非常现实的“资源单位”。
为什么很多长对话会失真?为什么文档一长模型就开始丢细节?为什么你感觉它前面还记得、后面突然忘了?这些很多都和 token 与 context window 有关。
3. Context 决定模型当前到底在“看什么”
视频里一个很重要的点,是把 Context(上下文) 从一个模糊概念变成了一个工程概念。
模型不是在调用什么神秘长期记忆,它主要依赖当前被塞进上下文窗口里的内容工作。这个上下文里通常包括:
- 当前问题
- 前面的对话
- system prompt
- 工具返回结果
- 注入的文档
- 任务状态
所以模型表现好不好,很多时候不只是“模型聪不聪明”,而是:
你到底给了它什么上下文,以及你有没有把真正重要的东西放进去。
这也是为什么今天越来越多人开始讲 context engineering。因为上下文不是背景板,它几乎就是模型当前的“工作台”。
4. Prompt 不只是你输入的那一句话
一提到 prompt,很多人会直接想到“提示词怎么写”。但视频里讲得更完整:
Prompt 其实是一个分层结构,至少包括:
- User Prompt:用户当前的具体请求
- System Prompt:定义角色、边界、行为方式的高层指令
如果再往真实系统里看,往往还有更多层:
- developer instructions
- tool schema
- memory snippets
- 环境注入信息
也就是说,模型最终生成结果时,并不是只听用户的一句话,而是在一整套约束和上下文里工作。
所以 prompt 的价值,不在于“会不会几句神奇咒语”,而在于它是整个系统的控制层。
5. Tool 让模型从“会说”走向“能做”
这一步是很多人理解 Agent 的关键分水岭。
如果没有 tool,LLM 再强,本质上还是一个文本生成器。它可以解释怎么查天气,但它自己并不能真的去查天气;它可以告诉你如何搜索网页,但它自己不能直接打开浏览器。
一旦接入工具,事情就变了。
Tool 可以是:
- 浏览器
- 搜索
- 文件读写
- 终端命令
- 数据库
- API 调用
有了这些,模型就不再只是“说应该怎么做”,而是开始真的执行动作。
所以你可以把它理解成:
- LLM 是脑子
- Tool 是手和脚
没有 Tool,模型只能停留在语言层;有了 Tool,它才开始碰到真实世界。
6. MCP 是工具连接的标准化思路
视频里讲到 MCP(Model Context Protocol) 时,一个很重要的视角是:
它不是单纯的新名词,而是在解决工具接入越来越复杂之后的工程问题。
如果模型要接很多工具,最糟糕的情况就是每个工具都各自搞一套接法:
- 接口不统一
- 参数格式不统一
- 权限边界不统一
- 复用性很差
MCP 的意义就在于:
尽量用标准化方式,让模型与工具、资源、外部服务之间形成一致的连接协议。
从这个角度看,MCP 更像基础设施,而不是单点功能。它的价值,不在于“能不能再多接一个工具”,而在于让工具生态更可持续。
7. Agent 不是神秘新物种,而是工程化封装
视频到 Agent 这一段时,其实是在不断帮观众“去神秘化”。
很多人一听 Agent,会觉得这是一种和 LLM 完全不同的新智能体。但更准确的理解应该是:
Agent 往往是把模型、上下文、Prompt、Tool、任务循环等组合起来之后形成的执行系统。
也就是说,Agent 通常包含:
- 模型
- Prompt 规则
- Context 管理
- Tool 调用
- 任务拆解与循环
- 有时还有 memory、planner、evaluator
所以 Agent 不是“另一个魔法模型”,而是:
LLM 往上叠了一层又一层工程结构之后的结果。
它之所以表现得比普通聊天更像“会做事”,是因为它:
- 能按步骤推进任务
- 能看工具返回结果再继续下一步
- 能在失败时尝试调整
- 能维护任务状态
8. Agent Skill 是对能力的模块化封装
视频最后落在 Agent Skill,这也是我很喜欢的一部分。
Skill 可以理解成:
给 Agent 增加的专门能力模块。
它不一定改变底层模型,但会给 Agent 增加:
- 特定流程
- 特定知识
- 特定规则
- 特定任务模式
比如一个通用 Agent 可能什么都懂一点,但如果给它加上:
- 浏览器 Skill
- Coding Skill
- Summarize Skill
- Vetting Skill
- Self-improving Skill
它在这些场景里的表现就会更稳定、更像熟手,而不是每次都从零瞎试。
这件事很重要,因为它意味着:
Agent 的能力不一定全靠更大的模型来堆,也可以靠更好的工程封装、任务模板和知识模块来增强。
9. 这条链真正说明了什么
把整支视频压缩成一条逻辑链,大概就是:
- LLM 提供语言能力
- Token 定义模型处理文本的基本单位
- Context 决定模型当前到底拥有什么工作材料
- Prompt 决定行为方式和任务边界
- Tool 让模型获得外部行动能力
- MCP 让工具接入更标准化
- Agent 把这些东西组织成一个可执行系统
- Skill 再把具体专长模块化、复用化
如果只看单个术语,很容易觉得这些概念彼此分散;但一旦按这条链看,你会发现它们其实是在回答同一个问题:
一个 AI 系统,如何从“能生成语言”一步步变成“能执行任务”的系统?
10. 我自己的一个感受
看完这类内容,我越来越觉得:
今天很多 AI 系统的上限,不只是模型本身决定的,而是由它外面的工程结构决定的。
一个只有大模型、没有上下文设计、没有工具、没有任务流程的系统,就算模型参数再强,最后也很容易停留在“会聊天”。
但如果你把:
- context
- prompt
- tool
- protocol
- workflow
- skill
这些层逐步搭起来,它就会越来越像一个真正能工作的系统。
这也是为什么现在很多真正好用的 AI 产品,拼的早就不只是模型,而是:
模型外面那一整套 harness。
最后
如果你过去总觉得 LLM、Prompt、Tool、MCP、Agent、Skill 这些词到处都在飞,但又很难把它们放进同一张图里,那这支视频最大的价值就在于:
它给了你一条比较完整的理解路径。
我的总结是:
AI 应用并不是从“更聪明的模型”突然跳成“能工作的 Agent”,而是通过上下文、提示、工具、协议、工作流和技能模块,一层层搭起来的。
理解这一点之后,你再去看 Agent、MCP、Skill 这些概念,就不会觉得它们只是热词,而会更容易把它们放回真实系统设计里。