从 LLM 到 Agent Skill：一条更完整的 AI 应用理解路径

最近看了一支很适合入门和梳理概念的视频，标题是：

《从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！》

它最有价值的地方，不是单独解释某一个术语，而是把一整条 AI 应用链路串了起来：

LLM
Token
Context
Prompt
Tool
MCP
Agent
Agent Skill

很多人平时会反复听到这些词，但脑子里是散的。这个视频做的事情，是把这些概念从“名词堆”整理成一张连续的结构图。

这篇文章就是我看完之后的整理版笔记。

1. LLM 是起点，但不是完整系统

最底层当然是 LLM（大语言模型）。

如果把整个 AI 系统比作一个能工作的数字员工，那 LLM 更像是它的大脑内核。它最擅长的是：

理解自然语言
生成文本
做模式归纳
根据已有上下文继续推断

但问题也很明确：

LLM 本身并不是数据库、浏览器、终端、搜索引擎，也不是带长期记忆的完整智能体。它更像一个强大的语言处理器，而不是一个自带全部能力的系统。

所以，后面那些 Prompt、Tool、Agent、Skill，本质上都不是为了替代模型，而是在模型外面给它补系统能力。

2. Token 是模型处理信息的基本单位

很多人第一次接触大模型时，会把 token 理解成“一个字”或者“一个词”，但实际上它更像模型内部使用的文本切片单位。

它之所以重要，是因为它直接影响：

你一次能输入多少内容
模型一次能输出多少内容
上下文窗口的占用
推理成本

也就是说，token 不是一个无关紧要的底层细节，而是一个非常现实的“资源单位”。

为什么很多长对话会失真？为什么文档一长模型就开始丢细节？为什么你感觉它前面还记得、后面突然忘了？这些很多都和 token 与 context window 有关。

3. Context 决定模型当前到底在“看什么”

视频里一个很重要的点，是把 Context（上下文） 从一个模糊概念变成了一个工程概念。

模型不是在调用什么神秘长期记忆，它主要依赖当前被塞进上下文窗口里的内容工作。这个上下文里通常包括：

当前问题
前面的对话
system prompt
工具返回结果
注入的文档
任务状态

所以模型表现好不好，很多时候不只是“模型聪不聪明”，而是：

你到底给了它什么上下文，以及你有没有把真正重要的东西放进去。

这也是为什么今天越来越多人开始讲 context engineering。因为上下文不是背景板，它几乎就是模型当前的“工作台”。

4. Prompt 不只是你输入的那一句话

一提到 prompt，很多人会直接想到“提示词怎么写”。但视频里讲得更完整：

Prompt 其实是一个分层结构，至少包括：

User Prompt：用户当前的具体请求
System Prompt：定义角色、边界、行为方式的高层指令

如果再往真实系统里看，往往还有更多层：

developer instructions
tool schema
memory snippets
环境注入信息

也就是说，模型最终生成结果时，并不是只听用户的一句话，而是在一整套约束和上下文里工作。

所以 prompt 的价值，不在于“会不会几句神奇咒语”，而在于它是整个系统的控制层。

5. Tool 让模型从“会说”走向“能做”

这一步是很多人理解 Agent 的关键分水岭。

如果没有 tool，LLM 再强，本质上还是一个文本生成器。它可以解释怎么查天气，但它自己并不能真的去查天气；它可以告诉你如何搜索网页，但它自己不能直接打开浏览器。

一旦接入工具，事情就变了。

Tool 可以是：

浏览器
搜索
文件读写
终端命令
数据库
API 调用

有了这些，模型就不再只是“说应该怎么做”，而是开始真的执行动作。

所以你可以把它理解成：

LLM 是脑子
Tool 是手和脚

没有 Tool，模型只能停留在语言层；有了 Tool，它才开始碰到真实世界。

6. MCP 是工具连接的标准化思路

视频里讲到 MCP（Model Context Protocol） 时，一个很重要的视角是：

它不是单纯的新名词，而是在解决工具接入越来越复杂之后的工程问题。

如果模型要接很多工具，最糟糕的情况就是每个工具都各自搞一套接法：

接口不统一
参数格式不统一
权限边界不统一
复用性很差

MCP 的意义就在于：

尽量用标准化方式，让模型与工具、资源、外部服务之间形成一致的连接协议。

从这个角度看，MCP 更像基础设施，而不是单点功能。它的价值，不在于“能不能再多接一个工具”，而在于让工具生态更可持续。

7. Agent 不是神秘新物种，而是工程化封装

视频到 Agent 这一段时，其实是在不断帮观众“去神秘化”。

很多人一听 Agent，会觉得这是一种和 LLM 完全不同的新智能体。但更准确的理解应该是：

Agent 往往是把模型、上下文、Prompt、Tool、任务循环等组合起来之后形成的执行系统。

也就是说，Agent 通常包含：

模型
Prompt 规则
Context 管理
Tool 调用
任务拆解与循环
有时还有 memory、planner、evaluator

所以 Agent 不是“另一个魔法模型”，而是：

LLM 往上叠了一层又一层工程结构之后的结果。

它之所以表现得比普通聊天更像“会做事”，是因为它：

能按步骤推进任务
能看工具返回结果再继续下一步
能在失败时尝试调整
能维护任务状态

8. Agent Skill 是对能力的模块化封装

视频最后落在 Agent Skill，这也是我很喜欢的一部分。

Skill 可以理解成：

给 Agent 增加的专门能力模块。

它不一定改变底层模型，但会给 Agent 增加：

特定流程
特定知识
特定规则
特定任务模式

比如一个通用 Agent 可能什么都懂一点，但如果给它加上：

浏览器 Skill
Coding Skill
Summarize Skill
Vetting Skill
Self-improving Skill

它在这些场景里的表现就会更稳定、更像熟手，而不是每次都从零瞎试。

这件事很重要，因为它意味着：

Agent 的能力不一定全靠更大的模型来堆，也可以靠更好的工程封装、任务模板和知识模块来增强。

9. 这条链真正说明了什么

把整支视频压缩成一条逻辑链，大概就是：

LLM 提供语言能力
Token 定义模型处理文本的基本单位
Context 决定模型当前到底拥有什么工作材料
Prompt 决定行为方式和任务边界
Tool 让模型获得外部行动能力
MCP 让工具接入更标准化
Agent 把这些东西组织成一个可执行系统
Skill 再把具体专长模块化、复用化

如果只看单个术语，很容易觉得这些概念彼此分散；但一旦按这条链看，你会发现它们其实是在回答同一个问题：

一个 AI 系统，如何从“能生成语言”一步步变成“能执行任务”的系统？

10. 我自己的一个感受

看完这类内容，我越来越觉得：

今天很多 AI 系统的上限，不只是模型本身决定的，而是由它外面的工程结构决定的。

一个只有大模型、没有上下文设计、没有工具、没有任务流程的系统，就算模型参数再强，最后也很容易停留在“会聊天”。

但如果你把：

context
prompt
tool
protocol
workflow
skill

这些层逐步搭起来，它就会越来越像一个真正能工作的系统。

这也是为什么现在很多真正好用的 AI 产品，拼的早就不只是模型，而是：

模型外面那一整套 harness。

最后

如果你过去总觉得 LLM、Prompt、Tool、MCP、Agent、Skill 这些词到处都在飞，但又很难把它们放进同一张图里，那这支视频最大的价值就在于：

它给了你一条比较完整的理解路径。

我的总结是：

AI 应用并不是从“更聪明的模型”突然跳成“能工作的 Agent”，而是通过上下文、提示、工具、协议、工作流和技能模块，一层层搭起来的。

理解这一点之后，你再去看 Agent、MCP、Skill 这些概念，就不会觉得它们只是热词，而会更容易把它们放回真实系统设计里。