Field Note

从 LLM 到 Agent Skill:一条更完整的 AI 应用理解路径

基于一支系统讲解视频,整理 LLM、Token、Context、Prompt、Tool、MCP、Agent 与 Agent Skill 之间的关系。

#llm#agent#mcp#prompt#ai

最近看了一支很适合入门和梳理概念的视频,标题是:

《从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!》

它最有价值的地方,不是单独解释某一个术语,而是把一整条 AI 应用链路串了起来:

  • LLM
  • Token
  • Context
  • Prompt
  • Tool
  • MCP
  • Agent
  • Agent Skill

很多人平时会反复听到这些词,但脑子里是散的。这个视频做的事情,是把这些概念从“名词堆”整理成一张连续的结构图。

这篇文章就是我看完之后的整理版笔记。

1. LLM 是起点,但不是完整系统

最底层当然是 LLM(大语言模型)

如果把整个 AI 系统比作一个能工作的数字员工,那 LLM 更像是它的大脑内核。它最擅长的是:

  • 理解自然语言
  • 生成文本
  • 做模式归纳
  • 根据已有上下文继续推断

但问题也很明确:

LLM 本身并不是数据库、浏览器、终端、搜索引擎,也不是带长期记忆的完整智能体。它更像一个强大的语言处理器,而不是一个自带全部能力的系统。

所以,后面那些 Prompt、Tool、Agent、Skill,本质上都不是为了替代模型,而是在模型外面给它补系统能力。

2. Token 是模型处理信息的基本单位

很多人第一次接触大模型时,会把 token 理解成“一个字”或者“一个词”,但实际上它更像模型内部使用的文本切片单位。

它之所以重要,是因为它直接影响:

  • 你一次能输入多少内容
  • 模型一次能输出多少内容
  • 上下文窗口的占用
  • 推理成本

也就是说,token 不是一个无关紧要的底层细节,而是一个非常现实的“资源单位”。

为什么很多长对话会失真?为什么文档一长模型就开始丢细节?为什么你感觉它前面还记得、后面突然忘了?这些很多都和 token 与 context window 有关。

3. Context 决定模型当前到底在“看什么”

视频里一个很重要的点,是把 Context(上下文) 从一个模糊概念变成了一个工程概念。

模型不是在调用什么神秘长期记忆,它主要依赖当前被塞进上下文窗口里的内容工作。这个上下文里通常包括:

  • 当前问题
  • 前面的对话
  • system prompt
  • 工具返回结果
  • 注入的文档
  • 任务状态

所以模型表现好不好,很多时候不只是“模型聪不聪明”,而是:

你到底给了它什么上下文,以及你有没有把真正重要的东西放进去。

这也是为什么今天越来越多人开始讲 context engineering。因为上下文不是背景板,它几乎就是模型当前的“工作台”。

4. Prompt 不只是你输入的那一句话

一提到 prompt,很多人会直接想到“提示词怎么写”。但视频里讲得更完整:

Prompt 其实是一个分层结构,至少包括:

  • User Prompt:用户当前的具体请求
  • System Prompt:定义角色、边界、行为方式的高层指令

如果再往真实系统里看,往往还有更多层:

  • developer instructions
  • tool schema
  • memory snippets
  • 环境注入信息

也就是说,模型最终生成结果时,并不是只听用户的一句话,而是在一整套约束和上下文里工作。

所以 prompt 的价值,不在于“会不会几句神奇咒语”,而在于它是整个系统的控制层。

5. Tool 让模型从“会说”走向“能做”

这一步是很多人理解 Agent 的关键分水岭。

如果没有 tool,LLM 再强,本质上还是一个文本生成器。它可以解释怎么查天气,但它自己并不能真的去查天气;它可以告诉你如何搜索网页,但它自己不能直接打开浏览器。

一旦接入工具,事情就变了。

Tool 可以是:

  • 浏览器
  • 搜索
  • 文件读写
  • 终端命令
  • 数据库
  • API 调用

有了这些,模型就不再只是“说应该怎么做”,而是开始真的执行动作。

所以你可以把它理解成:

  • LLM 是脑子
  • Tool 是手和脚

没有 Tool,模型只能停留在语言层;有了 Tool,它才开始碰到真实世界。

6. MCP 是工具连接的标准化思路

视频里讲到 MCP(Model Context Protocol) 时,一个很重要的视角是:

它不是单纯的新名词,而是在解决工具接入越来越复杂之后的工程问题。

如果模型要接很多工具,最糟糕的情况就是每个工具都各自搞一套接法:

  • 接口不统一
  • 参数格式不统一
  • 权限边界不统一
  • 复用性很差

MCP 的意义就在于:

尽量用标准化方式,让模型与工具、资源、外部服务之间形成一致的连接协议。

从这个角度看,MCP 更像基础设施,而不是单点功能。它的价值,不在于“能不能再多接一个工具”,而在于让工具生态更可持续。

7. Agent 不是神秘新物种,而是工程化封装

视频到 Agent 这一段时,其实是在不断帮观众“去神秘化”。

很多人一听 Agent,会觉得这是一种和 LLM 完全不同的新智能体。但更准确的理解应该是:

Agent 往往是把模型、上下文、Prompt、Tool、任务循环等组合起来之后形成的执行系统。

也就是说,Agent 通常包含:

  • 模型
  • Prompt 规则
  • Context 管理
  • Tool 调用
  • 任务拆解与循环
  • 有时还有 memory、planner、evaluator

所以 Agent 不是“另一个魔法模型”,而是:

LLM 往上叠了一层又一层工程结构之后的结果。

它之所以表现得比普通聊天更像“会做事”,是因为它:

  • 能按步骤推进任务
  • 能看工具返回结果再继续下一步
  • 能在失败时尝试调整
  • 能维护任务状态

8. Agent Skill 是对能力的模块化封装

视频最后落在 Agent Skill,这也是我很喜欢的一部分。

Skill 可以理解成:

给 Agent 增加的专门能力模块。

它不一定改变底层模型,但会给 Agent 增加:

  • 特定流程
  • 特定知识
  • 特定规则
  • 特定任务模式

比如一个通用 Agent 可能什么都懂一点,但如果给它加上:

  • 浏览器 Skill
  • Coding Skill
  • Summarize Skill
  • Vetting Skill
  • Self-improving Skill

它在这些场景里的表现就会更稳定、更像熟手,而不是每次都从零瞎试。

这件事很重要,因为它意味着:

Agent 的能力不一定全靠更大的模型来堆,也可以靠更好的工程封装、任务模板和知识模块来增强。

9. 这条链真正说明了什么

把整支视频压缩成一条逻辑链,大概就是:

  1. LLM 提供语言能力
  2. Token 定义模型处理文本的基本单位
  3. Context 决定模型当前到底拥有什么工作材料
  4. Prompt 决定行为方式和任务边界
  5. Tool 让模型获得外部行动能力
  6. MCP 让工具接入更标准化
  7. Agent 把这些东西组织成一个可执行系统
  8. Skill 再把具体专长模块化、复用化

如果只看单个术语,很容易觉得这些概念彼此分散;但一旦按这条链看,你会发现它们其实是在回答同一个问题:

一个 AI 系统,如何从“能生成语言”一步步变成“能执行任务”的系统?

10. 我自己的一个感受

看完这类内容,我越来越觉得:

今天很多 AI 系统的上限,不只是模型本身决定的,而是由它外面的工程结构决定的。

一个只有大模型、没有上下文设计、没有工具、没有任务流程的系统,就算模型参数再强,最后也很容易停留在“会聊天”。

但如果你把:

  • context
  • prompt
  • tool
  • protocol
  • workflow
  • skill

这些层逐步搭起来,它就会越来越像一个真正能工作的系统。

这也是为什么现在很多真正好用的 AI 产品,拼的早就不只是模型,而是:

模型外面那一整套 harness。

最后

如果你过去总觉得 LLM、Prompt、Tool、MCP、Agent、Skill 这些词到处都在飞,但又很难把它们放进同一张图里,那这支视频最大的价值就在于:

它给了你一条比较完整的理解路径。

我的总结是:

AI 应用并不是从“更聪明的模型”突然跳成“能工作的 Agent”,而是通过上下文、提示、工具、协议、工作流和技能模块,一层层搭起来的。

理解这一点之后,你再去看 Agent、MCP、Skill 这些概念,就不会觉得它们只是热词,而会更容易把它们放回真实系统设计里。