Agent Skills 使用指南 - Orbit Moon Alpha

Agent Skills 使用指南

Table of Contents

Agent Skills 使用指南

一份面向工程落地的渐进式加载与模块化能力实践手册

0. 为什么 Agent Skills 重要:从“理解”到“执行”

大语言模型(LLM)擅长理解生成文本,但现代 AI 系统越来越需要行动:调用工具、遵循流程、协同多步工作流,并在有限的上下文窗口中,以更确定、更安全、更高效的方式完成真实任务。

这就是 Agent Skills(智能体技能) 的价值所在。

Agent Skills 通过“可复用、可模块化”的方式,把通用模型升级为“能干活的专家”,将以下内容打包起来:

  • 程序性知识(流程、最佳实践、决策规则)
  • 业务上下文(注意事项、合规约束、适用边界)
  • 可选自动化资产(脚本、模板、参考资料)

并支持按需加载(on-demand),避免每次对话重复交代同一套 SOP。

一句话理解:

  • LLM 解决“能答”
  • Agent Skills 解决“能做成事”

1. 核心概念:工具、技能、插件与子智能体

在工程实践中,“工具(Tool)”“技能(Skill)”“插件(Plugin)”常被混用。建立清晰术语能显著提升系统设计质量与治理能力。

1.1 工具(Tool):Can-Do(原子执行)

工具是智能体的“手”,典型表现为:

  • API 调用
  • Shell 命令
  • 数据库查询函数
  • 文件读写操作

工具关注:

  • 可行性(能不能做)
  • 确定性(做出来是否稳定可复现)
  • 权限边界(允许访问什么)

例子:execute_sql_query(sql)

它让智能体“能执行 SQL”,但不会教“怎样写安全高效 SQL”。

add-group-chat-zh

欢迎加入我们的TG群组交流:

https://t.me/+IuIEVyJ2STQ3ZDAx

1.2 技能(Skill):Know-How(程序性胜任力)

技能是 SOP/剧本/手册,指导智能体如何正确使用工具,具备“胜任力”。

技能关注:

  • 任务胜任力(怎么做更好)
  • 合规性(必须遵守哪些规范)
  • 决策逻辑(不同情况下怎么选)

例子:“数据库优化技能”可能会要求:

  1. 先用 EXPLAIN 分析执行计划
  2. 再根据结果调整索引/SQL
  3. 回归验证性能
  4. 最后才执行正式查询

1.3 插件(Plugin):能力打包与分发

插件通常是一个容器,把一组相关工具与技能打包,便于整体启用/禁用(企业场景常见)。

例子:“办公插件”可能包含:

  • 邮件工具
  • 日程工具
  • 写作与汇总技能(周报、纪要、报告)

1.4 子智能体(Sub-Agent):隔离上下文的专家分工

当任务需要独立状态、长链路推理、或复杂执行时,系统会把它实例化为子智能体:

  • 独立上下文
  • 独立工具集
  • 避免污染主智能体上下文
  • 强化关注点分离(Separation of Concerns)

2. Agent Skills 在实践中长什么样?

大多数实现都遵循开放标准的形态:

一个 Skill = 一个文件夹 + 一个 SKILL.md(必需)+ 可选 scripts/resources/templates

你可以把 Skill 文件夹理解为给新员工的“入职手册”:

  • 什么时候用这个技能
  • 具体步骤怎么做
  • 用哪些模板/脚本
  • 如何验收质量与边界情况

3. 渐进式披露(Progressive Disclosure):核心架构模式

3.1 上下文窗口限制(Context Window Problem)

上下文窗口是稀缺资源。把数百工具定义与长篇手册一次性塞进系统提示词会导致:

  • 成本高
  • 延迟大
  • 推理精度下降(上下文饱和)
  • 幻觉风险上升

3.2 三层加载模型:只在需要时加载需要的内容

网页端OMA AI-AGENT

Agent Skills 的关键是渐进式披露,典型分为三层:

Level 1:发现(Discovery)——只加载元信息

会话开始时,智能体只看到每个 Skill 的:

  • name
  • description

这非常轻量,允许挂载很多技能而不挤占上下文。

Level 2:激活(Activation)——加载指令主体

当用户请求与 skill 的 description 匹配时,智能体才读取:

  • SKILL.md 的正文(流程、规范、决策树)

这一步将“操作手册”动态注入上下文,做到“用时再学”。

Level 3:执行(Execution)——按需读取资源/执行脚本

如果 Skill 引用了脚本、模板或参考资料,智能体才会:

  • 读取相关文件
  • 在沙箱/VM 中运行脚本
  • 只消费脚本输出(不必把源码塞进上下文)

这使得确定性操作更可靠,也大幅节省 token。


4. 一个直观类比:技能加载像浏览器加载

Agent Skills 的加载方式可以类比现代 Web 应用:

  • Level 1 元信息 ≈ Manifest / 路由表 / 模块索引
  • Level 2 指令主体 ≈ 路由级代码分包 + 动态 import
  • Level 3 脚本执行与资源读取 ≈ 懒加载资源 + Worker/WASM 计算只返回结果

浏览器不会一次加载整个站点,智能体也不应一次加载全部技能内容。


5. 高质量 

SKILL.md

 的结构与写法

5.1 YAML Frontmatter:触发路由的核心信号

最少要写:

---
name: pdf-processing
description: Extracts text and tables from PDF files, fills forms, merges documents. Use when the user mentions PDFs, forms, or document extraction.
---

关键点:description 决定“会不会被用上”。

✅ 好的 description 应该包含:

  • 明确动词:extract / review / generate tests
  • 明确产物:CSV / PR feedback / summary report
  • 触发关键词:PR、diff、PDF、pytest、forms 等

❌ 坏的 description:

  • “Helps with tasks”
  • “Useful for productivity”
  • “Does data work”

5.2 指令主体:写成可执行 SOP,而不是散文

推荐结构:

  1. When to use / When not to use(适用与禁用边界)
  2. Inputs required(缺什么就问什么)
  3. Output format(输出格式固定化)
  4. Workflow steps(编号步骤)
  5. Decision tree(可选但非常有效)
  6. Quality checklist(减少遗漏与幻觉)

6. 把脚本与资源打包进 Skill

一个更完整的目录可能是:

pdf-skill/
├── SKILL.md
├── FORMS.md
├── REFERENCE.md
└── scripts/
    └── extract_tables.py

最佳实践:脚本当黑盒用

而不是读源码。建议智能体:

  1. 先运行 –help
  2. 再按参数执行
  3. 只基于输出做判断与汇总

这样上下文更干净,执行更确定。


7. Skills + MCP:胜任力与连接层的协同

Skills 负责“怎么做”,但智能体还需要“连上世界”(数据源与工具),这就是 MCP 的价值。

MCP 一句话

MCP 是“AI 的 USB-C”:为智能体访问外部工具与数据源提供统一协议。

分工非常清楚

  • MCP 提供能力(Capabilities / Tools):例如 query_database、read_drive_file
  • Skills 提供胜任力(Competence / Instructions):教你何时、如何、安全地用这些工具

成熟架构通常同时使用二者:

  • MCP 解决连接碎片化
  • Skills 解决流程与合规

8. 动态工具发现:突破“工具列表爆炸”

大企业可能有成千上万内部工具,不可能全部塞进系统提示词。

动态工具发现的典型流程:

  1. 智能体使用“工具搜索工具”向注册中心查询
  2. 注册中心返回相关工具 schema
  3. 智能体只把这些工具注入上下文
  4. 再由 Skill 的流程引导调用这些工具

这把“工具数量上限”从硬限制变成了“按需加载”。


9. 不同框架的实现范式

不同框架对工具/技能编排有不同工程哲学:

LangChain:函数式灵活性

  • 工具就是函数
  • agent 循环选择调用
  • 原型快,但工具链大时容易变“面条代码”

Semantic Kernel:企业级插件与治理

  • 强类型与结构化
  • planner/规划器更适合长期维护
  • 但相对厚重

CrewAI:角色分工(多智能体)

  • 按角色分配工具与任务
  • 复杂任务成功率更高,降低上下文混淆

AutoGen:对话驱动的代码执行

  • 强调生成代码→执行→反馈→自我修正的闭环
  • 探索性任务很强

经验总结:

  • 小规模工具链 → 灵活框架更快
  • 企业落地 → 结构化与治理更重要
  • 多阶段复杂任务 → 角色分工更稳

10. 安全与治理:技能像“安装软件”

Skill 的能力越强,攻击面越大,因为它可能引导:

  • 执行代码
  • 操作文件系统
  • 调用敏感工具

10.1 典型威胁

  • 间接提示注入(网页、PDF、文档隐藏指令)
  • 蜜罐文件(仓库里埋恶意指令)
  • 工具滥用(危险命令、破坏性 SQL)
  • 数据外泄风险

10.2 核心防线

A) 沙箱执行:容器/VM/WASM,避免在宿主机直接执行

B) 最小权限(RBAC):只给必要权限

C) 人机回环(HITL):高风险操作必须审批后执行

10.3 信任模型

只使用可信来源的技能;第三方技能必须审计:

  • scripts 是否有异常网络请求
  • 是否读取敏感路径
  • 是否存在与 description 不一致的行为

11. Skill 工程化最佳实践清单

设计

  • 单一职责:一个 skill 只做一件事
  • description 写成“路由关键词”
  • 适当提供 few-shot 示例
  • SKILL.md 过长就拆分为子文件引用

执行

  • 确定性逻辑交给脚本
  • 尽量减少网络依赖
  • 输入校验、错误信息明确

维护

  • 建议加版本/所有者字段(即使不是强制)
  • 规范更新要同步 examples
  • 跟踪误触发与安全事件

12. 示例:高信号 Code Review Skill

---
name: code-review
description: Reviews PR diffs for correctness, edge cases, style, performance, and security. Use when the user provides a diff, PR link, or asks for a review.
---

# Code Review Skill

## When to use
- Reviewing pull requests or code diffs
- Checking code quality before merging

## Output format
Return feedback grouped by severity:
- Must-fix (bugs, correctness, security)
- Should-fix (maintainability, clarity)
- Nice-to-have (refactors, polish)

## Workflow
1) Understand the change objective
2) Correctness: verify logic meets requirements
3) Edge cases: nulls, errors, retries, boundaries
4) Style: naming, consistency, conventions
5) Performance: obvious inefficiencies
6) Security: validation, injection, secrets exposure

## Checklist
- [ ] Tests cover key paths
- [ ] Errors are handled safely
- [ ] No sensitive data leaks
- [ ] Code remains readable

13. 团队落地的最小可行路线(Playbook)

  1. 先做 5–10 个高价值技能(code-review、pdf-processing、data-summary、weekly-report、incident-triage)
  2. 做工具治理RBAC 权限 + 沙箱 + HITL 审批点
  3. 建技能注册与规范命名、版本、owner、review 流程
  4. 度量结果时间节省、误触发率、安全事件、质量提升
  5. 逐步扩展技能库就是“数字员工资产库”

最后的结论

Agent Skills 是从:

  • 拥有知识 → 拥有胜任力
  • 会聊天 → 能交付
  • 单体 Prompt → 模块化工作系统

的关键工程化桥梁。

通过结合:

  • 渐进式披露
  • MCP 动态工具发现
  • 安全沙箱
  • 人机回环治理

你可以把通用模型变成可信赖的“数字员工”。

发表评论

购物车
滚动至顶部