10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

微软 SkillOpt:像训练神经网络一样训练 AI Skill,GitHub 5000+ Star

1小时前 AI智能体 9 0

训练神经网络时,epoch、batch size、学习率等整套流程非常成熟,跑一轮下来结果可复现。但训练 AI Agent 的 skill 呢?改改 prompt 跑跑看,好就算了不好再改,没有验证集,全凭手感。

微软研究院刚开源了一个叫 SkillOpt 的项目,第一次把训练神经网络的方法论搬到了优化 skill 上。

图片 1

同一个模型,不微调、不换参数,就优化了一个 Skill.md 文件,skill 的准确率最高涨近 39 分。GitHub 上线不到一个月,已经拿下 5000+ Star。

像训练神经网络一样训练 Skill

SkillOpt 的核心想法很直觉:把 Skill 的 md 文件当作神经网络里的可训练参数,然后用训练神经网络的那套纪律去优化它。

具体的对应关系:

  • 神经网络的权重 → Skill.md
  • 梯度 → 基于任务轨迹的反思分析
  • 学习率 → 每次文本编辑的幅度预算
  • 验证集 → held-out 数据上的评分门控
  • epoch → 多轮迭代优化

整个优化过程由一个叫 ReflACT 的六阶段管线驱动,每一步都在做一件事:让 skill 文档变好一点,而且有据可查。

图片 2

第一步:Rollout。用当前的 skill 文档让目标模型跑一批任务,收集每条任务的执行轨迹和得分。

第二步:反思分析。一个单独的优化器模型(Optimizer Model)分析这些轨迹,找出 skill 文档里哪些地方导致了错误,哪些地方做得好。

图片 3

第三步:生成补丁。优化器模型根据分析结果,生成针对性的文本编辑,添加、删除、替换 skill 文档中的具体段落。每次编辑的幅度受到文本学习率的控制,不会一口气大改,而是小步迭代。

图片 4

第四步:合并。把多条补丁合并成一个候选 skill 文档。

第五步:排序筛选。如果合并后的补丁包含的编辑数量超过预算,就按优先级排序,只保留最重要的几条。

第六步:验证门控。这是最关键的一步。候选 skill 文档不会直接生效,必须先在验证集上跑一轮评分,只有得分严格优于当前 skill 文档,才会被接受。否则这次修改直接丢弃。

图片 5

这六步循环往复,多个 epoch 跑下来,skill 文档就从一个粗糙的初版逐渐进化成一个经过多轮验证的最优版本。

还有两个 epoch 级别的全局机制:

  • Slow Update(慢更新):每个 epoch 结束时,对整个训练过程中的经验做一次纵向回顾,提炼出全局性的改进建议,注入到技能文档中。
  • Meta Skill(元技能):在慢更新的基础上,进一步总结出一套更高层次的策略性指导,帮助 skill 文档在后续 epoch 中更有效地优化。

最终产物是一个通常只有 300 到 2000 token 的 best_skill.md 文件。部署的时候,直接把这个文件作为系统指令喂给模型就行了,不需要任何额外的模型调用,推理成本为零。

52 项评测全部领先

SkillOpt 的实验规模非常大,覆盖了 6 个 benchmark、7 个目标模型、3 种执行方式,总共 52 个评测单元。

6 个 benchmark 涵盖了不同类型的任务:

  • SearchQA:基于搜索的问答
  • ALFWorld:具身智能体任务
  • DocVQA:文档问答
  • LiveMathematicianBench:数学推理
  • SpreadsheetBench:电子表格代码生成
  • OfficeQA:工具增强型问答

7 个目标模型包括 GPT-5.5、GPT-5.4、GPT-5.4-nano 等不同规模。3 种执行方式:直接对话、Codex CLI 代理循环、Claude Code CLI 代理循环。

结果:SkillOpt 在全部 52 个评测单元上都是最佳或并列最佳。

在 GPT-5.5 上的提升尤为显著:

  • 直接对话模式:平均准确率提升 +23.5 分
  • Codex 代理循环:提升 +24.8 分
  • Claude Code 代理循环:提升 +19.1 分

部分场景最高提升达到 +39.0 分。而且 SkillOpt 的对手是 TextGrad、GEPA 这类 prompt 优化方法,Trace2Skill、EvoSkill 这类技能演化方法,以及人类专家手写的技能和强模型一次性生成的技能,SkillOpt 把它们全部压了下去。

还有一个很实用的发现:优化后的 skill 文档具有迁移能力。在一个模型上训练出来的技能,可以直接用在另一个模型上,效果虽然有损但依然显著。在 Codex 上优化的技能,拿到 Claude Code CLI 上也能用。甚至跨 benchmark 也有一定的泛化性。

怎么用

安装很简单:

git clone https://github.com/microsoft/SkillOpt.git
cd SkillOpt
pip install -e .

然后配置 API 密钥。SkillOpt 支持多种后端:

# Azure OpenAI(推荐)
export AZURE_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
export AZURE_OPENAI_API_KEY="***"

# Anthropic Claude
export ANTHROPIC_API_KEY="***"

# Qwen(本地 vLLM)
export QWEN_CHAT_BASE_URL="http://localhost:8000/v1"
export QWEN_CHAT_MODEL="Qwen/Qwen3.5-4B"

一条命令启动训练:

python scripts/train.py \
    --config configs/searchqa/default.yaml \
    --split_dir /path/to/your/searchqa_split \
    --azure_openai_endpoint https://your-resource.openai.azure.com/ \
    --optimizer_model gpt-5.5 \
    --target_model gpt-5.5

这里有两个模型角色:optimizer_model 是负责分析轨迹、生成补丁的优化器模型,target_model 是实际执行任务的目标模型。你可以用强模型做优化器,弱模型做目标,用前者的智慧去提升后者的表现。

训练完之后,会在输出目录下生成 best_skill.md,这就是你训练出来的最终技能文档。

如果只想评估已有的技能,不需要重新训练:

python scripts/eval_only.py \
  --config configs/searchqa/default.yaml \
  --skill ckpt/searchqa/gpt5.5_skill.md \
  --split valid_unseen \
  --split_dir /path/to/searchqa_split \
  --azure_openai_endpoint https://your-resource.openai.azure.com/

项目在 ckpt/ 目录下预置了一部分 GPT-5.5 的优化技能文件,可以直接拿来用。SkillOpt 还自带了一个 WebUI 监控面板,可以实时观察训练过程:

pip install -e ".[webui]"
python -m skillopt_webui.app

项目的架构设计得比较干净,如果你想接入自己的 benchmark 或者自己的模型后端,都有清晰的扩展接口。加一个新 benchmark 就是写一个 dataloader、一个 rollout 函数和一个初始技能种子文件。加一个新后端就是写一个 backend 模块然后注册到路由里。项目里已经有 Azure OpenAI、Claude、Qwen、MiniMax、Codex CLI、Claude Code CLI 六个后端的实现可以参考。

开源地址:https://github.com/microsoft/SkillOpt

论文地址:https://arxiv.org/abs/2605.23904

项目主页:https://microsoft.github.io/SkillOpt/

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:微软 SkillOpt:像训练神经网络一样训练 AI Skill,GitHub 5000+ Star
#SkillOpt #微软 #开源项目 #AI Skill #ReflACT 
收藏 1
手把手教你薅 CNB 免费 48G GPU 使用教程,一行命令部署 Ollama 模型
这是最后一篇
推荐阅读
  • 7 个高质量前端UI设计的 Skills(技能包),让 AI 编程生成高质量UI代码
  • 微软 SkillOpt:像训练神经网络一样训练 AI Skill,GitHub 5000+ Star
  • AI Agent 重构营销:40 个自动化流程 + 持续测试,从执行到优化全接管
  • OpenClaw + 飞书机器人初始化 SOP 配置详细教程
  • 新手入门小龙虾(OpenClaw)完整配置指南
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
6321 3月前
微信 iLink Bot 协议深度拆解:开发者必备实战手册
4554 2月前
微信官方 ClawBot 插件多Agent如何绑定多个微信号?让全家人都用上了OpenClaw!
3640 2月前
OpenClaw 升级到 2026.3.24 后,微信 ClawBot 插件更新指南
3551 2月前
即梦CLI:如何用OpenClaw搭建AI工作流实现24小时自动化生图、生视频创作
3497 2月前
Star-Office-UI:用像素办公室实时可视化 OpenClaw(小龙虾)的工作状态
3480 3月前
OpenClaw 飞书多 Agent 实战:一只龙虾不够用?教你养一池子龙虾
3274 3月前
新手入门小龙虾(OpenClaw)完整配置指南
2894 3月前
7 个高质量前端UI设计的 Skills(技能包),让 AI 编程生成高质量UI代码
2535 1月前
OpenClaw 2026.3.2 版本权限隔离导致工具失效,两招教你满血复活!
2535 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 微软 SkillOpt:像训练神经网络一样训练 AI Skill,GitHub 5000+ Star
2 零基础创建 AI Skill 的完整方法:从真实任务到封装复用
3 AI Agent 是什么:从对话式 AI 到任务执行者的关键转变
4 Superpowers Agent Skills:using-superpowers、brainstorming、writing-plans 设计与规划纪律
5 AI Agent四层模型:LangChain从入门到精通
6 一文读懂AI Agent:从Model到Harness的完整概念体系
7 2026 开源 Agent 工具栈全景图:生产环境验证过的 7 层架构
8 Agent 工程新基建:Harness 如何决定 AI Agent 从 Demo 到生产系统的可靠性?
9 LangChain Deep Agent 全流程评估方案:解决 Agent 上线前的核心痛点
10 Hermes Agent 架构解析:目录结构、子系统与设计原则
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联