#Agent

Agentic RL:强化学习如何训练 AI Agent 的长周期决策能力
大模型的强化学习训练走过了三个阶段:RLHF 告诉模型人类喜欢哪种回答,Reasoning RL 训练思维链(o1、DeepSeek R1),而现在正在发生的第三个阶段目标更大——训练模型在真实环境里持续行动的能力。…
SGLang 团队把工程经验写进 Agent:3 个 Kernel PR 合并,B200 加速 2.75x
Agent 辅助开发:SGLang 团队的工程实践 SGLang 团队最近做了一件有趣的事:把自家在 benchmarking、profiling、CUDA kernel 调优、生产问题排查等方面的工程经验,编码成可执行的 agent sk…
Cherry Studio V2 内测开启:开源 AI 工作台全面升级
Cherry Studio V2 内测正式开启。这次他们换了一种方式——不是等最终版本才发布,而是在快速迭代中把产品交到用户手上,让每天使用 Cherry 的人参与决定它最终的样子。 V2 不是换皮,是"打地基" 过…
Orca:多 Agent 并行开发的 IDE,用 Git worktree 彻底解决文件冲突
多 Agent 并行协作已经成为 AI 编码的新常态,但实际操作中经常遇到文件互相覆盖的问题——一个 Agent 写完后把另一个的文件覆盖了,时间和 token 全部浪费。最近发现的 Orca 项目提供了一个优雅的解…
Vercel 和 Linear 设计工程师开源的 AI 动效审美 Skill
在 AI 编程工具领域,一个常被忽视的痛点是:Agent 写 UI 时功能齐全、代码干净,但细节和交互动画质感差——看起来过于表面和粗糙。按钮反馈弱、动画时机不对、视觉层级混乱,这些设计上的取舍往往是 AI 无法自行…
Harness Engineering:用 Markdown 构建可读可验证的 AI Agent 仓库
在 AI Agent 开发中,我们常常把注意力集中在模型能力上——更大的参数、更好的推理、更长的上下文。但一个被忽视的事实是:当模型能力达到一定阈值后,真正的瓶颈变成了 harness,也就是你围绕模型构建的一切基础…
5 款主流 AI 模型 Agent 任务实测:MiniMax、DeepSeek、Step、GLM、Gemini 对比
市面上能调用的模型越来越多,各家都有自己的亮点,光看宣传文档和跑分数据很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候。这次测试把五个主流模型拉出来实际跑一遍,看看它们在真实 Agent 任务中…
SkillsLM:开源多 Agent 技能管理桌面端,实现一处修改处处同步
在多 Agent 协同开发的今天,Cursor、Claude Code、Codex、OpenCode 等工具各有拥趸。然而,这些工具的 Skills 管理往往各自为战,导致技能分散、重复安装、维护困难。SkillsLM 是一款开源桌面端管理…
OceanBase 发布 AI 数据库:Agent 时代的企业数据底座
随着企业级 AI Agent 的加速落地,数据管理与架构成为了新的核心痛点。OceanBase 最近发布的 AI 数据库方案,旨在通过统一的底座解决企业数据分散、权限隔离等问题,为真正的智能应用提供支撑。 企业 Agent的落地就在 AI …
Agent Eval 系统构建指南:概念、评估方法与落地路线
如果你在做 AI Agent,迟早会遇到一个的问题:用户说“这个版本好像变差了”,但你很难说清楚到底差在哪里。 是模型能力退步了?Prompt 改坏了?工具调用路径变长了?某个边界 case 被破坏了?还是只是一次随…