阶跃星辰是国内 AI 公司中较为低调但技术实力强劲的一家。从开源 Step 3.5 Flash 到推出 Step Audio 2.0,其模型迭代速度一直很快。5 月 30 日,Step 3.7 Flash 正式上线。
根据官方信息,Step 3.7 Flash 总参数 196B + 1.8B ViT,每次推理仅激活 11B 参数。其定位为面向生产级 Agent 的高效率模型,能够串联搜索、工具调用、代码生成和部署链路。此外,该模型还支持在内存 ≥ 128GB 的 Mac 上本地运行,拓展了端侧应用场景。

Benchmark 表现:多项指标领先
在通用 Agent 综合能力测试中,Step 3.7 Flash 表现亮眼。官方对比显示,该模型主要对标 Flash 级模型(如 DeepSeek V4 Flash、Gemini 3.5 Flash),并与 Pro 档模型(GPT 5.5、Claude Opus 4.7、Kimi K2.6)进行参照。

实测:接入 Claude Code 的六大场景
为了验证模型的实际能力,我将 Step 3.7 Flash 接入 Claude Code,从搜索与工具调用、代码输出与前端审美两个维度进行了实测。

场景一:搜索与工具调用
任务 1:AI Coding 工具对比表
需求:搜索主流 AI Coding 工具和 Agent 框架,对比能力、定价、适用人群,输出可视化 HTML。
模型调用 Search 能力检索了 Claude Code、Cursor、Codex CLI 等产品的文档和定价页,并交叉验证信息一致性。几分钟内即生成了对比表,信息准确度高。


任务 2:旗舰模型参数看板
需求:搜索主流旗舰模型,对比定价、上下文窗口、强项与短板,制作可视化看板。
该任务信息源更杂、参数更细。模型生成的看板配色克制、排版有节奏,关键参数醒目,准确度经核对较高。



部署方案:结合 Cloudflare Pages 或 Vercel CLI,可通过 Agent 定时抓取数据并自动更新网站,无需数据库,实现动态信息展示。
场景二:代码生成与前端审美
我尝试了几个复杂的产品 Demo 需求,测试模型的实际编码能力:
1. Agent 工作流编排界面
需求:类似 ComfyUI 节点风格,面向 Agent 调用的界面。
结果:一次生成,包含节点拖拽、连线、参数面板、运行日志区。

2. MeetPoint Planner(多人聚会选点系统)
需求:输入位置和偏好,推荐聚会地点,调用地图 API。
结果:包含筛选条件、打分逻辑,首次运行即可用。

3. Daily Pulse(AI 资讯日报)
需求:给定栏目结构,生成仿杂志风的信息架构。
结果:分区清晰,视觉节奏感强。

4. CYBERKEYS(赛博键盘)
需求:赛博朋克美学的键盘视觉设计。
结果:配色、霓虹反光、键帽样式表现出色,视觉质量高。

苏米注:最令我惊讶的是输出速度。上述复杂需求大多在一分钟内完成,部分甚至仅需 10 秒,代码量均在 1000 行以上。"Flash"之名确实名副其实。
Agentic 能力:技术解析
官方博客显示,Step 团队在 Step-SWE-Bench 上运行了测试,覆盖 Hermes Agent、OpenClaw、Claude Code 等六个主流 harness。Step 3.7 Flash 平均分 67.08%,较 3.5 Flash 的 56.50% 有显著提升。

技术博客揭示了几个关键点:
- 训练目标改变:从单点能力转向 Agent 轨迹层面的 end-to-end 优化,在轨迹级别整合数据、奖励、推理。
- Advisor Mode:在规划或反复失败时请教更大的顾问模型。开启后,在 SWE-Bench Verified 上达到 Claude Opus 4.6 的 97% 代码能力,单任务成本仅为 1/9($0.19 vs $1.76)。这是国内首个将 executor + advisor 策略做成产品级开关的厂商。
- 视觉能力提升:使用 Python 工具操作图像(裁剪、放大、画框等)。模型能自发组合视觉与非视觉工具,写完代码后自动运行 GUI 验证渲染和交互。
总结
Step 3.7 Flash 的核心优势在于:搜索能力强、代码生成质量高、输出速度极快、支持多模态。结合其订阅价格(Step Plan 49 元/月),性价比突出。
在模型竞争日益激烈的今天,单点 Benchmark 已不再是唯一标准。从任务开始到交付的整条曲线——速度、智能、成本三者同时在线——才是关键。Step 3.7 Flash 在这三者上表现均衡,是一个值得尝试的生产级 Agent 高效率模型。
相关链接: