字节 Doubao-Seed-2.1 刚刚发布,DeepSeek-V4 也推出了推理加速版 DSpark。与前沿模型 GPT-5.5 相比,这三款模型在实际 Agent 任务中的表现如何?
这次实测用一个典型的中小型 Agent 任务——开发一个 Excel 数据分析与可视化工具——来对比三者的能力,并由 Gemini-3.1-Pro 担任裁判打分。
新模型速览
Doubao-Seed-2.1 Pro
在 GDPVal、MCP-Atlas、SeedClawBench 等基准上排名第一,在 Agent/生产力任务上已经超过 GPT-5.5、Claude Opus 4.7 和 Gemini 3.1 Pro。

它在企业生产力、MCP 工具生态、Agent 任务执行上表现强势,长程任务处理能力突出。
DeepSeek-V4-DSpark
不是新一代模型,而是 V4-Flash 的推理加速版,推理速度提升约 80%,重点让 1M 长上下文开源模型更适合真实部署。

实测任务设计
任务:开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。要求:
- 支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel
- 读取多 Sheet,展示可搜索、分页、横向滚动的数据表格
- 自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和
- 生成中文数据分析报告
- 使用 ECharts 自动生成柱状图、折线图、饼图、散点图等
- 支持用户选择 X/Y 字段和图表类型自定义生成
只输出完整可运行的单文件 HTML 代码,不依赖后端。
Doubao-Seed-2.1 实测
通过 DeepLocals 配置 Doubao-Seed-2.1 API,125 个豆包模型全部可用:


在知识库聊天界面选择该模型:

发送任务提示词:

生成的 HTML 文件保存后打开:

导入 Excel 文件,生成数据概览:

自动生成的图表(基本工资柱状图):

透视图表效果:


GPT-5.5 实测
同样的任务发给 GPT-5.5,打开生成的 HTML 文件:

数据预览页面:

生成的图表:

DeepSeek-V4-Pro 实测
为保证公平性,使用 Pro 版本而非 Flash:

打开生成的 HTML:

数据预览:

出勤天数柱状图:

裁判打分
交给 Gemini-3.1-Pro 作为裁判,基于三个维度进行评估:

三个打分维度:

最终评分结论:

最终排名
结果出人意料——GPT-5.5 排名最后:

实测发现,GPT-5.5 在 UI 前端可视化这块确实还没有达到最好的水平。
豆包排名第一,超越 GPT-5.5,出乎意料。它在页面交互和脏数据处理等细节上做得很到位,生成的工具最接近真实产品。
DeepSeek-V4 排名第二,但不能对文本型数值列做可视化:

总结
这次实测最让人意外的是豆包的表现——从"不太行"到超越 GPT-5.5,排名登顶。它在页面交互和脏数据处理等细节上做得到位,生成的工具最接近真实产品。
GPT-5.5 虽然能跑通基本功能,但做出来的界面太像个粗糙的"毛坯房",在前端体验上确实有些落后。DeepSeek-V4 位居次席,在数值可视化灵活性上还有提升空间。