市面上能调用的模型越来越多,各家都有自己的亮点,光看宣传文档和跑分数据很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候。这次测试把五个主流模型拉出来实际跑一遍,看看它们在真实 Agent 任务中的表现。
测试模型:MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash
测试任务:制作一个「AI 工具导航站」的 HTML 单页,包含信息搜索、数据整理、页面设计、交互功能、代码实现、运行检查和问题修复的全链路。
MiniMax-M3:稳定、便宜、能跑完
MiniMax-M3 在长链路任务里表现比较稳定,会主动进行多轮工具调用——搜索资料、整理数据、生成页面代码、检查文件、修复问题。整个过程像一个正常工作的 Agent,不会只停留在"给一段代码"的层面。

测试中有一次工具调用失败,但没有影响最后结果,模型会继续往下执行并把页面做出来。

最终页面效果:数据完整度、页面结构和交互功能都比较完整。




从最终页面来看,MiniMax-M3 没有特别追求视觉上的炫酷,但胜在流程稳定,任务理解清楚。测试费用约 1.33 元左右,属于中低成本模型。
经过多次测试,任务制作完成率 100%,工具成功调用率约 98%。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。
DeepSeek-V4-flash:快和便宜
整体速度比较快,响应干脆。在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

风格更偏"快速完成任务"——会很快把代码生成出来,但在资料搜索、数据校验、细节修复方面没有 MiniMax-M3 和 Step-3.7-flash 那么细。


页面可以正常完成,基础模块都有(分类、卡片、搜索、详情、表格)。测试费用约 0.2 元,成本优势明显。任务完成率约 100%,工具调用成功率约 99%。
适合"快速生成 + 人工稍微检查"的工作流,但长链路 Agent 的细节稳定性需要看具体平台环境。
Step-3.7-flash:生产级 Agent 定位
Step-3.7-flash 是这次测试中比较符合"生产级 Agent"定位的模型,多工具调用积极性高,会连续完成搜索、读取、整理、生成、修改和检查。

页面效果是典型的深色科技风。在数据整理方面表现突出,AI 工具数据比较全,分类也比较清楚。




内容密度最高,会尽量把任务要求里的模块都补上(标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明)。测试费用约 0.7 元,价格中等偏下。

任务完成率约 100%,工具调用率约 99%。优势不在低价,而在"能连续跑、少中断、完成率高"。适合高频、多轮、低延迟且包含搜索、文件、代码、修复等工具链路的任务。
GLM5.2:均衡但贵
GLM5.2 在代码生成和页面结构上表现不错,能理解任务需要完整的 AI 工具导航站,页面模块拆得比较清楚。




特点是能力比较均衡,在 Agent 任务中可以正常发挥模型实力。测试费用约 3.66 元,最大的缺点就是贵。
Gemini3.5 flash:审美在线
Gemini 的审美一直比较在线,生成的前端页面更精致,布局更舒服,留白和层次感也更好。相比其他模型,Gemini3.5 flash 更懂前端设计。



但数据收集没有前面的模型多,尤其是和 Step-3.7-flash 对比,Step 收集的数据更全,分类覆盖更完整,工具调用也更积极。测试费用约 9 元,价格明显更贵。适合做展示页、官网 Demo、产品介绍页,但对高频调用要谨慎。
测试结果对比

苏米注:这次测试最值得关注的不是单轮回答能力,而是模型能不能把一个真实任务从头跑到尾。不同模型适合不同场景——做展示型页面优先看 Gemini,做生产级 Agent 流程重点看 Step-3.7-flash,做高频低成本任务看 MiniMax-M3 和 DeepSeek-V4-flash,综合型任务选 GLM5.2。关键是根据场景选模型,而不是只看跑分。