当前位置：首页 » AI产品百科

LMArena：这个大模型评测试用台，全免费！GPT-5.2、Claude 4.5、Gemini 3 随便用

6月前 AI产品百科 1754 0

作为一名常年跑新模型、做选型评测的产品经理，如果只把 LMArena 视为一个查看“公开模型对比平台”，那你就错了。

普通用户可以在这里薅羊毛。

你可以免费体验 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5、Grok 4.1，还有 DeepSeek、智谱、MiniMax 这些国产大佬。

图像模型，可以免费用 Nano Banana Pro、GPT-Image-1.5 和 FLUX 2。

不过，免费试用不等于适合上生产，我在文末会给出明确的适配建议。

平台概览与定位

平台名称与网址：LMArena（lmarena.ai），前身为 Chatbot Arena。

核心方法：基于“真人偏好”的盲测投票。用户输入问题，平台随机分配两个匿名模型作答；用户仅凭回答质量投票，随后才显示模型身份。

排名机制：采用类似国际象棋的 Elo 评分。每次对决产生加减分，累计形成榜单。

题目来源：全球用户的真实提问（平台披露为覆盖多国、多语言），减少“刷榜”与过拟合标准试卷的影响。

定位与商业模式：对公众试用免费；企业可付费做定制化评测（含盲测、报告、榜单展示等）。关于融资与估值、营收等媒体报道数据存在时间差与版本差异，建议以平台官方披露为准；对普通用户而言，“测与榜单”目前无需付费。

LMArena已从纯文本对话扩展到多赛道。

下列信息结合平台公开描述与社区共识，部分模型在平台内可能使用别名或代号：

Text Arena（文本对话）：可试用多家通用大模型，如平台内标注的 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5、Grok 4.1、DeepSeek R1、GLM-4.7 等。
Vision Arena（看图说话）：支持多模态理解，平台显示谷歌系列在此赛道表现突出。
Code Arena（编程生成，曾称 WebDev Arena）：用于代码生成与网页组件产出，平台显示 Anthropic 系列高阶模型在该赛道长期居前。
Text-to-Image Arena（文生图）：平台标注支持 GPT-Image-1.5、FLUX 2、Ideogram 3 以及国内模型如腾讯 Hunyuan Image 3.0、字节 Seedream 4.5。
Image Edit Arena（图像编辑）：支持局部/整体编辑，平台显示 OpenAI 与谷歌系列交替居前，曾出现 Nano Banana Pro（社区俗称“大香蕉”）为图像方向代号。
Video Arena（文生视频）：新近上线网页端，平台列出 Veo 3.1、Sora 2、可灵 2.6 Pro、Seedance v1.5 Pro、Wan 2.5、Hailuo 2.3 等多模型。需登录后使用。

说明：平台存在“新模型匿名试测”的长期惯例。

比如社区曾观察到 OpenAI 的 GPT-5 代号“summit”，Gemini 图像方向代号“nano-banana”等。

不同时间段、不同区域用户可能遇到不完全一致的模型名单与别名。

赛道/功能	技术特征	使用门槛	适合场景	常见限制
Text Arena（文本对话）	盲测投票、Elo排名、多语言	无需注册即可体验	通用问答、创意写作、知识检索初步对比	需投票才能继续；响应速度可能慢于官方
Vision Arena（看图说话）	图像理解与描述、指令遵循	上传图片即可；对大图可能有尺寸限制	多模态问答、文档/图表说明	图像隐私需谨慎；复杂OCR/计算图表不保证稳定
Code Arena（编程生成）	代码生成与网页产出、自动评分	提示词设计需更精确	跨模型对比编码风格与正确性	环境与依赖不在同一沙盒；生产级质量需另行验证
Text-to-Image（文生图）	风格化与构图控制、模型多样	编写提示词；可能支持负向提示	海报、插图、概念草图	版权与商用条款随模型不同；高分辨率/一致性需要迭代
Image Edit（图像编辑）	局部修复、重绘、风格迁移	上传原图并给出编辑意图	电商修图、社媒素材处理	细粒度控制有限；复杂遮罩需手工
Video Arena（文生视频）	短视频生成、风格与场景指令	需注册登录；提示词设计门槛较高	创意分镜验证、模型能力摸底	时长/分辨率有限制；下载格式与配乐能力因模型而异

公众使用：当前文本与图像相关赛道可直接免费使用；视频生成需登录，注册免费。
配额与速率：平台存在速率限制与人机验证；高峰期响应速度可能低于模型官方接口。
企业评测：提供付费评测与报告服务，按项目定制与报价；用于模型对比、采购前选型、特定任务盲测等。具体价格以官方商务沟通为准。
模型价格与参数：平台中的模型常以别名或匿名形式出现，且由各厂商提供。若需商用接入，请以模型官方渠道的定价与API规格为准（如上下文长度、调用费用、速率限制、图像/视频分辨率与时长、输出许可条款等）。

图像/视频：在输入框下选择“图像”按钮进行文生图或图像编辑；

视频访问 lmarena.ai/video，输入提示词即可生成并下载。视频功能需登录。

如果你是产品或技术负责人，需要在短时间摸清主流与新模型的能力区间，LMArena的盲测与Elo榜单是一个成本极低的前哨工具：用Battle快速感知整体质量，用Side-by-Side缩小候选范围，用Direct Chat打磨提示词。

随后，将少量入围模型带到你自己的数据与流程中做可控评测，确认成本、合规与SLA，再决定采购与接入。

对普通用户而言，LMArena提供了“免费试用多模型”的窗口，但它的本职是评测与榜单。

把它用在探索与比较上，价值最大；把它当作生产力平台，风险超出收益。

理清定位，按场景选择，你会在这个“真人偏好”的试用台上得到比跑分更接近真实使用的参考。

官网地址：lmarena.ai

部分地区需要网络支持

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论