10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

LMArena:这个大模型评测试用台,全免费!GPT-5.2、Claude 4.5、Gemini 3 随便用

1小时前 AI产品百科 17 0

作为一名常年跑新模型、做选型评测的产品经理,如果只把 LMArena 视为一个查看“公开模型对比平台”,那你就错了。

普通用户可以在这里薅羊毛。

你可以免费体验 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5、Grok 4.1,还有 DeepSeek、智谱、MiniMax 这些国产大佬。

图像模型,可以免费用 Nano Banana Pro、GPT-Image-1.5 和 FLUX 2。

不过,免费试用不等于适合上生产,我在文末会给出明确的适配建议。

平台概览与定位

平台名称与网址:LMArena(lmarena.ai),前身为 Chatbot Arena。

核心方法:基于“真人偏好”的盲测投票。用户输入问题,平台随机分配两个匿名模型作答;用户仅凭回答质量投票,随后才显示模型身份。

排名机制:采用类似国际象棋的 Elo 评分。每次对决产生加减分,累计形成榜单。

题目来源:全球用户的真实提问(平台披露为覆盖多国、多语言),减少“刷榜”与过拟合标准试卷的影响。

定位与商业模式:对公众试用免费;企业可付费做定制化评测(含盲测、报告、榜单展示等)。关于融资与估值、营收等媒体报道数据存在时间差与版本差异,建议以平台官方披露为准;对普通用户而言,“测与榜单”目前无需付费。

当前可用模型覆盖

LMArena已从纯文本对话扩展到多赛道。

下列信息结合平台公开描述与社区共识,部分模型在平台内可能使用别名或代号:

  • Text Arena(文本对话):可试用多家通用大模型,如平台内标注的 GPT-5.2、Gemini 3 Pro、Claude Opus 4.5、Grok 4.1、DeepSeek R1、GLM-4.7 等。
  • Vision Arena(看图说话):支持多模态理解,平台显示谷歌系列在此赛道表现突出。
  • Code Arena(编程生成,曾称 WebDev Arena):用于代码生成与网页组件产出,平台显示 Anthropic 系列高阶模型在该赛道长期居前。
  • Text-to-Image Arena(文生图):平台标注支持 GPT-Image-1.5、FLUX 2、Ideogram 3 以及国内模型如腾讯 Hunyuan Image 3.0、字节 Seedream 4.5。
  • Image Edit Arena(图像编辑):支持局部/整体编辑,平台显示 OpenAI 与谷歌系列交替居前,曾出现 Nano Banana Pro(社区俗称“大香蕉”)为图像方向代号。
  • Video Arena(文生视频):新近上线网页端,平台列出 Veo 3.1、Sora 2、可灵 2.6 Pro、Seedance v1.5 Pro、Wan 2.5、Hailuo 2.3 等多模型。需登录后使用。

说明:平台存在“新模型匿名试测”的长期惯例。

比如社区曾观察到 OpenAI 的 GPT-5 代号“summit”,Gemini 图像方向代号“nano-banana”等。

不同时间段、不同区域用户可能遇到不完全一致的模型名单与别名。

功能范围、技术特征、使用门槛与适合人群

赛道/功能 技术特征 使用门槛 适合场景 常见限制
Text Arena(文本对话) 盲测投票、Elo排名、多语言 无需注册即可体验 通用问答、创意写作、知识检索初步对比 需投票才能继续;响应速度可能慢于官方
Vision Arena(看图说话) 图像理解与描述、指令遵循 上传图片即可;对大图可能有尺寸限制 多模态问答、文档/图表说明 图像隐私需谨慎;复杂OCR/计算图表不保证稳定
Code Arena(编程生成) 代码生成与网页产出、自动评分 提示词设计需更精确 跨模型对比编码风格与正确性 环境与依赖不在同一沙盒;生产级质量需另行验证
Text-to-Image(文生图) 风格化与构图控制、模型多样 编写提示词;可能支持负向提示 海报、插图、概念草图 版权与商用条款随模型不同;高分辨率/一致性需要迭代
Image Edit(图像编辑) 局部修复、重绘、风格迁移 上传原图并给出编辑意图 电商修图、社媒素材处理 细粒度控制有限;复杂遮罩需手工
Video Arena(文生视频) 短视频生成、风格与场景指令 需注册登录;提示词设计门槛较高 创意分镜验证、模型能力摸底 时长/分辨率有限制;下载格式与配乐能力因模型而异

价格、配额与策略

  • 公众使用:当前文本与图像相关赛道可直接免费使用;视频生成需登录,注册免费。
  • 配额与速率:平台存在速率限制与人机验证;高峰期响应速度可能低于模型官方接口。
  • 企业评测:提供付费评测与报告服务,按项目定制与报价;用于模型对比、采购前选型、特定任务盲测等。具体价格以官方商务沟通为准。
  • 模型价格与参数:平台中的模型常以别名或匿名形式出现,且由各厂商提供。若需商用接入,请以模型官方渠道的定价与API规格为准(如上下文长度、调用费用、速率限制、图像/视频分辨率与时长、输出许可条款等)。

如何使用:三种模式

  • Battle(默认):输入问题 → 系统随机分配两模型作答 → 根据质量投票 → 揭晓身份。适合摸底整体能力、体验“盲测”。
  • Side-by-Side:在左上角选择手动PK两模型(如 GPT-5.2 vs Claude Opus 4.5)。适合有明确备选的对比场景。
  • Direct Chat:选择单个模型直接聊天或生成内容。适合连续探索与提示词调试。

图像/视频:在输入框下选择“图像”按钮进行文生图或图像编辑;

视频访问 lmarena.ai/video,输入提示词即可生成并下载。视频功能需登录。

结语

如果你是产品或技术负责人,需要在短时间摸清主流与新模型的能力区间,LMArena的盲测与Elo榜单是一个成本极低的前哨工具:用Battle快速感知整体质量,用Side-by-Side缩小候选范围,用Direct Chat打磨提示词。

随后,将少量入围模型带到你自己的数据与流程中做可控评测,确认成本、合规与SLA,再决定采购与接入。

对普通用户而言,LMArena提供了“免费试用多模型”的窗口,但它的本职是评测与榜单。

把它用在探索与比较上,价值最大;把它当作生产力平台,风险超出收益。

理清定位,按场景选择,你会在这个“真人偏好”的试用台上得到比跑分更接近真实使用的参考。

官网地址:lmarena.ai

部分地区需要网络支持

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:LMArena:这个大模型评测试用台,全免费!GPT-5.2、Claude 4.5、Gemini 3 随便用
#LMArena #大模型评测 
收藏 1
智谱上线AI学习搭子,从收藏夹里挖出来的知识,怎样才能真正变成自己的能力?
5款AI笔记和知识库工具深度对比,从个人知识管理到团队协作
推荐阅读
  • Roam Around:您的AI旅行代理,利用AI生成旅行计划的在线工具
  • AI Video Watermark Remover:AI智能去水印,支持TikTok、YouTube、Instagram等平台
  • DocHero AI:AI论文写作、翻译、润色一站式工具,精准翻译各种语言的学术论文和研究文档
  • Memingo:AI表情包生成器,快速制作和分享有趣的表情包
  • usegalileo.ai: 基于人工智能的AI界面UI设计工具
评论 (0)
请登录后发表评论
分类精选
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
13922 11月前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
13469 1年前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
12394 2月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
11813 10月前
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
11341 11月前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
11173 1年前
抖音即创AI: 一站式智能AI创作管理平台
9603 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
9434 1年前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
8470 10月前
Saylo:免费AI角色故事聊天,沉浸式AI聊天、互动故事及角色扮演游戏平台
7850 11月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 LMArena:这个大模型评测试用台,全免费!GPT-5.2、Claude 4.5、Gemini 3 随便用
2 智谱上线AI学习搭子,从收藏夹里挖出来的知识,怎样才能真正变成自己的能力?
3 ChatWise:功能越多就越好吗?一款高性能轻量级AI聊天助手
4 skills.sh:Vercel悄悄上线8万个Agent Skills精选,一键安装,全平台适配
5 C2Story:AI一键生成图文故事,让创作像说话一样简单
6 Musid:AI音乐视频生成器,可创建具有完美口型的音乐视频
7 0xCal:拍照或说句话就能秒记卡路里的AI饮食追踪神器
8 Cardboard:一站式AI视频编辑工作室——剪、配、字、色全自动,10分钟成片
9 Muze AI:一款人工智能广告平台,通过 AI 自动创建和运行广告
10 Promptsy:AI提示词管理专家,一键保存、测试与优化你的Prompt资产
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联