10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Kimi K2 模型代码能力评测结果公开,Kimi K2超越DeepSeek拿下全球开源第一

1月前 AI最新动态 1487 0

开源第一,总榜第五,而且紧追GPT 4.5及马斯克Grok 4这样的顶尖闭源模型。

Kimi K2 发布有一段时间了,苏米之前也做过几期关于代码应用的分享,大家可以先回顾一下:

Kimi K2 发布体验:万亿参数能否成为Claude 4 平替?代码、Agent、写作全能选手来了!

手把手教你在VS Code & Cline/RooCode 中使用Kimi K2 模型,配置实录+开发实战体验

手把手教你在Claude Code 中使用Kimi K2 模型,超简单配置教程分享

今天主要是汇总整理了一些近期关于 Kimi 新出的 K2 模型的公开的大模型编程能力评价指标,以及在各大榜单的表现!

Text Arena

Text Arena,这是一个用于训练和评估大型语言模型(LLM)中智能行为的开源平台,包含57+个独特的基于文本的竞争性游戏环境,包括单人、双人和多人设置。

Kimi K2 排名第五,得分和 Claude 4 Opus 相当,其实和 DeepSeek R1 差距也不大。并且各类单项能力也不差,能和一众闭源模型打得有来有回:

  • 连续多轮对话并列第一,o3和Grok 4均为第四;

  • 编程能力第二,和GPT 4.5、Grok 4持平;

  • 应对复杂提示词能力第二,和o3、4o位于同一梯队;

Aider LLM Leaderboards

Aider LLM Leaderboards,测试了 LLM 在编码方面的能力,通过225 个具有挑战性的 Exercism 编码练习,练习题横跨 C++、Go、Java、JavaScript、Python 和 Rust。

从数据结果上,排名好于 DeepSeek R1,与 Qwen3-235B-A22B 编程水平相当,整体来说,与 o3-mini-high、claude-3.7-sonnet 没差多少。

Kimi K2 热度

K2过去一周是真热啊,公开可查战绩包括但不限于下面这些:

从实打实的数据来看,发布这一周里,Kimi K2在开源社区就获得了相当关注度和下载量。

GitHub标星6K,Hugging Face下载量近12万,这还不算它在中国社区的应用。

甚至由于访问的用户太多了,逼得Kimi官方也出来发公告:

访问量大+模型体积大,导致API过慢。

Kimi K2 体验

目前,官网已经上线,可以直接体验K2新模型:

API也在同步开放申请,而且新账号激活后赠送 15 元的使用额度的权益还在,不过由于人数过多,速率会稍微慢点,可以耐心等待也可以充钱解锁。

总结

总的来说,Kimi K2代码能力要略好于 DeepSeek R1,在 Claude 3.7 ~ Claude 4.0 的水平之间。整体审美能力偏弱,但工具调用很强,更适合和 Claude Code 搭配做一个平替。

一直以来开源=性能弱的刻板印象正在被打破,Kimi K2的开源模型已经越来越厉害了,不仅榜单上的整体排名在上升,而且分数差距也越来越小。

未来开源击败闭源将变得越来越普遍。TOP 10中唯二开源、且都是国产模型的含金量还在上升。

相关链接

Kimi 官网地址:https://kimi.moonshot.cn/

API 申请平台:https://platform.moonshot.cn/console/account

Hugging Face:https://huggingface.co/moonshotai/Kimi-K2-Instruct

Github:https://github.com/MoonshotAI/Kimi-K2

Text Arena地址:https://lmarena.ai/leaderboard/text/overall

Aider LLM Leaderboards地址:https://aider.chat/docs/leaderboards/

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Kimi K2 模型代码能力评测结果公开,Kimi K2超越DeepSeek拿下全球开源第一
#Kimi K2 #代码能力 #开源模型 #Text Arena 
收藏 1
Trae 2.0 即将发布,全新SOLO模式重新定义AI编程体验
Jaaz:AI设计代理工具,使用多模态创意画布创建病毒式短片、设计海报、生成图像和视频
推荐阅读
  • 腾讯CodeBuddy的 AI 编程 IDE内测,真正适合小白的AI编程工具?
  • Lingma IDE:又一款完全免费的 AI 编程 IDE,智能体+MCP开箱即用
  • 又是“最强模型”的一天!Google Gemini 2.5 Pro更新,性能再次跃升
  • Windsurf Wave 9 SWE-1 模型如何重塑软件工程全流程:从写代码到理解开发流程
  • Cursor已死?Claude Code 的 L4 Agent 已来!Anthropic正在用大模型降维打击AI编程
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
17242 1月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
15130 4月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14005 6月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
11824 4月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
11383 9月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
9774 4月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
8786 6月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
8188 8月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
7746 4月前
字节全新AI编程 IDE:Trae!性能对标Cursor,标配Claude 3.5和GPT-4o,免费无限量
5729 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 手把手教你白嫖一年Google Gemini Pro,学生免费订阅开通教程
2 Cursor 1.5更新体验:AI Agent 真的能直接入职了!
3 Dify 1.8.0 更新实测:多模型管理、MCP OAuth 和异步存储,升级是否值得?
4 Nano Banana 免费玩到爽!Gemini 2.5 Flash Image使用地址汇总
5 Nano Banana:谷歌图像编辑新模型Gemini 2.5 Flash Image来了
6 Google AI Mode上线免费体验:从聊天到代理,让生活更高效!
7 Vinsoo:全球首个云端 Agent 编程 IDE,如何让AI成为开发者的全能助手?
8 突发!Kiro 8月全员免费 + 全额退款,原因竟是因为一个BUG~
9 Qoder:又一款全新AI IDE上线,免费(我做了一个Qwen AI 图像生成器)
10 OpenAI联手谷歌,开源 agents.md,Agent文档编写有了统一标准!
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联