10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

微信大语言模型 WeLM 揭秘:专为微信生态设计的低成本 MoE 架构,128K 长上下文

1小时前 AI最新动态 17 0

随着微信 AI Agent「小微」的内测版上线,其背后的大语言模型也浮出了水面。

不是腾讯的混元,不是深度求索的 DeepSeek,不是智谱的 GLM,而是微信自研的大语言模型 WeLM(WeChat Language Model)。

01 为什么是 WeLM 而非混元?

WeLM 早在 2022 年 10 月就已发布(ChatGPT 爆火同期),但一直比较低调,公开资料较少。目前已经迭代到第四个版本 WeLM-V4。

它和腾讯混元最大的区别在于定位:

  • 混元:通用大模型,卷参数、卷通用能力,对外开放
  • WeLM:微信生态专用大模型,强调性价比、稳定、快速响应,应用于微信生态内,不对外开放

02 一个低成本、高效率的"小模型"

WeLM 采用高度稀疏的 MoE(Mixture of Experts,混合专家)架构,而非超大稠密模型。目的是在有限资源下把模型做得足够高效。

它总参数约 80B 或 130B,在如今动辄几百 B、几 T 的模型中,属于"小模型"。但对于微信日活超 10 亿、月活超 14 亿的调用规模来说,成本控制至关重要。

WeLM 技术团队引入了 GQA、partial RoPE、KV-Mirror、Multi-Token Prediction 等技术,核心目标都是:降低开销、降低推理成本、提高吞吐能力。

03 快速响应:Hidden Decoding

在微信中使用 AI,和其他产品不同。用户可以允许 Codex 等工具在处理任务时有思考过程,但微信 Agent 需要即时反馈。

WeLM 采用了一种叫 Hidden Decoding 的方式——通用模型通常会把推理过程展示出来,但微信 Agent 会把推理过程隐藏起来,既保证质量又不让用户等待。

04 长上下文能力

微信中使用 AI 天然是长上下文记忆场景:群聊消息总结、朋友圈动态、拟定回复话术、公众号/视频号内容、个人收藏/喜欢/点赞等。

WeLM 就生长在这个上下文环境里,这也是它能准确识别用户意图的重要因素。技术博客中提到,context extension 中把上下文扩到 128K,长上下文任务表现优秀。

05 技术进展

2026 年,WeLM 官方发布了 3 篇技术博客:

  • 以适度资源构建高效稀疏 MoE 模型
  • 初探 WeLM-258B MOE 模型后训练
  • Hidden Decoding: 在预训练中扩展序列长度

06 为什么是 DeepSeek 兜底?

微信小微的兜底模型是 DeepSeek,而不是混元——有意思的是,混元兜底也是找的 DeepSeek。DeepSeek 融资 500 亿,腾讯作为最大外部投资者又投了 100 亿。

总结

WeLM 的路线不是和别的大模型卷,而是做自己生态中最低成本、低延迟、稳定可控、联系上下文准确理解用户意图的专属大模型。微信小微一开放,WeLM 或将成为国内调用量最大的大语言模型。

WeLM 技术博客:https://welm.weixin.qq.com(以官方发布为准)

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:微信大语言模型 WeLM 揭秘:专为微信生态设计的低成本 MoE 架构,128K 长上下文
#WeLM #微信AI #大模型 #MoE #小微 
收藏 1
AI Coding 渗透报告:非技术人员正在用它做什么
这是最后一篇
推荐阅读
  • Cursor已死?Claude Code 的 L4 Agent 已来!Anthropic正在用大模型降维打击AI编程
  • OpenClaw 官方在 X 平台正式宣布:旗下技能市场 ClawHub 推出中国官方镜像站,附中文界面,国内访问不再受限
  • Claude Code Dynamic Workflows:AI 自主调度并行处理复杂任务
  • Claude全新上线的 MCP Apps:一个聊天框打通全流程工具,让MCP自带UI
  • CES 2026 观察:AI 不再是单独的产品,而是硬件的默认引擎
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
31185 11月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
28371 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
20075 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
19751 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
16233 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
16199 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15745 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
15001 1年前
国产大模型横向对比:Kimi K2.6、GLM-5.1、Qwen3、MiniMax M2 四大模型选型指南
14442 2月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14369 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 微信大语言模型 WeLM 揭秘:专为微信生态设计的低成本 MoE 架构,128K 长上下文
2 Nex-N2-Pro 开源模型,性能对标 GPT-5.5,专为 Agent 场景设计,限时免费
3 纳德拉:未来开发者要管理 1000 个 AI Agent,编程不会死但工作方式会变
4 微信小微 AI Agent :自研 WeLM 模型、语音优先交互、个人小工具生态
5 美团 LongCat 公测:每日最高 1.2 亿 Tokens 免费额度,1M 上下文窗口
6 GLM-5.2 实测评估:DeepSeek 之上的复杂执行层模型,海外社区真实反馈
7 Fable 5 暂停事件反思:AI 编程生产体系如何构建可替换的模型节点
8 GLM 5.2 开源详览:1M 上下文、744B MoE 架构与 Coding 实测
9 SpaceX 600 亿美元收购 Cursor:马斯克买下 AI 编程入口
10 GLM-5.2 开源:1M 上下文、744B MoE 与工程化突破
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联