10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现

1小时前 AI开源项目 13 0

面壁智能联合 OpenBMB、清华大学正式发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架核心技术。该模型自 2026 年 2 月发布以来,Hugging Face 下载量突破 25 万+,以 9B 参数实现业界首个端到端全双工全模态大模型。

MiniCPM-o 4.5 技术报告封面

核心资源

  • 技术报告:PDF 下载
  • 在线 Demo:电脑端 | 手机端
  • API:免费开放
  • GitHub Demo:本地部署代码

为什么全双工是 AI 交互下一站

人类交流是流畅、并行的——边听边思考,甚至可以打断对方。但传统 AI 交互是半双工模式,像对讲机:你说完它才能处理,它说的时候听不见你的新指令。

这种「时空割裂」导致用户无法获得良好体验感,长期会影响多模态落地。MiniCPM-o 4.5 在全球首创「全双工全模态」:模型在持续感知环境(看视频、听声音)的同时进行思考和响应,AI 从被动工具变成可以主动帮助的真正助手。

交互范式演进对比图

苏米注:Omni-Flow 把视觉、音频、语言等所有信息流对齐到毫秒级时间片,模型在每个极小时间片内完成「感知-思考-响应」循环,从底层赋予持续感知和即时反应能力。

端到端架构:9B 模型协同设计

MiniCPM-o 4.5 端到端架构图

组件 参数量 功能
视觉编码器 0.4B SigLIP-ViT,负责「看」
音频编码器 0.3B Whisper-Medium,负责「听」
LLM 基座 8B Qwen3-8B,负责「思考」和理解
语音 Token 解码器 0.3B 轻量级 Llama,将文本转化为语音单元
声码器 - 将语音单元合成为最终波形

设计亮点:LLM 基座只生成文本 Token,语音合成「外包」给专业的小型解码器,避免大模型处理复杂声学任务,保证核心语言和推理能力。同时通过 token 级稠密连接保证能力上限。

TAIL 语音生成方案:为实时而生

流式语音的难题是延迟——模型需要「预读」大量文本才能保证自然,但会导致语音输出滞后于用户输入,在需要「即时打断」的全双工场景里致命。

TAIL(Time-Aligned Interleaving)方案让每个语音块生成紧跟实时最新文本内容,而非让文本「抢跑」。通过轻量级预读机制解决跨词发音连贯性,在保证音频流畅的同时将语音延迟降到最低。

性能表现:9B 硬刚业界顶尖

推理效率

推理效率对比

MiniCPM-o 4.5 INT4 量化版仅需 12GB 显存运行,几乎是 Qwen3-Omni INT4 版本的一半。解码速度 212 tokens/s,比 Qwen3 快 40%+,响应延迟更低。

踩坑记录:实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4),消费级显卡本地部署成为可能。

综合视觉能力

视觉基准评测

在 OpenCompass、MMBench 等基准上,9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。

全模态与全双工交互

全模态交互评测

在联合音视频理解基准上,MiniCPM-o 4.5 全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,胜率 54.4% 大幅领先专用流式视频模型。

语音生成

语音生成质量对比

中英文语音生成质量(字符/单词错误率更低)和情感表现力都优于 Qwen3-Omni 和 CosyVoice2。

端侧部署:Comni 安装包

基于 llama.cpp 完成模型量化和推理优化,桌面软件 Comni 集成模型下载、环境安装和 Demo 运行能力:

平台 下载链接 硬件要求
Windows GitHub 12GB+ 显存(RTX 5070/4090)
macOS GitHub M1-M5 Max/Pro,建议 16GB+

端侧部署演示

苏米注:启动本地服务后,强烈推荐通过手机用局域网连接进行全双工视频通话——数据不出本地,隐私安全,断网也能跑。

应用场景:全双工催生新应用

  • 主动式伴侣:烹饪、修理、运动时实时指导和提醒
  • 无障碍辅助:为视障人士持续观察环境,主动播报绿灯亮起、水杯将满等关键信息
  • 智能座舱:持续监控路况和驾驶员状态,主动提示左侧车位并引导泊车
  • 具身智能:作为机器人「大脑」,持续感知动态环境并自主决策交互时机

这些场景的共同点:需求不是一次性问答,而是需要 AI 作为「沉默的观察者」和「及时的提醒者」融入动态生活流——传统轮次对话模型无法胜任。

技术要点:MiniCPM-o 4.5 是原生全双工模型,摆脱对 VAD 依赖,支持 general 声音感知(环境噪音、音乐,不仅是语音),画面变化跟进更快,AI 说话时可被实时引导改变内容。

当前局限与未来

MiniCPM-o 4.5 还存在提升空间:长时间交互稳定性、主动行为丰富性等。多模态智能下一前沿不仅在于模型能力扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向的关键探索。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现
#MiniCPM-o 4.5 #全双工 #全模态 #Omni-Flow #开源模型 #端侧部署 #面壁智能 
收藏 1
AI 真正改变的不是设计,而是产品经理的能力模型
这是最后一篇
推荐阅读
  • AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
  • Stagehand:AI浏览器自动化神器,告别繁琐的网页操作!
  • baoyu-skills:又一个宝藏Skill,面向内容创作者的技能集,支持图文生成、发布与处理
  • 科大讯飞开源 SkillHub:团队私有 AI 技能包管理平台,兼容 OpenClaw
  • 6 款开源 CLI 工具合集:AI 驱动的命令行开发体验
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8979 6月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8127 7月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6234 4月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5788 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5575 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5341 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5335 7月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5235 6月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5135 6月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
5105 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现
2 ESP-Claw 开源项目详解:几美元芯片上跑 AI Agent,聊天即造物
3 13 个本周最火的 GitHub 项目:AI 编程工具生态爆发,OpenAI 官方 Agent 框架上榜
4 pi-mono 详解:4 万 Star 的 AI Agent 底层框架,OpenClaw 为什么选它?
5 free-claude-code 开源代理:零成本使用 Claude Code,支持 NVIDIA NIM 等免费模型
6 awesome-gpt-image-2:1849 条 GPT Image 2 提示词精选,覆盖 16 个场景类别
7 LLM Wiki 开源知识库应用:基于 Karpathy 方法论,让 AI 自动构建个人知识体系
8 Kami 开源文档设计系统:统一设计规范,让 AI 生成的文档直接可用
9 FireRed-OpenStoryline: 开源视频创作工具,一句话生成完整视频
10 CowAgent vs OpenClaw 对比评测:微信接入 AI 助手哪个更适合你?
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联