面壁智能联合 OpenBMB、清华大学正式发布 MiniCPM-o 4.5 技术报告,首次公开 Omni-Flow 流式全模态框架核心技术。该模型自 2026 年 2 月发布以来,Hugging Face 下载量突破 25 万+,以 9B 参数实现业界首个端到端全双工全模态大模型。

核心资源
为什么全双工是 AI 交互下一站
人类交流是流畅、并行的——边听边思考,甚至可以打断对方。但传统 AI 交互是半双工模式,像对讲机:你说完它才能处理,它说的时候听不见你的新指令。
这种「时空割裂」导致用户无法获得良好体验感,长期会影响多模态落地。MiniCPM-o 4.5 在全球首创「全双工全模态」:模型在持续感知环境(看视频、听声音)的同时进行思考和响应,AI 从被动工具变成可以主动帮助的真正助手。

苏米注:Omni-Flow 把视觉、音频、语言等所有信息流对齐到毫秒级时间片,模型在每个极小时间片内完成「感知-思考-响应」循环,从底层赋予持续感知和即时反应能力。
端到端架构:9B 模型协同设计

| 组件 | 参数量 | 功能 |
|---|---|---|
| 视觉编码器 | 0.4B | SigLIP-ViT,负责「看」 |
| 音频编码器 | 0.3B | Whisper-Medium,负责「听」 |
| LLM 基座 | 8B | Qwen3-8B,负责「思考」和理解 |
| 语音 Token 解码器 | 0.3B | 轻量级 Llama,将文本转化为语音单元 |
| 声码器 | - | 将语音单元合成为最终波形 |
设计亮点:LLM 基座只生成文本 Token,语音合成「外包」给专业的小型解码器,避免大模型处理复杂声学任务,保证核心语言和推理能力。同时通过 token 级稠密连接保证能力上限。
TAIL 语音生成方案:为实时而生
流式语音的难题是延迟——模型需要「预读」大量文本才能保证自然,但会导致语音输出滞后于用户输入,在需要「即时打断」的全双工场景里致命。
TAIL(Time-Aligned Interleaving)方案让每个语音块生成紧跟实时最新文本内容,而非让文本「抢跑」。通过轻量级预读机制解决跨词发音连贯性,在保证音频流畅的同时将语音延迟降到最低。
性能表现:9B 硬刚业界顶尖
推理效率

MiniCPM-o 4.5 INT4 量化版仅需 12GB 显存运行,几乎是 Qwen3-Omni INT4 版本的一半。解码速度 212 tokens/s,比 Qwen3 快 40%+,响应延迟更低。
踩坑记录:实测最低 12GB 显存的 RTX 5070 即可流畅运行全双工模式(RTF 0.4),消费级显卡本地部署成为可能。
综合视觉能力

在 OpenCompass、MMBench 等基准上,9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。
全模态与全双工交互

在联合音视频理解基准上,MiniCPM-o 4.5 全面超越 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上,胜率 54.4% 大幅领先专用流式视频模型。
语音生成

中英文语音生成质量(字符/单词错误率更低)和情感表现力都优于 Qwen3-Omni 和 CosyVoice2。
端侧部署:Comni 安装包
基于 llama.cpp 完成模型量化和推理优化,桌面软件 Comni 集成模型下载、环境安装和 Demo 运行能力:
| 平台 | 下载链接 | 硬件要求 |
|---|---|---|
| Windows | GitHub | 12GB+ 显存(RTX 5070/4090) |
| macOS | GitHub | M1-M5 Max/Pro,建议 16GB+ |

苏米注:启动本地服务后,强烈推荐通过手机用局域网连接进行全双工视频通话——数据不出本地,隐私安全,断网也能跑。
应用场景:全双工催生新应用
- 主动式伴侣:烹饪、修理、运动时实时指导和提醒
- 无障碍辅助:为视障人士持续观察环境,主动播报绿灯亮起、水杯将满等关键信息
- 智能座舱:持续监控路况和驾驶员状态,主动提示左侧车位并引导泊车
- 具身智能:作为机器人「大脑」,持续感知动态环境并自主决策交互时机
这些场景的共同点:需求不是一次性问答,而是需要 AI 作为「沉默的观察者」和「及时的提醒者」融入动态生活流——传统轮次对话模型无法胜任。
技术要点:MiniCPM-o 4.5 是原生全双工模型,摆脱对 VAD 依赖,支持 general 声音感知(环境噪音、音乐,不仅是语音),画面变化跟进更快,AI 说话时可被实时引导改变内容。
当前局限与未来
MiniCPM-o 4.5 还存在提升空间:长时间交互稳定性、主动行为丰富性等。多模态智能下一前沿不仅在于模型能力扩展,更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在这一方向的关键探索。