谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中,可在消费级笔记本电脑上运行。

Gemma 4 12B 填补了 Gemma 系列的关键空缺:比边缘端的 E4B 更强,比 26B 混合专家模型(MoE)更轻。它是整个 Gemma 4 系列中第一个支持原生音频输入的中等规模模型。
Gemma 4 12B 在标准评测基准上的成绩接近 26B MoE 模型,但总内存占用不到后者的一半。硬件门槛方面,只需要 16GB 显存或统一内存,消费级笔记本电脑即可运行,入门级 MacBook Air(M5)即可满足要求。

模型支持强大的多步推理和智能体工作流,多模态理解加上 Agent 能力可直接在本地运行,无需联网或依赖云端。
本地体验入口
支持的本地推理工具包括:
- LM Studio
- Ollama
- Google AI Edge Gallery App
- Google AI Edge Eloquent 应用(支持完全离线的语音转录、格式化和翻译)
- LiteRT-LM CLI
使用建议:推荐 32GB 内存以获得更好的 token 生成速度,16GB 内存可以运行但速度较慢。知识截止日期为 2025 年 1 月。


核心技术创新:无编码器架构
Gemma 4 12B 最大的技术创新是去掉了传统的编码器。
传统多模态模型处理图片或音频时,需要先用专门的编码器将图像、音频"翻译"成模型能理解的表示,再传给语言模型主体。编码器越多,延迟越高,内存占用也越大。
Gemma 4 12B 采用了全新的统一、无编码器架构:
视觉处理:用极轻量的嵌入模块替换原来的视觉编码器,该模块只包含一次矩阵乘法、位置嵌入和归一化操作。视觉信息直接进入语言模型主干,由大模型自行进行视觉理解。
音频处理:音频编码器被完全移除,原始音频信号直接被投影到与文本 token 相同的维度空间里。
这种统一、无编码器的架构带来的直接好处是:延迟更低,内存更省。
速度优化:多 Token 预测
Gemma 4 12B 内置了多 Token 预测(MTP)草稿器,专门用于降低推理延迟。这项技术目前已应用于谷歌全系模型,在实际使用中意味着更快的响应速度。
Apache 2.0 完全开放
Gemma 4 12B 采用 Apache 2.0 协议发布,开发者可以自由使用。预训练权重和指令微调权重均可从 Hugging Face 和 Kaggle 下载。
支持的推理框架:
- Hugging Face Transformers
- llama.cpp
- MLX
- SGLang
- vLLM
微调支持:Unsloth
生产部署:支持通过谷歌云上线,可通过 Gemini 企业级智能体平台模型花园、Cloud Run 和 GKE 部署。
配套生态
谷歌同步发布了官方 Gemma 技能库(Skills Repository),专门为开发者用 Gemma 模型构建智能体工作流提供支持。
相关链接:
- 开发者指南:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
- 权重下载:https://huggingface.co/collections/google/gemma-4
- 官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/