当前位置：首页 » AI最新动态

谷歌开源 Gemma 4 12B：统一无编码器架构，16GB 内存笔记本即可运行多模态模型

1月前 AI最新动态 422 0

谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中，可在消费级笔记本电脑上运行。

Gemma 4 12B 填补了 Gemma 系列的关键空缺：比边缘端的 E4B 更强，比 26B 混合专家模型（MoE）更轻。它是整个 Gemma 4 系列中第一个支持原生音频输入的中等规模模型。

Gemma 4 12B 在标准评测基准上的成绩接近 26B MoE 模型，但总内存占用不到后者的一半。硬件门槛方面，只需要 16GB 显存或统一内存，消费级笔记本电脑即可运行，入门级 MacBook Air（M5）即可满足要求。

模型支持强大的多步推理和智能体工作流，多模态理解加上 Agent 能力可直接在本地运行，无需联网或依赖云端。

支持的本地推理工具包括：

使用建议：推荐 32GB 内存以获得更好的 token 生成速度，16GB 内存可以运行但速度较慢。知识截止日期为 2025 年 1 月。

Gemma 4 12B 最大的技术创新是去掉了传统的编码器。

传统多模态模型处理图片或音频时，需要先用专门的编码器将图像、音频"翻译"成模型能理解的表示，再传给语言模型主体。编码器越多，延迟越高，内存占用也越大。

Gemma 4 12B 采用了全新的统一、无编码器架构：

视觉处理：用极轻量的嵌入模块替换原来的视觉编码器，该模块只包含一次矩阵乘法、位置嵌入和归一化操作。视觉信息直接进入语言模型主干，由大模型自行进行视觉理解。

音频处理：音频编码器被完全移除，原始音频信号直接被投影到与文本 token 相同的维度空间里。

这种统一、无编码器的架构带来的直接好处是：延迟更低，内存更省。

Gemma 4 12B 内置了多 Token 预测（MTP）草稿器，专门用于降低推理延迟。这项技术目前已应用于谷歌全系模型，在实际使用中意味着更快的响应速度。

Gemma 4 12B 采用 Apache 2.0 协议发布，开发者可以自由使用。预训练权重和指令微调权重均可从 Hugging Face 和 Kaggle 下载。

支持的推理框架：

微调支持：Unsloth

生产部署：支持通过谷歌云上线，可通过 Gemini 企业级智能体平台模型花园、Cloud Run 和 GKE 部署。

谷歌同步发布了官方 Gemma 技能库（Skills Repository），专门为开发者用 Gemma 模型构建智能体工作流提供支持。

相关链接：

开发者指南：https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
权重下载：https://huggingface.co/collections/google/gemma-4
官方博客：https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论

文章目录