10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型

1小时前 AI最新动态 10 0

谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中,可在消费级笔记本电脑上运行。

Gemma 4 12B 填补了 Gemma 系列的关键空缺:比边缘端的 E4B 更强,比 26B 混合专家模型(MoE)更轻。它是整个 Gemma 4 系列中第一个支持原生音频输入的中等规模模型。

Gemma 4 12B 在标准评测基准上的成绩接近 26B MoE 模型,但总内存占用不到后者的一半。硬件门槛方面,只需要 16GB 显存或统一内存,消费级笔记本电脑即可运行,入门级 MacBook Air(M5)即可满足要求。

模型支持强大的多步推理和智能体工作流,多模态理解加上 Agent 能力可直接在本地运行,无需联网或依赖云端。

本地体验入口

支持的本地推理工具包括:

  • LM Studio
  • Ollama
  • Google AI Edge Gallery App
  • Google AI Edge Eloquent 应用(支持完全离线的语音转录、格式化和翻译)
  • LiteRT-LM CLI

使用建议:推荐 32GB 内存以获得更好的 token 生成速度,16GB 内存可以运行但速度较慢。知识截止日期为 2025 年 1 月。

核心技术创新:无编码器架构

Gemma 4 12B 最大的技术创新是去掉了传统的编码器。

传统多模态模型处理图片或音频时,需要先用专门的编码器将图像、音频"翻译"成模型能理解的表示,再传给语言模型主体。编码器越多,延迟越高,内存占用也越大。

Gemma 4 12B 采用了全新的统一、无编码器架构:

视觉处理:用极轻量的嵌入模块替换原来的视觉编码器,该模块只包含一次矩阵乘法、位置嵌入和归一化操作。视觉信息直接进入语言模型主干,由大模型自行进行视觉理解。

音频处理:音频编码器被完全移除,原始音频信号直接被投影到与文本 token 相同的维度空间里。

这种统一、无编码器的架构带来的直接好处是:延迟更低,内存更省。

速度优化:多 Token 预测

Gemma 4 12B 内置了多 Token 预测(MTP)草稿器,专门用于降低推理延迟。这项技术目前已应用于谷歌全系模型,在实际使用中意味着更快的响应速度。

Apache 2.0 完全开放

Gemma 4 12B 采用 Apache 2.0 协议发布,开发者可以自由使用。预训练权重和指令微调权重均可从 Hugging Face 和 Kaggle 下载。

支持的推理框架:

  • Hugging Face Transformers
  • llama.cpp
  • MLX
  • SGLang
  • vLLM

微调支持:Unsloth

生产部署:支持通过谷歌云上线,可通过 Gemini 企业级智能体平台模型花园、Cloud Run 和 GKE 部署。

配套生态

谷歌同步发布了官方 Gemma 技能库(Skills Repository),专门为开发者用 Gemma 模型构建智能体工作流提供支持。

相关链接:

  • 开发者指南:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
  • 权重下载:https://huggingface.co/collections/google/gemma-4
  • 官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型
#Gemma 4 #谷歌 #多模态模型 #开源 #AI模型 
收藏 1
Kimi Work 桌面 Agent:支持 300 个 Agent 并行,实现网页数据抓取与分析
BrowserAct 开源项目:解决 Agent 浏览器自动化难题,支持 Cookie 复用与人机接力
推荐阅读
  • Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
  • Cursor 悄悄上线神秘模型:Sonic,一探究竟
  • Gemini CLI 扩展正式上线,让命令行真正变成你的智能助手
  • 阿里发布AI 图像编辑模型Qwen‑Image‑Edit,真的够用吗?
  • AI搜索3.0时代来了?360纳米AI超级搜索智能体深度体验报告
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
30541 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
27655 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
19078 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
19068 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15919 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15569 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15162 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14608 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14097 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
12381 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型
2 Kimi Work 桌面 Agent:支持 300 个 Agent 并行,实现网页数据抓取与分析
3 Codex 发布 6 大角色插件包:非程序员也能让 AI 替你干活
4 Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
5 Holo3.1开源Computer Use模型发布:35B版性能超越Qwen3.5、Claude Sonnet 4.6
6 Qwen3.7-Plus正式发布:多模态冲进Vision Arena全球前五
7 Hermes Desktop 正式发布:Hermes Agent 变身桌面端 Codex 竞争者
8 OpenAI Codex三大重磅更新:角色插件、Sites 网站生成、精准批注
9 Composer 2.5 上线 Grok CLI:SpaceX 算力加持,Cursor 编码模型正式接入
10 豆包即将收费:价格体系、服务分层与底层商业逻辑分析
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联