当前位置：首页 » AI学习教程

谷歌 Gemma 4 本地部署教程：Ollama 三步搞定零成本养虾

1月前 AI学习教程 4446 0

谷歌最新的开源模型 Gemma 4 原生支持 function calling，可以装在自己的电脑上并接入 OpenClaw，实现 token 成本归零。

关键亮点：Gemma 4 是 Gemma 家族第一次用 Apache 2.0 协议开源，支持商用、魔改、二次分发。配合 Ollama 大版本更新，在 Apple Silicon 上使用苹果自家的 MLX 框架推理，速度翻倍。

Gemma 4 四个版本如何选择

Gemma 4 提供四个版本，以下是 4-bit 量化后的内存需求：

版本	参数	内存需求	上下文	特点
E2B	23 亿	~4 GB	128K	支持图片、音频，手机/树莓派可跑
E4B	45 亿	~5.5 GB	128K	支持图片、音频，适合日常聊天
26B	252 亿 (MoE)	16-18 GB	256K	激活 38 亿参数，性价比最高
31B	307 亿	17-20 GB	256K	满血版，编程/数学能力最强

选择建议：

4 GB 内存 → E2B
6 GB 内存 → E4B
18 GB 内存 → 26B（推荐，性价比最高）
20 GB 以上 → 31B（满血版）

26B 采用混合专家架构（MoE），总参数 252 亿但每次推理只激活 38 亿，速度接近小模型，质量接近满血版。24 GB 内存的 Mac 或 24 GB 显存的显卡即可运行。

31B 满血版在 Arena AI 开源排行榜位列第三，AIME 2026 数学推理 89.2%，编程 LiveCodeBench 80.0%。

Mac 用户部署步骤

步骤一：安装 Ollama

Ollama 是运行本地模型最简单的工具，模型下载、推理引擎、API 服务一个 App 搞定。

使用 Homebrew 安装：

brew install --cask ollama-app

步骤二：启动 Ollama

open -a Ollama

菜单栏会出现羊驼图标，等待几秒钟初始化完成。

步骤三：下载并运行模型

根据内存选择模型，以 26B 为例：

ollama run gemma4:26b

Ollama 会自动下载模型并启动对话。26B 约 18 GB，需要耐心等待。

下载完成后直接进入聊天界面，随便问一句测试是否成功。

查看模型运行状态

ollama ps

你可以看到 CPU/GPU 的推理分配比例，例如「14%/86% CPU/GPU」。在 Apple Silicon 上，大部分计算跑在 GPU 上，速度比纯 CPU 快得多。

Windows 用户部署步骤

步骤一：安装 Ollama

打开 PowerShell，一行命令安装：

irm https://ollama.com/install.ps1 | iex

步骤二：运行模型

打开新的 PowerShell 窗口：

ollama run gemma4:26b

有 NVIDIA 显卡的话，Ollama 会自动调用 CUDA 加速。没有独显也能跑，速度会慢一些。

NVIDIA 用户注意：Ollama 0.19 新增了 NVFP4 格式支持，用更少的显存跑模型，精度损失很小。RTX 40 系及以上显卡自动生效。

通过 OpenClaw 远程部署

如果你已经有 OpenClaw 环境，可以直接让 AI 助手帮你完成部署，全程无需手动敲命令。

1. 安装 Ollama

对 OpenClaw 说：

在服务器上安装 Ollama，运行这条命令：
curl -fsSL https://ollama.com/install.sh | sh

AI 助手会自动发现并安装缺失的依赖（如 zstd），然后重新运行安装脚本。

2. 下载模型

下载 Gemma 4 26B 模型：ollama pull gemma4:26b

3. 测试运行

跟 Gemma 4 聊一句试试：ollama run gemma4:26b "你好，你是什么模型？简单介绍一下自己。"

4. 切换模型版本

如果 26B 在纯 CPU 上推理较慢，可以切换到小模型：

换成 E4B 模型

速度会明显提升。

进阶：接入 OpenClaw 作为主力模型

部署完成后，可以将 OpenClaw 的模型后端切换到本地 Gemma 4，API 端点指向 localhost:11434，从此不再需要云端 API。

苏米注：推荐满血版 31B 作为主力模型，小模型更适合端侧设备。26B MoE 版本在性能和资源消耗之间取得了很好的平衡，是大多数用户的首选。

Ollama 常用命令速查

命令	说明
`ollama list`	查看已下载的模型
`ollama ps`	查看正在运行的模型和内存占用
`ollama run gemma4:26b`	启动对话
`ollama stop gemma4:26b`	卸载模型释放内存
`ollama pull gemma4:26b`	更新到最新版本
`ollama rm gemma4:26b`	删除模型

总结

Gemma 4 本地部署只需三步：

安装 Ollama（Mac 用 Homebrew，Windows 用 PowerShell）
根据内存选择版本并下载（推荐 26B MoE）
运行 ollama run gemma4:xx 开始使用

通过 OpenClaw 可以实现全自动化部署，无需手动敲命令。部署完成后，可将 OpenClaw 接入本地 Gemma 4，实现零成本运行。

核心优势：

Apache 2.0 开源协议，可商用
4-bit 量化降低内存需求
Ollama 一键部署，跨平台支持
接入 OpenClaw 实现零 token 成本

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：谷歌 Gemma 4 本地部署教程：Ollama 三步搞定零成本养虾

请登录后发表评论

谷歌 Gemma 4 本地部署教程：Ollama 三步搞定零成本养虾

Gemma 4 四个版本如何选择

Mac 用户部署步骤

步骤一：安装 Ollama

步骤二：启动 Ollama

步骤三：下载并运行模型

查看模型运行状态

Windows 用户部署步骤

步骤一：安装 Ollama

步骤二：运行模型

通过 OpenClaw 远程部署

1. 安装 Ollama

2. 下载模型

3. 测试运行

4. 切换模型版本

进阶：接入 OpenClaw 作为主力模型

Ollama 常用命令速查

总结

文章目录

关注「苏米客」公众号