10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI编程开发

本地 Coding Agent 最佳拍档:LM Studio + Pi Agent + Gemma 4 26B A4B 完整部署指南

1小时前 AI编程开发 17 0

在 Token 大饥荒时代,各家 Code Plan 订阅要么抢不到,要么限流,再不就是像 Anthropic 这样动不动就封号。本文测试本地 Coding Agent 能否真正干活——结论:可以,而且比预期好很多。使用的组合是 LM Studio + Pi Agent + Gemma 4 26B A4B (Q4_K_M)。

本地 Coding Agent 组合示意

为什么选这个组合

LM Studio:本地推理服务器

LM Studio 把模型下载、量化格式管理、OpenAI 兼容 API 这几件事都做了,界面干净。你也可以用 Ollama 或 llama.cpp 的 llama-server,三个都对外暴露 OpenAI 兼容接口。Pi 不挑,随便哪个都行。

LM Studio 界面

苏米注:选 LM Studio 是因为 GPU offload 配置界面直观,调参方便。

Gemma 4 26B A4B:MoE 架构开源模型

Gemma 4 模型介绍

Google 最新开源模型家族的 MoE 版本。26B 总参数,但每个 token 只激活 4B。架构好处是推理速度接近小模型,但效果明显优于同等激活参数的密集模型。更关键的是原生支持 function calling、系统提示和 thinking 模式——这几个能力对 coding agent 是刚需。

Pi Agent:极简终端 Coding Harness

Pi 的核心设计理念是小:给模型的工具只有四个(read、write、edit、bash),系统提示不复杂。对于本地模型而言足够精简——因为本地模型的上下文窗口和推理速度都是有限资源,不能像调云端 API 一样挥霍。

第一步:安装 LM Studio

从 lmstudio.ai 下载对应平台安装包,支持 macOS、Windows、Linux。装完之后不需要额外配置,先开着备用。

第二步:下载 Gemma 4 模型

Gemma 4 家族规格对比

打开 LM Studio,搜索 gemma-4-26b-a4b,下载量化版本的 GGUF 文件。4090 可以上 26B A4B。

技术要点:虽然标称 26B,但 MoE 架构每次只激活 4B,实际推理速度快得多,效果远超同等激活参数的小模型。A4B 支持文本、图片理解、function calling、thinking 模式。

量化版本选择表

18 GB 的 Q4_K_M,加上上下文显存开销,24 GB 显存是舒适起步线。Mac 用户可以找 MLX 格式版本——针对 Apple Silicon 原生优化,在 M 系列芯片上通常比 GGUF 快。

第三步:启动本地服务器

模型下载完成后:

  1. 切到 LM Studio 的 Developer 标签页
  2. 选择刚才下载的 Gemma 4 模型
  3. 点击 Start Server

启动服务器界面

服务默认跑在 http://localhost:1234,对外暴露 OpenAI 兼容 API。

验证是否正常运行:

curl http://localhost:1234/v1/models

能返回模型列表就说明服务起来了。

第四步:配置上下文长度和 GPU Offload

这一步很多教程跳过,但实际上对体验影响很大。

在 Developer 标签页的 Model Settings 里可以调两个关键参数:

上下文长度

上下文长度显存占用表

Gemma 4 26B A4B 最大支持 256K 上下文,但跑 coding agent 不需要全开。上下文越长,额外占用 VRAM 越多。推荐从 128K 开始——coding agent 工作过程中会积累大量上下文,文件内容、工具输出、对话历史都往里塞。

踩坑记录:如果跑到一半上下文满了被截断比较麻烦。Pi 有几个管理上下文的命令:

  • /compact:把旧消息压缩成摘要,释放上下文空间
  • /new:开新会话
  • /tree:浏览会话历史,跳回任意节点
  • /fork:从某条消息创建分支会话

GPU Offload

控制有多少层加载到 GPU,剩余放在系统内存用 CPU 跑。全部放 GPU 最快,但 VRAM 不够会 OOM。LM Studio 可以做 GPU+CPU 混合推理,速度慢一些但能跑起来。

技术要点:显存紧张时,优先降低上下文长度,而不是减少 GPU offload 层数。

第五步:安装 Pi

Pi 安装界面

Pi 通过 npm 安装:

npm install -g @mariozechner/pi-coding-agent

装完直接运行 pi 就能进入交互界面。

第六步:配置本地模型

编辑文件 ~/.pi/agent/models.json:

{
  "providers": {
    "lmstudio": {
      "baseUrl": "http://localhost:1234/v1",
      "api": "openai-completions",
      "apiKey": "lm-studio",
      "models": [
        {
          "id": "google/gemma-4-26b-a4b",
          "input": ["text", "image"]
        }
      ]
    }
  }
}

注意事项:id 字段要和 LM Studio 服务端标签页里显示的模型名称完全一致,不然 Pi 找不到。

配置完启动 Pi,用 /model 命令切换到刚才配置的本地模型。至此,整个 coding agent 就跑在你自己机器上了。

第七步:Skills 扩展

Pi Skills 示意

Pi 支持通过 Skills 扩展能力——本质是 Markdown 文件,写指令告诉 agent 如何完成某类特定任务。和在 Claude Code 上用的 Skills 机制是同一个思路(Agent Skills 标准)。

通过 git 安装社区 Skills:

# 全局安装,所有项目都能用
git clone https://github.com/badlogic/pi-skills ~/.pi/agent/skills/pi-skills

# 或者只在当前项目生效
git clone https://github.com/badlogic/pi-skills .pi/skills/pi-skills

Skills 调用示意

会话中用 /skill:name 手动调用指定 skill,也可以让 agent 自己判断需不需要用。

实际使用感受

Gemma 4 26B A4B 的 Function Calling 稳

之前用过一些本地模型做 agent,工具调用经常出格式错误或乱调用。Gemma 4 这一代明显改善,跑了几个中等复杂度任务基本没出现工具调用失败。

上下文管理是真正瓶颈

128K 上下文跑稍微复杂的任务不难消耗掉,特别是文件内容多的时候。Pi 的 /compact 有用但会损失细节。建议任务开始前规划好范围,不要让 agent 漫无目的地读大量文件。

本地跑的最大优势不只是省钱

没有网络延迟,响应速度稳定,没有 API 限流问题。跑批量任务或长时间 agent loop 的时候体验明显更流畅。

实战案例:批量重命名工具

环境检查过程

让这套本地 agent 从零写一个命令行工具——扫描指定目录下图片文件,按拍摄日期自动重命名,格式是 YYYY-MM-DD_序号.扩展名。

需求:

  1. 读取指定目录下的 jpg/png/heic 文件
  2. 从 EXIF 数据提取拍摄日期
  3. 没有 EXIF 的用文件修改时间
  4. 重命名格式:YYYY-MM-DD_001.jpg,同一天的按序号排
  5. 支持 --dry-run 参数,只打印结果不实际重命名
  6. 遇到冲突文件名要提示,不要静默覆盖

代码编写过程

Pi 拿到任务后没有直接开始写代码,先调用 bash 工具检查环境。发现 Pillow 已装,piexif 没有——运行 pip3 install piexif,确认成功后才开始写代码。

苏米注:不是所有本地模型跑 agent 任务都会先检查环境,Gemma 4 这里表现合理,没有假设依赖都存在就直接开写。

测试报错处理

创建文件 rename_photos.py,写完主动调用 bash 跑冒烟测试。第一次跑出报错:HEIC 格式处理有问题,Pillow 默认不支持 HEIC。它自己读了报错信息,判断需要 pillow-heif 插件,装完修改代码再跑一次,通过了。

整个过程没有中途问"要不要继续",也没有在第一次报错后停下来等指令。自己完成了「写代码→测试→报错→定位问题→修复→再测试」循环。

任务统计:

  • 从发出 prompt 到生成可用代码:约 4 分钟
  • Agent 总共调用 12 次工具(bash 8 次,write 2 次,read 2 次)
  • 中间经历三轮自动 compact 上下文
  • 显存占用稳定在 22 GB 左右

这个速度和云端 API 没法比,但对于这类任务完全够用。Coding agent 大部分时间其实在等工具执行结果,纯推理时间占比没有想象中高。

适用人群:有 24GB 显存或 M 系列 Mac 的用户,这套组合值得动手试一试。比想象中容易,效果也比想象中实用。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:本地 Coding Agent 最佳拍档:LM Studio + Pi Agent + Gemma 4 26B A4B 完整部署指南
#本地Coding Agent #LM Studio #Pi Agent #Gemma 4 #Token自由 #MoE模型 #本地推理 
收藏 1
WorkBuddy 行业专家实测:181 位 AI 专家中这 3 个能真正替你干活
Hermes Agent 15 个隐藏功能详解:SOUL.md、/branch、/steer、Skills 等高级用法
推荐阅读
  • Skill Seeker:几分钟内将文档、代码库和 PDF 自动转换为 Claude 技能
  • Claude Code 九大常用技巧,打造属于你的高效的工作流,效率翻倍
  • 为Claude Code构建Skills:如何通过模块化知识包实现组织记忆自动化
  • OpenCode +VSCode实战指南,开源AI编程助手的多模型接入与应用
  • Claude Code Hooks 配置指南:让 AI 主动推送飞书/如流通知
评论 (0)
请登录后发表评论
分类精选
手把手教你用支付宝订阅 Cursor Pro:国内用户最全开通教程(附取消自动扣费)
26302 10月前
Claude Code Rules:claude.md文件配置完全指南
20815 9月前
Claude Code + MCP 实战教程:手把手教你如何在Claude Code里面使用MCP
14885 9月前
学生党0元白嫖!手把手教你解锁Cursor Pro年VIP,超详细申请教程(附避坑指南)
14132 11月前
手把手教你在VS Code & Cline/RooCode 中使用Kimi K2 模型,配置实录+开发实战体验
13589 9月前
Claude Code 官方已支持Windows系统!手把手教你免费安装使用Claude Code
13327 9月前
Cursor 0.46更新,新增支持Claude 3.7 + GPT 4.5,Cursor Pro 无限续杯攻略,全自动化工具使用说明
13325 1年前
Cursor代码生成器中文使用教程,Cursor新手入门完全指南,全网最全面详细的Cursor使用教程
12640 1年前
Cursor进阶指南:如何解决Cursor上下文长度的限制超出后”降智“问题
11990 11月前
手把手教你在Claude Code 中使用Kimi K2 模型,超简单配置教程分享
10661 9月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Hermes Agent 15 个隐藏功能详解:SOUL.md、/branch、/steer、Skills 等高级用法
2 本地 Coding Agent 最佳拍档:LM Studio + Pi Agent + Gemma 4 26B A4B 完整部署指南
3 Claude Code Plugin 设计指南:如何打造可复用、可共享的插件能力
4 Claude Code 2.1.121 版本深度解析:底层内存优化、MCP/Plugin 机制完善与 Hooks 全局工具化
5 TRAE 自定义模型配置教程:接入 DeepSeek V4 API 详细步骤
6 Claude code上下文压缩(Compaction)机制 — 完整解析
7 Claude Code Desktop 接入第三方 API 完整教程:无需订阅,直接使用 GLM 等国产模型
8 CodeBuddy + MiniMax-M2.7 实测:AI编程小程序开发实战的模型选择指南
9 7 个热门前端设计 Skills 横评:Taste Skill 最稳,Frontend-Design 第一屏最惊艳
10 Claude Code 2.1.118更新详解:50+ 修复解决 MCP 稳定性和长会话恢复痛点
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联