当前位置：首页 » AI最新动态

1-bit Bonsai 8B 大模型详解：8B 参数压缩至 1.15GB，手机也能跑 AI

1月前 AI最新动态 448 0

你手机里装了多少个 App？如果我问你，能不能在手机上跑一个 80 亿参数的大语言模型，你大概率会摇头——毕竟一个常规的 8B 模型至少需要 16GB 显存，手机那点内存根本装不下。

但就在上周，一家来自 Caltech 的 AI 实验室 PrismML，硬是把 8.2B 参数的模型压缩到了 1.15GB，而且性能居然没怎么掉。

这个模型叫 1-bit Bonsai 8B，它的出现，可能真的会改变 AI 的运行方式。

什么是 1-bit 量化？

在聊 Bonsai 之前，先理解一个核心概念：量化（Quantization）。

大模型的每个参数通常用 16 位浮点数（FP16）存储，也就是说每个参数占 16 bit。一个 8B 模型，光参数就要吃掉约 16GB 内存。

量化做的事情很简单：用更少的位数表示同样的信息。

INT8 量化：8 bit，模型缩小到约 8GB
INT4 量化（如 GPTQ、AWQ）：4 bit，缩小到约 4-5GB
1-bit 量化：每个参数只用 1 个 bit（0 或 1），模型缩小到约 1-2GB

听起来很美好，但现实是残酷的。以前有人做过 1-bit 量化，模型虽然变小了，但智商也跟着缩水——指令跟随变差、推理能力崩塌，基本不可用。

所以长期以来，1-bit 量化被认为是一个理论上可行但实践中不靠谱的方向。直到 Bonsai 出现。

Bonsai 的核心突破

PrismML 团队做了什么不一样的事？

1. 原生 1-bit 训练，不是事后压缩

之前很多量化方案是先训练一个完整精度的模型，再压缩。这就像先盖一栋大楼，再拆成集装箱——总会丢东西。

Bonsai 的做法是从一开始就以 1-bit 精度训练。整个网络——嵌入层、注意力层、MLP 层、LM 头——全部 1-bit，没有高精度的"后门"。

这就像直接用乐高积木搭房子，每块积木就是最终形态，不需要后期改造。

2. 每 128 个权重共享 1 个缩放因子

技术上，Bonsai 的每个权重只有 1 bit（0 或 1），但每 128 个权重共享一个 FP16 的缩放因子（scale）：

0 → -scale
1 → +scale

这种设计用极少的额外参数保留了模型的"表达力"，是精度不掉的关键。

3. 基于 Qwen3-8B 架构

Bonsai 8B 基于 Qwen3-8B 架构，这是一个经过充分验证的优秀开源模型架构。PrismML 在此基础上进行了 1-bit 原生训练。

性能到底怎么样？

"小"不等于"弱"——这是 Bonsai 最打动人的地方。

Benchmark 对比

在一组标准基准测试中，Bonsai 8B 的平均得分为 70.5 分，而它只用了 1.15GB 内存：

Bonsai 8B（1.15GB）：70.5 分
Llama 3.1 8B（~16GB）：67.1 分
LFM2 8B（~16GB）：69.6 分
Qwen3 8B（~16GB）：更高基准分，但体积是 Bonsai 的 14 倍

是的，Bonsai 在某些基准上甚至赢了比它大 14 倍的模型。

速度碾压

这才是 Bonsai 真正让人兴奋的地方。因为模型极小，推理速度直接起飞：

RTX 4090：368 tokens/秒
M4 Pro Mac：131 tokens/秒
iPhone 17 Pro Max：约 44 tokens/秒
树莓派：也能跑

作为对比，一个标准的 16-bit 8B 模型在 iPhone 上根本跑不了——内存都不够。即便在 Mac 上，速度也只有 Bonsai 的一小部分。

Agent 场景测试

PrismML 还做了一个很有说服力的 Agent 测试：模拟 50 个工单摘要和分配任务。

结果：

Bonsai 8B：完成了全部 50 个任务
标准 16-bit 8B：同样时间内只完成了 6 个

对于需要长时间、多步骤推理的 Agent 场景，Bonsai 的速度优势让它能做更多的事，而不是更快地做一件事。

能耗：省电才是真本事

AI 的能耗问题越来越被关注。训练一个大模型可能消耗几 MWh 的电力，推理也不便宜。

Bonsai 在能耗方面的表现同样出色：

M4 Pro：0.074 mWh/token
iPhone 17 Pro Max：0.068 mWh/token

相比 16-bit 全精度模型，能效提升了 4-5 倍。这意味着如果你的 AI 应用需要 7×24 小时运行，用 Bonsai 可能电费直接省掉一大半。

这意味着什么？

Bonsai 的意义不仅是一个更小的模型，而是打开了新的可能性空间：

AI 真正上手机

以前说"端侧 AI"，大多是 1-3B 的小模型，能力有限。现在 8B 级别的模型可以跑在手机上，体验会发生质变。

隐私计算

数据不用发到云端，所有推理在本地完成。对于医疗、金融、企业办公等场景，这是刚需。

边缘 AI 和机器人

机器人、IoT 设备、车载系统——这些场景对延迟和功耗极其敏感，Bonsai 的小体积 + 高速度正好对口。

降低部署成本

以前部署一个 8B 模型需要昂贵的 GPU 服务器，现在一台普通笔记本就够了。创业公司的 AI 成本可能直降一个数量级。

怎么用？

Bonsai 8B 已经开源，Apache 2.0 许可证，随便用：

HuggingFace：prism-ml/Bonsai-8B-mlx-1bit
GitHub Demo：PrismML-Eng/Bonsai-demo
GGUF 格式：prism-ml/Bonsai-8B-gguf（支持 llama.cpp）

如果你是 Mac 用户，可以直接用 MLX 框架跑；Linux/Windows 用户可以用 llama.cpp + CUDA。

GitHub 仓库里有一个一键脚本，安装依赖、下载模型、启动推理一条龙：

git clone https://github.com/PrismML-Eng/Bonsai-demo.git
cd Bonsai-demo
pip install -r requirements.txt
python run.py  # 默认跑 8B，也支持 4B 和 1.7B

不完美的地方

公平起见，说说 Bonsai 的局限：

基准分数不如顶配 8B：虽然 70.5 分很亮眼，但跟满分精度的 Qwen3 8B 比还有差距
1-bit 硬件还未普及：Bonsai 目前的加速主要来自内存缩减，而不是 1-bit 专用的计算硬件。如果未来有专门为 1-bit 设计的芯片，性能还能再翻倍
生态早期：目前支持 MLX 和 llama.cpp，但主流量化生态（vLLM、TensorRT-LLM 等）还没有官方适配

总结

1-bit Bonsai 让我看到了 AI 发展的一个新方向：不是把模型做大，而是把智能做浓缩。

过去几年，行业的主流叙事是"scaling law"——越大越好。但 Bonsai 证明了，聪明的压缩同样是一种暴力美学。

8.2B 参数 → 1.15GB，14 倍压缩，性能几乎不掉。这在一年前还是天方夜谭。

AI 的未来，不一定全在云端。你的口袋里，可能很快就装下了一个相当聪明的大脑。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：1-bit Bonsai 8B 大模型详解：8B 参数压缩至 1.15GB，手机也能跑 AI

请登录后发表评论