你手机里装了多少个 App?如果我问你,能不能在手机上跑一个 80 亿参数的大语言模型,你大概率会摇头——毕竟一个常规的 8B 模型至少需要 16GB 显存,手机那点内存根本装不下。
但就在上周,一家来自 Caltech 的 AI 实验室 PrismML,硬是把 8.2B 参数的模型压缩到了 1.15GB,而且性能居然没怎么掉。
这个模型叫 1-bit Bonsai 8B,它的出现,可能真的会改变 AI 的运行方式。

什么是 1-bit 量化?
在聊 Bonsai 之前,先理解一个核心概念:量化(Quantization)。
大模型的每个参数通常用 16 位浮点数(FP16)存储,也就是说每个参数占 16 bit。一个 8B 模型,光参数就要吃掉约 16GB 内存。
量化做的事情很简单:用更少的位数表示同样的信息。
- INT8 量化:8 bit,模型缩小到约 8GB
- INT4 量化(如 GPTQ、AWQ):4 bit,缩小到约 4-5GB
- 1-bit 量化:每个参数只用 1 个 bit(0 或 1),模型缩小到约 1-2GB
听起来很美好,但现实是残酷的。以前有人做过 1-bit 量化,模型虽然变小了,但智商也跟着缩水——指令跟随变差、推理能力崩塌,基本不可用。
所以长期以来,1-bit 量化被认为是一个理论上可行但实践中不靠谱的方向。直到 Bonsai 出现。
Bonsai 的核心突破
PrismML 团队做了什么不一样的事?
1. 原生 1-bit 训练,不是事后压缩
之前很多量化方案是先训练一个完整精度的模型,再压缩。这就像先盖一栋大楼,再拆成集装箱——总会丢东西。
Bonsai 的做法是从一开始就以 1-bit 精度训练。整个网络——嵌入层、注意力层、MLP 层、LM 头——全部 1-bit,没有高精度的"后门"。
这就像直接用乐高积木搭房子,每块积木就是最终形态,不需要后期改造。
2. 每 128 个权重共享 1 个缩放因子
技术上,Bonsai 的每个权重只有 1 bit(0 或 1),但每 128 个权重共享一个 FP16 的缩放因子(scale):
- 0 → -scale
- 1 → +scale
这种设计用极少的额外参数保留了模型的"表达力",是精度不掉的关键。
3. 基于 Qwen3-8B 架构
Bonsai 8B 基于 Qwen3-8B 架构,这是一个经过充分验证的优秀开源模型架构。PrismML 在此基础上进行了 1-bit 原生训练。
性能到底怎么样?
"小"不等于"弱"——这是 Bonsai 最打动人的地方。
Benchmark 对比
在一组标准基准测试中,Bonsai 8B 的平均得分为 70.5 分,而它只用了 1.15GB 内存:
- Bonsai 8B(1.15GB):70.5 分
- Llama 3.1 8B(~16GB):67.1 分
- LFM2 8B(~16GB):69.6 分
- Qwen3 8B(~16GB):更高基准分,但体积是 Bonsai 的 14 倍
是的,Bonsai 在某些基准上甚至赢了比它大 14 倍的模型。

速度碾压
这才是 Bonsai 真正让人兴奋的地方。因为模型极小,推理速度直接起飞:
- RTX 4090:368 tokens/秒
- M4 Pro Mac:131 tokens/秒
- iPhone 17 Pro Max:约 44 tokens/秒
- 树莓派:也能跑

作为对比,一个标准的 16-bit 8B 模型在 iPhone 上根本跑不了——内存都不够。即便在 Mac 上,速度也只有 Bonsai 的一小部分。
Agent 场景测试
PrismML 还做了一个很有说服力的 Agent 测试:模拟 50 个工单摘要和分配任务。
结果:
- Bonsai 8B:完成了全部 50 个任务
- 标准 16-bit 8B:同样时间内只完成了 6 个
对于需要长时间、多步骤推理的 Agent 场景,Bonsai 的速度优势让它能做更多的事,而不是更快地做一件事。
能耗:省电才是真本事
AI 的能耗问题越来越被关注。训练一个大模型可能消耗几 MWh 的电力,推理也不便宜。
Bonsai 在能耗方面的表现同样出色:
- M4 Pro:0.074 mWh/token
- iPhone 17 Pro Max:0.068 mWh/token
相比 16-bit 全精度模型,能效提升了 4-5 倍。这意味着如果你的 AI 应用需要 7×24 小时运行,用 Bonsai 可能电费直接省掉一大半。
这意味着什么?
Bonsai 的意义不仅是一个更小的模型,而是打开了新的可能性空间:

AI 真正上手机
以前说"端侧 AI",大多是 1-3B 的小模型,能力有限。现在 8B 级别的模型可以跑在手机上,体验会发生质变。
隐私计算
数据不用发到云端,所有推理在本地完成。对于医疗、金融、企业办公等场景,这是刚需。
边缘 AI 和机器人
机器人、IoT 设备、车载系统——这些场景对延迟和功耗极其敏感,Bonsai 的小体积 + 高速度正好对口。
降低部署成本
以前部署一个 8B 模型需要昂贵的 GPU 服务器,现在一台普通笔记本就够了。创业公司的 AI 成本可能直降一个数量级。
怎么用?
Bonsai 8B 已经开源,Apache 2.0 许可证,随便用:
- HuggingFace:prism-ml/Bonsai-8B-mlx-1bit
- GitHub Demo:PrismML-Eng/Bonsai-demo
- GGUF 格式:prism-ml/Bonsai-8B-gguf(支持 llama.cpp)
如果你是 Mac 用户,可以直接用 MLX 框架跑;Linux/Windows 用户可以用 llama.cpp + CUDA。
GitHub 仓库里有一个一键脚本,安装依赖、下载模型、启动推理一条龙:
git clone https://github.com/PrismML-Eng/Bonsai-demo.git
cd Bonsai-demo
pip install -r requirements.txt
python run.py # 默认跑 8B,也支持 4B 和 1.7B
不完美的地方
公平起见,说说 Bonsai 的局限:
- 基准分数不如顶配 8B:虽然 70.5 分很亮眼,但跟满分精度的 Qwen3 8B 比还有差距
- 1-bit 硬件还未普及:Bonsai 目前的加速主要来自内存缩减,而不是 1-bit 专用的计算硬件。如果未来有专门为 1-bit 设计的芯片,性能还能再翻倍
- 生态早期:目前支持 MLX 和 llama.cpp,但主流量化生态(vLLM、TensorRT-LLM 等)还没有官方适配
总结
1-bit Bonsai 让我看到了 AI 发展的一个新方向:不是把模型做大,而是把智能做浓缩。
过去几年,行业的主流叙事是"scaling law"——越大越好。但 Bonsai 证明了,聪明的压缩同样是一种暴力美学。
8.2B 参数 → 1.15GB,14 倍压缩,性能几乎不掉。这在一年前还是天方夜谭。
AI 的未来,不一定全在云端。你的口袋里,可能很快就装下了一个相当聪明的大脑。