这两年开源模型从 Llama 到 Qwen,再到 Gemma,能力一点点逼近闭源模型。于是不少人开始动心思,想要在自己电脑上本地部署模型,试图解决高昂的 Token 费用。
但在 HuggingFace 上有上百多万个开源模型,参数量从 1B 到 100B,该如何选择。对于大部分人来说,光搞清楚自己的电脑能跑哪些模型,可能就得折腾大半天。更惨的是,当我们把模型权重下载到本地并部署了,才发现输出一句话得等半分钟,根本无法使用,然后再卸载删除,重新找模型,重新下载部署,试错成本极高。

最近找到一个开源的命令行工具 whichllm,能帮我们解决本地部署模型选择的痛点。它能根据电脑的硬件配置,推荐哪个模型能跑起来又快又好。
与其他检测工具的区别是,它不止关注模型能不能跑,还会判断跑哪个模型更划算,把性能拉满。简单举个例子:一张 24GB 显存的 RTX 4090,理论上能跑得下 32B 的模型。但它会将 27B 模型排在第一推荐位置,理由各项基准测试评分更高,而且是最新模型。

也就是说,它不止告诉我们哪些模型能跑,还会考虑到哪些模型体验更好、性价比更高。
如何使用?
安装之后,只需打开终端,输入 whichllm 命令行,它就会自动检测你的硬件配置。市面上主流的 N 卡、A 卡、Apple 芯片,甚至纯 CPU 的机器,都能识别出来。
接着就会基于你的配置信息,计算清楚每个模型大概能跑多少 tok/s。表格里会显示出模型名称、参数量、量化方式、综合评分还有下载量,所有信息一目了然。

实用命令
工具还有几个实用的命令:
- 快速体验:只需一条命令
whichllm run就能下载、部署模型并开启对话。 - 模拟显卡:如果在纠结购买哪张显卡,可以先跑一下
whichllm --gpu "RTX 4090",模拟看看可以跑哪些模型。 - 查询需求:想知道某个模型需要什么级别的显卡才能跑,则可以用
whichllm plan这条命令。

安装使用
只需一行 pip 命令就能搞定:
pip install whichllm
装好之后敲 whichllm 命令即可开始,它会自动检测硬件并给出推荐列表。
局限性
不过也有几个缺点,客观说一下:
- 速度计算是基于显存带宽和参数量推算的,可能会跟实测有些出入。
- 对于 Windows 上的 A 卡检测,精度不如 Linux,需要靠系统接口去补全信息。
- 在 Apple 芯片和纯 CPU 环境下,为了稳定,只推荐 GGUF 格式。
总结
关于本地跑模型这件事,后面肯定有越来越多的人会去尝试。那么前提比较关键的是,不要只顾着"能跑多大模型",而是要选择好模型。whichllm 的出现,便帮我们把试错的成本降下来了,剩下的精力花在真正有意思的事情上。
GitHub 项目地址:https://github.com/Andyyyy64/whichllm