当前位置：首页 » AI编程开发

whichllm：本地跑大模型选模型神器

1小时前 AI编程开发 13 0

这两年开源模型从 Llama 到 Qwen，再到 Gemma，能力一点点逼近闭源模型。于是不少人开始动心思，想要在自己电脑上本地部署模型，试图解决高昂的 Token 费用。

但在 HuggingFace 上有上百多万个开源模型，参数量从 1B 到 100B，该如何选择。对于大部分人来说，光搞清楚自己的电脑能跑哪些模型，可能就得折腾大半天。更惨的是，当我们把模型权重下载到本地并部署了，才发现输出一句话得等半分钟，根本无法使用，然后再卸载删除，重新找模型，重新下载部署，试错成本极高。

最近找到一个开源的命令行工具 whichllm，能帮我们解决本地部署模型选择的痛点。它能根据电脑的硬件配置，推荐哪个模型能跑起来又快又好。

与其他检测工具的区别是，它不止关注模型能不能跑，还会判断跑哪个模型更划算，把性能拉满。简单举个例子：一张 24GB 显存的 RTX 4090，理论上能跑得下 32B 的模型。但它会将 27B 模型排在第一推荐位置，理由各项基准测试评分更高，而且是最新模型。

也就是说，它不止告诉我们哪些模型能跑，还会考虑到哪些模型体验更好、性价比更高。

如何使用？

安装之后，只需打开终端，输入 whichllm 命令行，它就会自动检测你的硬件配置。市面上主流的 N 卡、A 卡、Apple 芯片，甚至纯 CPU 的机器，都能识别出来。

接着就会基于你的配置信息，计算清楚每个模型大概能跑多少 tok/s。表格里会显示出模型名称、参数量、量化方式、综合评分还有下载量，所有信息一目了然。

实用命令

工具还有几个实用的命令：

快速体验：只需一条命令 whichllm run 就能下载、部署模型并开启对话。
模拟显卡：如果在纠结购买哪张显卡，可以先跑一下 whichllm --gpu "RTX 4090"，模拟看看可以跑哪些模型。
查询需求：想知道某个模型需要什么级别的显卡才能跑，则可以用 whichllm plan 这条命令。

安装使用

只需一行 pip 命令就能搞定：

pip install whichllm

装好之后敲 whichllm 命令即可开始，它会自动检测硬件并给出推荐列表。

局限性

不过也有几个缺点，客观说一下：

速度计算是基于显存带宽和参数量推算的，可能会跟实测有些出入。
对于 Windows 上的 A 卡检测，精度不如 Linux，需要靠系统接口去补全信息。
在 Apple 芯片和纯 CPU 环境下，为了稳定，只推荐 GGUF 格式。

总结

关于本地跑模型这件事，后面肯定有越来越多的人会去尝试。那么前提比较关键的是，不要只顾着"能跑多大模型"，而是要选择好模型。whichllm 的出现，便帮我们把试错的成本降下来了，剩下的精力花在真正有意思的事情上。

GitHub 项目地址：https://github.com/Andyyyy64/whichllm

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：whichllm：本地跑大模型选模型神器

请登录后发表评论

whichllm：本地跑大模型选模型神器

如何使用？

实用命令

安装使用

局限性

总结

文章目录

关注「苏米客」公众号