DeepSeek-V4 发布两周后,社区终于推出了可本地部署的蒸馏版本。发布仅三天,下载量就突破数万。第一时间实测了部署和使用效果,下面分享完整流程。
什么是 DeepSeek-V4 蒸馏版?
社区模型 Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF 是基于 Qwen3.5-9B 做的 DeepSeek-V4 蒸馏版。简单来说,就是用 DeepSeek-V4-Flash 的高质量推理数据来增强一个 9B 小模型,让它学到结构化推理、多步分析和工具调用能力。

核心优势是体积小、部署门槛低。GGUF 的 Q4_K_M 版本约 5.63GB,普通本地电脑就有机会跑起来。主要面向结构化推理、快速本地推理和工具增强工作流。
适用场景:个人电脑低成本体验 DeepSeek-V4 推理风格,用于本地知识库、Agent 和自动化工作流测试。
部署步骤
第一步:下载 LM Studio

第二步:搜索并下载模型
在 LM Studio 中搜索模型名称:Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

找到后点击下载:

第三步:加载使用

实测效果
在 LM Studio 中使用模型回答问题:

问一个编程题:

为了验证蒸馏后的 9B 模型是否真的更像 DeepSeek-V4,将蒸馏版和原版 Qwen3.5-9B 的思考过程发给 Gemini 3.1 Pro 进行对比评估。
原版 Qwen3.5-9B 的思考过程:

让 Gemini 评估哪个更像 DeepSeek-V4:



Gemini 的结论是:原版 9B 生成的内容只是一个"写作大纲"(Outline),直接给出结论并规划结构;而蒸馏版 9B 生成的是真正的"推理链",展示了从"接收问题 → 评估意图 → 检索知识 → 考虑边界条件 → 权衡优缺点 → 确定最终回答策略"的完整认知过程,与 DeepSeek 推理模型(如 DeepSeek-R1)的长思考、慢决策特点完美契合。
结论:蒸馏 9B 实打实模仿到了 DeepSeek-V4 的推理风格。
知识库(RAG)测试
用 LM Studio 做知识库的局限是:最多上传 5 个文件,单个文件低于 30MB。

初步测试 RAG 效果:


结论:做 RAG(检索增强生成),蒸馏的 9B 模型也更适合、更强大。Gemini 给出的评价是蒸馏 9B 已经够到第一梯队。

总结
DeepSeek-V4 蒸馏版在本地部署后,实测其回答效果确实优于原版 9B 模型。不管回答问题还是做知识库,蒸馏版都表现出了更接近 DeepSeek-V4 的推理能力。
如果你有一台普通电脑,想低成本体验 DeepSeek-V4 的推理风格,可以按照上述步骤部署试试。