Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.6 MoE 架构的去审查开源模型,由 HauhauCS 制作。该模型在 465 个测试案例中实现了 0 次拒绝,在 HuggingFace 上获得了超过 150 万次月下载量,成为近期最火的开源模型之一。
什么是 Uncensored(去审查)模型?
大多数商业大模型都内置了安全审查机制,当用户提出敏感、争议性或成人内容相关的问题时,模型会拒绝回答。Uncensored 模型做的就是移除这些审查限制。
HauhauCS 制作的 Qwen3.6-35B-A3B-Uncensored-Aggressive 版本,在 465 个测试案例中实现了 **0 次拒绝**——无论什么问题,它都会给出回答。开发者明确表示:没有修改数据集和能力,保留了原作者设计的全部功能,只是移除了拒绝机制。
技术架构:35B参数,每次推理仅 3B激活
模型的核心在于其独特的 MoE(Mixture of Experts,混合专家)架构:
| 参数 | 数值 |
|---|---|
| 总参数 | 350 亿 |
| 每次激活参数 | 约 30 亿 |
| 专家数量 | 256 个 |
| 每 Token 路由专家 | 8 个 |
| 层数 | 40 层 |
| 原生上下文长度 | 262K |
| 架构 | 混合注意力(线性 + 全 softmax,3:1) |
| 多模态支持 | 文本、图像、视频 |
这意味着什么?
- 运行成本低:每次推理只激活 3B 参数,相当于一台消费级显卡(如 RTX 4090)就能流畅运行
- 能力强:35B 总参数提供了丰富的知识储备和推理能力
- MoE 架构优势:256 个专家各司其职,处理不同类型的问题时调用最合适的专家
适用场景
- 内容创作:小说、剧本、角色对话——不会因为触及敏感话题就被打断
- 安全研究:测试 AI 安全边界、研究越狱方法
- 红队测试:评估模型在极端场景下的表现
- 学术自由:研究敏感但不违法的话题
- 本地部署:完全私有,数据不出本地
Aggressive 变体是"激进"版本——模型完全解锁,不会拒绝任何提示。偶尔可能会附加简短的免责声明,但完整内容一定会生成。
与其他开源模型对比
vs. Llama 3.1 8B/70B
| 维度 | Qwen3.6-35B-A3B | Llama 3.1 70B |
|---|---|---|
| 运行硬件需求 | RTX 4090(Q4 量化约 20GB) | 2×A100 80GB |
| 激活参数 | 3B | 70B |
| 上下文长度 | 262K | 128K |
| 多模态支持 | 图文视频 | 仅文本 |
| 去审查版 | ✅ 可用 | ❌ 社区有但较少 |
vs. Mistral Large / Mixtral 8×22B
| 维度 | Qwen3.6-35B-A3B | Mixtral 8×22B |
|---|---|---|
| 总参数 | 35B | 141B |
| 激活参数 | 3B | 39B |
| 运行硬件 | RTX 4090 | A100 80GB |
| 上下文长度 | 262K | 64K |
| 中文能力 | 强 | 弱 |
vs. DeepSeek-V3 671B
| 维度 | Qwen3.6-35B-A3B | DeepSeek-V3 |
|---|---|---|
| 运行硬件 | RTX 4090 | 8×H100 |
| 激活参数 | 3B | ~37B |
| 本地部署 | ✅ 轻松 | ❌ 几乎不可能 |
| 审查 | 完全移除 | 有审查 |
| 协议 | Apache 2.0 | DeepSeek 协议 |
核心优势总结:
- 硬件友好:消费级显卡即可运行,无需服务器
- 零拒绝:465 个测试案例 0 次拒绝
- 多模态:支持图像和视频理解
- 超长上下文:262K tokens,适合长文档处理
- 中文原生:阿里巴巴出品,中文能力远超大多数开源模型
- 完全开源:Apache 2.0 协议,可商用
量化质量与推荐参数
HauhauCS 使用了 imatrix(重要性矩阵)进行量化,确保在降低模型大小的同时最大程度保留性能。K_P("Perfect")量化是自定义技术,使用模型特定分析来在最重要的地方选择性保留质量,相当于将质量提升 1-2 个量化等级,但文件大小仅增加约 5-15%。
| 量化版本 | 文件大小 | 推荐场景 |
|---|---|---|
| Q2_K_P | 11.7 GB | 极限压缩,内存受限 |
| IQ4_XS | 15.4 GB | 平衡质量与大小 |
| IQ4_NL | 18.7 GB | 较高精度 |
| Q4_K_M | 19.8 GB | 推荐,质量最佳平衡 |
| Q4_K_P | 21.2 GB | 更高精度 |
| Q6_K_P | 30.6 GB | 接近原版质量 |
| Q8_K_P | — | 最佳质量 |
推荐参数设置
思考模式(默认):
{
"temperature": 1.0,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"presence_penalty": 1.5
}
编码/精确任务:
{
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"presence_penalty": 0
}
快速上手指南
最简单的方式:Ollama
ollama run hf.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M
llama.cpp 本地部署
# 安装
brew install llama.cpp
# 启动 OpenAI 兼容的 API 服务(带 Web UI)
llama-server -hf HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M
# 或直接终端对话
llama-cli -hf HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M
完整推理命令
llama-cli \
-m Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
--mmproj mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
--jinja -c 131072 -ngl 99
vLLM 服务部署
pip install vllm
vllm serve "HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive"
Docker 一行运行
docker model run hf.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:Q4_K_M
适合谁?
推荐使用场景:
- ✅ 本地部署 AI,数据不出本机
- ✅ 内容创作(小说、剧本、角色扮演)
- ✅ 安全研究与红队测试
- ✅ 长文档处理(262K 上下文)
- ✅ 图像/视频理解
- ✅ 消费级硬件上运行高质量模型
不建议使用的场景:
- ❌ 需要严格内容审核的生产环境
- ❌ 面向未成年人的产品
- ❌ 法律法规要求过滤的内容场景
总结
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的核心价值在于:
- 零门槛运行:RTX 4090 即可部署,无需昂贵的服务器
- 零拒绝回答:465 测试案例 0 次拒绝
- 零功能损失:保留原模型 100% 能力,仅移除审查
- 多模态支持:文本+图像+视频理解
- 超长上下文:262K tokens
- 完全开源:Apache 2.0 协议可商用
对于需要本地部署、完全控制、无审查限制的开发者来说,这可能是目前最好的选择之一。
开源地址
HuggingFace:HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
基础模型:Qwen/Qwen3.6-35B-A3B
许可证:Apache 2.0