当前位置：首页 » AI最新动态

阿里巴巴通义实验发布全新图像模型：Z-Image（造相），1/3的参数达到商业模型的视觉质量

3月前 AI最新动态 1513 0

阿里巴巴 通义实验）发布了一款名为Z-Image（造相）的高效图像生成基础模型。

模型参数：6B（60亿）
显存占用：16GB以下即可运行
生成速度：8步采样即可出图
支持设备：消费级显卡即可流畅运行

它是通义家族中首个完全开源、支持中英文双语、性能接近 Gemini 的模型系列。

而其中的核心版本 —— Z-Image-Turbo，是它的“极速版”，主打三个关键词：

快 —— 只需 8 步生成高清图像（别人要 30～50 步）。

精 —— 画面写实、光影自然、文字可控（中英双语）。

聪明 —— 能理解复杂指令并准确执行图像变化。

它的核心目标是：

在保持照片级真实感（photorealism）的同时，大幅降低计算和显存成本，
让顶级AI图像生成技术可以在普通显卡上流畅运行（16GB显存即可）。

过去，如果你想要照片级的真实感、准确的中文字渲染，以及复杂的图像编辑能力，往往要依赖几十 GB 显存的大模型。而 Z-Image 只有 6B 参数、16GB 显存即可运行，却能稳定产出能直接用于创意、广告、视觉设计的图像质量。

Z-Image 是什么？为什么值得关注

Z-Image 系列包括两个方向：

模型	用途
Z-Image	标准图像生成
Z-Image-Edit	文字驱动的图像编辑

全系列开源，能跑在 HuggingFace、ModelScope，普通消费级显卡即可流畅推理。
核心版本 Z-Image-Turbo 主打：

快：只要 8 步采样就能出图（主流模型常见 30–50 步）
清晰：真实感强、光影自然
稳：理解复杂指令，编辑任务一致性好

作为习惯跑 20+ 模型的人，我对它的速度提升感知很强。

核心能力

逼真的质量: Z-Image-Turbo 在生成逼真图像的同时保持了出色的美学质量。

准确的双语文本渲染: Z-Image-Turbo 擅长准确渲染复杂的中英文文本。

提示增强与推理: 提示增强器赋予模型推理能力，使其能够超越表面描述，挖掘潜在的世界知识。

创意图像编辑: Z-Image-Edit 对双语编辑指令有很强的理解力，能够实现富有想象力和灵活性的图像变换。

模型架构

我们采用了一种可扩展的单流DiT（S3-DiT）架构。在这种设置中，文本、视觉语义标记和图像VAE标记在序列级别上连接起来，作为统一的输入流，与双流方法相比，最大化了参数效率。

性能

根据基于Elo的人类偏好评估（在AI Arena上），Z-Image-Turbo相对于其他领先模型表现出极高的竞争力，同时在开源模型中取得了最先进的结果。

关键技术亮点

技术	作用
Decoupled-DMD 蒸馏	提升 8 步生成能力（效率 + 质量）
DMDR（蒸馏 + RL）	结构保持更稳定，画面更统一
Prompt Enhancer	自动补全逻辑，提高普通用户的出图成功率

从产品的角度看，这三个技术点都是“提升体验”的核心因素。

性能对比：1/3 计算量 ≈ 商业级质量

在 AI Arena 的 Elo 评估中，Z-Image 在开源模型里是领先水平，同时在一些指标上逼近商业旗舰模型。

这意味着它的“单位显存价值”非常高。

项目资源

GitHub：https://github.com/Tongyi-MAI/Z-Image

HuggingFace 模型：https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

在线体验：

https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo
https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：阿里巴巴通义实验发布全新图像模型：Z-Image（造相），1/3的参数达到商业模型的视觉质量

请登录后发表评论