核心技术特点
参数规模与架构:采用 60 亿参数(6B)的轻量级设计,基于创新的可扩展单流扩散 Transformer(S3-DiT)架构,将文本、视觉语义令牌和图像 VAE 令牌在序列层面统一拼接,实现比双流架构更高的参数效率。
模型家族体系:包含四个专业化变体,覆盖不同应用场景:
Z-Image-Turbo:蒸馏加速版本,仅需 8 步推理(8 NFEs),在企业级 H800 GPU 上实现亚秒级出图,同时可在 16GB 显存的消费级设备上流畅运行,专精照片级真实感生成与双语文本渲染。
Z-Image:基础生成模型,注重高质量输出、丰富美学表现、强多样性与可控性,适合创意生成与下游微调开发。
Z-Image-Omni-Base:通用基础版,同时支持图像生成与编辑任务,为社区微调提供最"原始"且多样化的起点。
Z-Image-Edit:专为图像编辑优化的变体,具备出色的自然语言指令理解能力,支持基于文本的精准创意编辑。
核心能力优势
照片级真实感:生成图像具备高度逼真的细节表现,人物五官、皮肤纹理、光影层次自然细腻,接近专业摄影水准。
双语文本精准渲染:在图像中嵌入中英文文本时,能准确呈现复杂字符结构,有效解决传统模型中文乱码、字形扭曲等问题,适用于海报、广告等商业场景。
强指令遵循能力:对复杂提示词具有深度语义理解,能精准把握构图、风格、光影、姿态等多维度要求,减少"幻觉"现象。
艺术风格多样性:覆盖写实、插画、动漫、油画等多种艺术风格,支持通过 LoRA 进行个性化风格微调,满足专业创作需求。
高效推理性能:Z-Image-Turbo 通过Decoupled-DMD蒸馏算法(解耦 CFG 增强与分布匹配机制)与DMDR(融合强化学习)技术,在保持 8 步极速推理的同时,实现媲美顶级商业模型的生成质量。
行业表现与定位
在权威评测平台Artificial Analysis Text-to-Image Leaderboard上,Z-Image-Turbo 综合排名第 8 位,位列开源模型第 1 名,超越众多主流开源方案。
在阿里巴巴 AI Arena 的人类偏好评测中,展现出与领先闭源模型高度竞争的生成质量。
作为完全开源的模型,为开发者、创作者及企业提供了无需商业授权即可本地部署的高性能图像生成解决方案,特别适合对生成速度、文本准确性、硬件成本有严格要求的应用场景。
典型应用场景
商业设计:海报、广告、产品展示图的快速生成
内容创作:社交媒体配图、文章插图、多语言图文混排内容
游戏与影视:概念设计、角色原型、场景氛围图
个性化定制:基于 LoRA 的风格迁移与品牌视觉定制
图像编辑:基于自然语言的创意修图与内容重构



随手生成的一些图片演示








整合包说明
1 官方原版模型 未量化
2 最低英伟达16G+32G内存
3 支持批量生图,把要生图的提示词复制到提示词框,一行一图
4 如解压出错,用管理员身份运行winrar解压。
大佬,请问能不能自己设置其他小模型,家里的电脑显存比较小
其他小模型 我也有做整合包,比如本站搜索diaomo
剑哥,我测试了一下,一张图大约要3分钟左右,另外这个分辨率最大就是1280?不够用啊!
以后的版本会加上超分
已经更换5060ti16gN卡,生成速度是不是很慢?那个种子是啥意思?要不要随机种子?
速度不慢,你百度下种子。我一般都是随机。
4060ti能走吗?
走哪去?
你好不错的