Qwen-Image 是由通义实验室推出的多模态大模型,集成在 Qwen(通义千问)系列中,专注于实现强大的图文理解与生成能力。该模型基于 Qwen 的语言理解基础,深度融合视觉模块,使其能够同时处理和理解图像与文本信息,支持跨模态任务,如图像描述生成、视觉问答(VQA)、图文匹配、图像理解与推理等。
核心特点:
强大的图文理解能力
Qwen-Image 能够深入理解图像内容,并结合上下文生成连贯、准确的自然语言描述。无论是复杂场景识别、物体关系推理,还是细粒度语义分析,模型均表现出色。端到端的多模态建模
模型采用统一的架构将视觉编码器与大语言模型深度融合,实现从像素到语义的端到端理解,支持开放域的视觉语言任务。支持多种视觉任务
可应用于图像描述、视觉问答、图文检索、图像分类、文档理解等多种场景,适用于工业、教育、内容创作等多个领域。高质量生成与逻辑推理
结合 Qwen 大语言模型的强大生成能力和逻辑推理能力,Qwen-Image 在面对需要深度理解图像并进行推理的问题时,能给出准确且富有逻辑的回答。大规模训练数据与先进架构
基于海量图文对进行训练,涵盖多样化的图像类型和语言表达,确保模型具备广泛的知识背景和泛化能力。
应用场景:
Qwen-Image 可广泛用于智能客服、辅助创作、无障碍阅读、教育辅导、自动化报告生成、图像内容审核等需要结合视觉与语言智能的场景,是构建下一代多模态人工智能应用的核心组件之一。
该模型体现了通义千问系列在多模态方向上的前沿探索,标志着从“纯语言模型”向“具身化感知与理解”的重要演进。
随手生成的几张图片 你们看看





界面截图




整合包说明
1 支持50系显卡,最低英伟达6G显卡就可以运行,我的4070tis 可以15秒出图
2 安装好你显卡能支持的最高cuda版本即可
3 Qwen-Image 模型很强大的,会继续开发的。
4 暂未修改任何代码。
20250829更新记录
1添加Qwen-Image-Edit
20250924更新记录
1 新增了一个整合包Qwen-Image-Edit-2509
2 说实话 效果很是一般,有想尝鲜的小伙伴 可以试试。
用的大佬的最新版,试了试文生图和编辑模式,都很好,就是有一个问题,我这里不能自动保存到output目录,试了两种模式都不能,不知道是哪的问题
没有这个功能,我未加上。看受欢迎程度吧 再考虑是否继续二次开发
qwen_image v20250819\jian27\lib\site-packages\transformers\utils\hub.py:111: FutureWarning: Using `TRANSFORMERS_CACHE` is deprecated and will be removed in v5 of Transformers. Use `HF_HOME` instead.
warnings.warn(
ComfyUI found: D:\soft\lv\AI\tu\qwen_image v20250819\ComfyUI
ERROR:root:requirements.txt not found. Cannot determine required frontend version.
ERROR:root:Failed to check frontend version: 'NoneType' object has no attribute 'split'
ComfyUI found: D:\soft\lv\AI\tu\qwen_image v20250819
继续等,不用理会这些
最后提示任意键关闭当前窗口
那就是内存不够
果真是内存不够 这个这么吃内存啊
32g启动的时候占满,运行的时候30g上下 是不是显卡没用上?
还没到显卡干活的时候,这是启动的时候 加载模型
这个不影响,这是因为你长时间未操作就会提示这个。
Broken Connection
Connection to the server was lost.Attempting
reconnection... 笔记本5070ti 12g 出图这个错误提示 还是再一分多钟后出现的