✨ 核心特点
采用**掩码生成式变压器(Masked Generative Transformer)**架构
实现精确可控的图像修改,同时保持原始内容的完整性
基于 Meissonic 模型进行开发,使用 CLIP_Gemma2 作为文本编码器
支持多种图像编辑任务
能够根据文本指令进行精准的图像修改
在保持图像质量的同时实现高度可控的编辑效果
🔬 技术特性
分辨率:支持 1024×1024 高质量图像生成
精度:使用 FP32 训练(确保稳定性)
优化:支持 LoRA 技术,可减少约 70% 的内存占用
灵活性:支持从 HuggingFace 数据集或自定义数据集训练
批处理大小:4(每 GPU)
梯度累积:8 步
学习率:1e-4
最大训练步数:500,000
梯度裁剪:10
📊 评估体系
包含标准测试集和评估脚本
使用 GPT-4.1/GPT-4o 进行多维度评分
评估维度包括:语义准确性、图像质量、整体表现
支持按编辑类别分类统计
GEditBench-EN(英文指令)
AnyBench
EmuEdit
MagicBrush
应用场景
风格转换(如吉卜力、赛博朋克、油画等)
对象修改和替换
属性调整
场景重绘
创意图像生成
📈 项目优势
高质量输出:1024 分辨率保证图像质量
精确控制:通过文本指令实现精细化编辑
内容保持:在编辑过程中最大程度保留原始内容
灵活扩展:支持 LoRA 微调,降低资源需求
完整评估:提供标准化评估工具和基准测试
📄 开源信息
许可证:CC BY-4.0(知识共享署名 4.0 国际许可)
论文:已发表于 arXiv (arXiv:2512.11715)
代码语言:Python 99.7%
项目状态:活跃维护中
🔬 研究价值






整合包说明
1 最低英伟达6G显卡,20G内存就可以愉快玩耍了
2 极大优化了官方的生成代码逻辑,从10分钟提升到6秒即可完成 点击查看对比截图
3 个人觉得编辑图片效果还不错,速度又快,硬件要求又低,我的4070tis 5秒即可