EditMGT 用文字"指挥"AI修图,想改哪里改哪里 5秒即可完成编辑 一键整合包 v20260219

AI 1 2116
EditMGT(Masked Generative Transformer for Image Editing)是一个基于掩码生成式变压器的先进图像编辑框架,由字节跳动(ByteDance)主导研发,联合上海交通大学、新加坡国立大学、香港科技大学(广州)等高校共同完成。

✨ 核心特点

1. 技术创新
  • 采用**掩码生成式变压器(Masked Generative Transformer)**架构

  • 实现精确可控的图像修改,同时保持原始内容的完整性

  • 基于 Meissonic 模型进行开发,使用 CLIP_Gemma2 作为文本编码器

2. 编辑能力
  • 支持多种图像编辑任务

  • 能够根据文本指令进行精准的图像修改

  • 在保持图像质量的同时实现高度可控的编辑效果

🔬 技术特性

训练配置
  • 分辨率:支持 1024×1024 高质量图像生成

  • 精度:使用 FP32 训练(确保稳定性)

  • 优化:支持 LoRA 技术,可减少约 70% 的内存占用

  • 灵活性:支持从 HuggingFace 数据集或自定义数据集训练

关键参数
  • 批处理大小:4(每 GPU)

  • 梯度累积:8 步

  • 学习率:1e-4

  • 最大训练步数:500,000

  • 梯度裁剪:10

📊 评估体系

项目提供了完整的评估工具链:
GEditBench 评估
  • 包含标准测试集和评估脚本

  • 使用 GPT-4.1/GPT-4o 进行多维度评分

  • 评估维度包括:语义准确性、图像质量、整体表现

  • 支持按编辑类别分类统计

支持的基准测试
  • GEditBench-EN(英文指令)

  • AnyBench

  • EmuEdit

  • MagicBrush

应用场景

EditMGT 适用于多种图像编辑场景:
  • 风格转换(如吉卜力、赛博朋克、油画等)

  • 对象修改和替换

  • 属性调整

  • 场景重绘

  • 创意图像生成

📈 项目优势

  1. 高质量输出:1024 分辨率保证图像质量

  2. 精确控制:通过文本指令实现精细化编辑

  3. 内容保持:在编辑过程中最大程度保留原始内容

  4. 灵活扩展:支持 LoRA 微调,降低资源需求

  5. 完整评估:提供标准化评估工具和基准测试

📄 开源信息

  • 许可证:CC BY-4.0(知识共享署名 4.0 国际许可)

  • 论文:已发表于 arXiv (arXiv:2512.11715)

  • 代码语言:Python 99.7%

  • 项目状态:活跃维护中

🔬 研究价值

EditMGT 探索了掩码生成式变压器在图像编辑领域的应用潜力,为 AI 驱动的图像编辑提供了新的技术路径,在保持编辑灵活性的同时实现了更高的内容保真度。

jian27_2026-02-18_20-38-41.jpg

整合包说明

1 最低英伟达6G显卡,20G内存就可以愉快玩耍了

2 极大优化了官方的生成代码逻辑,从10分钟提升到6秒即可完成 点击查看对比截图

3 个人觉得编辑图片效果还不错,速度又快,硬件要求又低,我的4070tis 5秒即可

点击查看

下载地址
夸克网盘

下载有疑问看下这里


相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。