BAGEL 是一个由 ByteDance-Seed团队开发的开源多模态基础模型,具有 70 亿(7B)活跃参数(总参数为 140 亿),并在大规模交错的多模态数据(包括语言、图像、视频和网页数据)上进行了训练。该项目的目标是通过统一的架构来实现强大的多模态理解和生成能力,并进一步扩展到复杂的视觉操作任务。
核心特点
1. 先进的模型架构
BAGEL 采用了 Mixture-of-Transformer-Experts (MoT)架构,以最大化模型从多样化多模态信息中学习的能力。
使用了两个独立的编码器来分别捕捉图像的像素级和语义级特征,从而提升对视觉内容的理解与生成能力。
2. 统一的预训练范式
模型基于 Next Group of Token Prediction的范式进行训练,即预测下一组语言或视觉 token,以此作为压缩目标。
这种方法使得 BAGEL 能够在多种任务中表现出色,包括理解、生成和编辑等。
3. 强大的性能表现
在标准的多模态理解排行榜上,BAGEL 超过了当前顶级的开源视觉语言模型(VLMs)如 Qwen2.5-VL 和 InternVL-2.5。
在文本到图像生成方面,其质量可与 SD3 等强生成模型相媲美。
在图像编辑任务中,BAGEL 表现出优于现有开源模型的定性结果,并且支持更自由的视觉操作。
4. 扩展能力
BAGEL 不仅限于传统的图像编辑,还支持:
自由形式的视觉操作
多视角合成
世界导航
这些能力使其具备了“世界建模”(world-modeling)的潜力,超越了传统图像编辑模型的功能边界。
5. 能力演进与训练阶段
随着预训练数据量的增加,BAGEL 在各项任务上的性能持续提升。
不同能力在训练的不同阶段逐步显现:
多模态理解和生成能力较早出现;
基础图像编辑能力随后出现;
更复杂的智能编辑能力则在后期训练中涌现。
实验表明,结合 VAE 和 ViT 特征可以显著提升智能编辑效果,强调了视觉-语义上下文在复杂多模态推理中的关键作用。
总结
BAGEL 是一个多模态统一模型,在理解、生成和编辑任务上都表现出色,并展现出向更高阶“世界建模”能力演进的趋势。它不仅在多个基准测试中超越了现有的开源模型,还在图像编辑等高级任务中展示了更强的灵活性和智能性,代表了多模态预训练模型的一个重要进展。
下面是我随手生成的图片
整合包说明:
1 未修改任何代码,保持原汁原味
2 生成的图片 需要自己手动去保存,以后看欢迎程度再考虑二次开发
3 支持40系+50系显卡。需要显存12G起步
4 win11 LTSC 4070ti spuer 完美运行,我跑一张图片默认49步大概需要1一分半