开源AI图像描述:JoyCaption ,图片AI反推提示词 支持批量操作 v20250515 一键整合包

AI,开源 9 6453
JoyCaption 是一个开源的图像描述生成视觉语言模型(VLM),旨在为社区提供一个免费、开放且无审查的工具,用于训练扩散模型。以下是该项目的主要特点和相关信息:

项目特点

  • 免费与开放:JoyCaption 以免费、开放的权重发布,没有使用限制,并且提供训练脚本及详细的构建细节。
  • 无审查:平等覆盖适合工作场合(SFW)和不适合工作场合(NSFW)的概念,不会对内容进行模糊描述。
  • 多样性:适用于各种图像风格、内容、种族、性别、取向等,努力确保广泛的覆盖范围。
  • 最小化过滤:基于大量图像进行训练,以便理解世界的几乎所有方面(非法内容除外)。

动机

自动描述性字幕能够使扩散模型在更广泛的图像范围内进行训练和微调,因为训练者不再需要找到带有已有文本的图像或自己编写描述。同时,它们也能提高基于它们训练的文生图模型的生成质量。

功能与应用场景

  • JoyCaption 支持多种描述生成模式,包括描述性字幕、训练提示、MidJourney 风格提示、Booru 标签列表等。
  • 可以为图像生成正式或非正式语气的描述性字幕,模仿 Stable Diffusion 或 MidJourney 的提示风格。
  • 支持额外的指令选项,以指导字幕生成,如提及人物时的称呼、是否包含不可更改的个人信息、灯光信息等。

项目状态

JoyCaption 目前处于 Alpha Two 阶段,仍在开发中,基于用户反馈不断进行改进。需要注意的是,它尚未准备好用于生产环境,仍处于实验性发布阶段,可能会在处理图像中人物交互、OCR 和描述对象与人物关系时出现错误。

社区反馈与贡献

项目鼓励社区的反馈和贡献,以帮助改进 JoyCaption,使其更广泛地适用于各种场景。
通过这些特点和应用场景,JoyCaption 为图像描述生成提供了一个强大而灵活的工具,满足了社区对开放、多样和无审查的视觉语言模型的需求。

2025-05-15_10-24-17.png

20250515整合包说明

1 自行安装好cuda12.4

2 修改默认的模型为 nf4,这个模型8G 就可以使用,如果选其他,显存低于24G 就会报错

3 未修改其他功能,保持原汁原味

4 第一次运行会加载模型会有点慢,大概需要10多秒,以后再反推就是3秒一张了 我的显卡是4070TI SPUER

点击查看

下载有疑问看下这里

相关推荐:

我要评论:

◎欢迎参与讨论,请自觉遵守国家法律法规。

已有 9 条评论

  1. 单车 单车

    response = self._send_single_request(request)
    File "E:\JoyCaption\joy-caption20250515\jian27\lib\site-packages\httpx\_client.py", line 1014, in _send_single_request
    response = transport.handle_request(request)
    File "E:\JoyCaption\joy-caption20250515\jian27\lib\site-packages\httpx\_transports\default.py", line 249, in handle_request
    with map_httpcore_exceptions():
    File "E:\JoyCaption\joy-caption20250515\jian27\lib\contextlib.py", line 153, in __exit__
    self.gen.throw(typ, value,

    1. 剑心 剑心

      路径

      1. 单车 单车

        [WinError 10061] 由于目标计算机积极拒绝,无法连接。这是最后一行

      2. 单车 单车

        是路径有问题吗?应该怎么设

  2. 单车 单车

    博主好,我加载图片的时候就出错了 不知道为什么 .日志: --------更多AI工具,开源免费软件 请前往 https://www.jian27.com--------
    请关注我的微信公众号 剑二十七

    🛠️ System configuration:
    Python : 3.10.16 (E:\JoyCaption\joy-caption20250515\jian27\python.exe)
    PyTorch : 2.6.0+cu124
    ‣ CUDA build : 12.4
    transformers : 4.51.0
    bitsandbytes : 0.45.5
    liger_kernel : 0.5.9
    GPUs (total 1):
    • [0] NVIDIA GeForce RTX 3060 | comput

  3. 勤奋与荷花 勤奋与荷花

    不知道站长有没有兴趣做个J3的反推整个包呀~,支持批量反推,输出形式可个性化指定字数内的自然语言,或者是指定指定数量内的词组~~~

    1. 剑心 剑心

      开源地址看看?

  4. 孝顺向金针菇 孝顺向金针菇

    很好的一款润建

  5. 聪慧扯大船 聪慧扯大船

    好好的很

只显示最新的15条留言