![一种图像生成文本描述的控制方法及系统](/CN/2024/1/167/images/202410836504.jpg)
基本信息:
- 专利标题: 一种图像生成文本描述的控制方法及系统
- 申请号:CN202410836504.0 申请日:2024-06-26
- 公开(公告)号:CN118628829A 公开(公告)日:2024-09-10
- 发明人: 张渊佳 , 陈艺丹 , 陈硕 , 吕博 , 校利虎 , 刘少伟
- 申请人: 天翼云科技有限公司
- 申请人地址: 北京市东城区青龙胡同甲1号、3号2幢2层205-32室
- 专利权人: 天翼云科技有限公司
- 当前专利权人: 天翼云科技有限公司
- 当前专利权人地址: 北京市东城区青龙胡同甲1号、3号2幢2层205-32室
- 代理机构: 北京知汇林知识产权代理事务所(普通合伙)
- 代理人: 苏艳
- 主分类号: G06V10/764
- IPC分类号: G06V10/764 ; G06V10/82 ; G06N3/0895
摘要:
本发明涉及一种图像生成文本描述的控制方法及系统,属于图像生成文本描述的控制技术领域,该方法包括:收集图像,并为图像标注类别标签;基于类别标签进行自定义,此时,插件式训练自定义类别;基于图像和图像类别约束视觉大语言模型,并基于视觉大语言模型生成图像描述;图像类别包括通用类别和自定义类别;根据图像描述训练图像生成文本描述模型,并在图像生成文本描述模型输出对应的文本描述,此时,基于图像和图像类别约束视觉大语言模型,并基于视觉大语言模型生成图像描述,从而通过图像描述训练图像生成文本描述模型,以便于基于图像一键生成对应的文本描述,同时,类别标签进行自定义,以便于加入了用户自定义的类别。