
基本信息:
- 专利标题: 基于布尔提示增强的零样本视觉问答方法及系统
- 申请号:CN202411986265.3 申请日:2024-12-31
- 公开(公告)号:CN119904712A 公开(公告)日:2025-04-29
- 发明人: 焦一凡 , 鲍秉坤 , 徐立勇
- 申请人: 南京邮电大学
- 申请人地址: 江苏省南京市鼓楼区新模范马路66号
- 专利权人: 南京邮电大学
- 当前专利权人: 南京邮电大学
- 当前专利权人地址: 江苏省南京市鼓楼区新模范马路66号
- 代理机构: 北京中济纬天专利代理有限公司
- 代理人: 蒋名全
- 主分类号: G06V10/774
- IPC分类号: G06V10/774 ; G06V10/74 ; G06V10/778 ; G06V10/44 ; G06V20/62
摘要:
本发明公开了基于布尔提示增强的零样本视觉问答方法及系统,涉及零样本视觉问答技术领域,包括:基于预训练视觉语言模型自适应判断输入问题的复杂程度,输出简单问题的答案,选择出对于模型复杂的问题;基于选择出的复杂问题,提取关键词,并生成问题对应图像的描述;基于原始问题生成捕捉全局信息的子问题,从问题关键词和图像描述生成包含局部信息的子问题;基于生成的子问题与原始问题之间的余弦相似度,构建子问题的冗余度值和丰富度值;利用冗余度值删除冗余度高的子问题,利用丰富度值确保子问题内容的丰富性,利用得到的子问题作为提示增强模型对复杂问题的理解以及对局部视觉信息的关注,提高零样本视觉问答的准确性。