
基本信息:
- 专利标题: 基于大模型思维链的情境图像生成方法及装置
- 申请号:CN202411912763.3 申请日:2024-12-24
- 公开(公告)号:CN120220717A 公开(公告)日:2025-06-27
- 发明人: 徐宁 , 沈哲文 , 刘安安 , 田宏硕 , 薛超
- 申请人: 天津大学
- 申请人地址: 天津市南开区卫津路92号
- 专利权人: 天津大学
- 当前专利权人: 天津大学
- 当前专利权人地址: 天津市南开区卫津路92号
- 代理机构: 天津市北洋有限责任专利代理事务所
- 代理人: 李林娟
- 主分类号: G10L21/10
- IPC分类号: G10L21/10 ; G10L15/26 ; G10L25/03 ; G10L25/69 ; G10L25/30 ; G06N3/045
摘要:
本发明公开了一种基于大模型思维链的情境图像生成方法及装置,方法包括:以音乐作为输入,将歌词转换为ABC标记格式,将ABC标记格式和获取到的音乐字幕组装起来作为输入的音乐文本信息;对每条样例依据音频编码器,计算样例相似度,并选取出样例相似度最高的前若干个样例条目,作为用于构建大语言模型提示的候选样例;将候选样例、任务说明和输入的音乐文本信息进行组装,将组装的结果作为大模型动态提示,将动态提示输入到大语言模型GPT中用于分析音乐情感、主题、文化并生成场景描述,将场景描述输入到图像生成模型中生成图像;对图像与音乐的情感一致性和内容一致性打分,将分数作为反馈给大语言模型GPT使之重新生成图像,作为最终的图像。装置包括:处理器和存储器。
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L21/00 | 为了改变语音信号的品质或其可理解性而处理语音信号以产生另一种可听的或非可听的信号,例如视觉信号、触觉信号 |
--------G10L21/003 | .改变声音质量,例如音调或共振峰 |
----------G10L21/10 | ..转换成可视信息 |