
基本信息:
- 专利标题: 单细胞生成式预训练基础模型的构建方法及其应用
- 申请号:CN202410058238.3 申请日:2024-01-15
- 公开(公告)号:CN118016163A 公开(公告)日:2024-05-10
- 发明人: 张学工 , 卞海洋 , 陈奕鑫 , 董晓民 , 魏磊
- 申请人: 清华大学
- 申请人地址: 北京市海淀区100084信箱82分箱清华大学专利办公室
- 专利权人: 清华大学
- 当前专利权人: 清华大学
- 当前专利权人地址: 北京市海淀区100084信箱82分箱清华大学专利办公室
- 代理机构: 北京纪凯知识产权代理有限公司
- 代理人: 纪晓峰
- 主分类号: G16B40/00
- IPC分类号: G16B40/00 ; G16B25/10 ; G06N3/084 ; G06N3/0455
摘要:
本发明涉及生物信息学技术领域,公开一种单细胞生成式预训练基础模型的构建方法及其应用,包括:得到细胞的基因表达数据和元数据,并利用二元组的形式表示基因表达数据和元数据,得到第一二元组和第二二元组;根据预设任务提示词,将第一二元组和第二二元组进行连接,得到若干携带预设任务提示词的细胞句子;根据携带预设任务提示词的细胞句子,进行生成式建模,利用深度神经网络学习基因之间的表达依赖关系,得到单细胞生成式预训练基础模型。本发明充分利用元数据,通过生成式建模,利用深度神经网络,实现通用基因调控的理解;利用预设任务提示词对二元组进行有组织的连接、排列,使模型能够通过预设任务提示词独立、高效地完成各项任务。