![一种基于混合专家模型的语言模型改进结构的方法及系统](/CN/2024/1/122/images/202410612011.jpg)
基本信息:
- 专利标题: 一种基于混合专家模型的语言模型改进结构的方法及系统
- 申请号:CN202410612011.9 申请日:2024-05-17
- 公开(公告)号:CN118194917B 公开(公告)日:2024-07-30
- 发明人: 宋晨 , 段强 , 魏子重 , 景伟 , 白志勇 , 姜凯 , 李锐
- 申请人: 山东浪潮科学研究院有限公司
- 申请人地址: 山东省济南市高新区浪潮路1036号s02楼
- 专利权人: 山东浪潮科学研究院有限公司
- 当前专利权人: 山东浪潮科学研究院有限公司
- 当前专利权人地址: 山东省济南市高新区浪潮路1036号s02楼
- 代理机构: 济南尚本知识产权代理事务所(普通合伙)
- 代理人: 文新峰
- 主分类号: G06N3/0442
- IPC分类号: G06N3/0442 ; G06N3/08
摘要:
本发明提出一种基于混合专家模型的语言模型改进结构的方法及系统,属于人工智能技术领域,包括获取待调整的混合专家模型,并进行硬件资源的配置;准备微调数据集;设计根据任务自适应的门控网络结构;引入z‑loss惩罚函数和采用专家竞争机制方法改进混合专家模型结构并在混合专家模型微调过程中内置动态调整专家容量因子,最终优化Tokens分配到专家精准度,减少过拟合风险,并有效均衡各专家在处理任务时的负载,从而提升模型在新场景下的泛化能力和资源利用效率。
公开/授权文献:
- CN118194917A 一种基于混合专家模型的语言模型改进结构的方法及系统 公开/授权日:2024-06-14
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/044 | ...循环网络,例如:Hopfield网络 |
--------------G06N3/0442 | ....以记忆或门控为特征,例如:长短期记忆 |