![基于预训练和知识引导的深度强化学习经济调度方法](/CN/2023/1/77/images/202310387589.jpg)
基本信息:
- 专利标题: 基于预训练和知识引导的深度强化学习经济调度方法
- 申请号:CN202310387589.4 申请日:2023-04-12
- 公开(公告)号:CN116468106A 公开(公告)日:2023-07-21
- 发明人: 陈艳波 , 杜钦涛 , 刘宇翔 , 司杨 , 李春来 , 王德帅 , 李嘉祺 , 杨军 , 刘志慧 , 孙雪婷 , 吴适存 , 李晓雪 , 周万鹏
- 申请人: 华北电力大学 , 青海大学 , 国网青海省电力公司
- 申请人地址: 北京市昌平区北农路2号; ;
- 专利权人: 华北电力大学,青海大学,国网青海省电力公司
- 当前专利权人: 华北电力大学,青海大学,国网青海省电力公司
- 当前专利权人地址: 北京市昌平区北农路2号; ;
- 代理机构: 北京众合诚成知识产权代理有限公司
- 代理人: 陈波
- 主分类号: G06N3/092
- IPC分类号: G06N3/092 ; H02J3/00 ; H02J3/06 ; H02J3/38 ; H02J3/24 ; H02J3/48 ; G06N3/09 ; G06Q10/0631 ; G06Q50/06
摘要:
本发明属于深度强化学习与电力系统经济调度交叉领域,特别涉及一种基于预训练和知识引导的深度强化学习经济调度方法,包括步骤1:获取高质量经验数据,并存放于经验回放池;步骤2:构造强化学习训练环境;步骤3:基于监督学习预训练方法提前对初始策略网络进行训练;步骤4:基于知识引导的Actor‑Critic网络再训练。本发明在智能体和环境进行交互之前,提前对智能体中的Actor网络进行训练,避免智能体在与环境交互的初期进行盲目的训练;同时在智能体的训练过程中嵌入专家知识,将其搜索限制在电力系统安全运行区域内,引导智能体促进新能源消纳。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/092 | ...强化学习 |