
基本信息:
- 专利标题: 一种解决物理约束的深度强化学习训练及决策方法
- 申请号:CN202310308630.4 申请日:2023-03-27
- 公开(公告)号:CN116306900B 公开(公告)日:2025-08-08
- 发明人: 石野 , 丁枢桐 , 汪婧雅
- 申请人: 上海科技大学
- 申请人地址: 上海市浦东新区华夏中路393号
- 专利权人: 上海科技大学
- 当前专利权人: 上海科技大学
- 当前专利权人地址: 上海市浦东新区华夏中路393号
- 代理机构: 上海申汇专利代理有限公司
- 代理人: 翁若莹; 柏子雵
- 主分类号: G06N3/092
- IPC分类号: G06N3/092 ; G06N3/084 ; G06N3/04
摘要:
本发明公开了一种解决物理约束的深度强化学习训练及决策方法,公开了一种通用的能够处理物理约束的强化学习方法,确保了在强化学习进行决策的过程中硬约束的满足。本发明提出的是一种通用的解决物理约束的强化学习方法,可以解决任意形式的具有任意多个可微约束的决策问题,而不限于某一具有某种特定形式约束的决策问题;本发明所提出的物理感知层是全可微的。因此,策略网络可以得到完整的梯度信息,因此其训练过程是端到端的,便于实现和操作。其训练更新的过程也更加准确;本发明致力于解决决策问题中的物理硬约束,其包含了等式和不等式约束,确保了决策的可行性。这对强化学习技术在实际应用中的落地意义重大。
公开/授权文献:
- CN116306900A 一种解决物理约束的深度强化学习训练及决策方法 公开/授权日:2023-06-23
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/092 | ...强化学习 |