
基本信息:
- 专利标题: 一种基于人在环中的机器人强化学习系统及方法
- 申请号:CN202410348812.9 申请日:2024-03-25
- 公开(公告)号:CN118261234A 公开(公告)日:2024-06-28
- 发明人: 徐征 , 王卫军 , 王建 , 刘小凯 , 梁泰航
- 申请人: 广州先进技术研究所
- 申请人地址: 广东省广州市南沙区海滨路1121号A8栋
- 专利权人: 广州先进技术研究所
- 当前专利权人: 广州先进技术研究所
- 当前专利权人地址: 广东省广州市南沙区海滨路1121号A8栋
- 代理机构: 广州容大知识产权代理事务所(普通合伙)
- 代理人: 杨艳
- 主分类号: G06N3/092
- IPC分类号: G06N3/092 ; G06N3/045 ; G06N3/006
摘要:
本发明涉及一种基于人在环中的机器人强化学习系统及方法,该系统包括深度强化学习模块、监督与引导模块和工作环境模块。本发明在机器人强化训练过程中引入人类丰富的先验知识,使得机器可以学习人类的智慧和知识,将有助于处理稀疏数据。本发明通过“人在环中(human‑in‑loop,HITL)”的结构,实现对神经网络训练过程中的实时干预,可以显著提升了模型中智能体的训练效率,另一方面也减少了劣势经验对学习过程的影响,从而进一步提升了所获得策略的鲁棒性。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/092 | ...强化学习 |