
基本信息:
- 专利标题: 一种数据过采样方法、系统、电子设备和存储介质
- 申请号:CN202510083484.9 申请日:2025-01-20
- 公开(公告)号:CN120124772A 公开(公告)日:2025-06-10
- 发明人: 高剑伟 , 许娟 , 史文钊
- 申请人: 神州医疗科技股份有限公司
- 申请人地址: 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室
- 专利权人: 神州医疗科技股份有限公司
- 当前专利权人: 神州医疗科技股份有限公司
- 当前专利权人地址: 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室
- 代理机构: 北京轻创知识产权代理有限公司
- 代理人: 翟胜军
- 主分类号: G06N20/00
- IPC分类号: G06N20/00 ; G06F18/22
摘要:
本发明公开了一种数据过采样方法、系统、电子设备和存储介质,涉及数据处理技术领域,方法包括:基于不均衡数据集中的样本点的每个特征值与结果之间的Spearman相关系数,对欧式距离计算公式进行修改,确定修改后的欧式距离计算公式;利用修改后的欧式距离计算公式计算得到的距离,对所述不均衡数据集中的预设少数类样本点进行过采样处理。本发明考虑了每个特征与结果之间的Spearman相关系数,从而为不同的特征赋予不同的权重,利用本发明对不均衡数据集进行过采样处理,能够提高机器学习模型的训练效果。