![基于Hadoop分布式计算的MS-Kmeans聚类方法、装置](/CN/2023/1/83/images/202310415443.jpg)
基本信息:
- 专利标题: 基于Hadoop分布式计算的MS-Kmeans聚类方法、装置
- 申请号:CN202310415443.6 申请日:2023-04-18
- 公开(公告)号:CN116484246A 公开(公告)日:2023-07-25
- 发明人: 李凯 , 李国栋 , 王春红 , 杨大伟 , 马军 , 胡美慧 , 万姣 , 马天福 , 马斌
- 申请人: 国网新疆电力有限公司信息通信公司 , 华北电力大学 , 国家电网有限公司
- 申请人地址: 新疆维吾尔自治区乌鲁木齐市天山区建设路123号; ;
- 专利权人: 国网新疆电力有限公司信息通信公司,华北电力大学,国家电网有限公司
- 当前专利权人: 国网新疆电力有限公司信息通信公司,华北电力大学,国家电网有限公司
- 当前专利权人地址: 新疆维吾尔自治区乌鲁木齐市天山区建设路123号; ;
- 代理机构: 乌鲁木齐合纵专利商标事务所
- 代理人: 俞亮
- 主分类号: G06F18/23213
- IPC分类号: G06F18/23213 ; G06F16/182
摘要:
本发明涉及一种数据聚类技术领域,是一种基于Hadoop分布式计算的MS‑Kmeans聚类方法、装置,包括:搭建Hadoop集群;将总数据集平分为若干子数据集;执行Hadoop分布式文件命令,上传总数据集和子数据集至Hadoop分布式文件系统,利用Mean Shift算法分别对每个子数据集进行聚类,得到多个候选中心向量;选择K个相距最远的候选中心向量作为中心向量,利用K‑means聚类算法对总数据集中的所有数据进行聚类本发明能将MS‑Kmeans聚类算法运行在Hadoop分布式文件系统中,且集合Mean Shift算法和K‑means聚类算法的优点,在提高了聚类性能的同时有效减少了聚类运行时间。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F18/00 | 模式识别 |
--------G06F18/10 | .预处理;数据清理 |
----------G06F18/23 | ..聚类技术 |
------------G06F18/232 | ...非分层技术 |
--------------G06F18/2321 | ....使用统计或函数优化,例如概率密度函数模型 |
----------------G06F18/23213 | .....具有固定数的聚类,如K-means聚类 |