![一种基于聚类的表格重构方法及系统](/CN/2021/1/168/images/202110843215.jpg)
基本信息:
- 专利标题: 一种基于聚类的表格重构方法及系统
- 申请号:CN202110843215.X 申请日:2021-07-26
- 公开(公告)号:CN113688684B 公开(公告)日:2022-04-05
- 发明人: 孙喜民 , 周晶 , 田晓芸 , 贾江凯 , 王帅 , 刘丹 , 李慧超 , 王明达
- 申请人: 国网电商科技有限公司 , 国网电子商务有限公司
- 申请人地址: 天津市河北区光复道街海河东路78号茂业大厦35层;
- 专利权人: 国网电商科技有限公司,国网电子商务有限公司
- 当前专利权人: 国网电商科技有限公司,国网电子商务有限公司
- 当前专利权人地址: 天津市河北区光复道街海河东路78号茂业大厦35层;
- 代理机构: 成都华复知识产权代理有限公司
- 代理人: 庞启成
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/412 ; G06K9/62 ; G06F40/174
摘要:
本发明公开了一种基于聚类的表格重构方法及系统,该方法包括:S100:获取包括表格的PDF图片;S200:提取PDF图片中的横线和竖线,分别生成横线图片和竖线图片;S300:基于横线图片和竖线图片提取横线和竖线的交叉点;S400:对交叉点进行基于位置的聚类,基于聚类结果对表格进行分离;S500:提取单个表格所包含的交叉点,对交叉点进行去抖处理;S600:基于广度遍历思想,在交叉点间进行路径游走,重构表格。本发明能够从包括不规则表格的图片中识别并重构表格,相比于现有的表格重构方法,可提升表格重构精度,并可有效解决图片中可能会出现的表格扭曲问题,对不规则表格的重构尤其适用。
公开/授权文献:
- CN113688684A 一种基于聚类的表格重构方法及系统 公开/授权日:2021-11-23