![一种敏感数据检测方法、系统、计算机终端及存储介质](/CN/2022/1/336/images/202211682369.jpg)
基本信息:
- 专利标题: 一种敏感数据检测方法、系统、计算机终端及存储介质
- 申请号:CN202211682369.6 申请日:2022-12-26
- 公开(公告)号:CN115878803A 公开(公告)日:2023-03-31
- 发明人: 罗劲瑭 , 姚实颖 , 赵长名 , 李云冀 , 张全明 , 马瑞光 , 马天男 , 陈一鸣 , 高栋梁 , 乔云池 , 徐杰 , 张晨琳
- 申请人: 国网四川省电力公司经济技术研究院
- 申请人地址: 四川省成都市中国(四川)自由贸易试验区成都市高新区蜀绣西路366号
- 专利权人: 国网四川省电力公司经济技术研究院
- 当前专利权人: 国网四川省电力公司经济技术研究院
- 当前专利权人地址: 四川省成都市中国(四川)自由贸易试验区成都市高新区蜀绣西路366号
- 代理机构: 成都行之专利代理事务所
- 代理人: 李林
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/33 ; G06F40/284 ; G06F40/242 ; G06F40/247 ; G06F18/241 ; G06F18/2415 ; G06N3/0464 ; G06N3/047 ; G06N3/08
摘要:
本发明公开了一种敏感数据检测方法、系统、计算机终端及存储介质,涉及信息安全技术领域,其技术要点是:本发明通过抽取领域术语创建领域术语的词典,首先检测待检测文本数据的数据结构,在为结构化数据时,利用词表得到待检测文本数据的每个字的令牌,从而依据令牌来查询词典中所有可能领域术语的词集合,保证了术语的覆盖范围,利用BERT模型的embedding层将令牌转化为词向量编码序列,将词向量编码序列和字符的头、尾位置编码进行拼接得到BERT模型的输入向量,保证了文本地址的精准度,BERT模型基于输入向量得到输出向量,然后基于输出向量在卷积神经网络中的卷积学习,进而增强敏感术语的语义表征,以此,提高待检测文本数据中敏感信息的检测精度。