高效敏感词过滤JAVA实现(DFA算法)5000字2ms节点+2进制标识(节省空间/提高查询效率)附源码、注释,附带专业敏感词库(3396个敏感词)看得上就拿去用,替换下一两处util方法、改个路径即可不求什么,用得好的话,记得有那么一个人提供就够了。
如遇问题,欢迎交流。
QQ463550192普通PC测试结果: 2015-5-1加载时间:41542826ns加载时间:41ms解析字数:5000解析时间:2295131ns解析时间:2ms
2024/5/7 3:34:40 23KB 敏感词过滤 高效敏感词 DFA算法
1
该算法基于DFA并结合许多算法并进行相应的简化,最终其算法基本原理为:将所有敏感词库按模块聚合构建成一个词树(所谓聚合,就是将相同字开头的部分进行聚合,以减少对词的查询范围,相当于建立敏感词索引,如:他奶奶的、他妈的、他娘的,这三个词,聚合构建成词树时,“他”字就是这三个词的索引,同时每个词的结尾都有一个结束标志和该词的一些描述,如敏感级别等),然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词(如果这里有以这个敏感词开头的更长的敏感词时,以更长的为匹配结果,并判断该词在文本中前后是否有分隔符来区别其匹配方式),如果是则记录,一遍扫描完之后所有敏感词即被扫描出来了!
2024/3/11 17:54:55 112KB 敏感词过滤
1
各大平台网络内容敏感词库过滤词库,百度敏感词库,自媒体敏感词库,包括各大主流平台,发布文案文章前查一查避免进入漫长的人工复核,之后还可能被退回修改,帮助你节约时间。
2023/12/5 1:11:04 214KB 敏感词 过滤词 文案 自媒体
1
这应该是CSDN中最全的敏感词库了,我搜索了多个CSDN已有的敏感词库,然后用JAVA去重,整理后的版本,欢迎大家下载,文件中敏感词以换行符分割(每行一个敏感词),词语多达6000+
2023/7/10 11:47:51 73KB 敏感词 禁词 违禁词 敏感字
1
中文敏感词库、各种停用词表以及各种分词词库,txt格式方便适用
2017/2/23 12:32:55 21.62MB 敏感词库 停用词 各种词库
1
已在项目中使用,绝对是你想要的,PHP实现的敏感词过滤功能。
6000多个敏感词,可自行添加。
使用方便,代码含正文!
2022/9/2 21:54:16 33KB php敏感词
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡