ASCII码 ASCII码

SpringBoot使用前缀树过滤敏感词的方法实例

发布于:2022-01-18 12:07:38  栏目:技术文档

SpringBoot使用前缀树过滤敏感词的方法实例

目录一、前缀树二、敏感词过滤器总结一、前缀树一般设计网站的时候,会有问题发布或者是内容发布的功能,这些功能的有一个很重要的点在于如何实现敏感词过滤,要不然可能会有不良信息的发布,或者发布的内容中有夹杂可能会有恶意功能的代码片段,敏感词过滤的基本的算法是前缀树算法,前缀树也就是字典树,通过前缀树匹配可以加快敏感词匹配的速度。

前缀树又称为Trie、字典树、查找树。主要特点是:查找效率高,但内存消耗大;主要应用于字符串检索、词频统计、字符串排序等。

到底什么是前缀树?前缀树的功能是如何实现的?

举一个具体的例子:若有一个字符串”xwabfabcff”,敏感词为”abc”、”bf”、”be”,检测字符串,若有敏感词,则将敏感词替换为”*”,实现一个算法。

前缀树的特点:

  1. 跟结点为空结点,没有任何字符。

  2. 除了根节点以外,每个结点只有一个字符。

  3. 每个结点包含的子节点不相同。 例如,root的子节点本来有两个b,但我们只保留一个

  4. 在每个敏感词的末尾结点做一个标记,表示从根节点到此节点组合成的字符串是一个敏感词,中间未被标记的结点和根节点中间的字符串不构成一个敏感词。

前缀树的算法逻辑:

  1. 准备:我们需要三个指针,①指针指向前缀树,默认指向根节点; ②、③指针指向要检测的字符串(同向尺距法,②从头到尾走一遍,标记敏感词的开头,③随着②而动,标记敏感词的结尾),默认指向字符串的第一个字符。我们还需要一个存放检测结果的字符串(StringBuilder)。

  2. ①访问树的第一层,发现没有’x’,则②、③向下走一步,并将’x’存入StringBuilder字符串里。’w’ 同理。

  1. 此时②、③指向’a’,①访问树的第一层,发现有’a’,但’a’未被标记,所以不是敏感词,则把’a’存入StringBuilder字符串。然后②不动,①、③继续向下走,直至走到被标记的结点或者不匹配时,①归位,②向下走一步,③回到此时②指向的地方。重复以上步骤。

  2. 若检测到敏感词,则在StringBuilder中存储”*“,并使②跳过此敏感词,②、③共同指向原来③的下一个位置。

  1. ②、③走到字符串的末尾时,检测完成。最终结果为”xwa**ff”。

二、敏感词过滤器我们再开发项目时,需要开发出一个可复用的过滤敏感词的工具,成为敏感词过滤器,以便在项目中可以复用。

开发敏感词过滤器主要有以下三个步骤:

  1. 定义前缀树

  2. 根据敏感词,初始化前缀树

  3. 编写过滤敏感词的方法

代码实现如下:import org.apache.commons.lang3.CharUtils;import org.apache.commons.lang3.StringUtils;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.util.HashMap;import java.util.Map;

@Componentpublic class SensitiveFilter {

  1. // 记录日志
  2. private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
  3. // 替换符
  4. private static final String REPLACEMENT = "***";
  5. // 初始化根节点
  6. private TrieNode rootNode = new TrieNode();
  7. /**
  8. * 2. 根据敏感词,初始化前缀树
  9. */
  10. @PostConstruct// 当容器在服务器启动时实例化此Bean,调用Bean的构造方法后,该方法就会被自动调用
  11. public void init() {
  12. try (
  13. // 加载敏感词文件 sensitive-words.txt是自建的存放敏感词的文件
  14. InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
  15. // 字节流 --> 字符流 --> 字符缓冲流
  16. BufferedReader reader = new BufferedReader(new InputStreamReader(is));
  17. ) {
  18. String keyword;
  19. while((keyword = reader.readLine()) != null){
  20. // 添加到前缀树,addKeyword为自定义的方法,将一个敏感词添加到前缀树中去
  21. this.addKeyword(keyword);
  22. }
  23. } catch (IOException e) {
  24. logger.error("加载敏感词文件失败:" + e.getMessage());
  25. }
  26. }
  27. // 封装方法:将一个敏感词添加到前缀树中去
  28. private void addKeyword(String keyword){
  29. TrieNode tempNode = rootNode;
  30. for (int i = 0; i < keyword.length(); i++) {
  31. char c = keyword.charAt(i);
  32. TrieNode subNode = tempNode.getSubNode(c);
  33. if(subNode == null){
  34. // 如果子节点中没有该字符,则以此字符初始化子节点,并装配到树中
  35. subNode = new TrieNode();
  36. tempNode.addSubNode(c,subNode);
  37. }
  38. // 指向字节点,进入下一层循环
  39. tempNode = subNode;
  40. // 设置结束标识
  41. if(i == keyword.length() -1){
  42. tempNode.setKeywordEnd(true);
  43. }
  44. }
  45. }
  46. /**
  47. * 3. 检索并过滤敏感词
  48. * @param text 待过滤的文本
  49. * @return 过滤后的文本
  50. */
  51. public String filter(String text){
  52. if(StringUtils.isBlank(text)){
  53. return null;
  54. }
  55. // 指针①
  56. TrieNode tempNode = rootNode;
  57. // 指针②
  58. int begin = 0;
  59. // 指针③
  60. int position = 0;
  61. // 存放结果
  62. StringBuilder sb = new StringBuilder();
  63. while(position < text.length()){
  64. char c = text.charAt(position);
  65. // 跳过符号
  66. if(isSymbol(c)){
  67. // 若指针①处于根节点,将此符号计入结果,让指针②向下走一步
  68. if(tempNode == rootNode){
  69. sb.append(c);
  70. begin++;
  71. }
  72. // 无论符号在未检测时出现还是正在检测时出现,指针③总是向下走一步
  73. // (未检测时和指针②一起向下走一步,检测时指针②不动,指针③向下走一步)
  74. position++;
  75. continue;
  76. }
  77. // 检查下级节点
  78. tempNode = tempNode.getSubNode(c);
  79. if(tempNode == null){
  80. // 以begin开头的字符串不是敏感词
  81. sb.append(text.charAt(begin));
  82. // 进入下一个位置
  83. begin++;
  84. position = begin;
  85. // 指针①归位,重新指向根节点
  86. tempNode = rootNode;
  87. }else if (tempNode.isKeywordEnd()){
  88. // 发现敏感词,将begin~position字符串替换掉
  89. sb.append(REPLACEMENT);
  90. // 进入下一个位置
  91. position++;
  92. begin = position;
  93. // 指针①归位,重新指向跟接待你
  94. tempNode = rootNode;
  95. }else {
  96. // 检查下一个字符
  97. position++;
  98. }
  99. }
  100. // 将最后一批字符计入结果:指针③比指针②先到中终点,且两者之间的字符串不是敏感词
  101. sb.append(text.substring(begin));
  102. return sb.toString();
  103. }
  104. // 封装方法:判断是否为特殊符号
  105. private boolean isSymbol(Character c){
  106. // 0x2E80~0x9FFF 是东亚文字范围,不予当作特殊符号看待
  107. return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
  108. }
  109. /**
  110. * 1. 定义前缀树
  111. */
  112. private class TrieNode {
  113. // 敏感词(关键词)结束标识
  114. private boolean isKeywordEnd = false;
  115. // 子节点(key是下级字符,value是下级节点)
  116. private Map<Character, TrieNode> subNodes = new HashMap<>();
  117. public boolean isKeywordEnd() {
  118. return isKeywordEnd;
  119. }
  120. public void setKeywordEnd(boolean keywordEnd) {
  121. isKeywordEnd = keywordEnd;
  122. }
  123. // 添加子节点
  124. public void addSubNode(Character c, TrieNode node) {
  125. subNodes.put(c, node);
  126. }
  127. // 获取子节点
  128. public TrieNode getSubNode(Character c) {
  129. return subNodes.get(c);
  130. }
  131. }

}总结到此这篇关于SpringBoot使用前缀树过滤敏感词的文章就介绍到这了,更多相关SpringBoot用前缀树过滤敏感词内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

相关推荐
阅读 +