代码之家  ›  专栏  ›  技术社区  ›  Alex

从日志存储输入中删除HTML标记

  •  1
  • Alex  · 技术社区  · 6 年前

    在logstash版本5.1中,我正在努力处理数据,其中一些数据来自带有HTML标记的开放文本字段。大多数情况下,它只有一个标记,如下所示:

    <.p>XYZ</p>

    我正在用Grok处理它。

    但当它像这样出现时:

    <.p>&书信电报;。b>&书信电报;。strong>XYZ</strong></b></p>

    简单的垃圾过滤不掉它。

    我的问题是,是否有一个内置的HTML标记过滤器,或者我是否必须使用正则表达式开发自己的过滤器?或者您是否知道在5.1之前的版本中是否可能?

    1 回复  |  直到 6 年前
        1
  •  1
  •   baudsp    6 年前

    要删除HTML,可以使用以下方法:

    mutate {  
      gsub => [
        "fieldname", "<.*?>", ""
      ]
    }