代码之家  ›  专栏  ›  技术社区  ›  vakarami

用于提取文件名的模式标记器

  •  -1
  • vakarami  · 技术社区  · 7 年前

    我想标记化“ a.b.c “进入 a, a.b, a.b.c, b.c, b, c

    我已经试过这个公式,但他们没有给我想要的:

    [(^\\.)]+
    [(.+\\.)]+
    [^\\p{L}\\d]+
    
    1 回复  |  直到 7 年前
        1
  •  2
  •   Harisudhan. A    7 年前

    试试这个 ,

    PUT my_sample
    {
      "settings": {
        "analysis": {
          "analyzer": {
            "my_analyzer": {
              "tokenizer": "my_tokenizer"
            }
          },
          "tokenizer": {
            "my_tokenizer": {
              "type": "path_hierarchy",
              "delimiter": ".",
              "replacement": "."
            }
          }
        }
      }
    }
    

    POST my_sample/_analyze
    {
      "analyzer": "my_analyzer",
      "text": "a.b.c"
    }
    

    它将产生以下条款:

    [ a.b.c., a.b., b.c., a., b., c. ]
    

    然后你可以通过你的程序简单地处理它