代码之家  ›  专栏  ›  技术社区  ›  user3649739

Sphinx index_sp的缺点?

  •  0
  • user3649739  · 技术社区  · 4 年前

    我需要启用Sphinx的index_sp(句子和段落索引功能),这样我就可以执行“Word1 sentence Word2”搜索,即两个单词存在于同一句话中的搜索,因为它目前不起作用,并且符合 Sphinx Extended Query Syntax 这是SENTENCE操作员的要求。

    然而,由于Sphinx在匹配工作或不结合功能方面非常微妙,而且它是一个不内置的选项,我想知道是否有任何有经验的人可以告诉我,除了索引的大小/速度之外,可能存在的缺点是什么,因为我不愿意打破工作匹配。

    0 回复  |  直到 4 年前
        1
  •  0
  •   barryhunter    4 年前

    以扩展查询语法为例。无论如何,你几乎肯定会使用它。这是斯芬克斯唯一的模式(尽管如此,早期版本确实有多种查询模式) …所以它本身不应该是可怕的。

    index_sp可能存在更大的问题,它是由HTML Stripper实现的,因此也需要启用HTML_strip=1。这很可能会改变查询的行为。(如果有HTML的话!)

    唯一知道index_sp可能影响事情的地方是“跨句短语匹配”。

    如果没有index_sp,像“一二”这样的查询将匹配文本[1,2],但使用index_sp则不会。来吧。已经分裂成句子,所以不再匹配“短语”。这可能是一件好事,但也是一种改变。 在某些情况下,这可能会影响那些不是真正意义上的分隔符的东西。例如。当它不是真正的句号时,可以打破哨兵。Sphinx作为一种相对较好的刹车算法,但并不完美。