代码之家  ›  专栏  ›  技术社区  ›  IAdapter

如何在Solr中查询PDF?

  •  1
  • IAdapter  · 技术社区  · 14 年前

    NGramTokenizer的最小字长为3

    这意味着我可以搜索例如“unb”,然后匹配单词“难以置信”。

    然而,我有一个短词,如“我”和“在”的问题。它们没有被SOLR索引(我怀疑这是因为NGramTokenizer),因此我无法搜索它们。

    我不想将最小字长减少到1或2,因为这会创建一个巨大的搜索索引。但我希望SOLR包含长度已经低于这个最小值的整个单词。

    我该怎么做?

    /卡斯滕

    1 回复  |  直到 14 年前
        1
  •  0
  •   Random Person    5 年前

    首先,试着理解为什么solr不能使用“分析工具”将你的单词编入索引

    http://localhost:8080/solr/admin/analysis.jsp
    

    通过这种方式,你的术语将被索引两次,并将以精确词和n-gram的形式出现。 然后你要处理两个不同领域的分数。

    我希望这对你有所帮助。

    聚合和copyfield属性的某些链接:

    Indexing data in multiple fields

    Using copy field tag