代码之家  ›  专栏  ›  技术社区  ›  Felipe Hummel

如何在索引过程中为每个文档中的每个术语定义一个提升因子?

  •  2
  • Felipe Hummel  · 技术社区  · 14 年前

    我想在Lucene的相似性方程中插入另一个分数因子。问题是,我不能仅仅重写相似度类,因为它不知道文档和术语,而是在计算分数。

    The cat is in the top of the tree, and he is going to stay there.
    

    我有一个自己的算法,为每一个术语分配一个分数,这个分数是关于每一个术语对整个文档有多重要。每个单词的可能分数是:

    cat: 0.789212
    tree: 0.633423
    top: 0.412315
    stay: 0.123912
    there: 0.0999842
    going: 0.00988412
    ...
    

    每个单词的得分在不同的文档中是不同的。例如,在另一个文档中 cat 可能得分:0.0023912

    1 回复  |  直到 14 年前
        1
  •  5
  •   bajafresh4life    14 年前

    发件人: http://www.lucidimagination.com/blog/2009/08/05/getting-started-with-payloads/

    1. 在索引期间向一个或多个令牌添加负载。
    2. 重写相似度类以处理计分有效载荷