代码之家  ›  专栏  ›  技术社区  ›  Jeroen

关于如何改进搜索引擎全文搜索的提示

  •  0
  • Jeroen  · 技术社区  · 14 年前

    我正在发展: http://www.buscatiendas.com.mx

    我见过有人输入文本进行大量的输入错误的查询。 我可以实现什么样的搜索,以便找到类似的词? 就像谷歌做的那样,或多或少都会很整洁。

    我正在使用SQL Server全文搜索。

    3 回复  |  直到 14 年前
        1
  •  1
  •   Aryabhatta    14 年前

    为什么不让google/bing为您编制索引,然后使用他们提供的site:feature来使用它呢?

    如果这不是一个选项,你可能必须有一个自己的“拼写检查器”(要么实现自己,要么使用现有的),这是在你的数据训练。注意拼写检查是不确定的(例如:latel,它是label吗?以后?)。您只能根据站点中的实际数据进行“最佳”猜测。

    在概率模型中,你们可以“训练”你们的拼写猜测者/检查者来想出一个“最佳”猜测。

    下一页似乎很有用。它有一个关于如何自己写一个的描述,也有很好的链接(包括一篇调查报告)和不同语言实现的链接:

    http://norvig.com/spell-correct.html .

        2
  •  0
  •   Bravax    14 年前

    有两种解决方法:

    1. 购买第三方产品,如谷歌搜索应用程序,或 Microsoft搜索服务器。

    2. 记录所有查询,并让某人查看这些查询,生成一个表 将错误的查询链接到 应该是。(你有可能 购买一个组件库 这个,很像 拼写检查器。)

        3
  •  0
  •   bcosca    14 年前

    如果你想推出你自己的,首先你需要过滤掉噪音词之前,你甚至开始搜索,因为这可能只是强加给你的数据库不必要的负荷。“好书”应该和搜索“好书”或“他的好书”或“书评好坏”一样吗?所以很明显,“a”、“the”、“an”、“and”等根本不符合“有用的”搜索关键字的条件。一旦你把“噪音”过滤掉,你就开始真正的搜索。同样,您应该考虑数据库性能。搜索动态数据库还是预处理数据库是明智之举?找出过滤搜索数据中噪声词的方法。