![]() |
1
8
一般来说,你想要的是一个 Inverted Index stemming , stop words ,扩展过帐列表以包括文档中的职位,以便您可以处理多词查询,等等。然后,您需要将索引存储在 B-Tree 在磁盘上—或者您可以通过使用现有数据库进行磁盘存储,使自己的生活更轻松,例如 BDB . 您还需要编写一个查询计划器来解释用户查询、执行 query expansion 并将其转换为一系列索引扫描。维基百科关于 Search Engine Indexing 或者,您可以利用现有工作并使用现成的全文索引解决方案,如 Apache Lucene 和 Compass (它建立在Lucene之上)。这些工具几乎可以处理上面(以及更多)详细介绍的所有内容,只需编写工具,通过将所有文档输入Lucene来构建和更新索引,并编写UI以允许用户进行搜索。 |
![]() |
2
4
Burrows-Wheeler变换用于压缩bzip2中的数据,可用于使文本的子字符串搜索成为一个常数时间函数。 http://en.wikipedia.org/wiki/Burrows-Wheeler_transform 我在网上没有看到简单的介绍,但这里有很多细节: |
![]() |
vishnu · Elasticsearch相关性-具有相似名称的文档 7 年前 |
![]() |
P.K. · 如何在现有mvc页面上实现搜索引擎 8 年前 |
|
user3824280 · 搜索引擎无法使用我的分页器[已关闭] 8 年前 |
![]() |
xanderflood · 如何在Python中下载谷歌图像搜索结果 8 年前 |
![]() |
cookiesncream · 全文搜索引擎,多列,布尔模式 10 年前 |
![]() |
Saqib Ali · 为每个最终用户分离solr索引 11 年前 |