代码之家  ›  专栏  ›  技术社区  ›  Staale

Python文件索引和搜索

  •  11
  • Staale  · 技术社区  · 15 年前

    我有一个大的抵消文件(hdf),我需要启用搜索。对于Java,我将使用Lucene,因为它是一个文件和文档索引引擎。我不知道python的等价物是什么。

    有谁能推荐我应该使用哪个库为大量文件集编制索引,以便快速搜索?还是你自己更喜欢的方式?

    我看过 pylucene lupy

    Woosh和pylucene看起来很有希望,但是Woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene时遇到了问题,并且没有实际的版本。在我仔细查看了数据之后,大部分是数字和默认文本字符串,所以现在关闭索引引擎对我没有帮助。希望这些图书馆能稳定下来,以后游客会发现它们的用处。

    4 回复  |  直到 15 年前
        1
  •  9
  •   A. Coady    15 年前

    鲁比 has been retired 开发人员建议改为派洛森。至于PyLucene,它的邮件列表活动可能很低,但它肯定是受支持的。事实上,它最近才成为一个 official apache subproject .

    您可能还想看看新的竞争者: Whoosh . 它类似于lucene,但是用纯python实现的。

        2
  •  5
  •   batbrat    15 年前

    我以前没有做过索引,但是以下内容可能会有所帮助:-

    1. pyIndex- http://rgaucher.info/beta/pyIndex/ --Python文件索引库
    2. http://www.xml.com/pub/a/ws/2003/05/13/email.html --这是一个使用Python和Lucene搜索Outlook电子邮件的脚本
    3. http://gadfly.sourceforge.net/ -Aaron water的牛虻数据库(我想您可以使用这个数据库进行索引。我自己还没有使用过它。)

    就使用HDF文件而言,我听说过一个名为h5py的模块。

    我希望这有帮助。

        3
  •  4
  •   Imran    15 年前

    我建议 Sphinx

        4
  •  2
  •   Rob Young    15 年前

    http://xapian.org/

    它的速度非常快,可以愉快地管理大量数据,但是它不像Lucene那样易于扩展。

        5
  •  0
  •   Saurabh    5 年前