代码之家  ›  专栏  ›  技术社区  ›  David542

估计倒排索引大小

  •  1
  • David542  · 技术社区  · 5 年前

    在文本文档上建立反向索引时,是否有一个公式来估计平均或最坏情况?例如,如果我们有以下输入:

    • 文件大小:60MB
    • 字数:700万
    • 唯一字数:?

    如果这很重要,我希望用python测试它,所以数据结构(在内存中)可能是 dict 是的。除了试错之外,如何估计指数的大小呢?

    0 回复  |  直到 5 年前