代码之家  ›  专栏  ›  技术社区  ›  Yossale

有关功能的数据结构建议

  •  1
  • Yossale  · 技术社区  · 14 年前

    我们有一组文档,每个文档都有一组特性。

    M(i,j)=给定特征a存在,文档中具有特征B的概率。

    但是,我们还有一个附加要求:

    我所能想到的是概率矩阵的稀疏矩阵,在计算完之后,对于所有列中的每个特征,按P排序,并将其保存在某个链接列表中。(现在,我们为每个特性都有一个对应的特性列表

    这个空间复杂度相当大(最坏情况:N^2,N很大!),每次搜索的时间复杂度为O(N)。

    有更好的主意吗?

    1 回复  |  直到 14 年前
        1
  •  1
  •   mcdowella    14 年前

    如果特征的数量与文档的数量相当或更大,则考虑保留一个倒排索引:对于每个特征,保留其中存在的文档(例如,排序列表)。然后,您可以通过对功能A和B的排序列表运行合并来计算给定A的B的概率。