代码之家  ›  专栏  ›  技术社区  ›  RTM

为什么调整后的兰德指数(ARI)比兰德指数(RI)好?如何从公式中直观地理解ARI

  •  9
  • RTM  · 技术社区  · 6 年前

    我读了维基百科上关于 Rand Index Adjusted Rand Index 我能理解它们是如何用数学方法计算的,并能将兰德指数解释为协议对分歧的比率。但我对ARI没有同样的直觉。

    This blogpost 通过考虑重叠的可能性,解释为什么ARI优于RI。有人能通过一个例子或直观的解释解释为什么ARI比RI更好吗。

    1 回复  |  直到 6 年前
        1
  •  7
  •   ely    6 年前

    我认为主要的直觉点是你已经链接的博客中提到的,

    两个随机集的RI如何接近1?原因在于集群的数量。当有很多簇时,两个集中的一对项目很有可能位于不同的簇中。这仍然被视为国际扶轮的一致事件。

    如果一对元素 任何一个 都位于每个分区的相同的各自集群中, 如果两者都在每个分区的不同集群中。

    仅仅通过增加分区中的集群数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含100个示例的数据集。分区X将其划分为100个不同的子集,每个子集有1个数据点。分区Y将其划分为99个子集,98个子集各有一个数据点,1个子集有两个数据点。

    对于这种情况,常规RI看起来几乎完美,因为对于任意选择的任何两个点,它们肯定在X中的两个不同子集中,并且它们不在Y中的两个不同子集中的唯一方式是,我们不太可能从包含两个项的特殊第99子集中提取这两个项。所以RI将非常接近1(如果我们将数据集设置为大于100,我们可以将其任意接近1)。

    但对于ARI来说 n_ij 列联表中的术语定义为1或0,这意味着分子必须为负数,表示糟糕的集群相似性(这基本上是由这些分区携带的唯一“信息”是具有两个数据点的Y的一个子集这一事实驱动的……因此,如果X不再现这一点,则在某种意义上,它在再现Y所指示的关系方面非常糟糕)。

    通过将X看作50个不同的两个元素对集合,将Y看作50个不同的两个元素对集合,可以使这个思维实验更加复杂。再者,RI仅仅是随机出现的,因为大多数时间元素都是随机出现的 二者都 不属于同一个两元素子集。只有真正属于X或Y(100个可能的对)的对才会受到惩罚,而另一对则会受到惩罚 (100 choose 2) - 100 剩下的对,RI会将它们标记为在X和Y两个方向上成功地放置到不同的组中。同样,只需将数据集变大,RI就会越来越高。