代码之家 › 专栏 › 技术社区 › RTM

为什么调整后的兰德指数(ARI)比兰德指数(RI)好?如何从公式中直观地理解ARI

cluster-analysis statistics machine-learning

RTM · 技术社区 · 6 年前

我读了维基百科上关于 Rand Index 和 Adjusted Rand Index 我能理解它们是如何用数学方法计算的,并能将兰德指数解释为协议对分歧的比率。但我对ARI没有同样的直觉。

This blogpost 通过考虑重叠的可能性,解释为什么ARI优于RI。有人能通过一个例子或直观的解释解释为什么ARI比RI更好吗。

1 回复 | 直到 6 年前

ely 6 年前

我认为主要的直觉点是你已经链接的博客中提到的,

两个随机集的RI如何接近1?原因在于集群的数量。当有很多簇时,两个集中的一对项目很有可能位于不同的簇中。这仍然被视为国际扶轮的一致事件。

如果一对元素 任何一个 都位于每个分区的相同的各自集群中, 或如果两者都在每个分区的不同集群中。

仅仅通过增加分区中的集群数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含100个示例的数据集。分区X将其划分为100个不同的子集,每个子集有1个数据点。分区Y将其划分为99个子集,98个子集各有一个数据点,1个子集有两个数据点。

对于这种情况,常规RI看起来几乎完美,因为对于任意选择的任何两个点,它们肯定在X中的两个不同子集中,并且它们不在Y中的两个不同子集中的唯一方式是,我们不太可能从包含两个项的特殊第99子集中提取这两个项。所以RI将非常接近1(如果我们将数据集设置为大于100,我们可以将其任意接近1)。

但对于ARI来说 n_ij 列联表中的术语定义为1或0,这意味着分子必须为负数,表示糟糕的集群相似性(这基本上是由这些分区携带的唯一“信息”是具有两个数据点的Y的一个子集这一事实驱动的……因此,如果X不再现这一点,则在某种意义上,它在再现Y所指示的关系方面非常糟糕)。

通过将X看作50个不同的两个元素对集合,将Y看作50个不同的两个元素对集合,可以使这个思维实验更加复杂。再者,RI仅仅是随机出现的,因为大多数时间元素都是随机出现的 二者都 不属于同一个两元素子集。只有真正属于X或Y(100个可能的对)的对才会受到惩罚,而另一对则会受到惩罚 (100 choose 2) - 100 剩下的对,RI会将它们标记为在X和Y两个方向上成功地放置到不同的组中。同样,只需将数据集变大,RI就会越来越高。

推荐文章

Madison Ell · R列表不断返回NAs,我该如何修复?

2 年前

Crawford Patten · 如何获得整数列表的四分位数

2 年前

ChrissiLissi · 我的功能有什么问题?使用匹配ID计算百分比

2 年前

Caledonian26 · 向qnorm图中添加直线

2 年前

krassowski · 如何将'VGAM::cumulative'包装到助手函数中('object not found'问题)?

2 年前

vytaute · python scipy中的相关性在统计学上是否显著?

3 年前

remo · R:带子集的T-统计量

3 年前

chiuki · 具有上限的int列表的再分配

3 年前

StatsNovice · 实现一个函数来计算马尔可夫链周期间变化的方差

3 年前

Hamid · 从Javascript(节点)调用R函数

6 年前