![]() |
1
7
我认为主要的直觉点是你已经链接的博客中提到的,
如果一对元素 任何一个 都位于每个分区的相同的各自集群中, 或 如果两者都在每个分区的不同集群中。 仅仅通过增加分区中的集群数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含100个示例的数据集。分区X将其划分为100个不同的子集,每个子集有1个数据点。分区Y将其划分为99个子集,98个子集各有一个数据点,1个子集有两个数据点。 对于这种情况,常规RI看起来几乎完美,因为对于任意选择的任何两个点,它们肯定在X中的两个不同子集中,并且它们不在Y中的两个不同子集中的唯一方式是,我们不太可能从包含两个项的特殊第99子集中提取这两个项。所以RI将非常接近1(如果我们将数据集设置为大于100,我们可以将其任意接近1)。
但对于ARI来说
通过将X看作50个不同的两个元素对集合,将Y看作50个不同的两个元素对集合,可以使这个思维实验更加复杂。再者,RI仅仅是随机出现的,因为大多数时间元素都是随机出现的
二者都
不属于同一个两元素子集。只有真正属于X或Y(100个可能的对)的对才会受到惩罚,而另一对则会受到惩罚
|
![]() |
Madison Ell · R列表不断返回NAs,我该如何修复? 2 年前 |
![]() |
Crawford Patten · 如何获得整数列表的四分位数 2 年前 |
![]() |
Caledonian26 · 向qnorm图中添加直线 2 年前 |
![]() |
remo · R:带子集的T-统计量 3 年前 |
![]() |
chiuki · 具有上限的int列表的再分配 3 年前 |
![]() |
Hamid · 从Javascript(节点)调用R函数 6 年前 |