![]() |
1
1
尽管 original DIMSUM paper 正在讨论一个矩阵:
哪些值是:
这不是一个要求,您可以在密集矩阵上运行它。实际上,如果您从
the databricks blog
你会注意到
类似地
您需要注意,唯一可用的方法是
Row similarity is in the works 不幸的是,它没有成为最新的Spark 1.5。
至于其他选项,你必须自己实现。天真的暴力解决方案需要
您还可以查看同一个人的不同算法 DISCO 但它没有在Spark中实现(本文还假设了L简约性)。 最后,请注意,DIMSUM和DISCO都是估计值(尽管非常好)。 |
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |