Apache Spark Resilient Distributed Dataset
RDD是:
它是一个不可变的分布式对象集合。RDD中的每个数据集被划分为逻辑分区,这些分区可以在集群的不同节点上计算。 从形式上讲,RDD是一个只读的、分区的记录集合。RDD可以通过对稳定存储或其他RDD上的数据进行确定性操作来创建。RDD是可以并行操作的元素的容错集合。
它是一个不可变的分布式对象集合。RDD中的每个数据集被划分为逻辑分区,这些分区可以在集群的不同节点上计算。
从形式上讲,RDD是一个只读的、分区的记录集合。RDD可以通过对稳定存储或其他RDD上的数据进行确定性操作来创建。RDD是可以并行操作的元素的容错集合。
现在Clojure已经 immutable data structures 和 running 中的高阶函数 parallel
我知道 Flambo 和 Sparkling . 我不是在寻找一个接口,而是一个等效的数据结构。
我的问题是:
嗯,正常的Clojure映射和向量可以很容易地在子分区中使用core在多个核上并行处理。减速器/折叠。
Onyx和Storm是分布式计算框架,完全在Clojure中实现,可以做Spark做的事情。这些可能与spark上的RDD非常接近。