代码之家  ›  专栏  ›  技术社区  ›  hawkeye

在原生Clojure中是否有与弹性分布式数据集等效的数据集?

  •  0
  • hawkeye  · 技术社区  · 7 年前

    Apache Spark Resilient Distributed Dataset

    RDD是:

    它是一个不可变的分布式对象集合。RDD中的每个数据集被划分为逻辑分区,这些分区可以在集群的不同节点上计算。

    从形式上讲,RDD是一个只读的、分区的记录集合。RDD可以通过对稳定存储或其他RDD上的数据进行确定性操作来创建。RDD是可以并行操作的元素的容错集合。

    现在Clojure已经 immutable data structures running 中的高阶函数 parallel

    我知道 Flambo Sparkling . 我不是在寻找一个接口,而是一个等效的数据结构。

    我的问题是:

    1 回复  |  直到 4 年前
        1
  •  0
  •   Didier A.    7 年前

    嗯,正常的Clojure映射和向量可以很容易地在子分区中使用core在多个核上并行处理。减速器/折叠。

    Onyx和Storm是分布式计算框架,完全在Clojure中实现,可以做Spark做的事情。这些可能与spark上的RDD非常接近。