代码之家  ›  专栏  ›  技术社区  ›  Arshanvit

spark中的并行HTTP API调用

  •  0
  • Arshanvit  · 技术社区  · 6 年前

    我正在努力实现以下两个目标。

    a、 以每个分区一个API的形式调用多个HTTP API

    b、 将所有分区的结果合并到一个保留序列的数据帧中。

    根据我的研究,我可以做以下步骤:

    1. 创建HTTP API url字符串序列,然后在一个数据帧中并行化它们。
    2. 使用 mapPartitions 调用方法进行api调用,据我所知,该方法将在每个分区中调用api。

    这是正确的方法吗?我如何确保数据到达 在合并之前,在每个分区中。

    0 回复  |  直到 6 年前