代码之家  ›  专栏  ›  技术社区  ›  pri

导致HDFS偏斜的distcp

  •  0
  • pri  · 技术社区  · 6 年前

    save 来自apachespark的方法。它几乎均匀地分布在节点上(我使用 hdfs fsck ).

    distcp hdfs fsck公司 在目标文件夹上,结果是高度倾斜的,也就是说,很少有节点有很多块,而很少有节点上存储的块很少。HDFS上的这种偏斜导致了性能问题。

    mv 从源到目标(簇内),而这次目标中的偏斜很好,也就是说,数据是均匀分布的。

    在使用HDFS时,有什么方法可以减少HDFS中的偏斜吗 ?

    1 回复  |  直到 6 年前
        1
  •  1
  •   pri    6 年前

    中的映射程序数 distcp 等于重载的节点数。

    所以我增加了地图绘制者的数量 使用 -m 选择集群中存在的机器数量,输出的偏差要小得多。

    distcp公司