代码之家 › 专栏 › 技术社区 › pri

导致HDFS偏斜的distcp

distcp hdfs

0

pri · 技术社区 · 6 年前

save 来自apachespark的方法。它几乎均匀地分布在节点上(我使用 hdfs fsck ).

distcp hdfs fsck公司 在目标文件夹上,结果是高度倾斜的,也就是说,很少有节点有很多块,而很少有节点上存储的块很少。HDFS上的这种偏斜导致了性能问题。

mv 从源到目标(簇内),而这次目标中的偏斜很好,也就是说,数据是均匀分布的。

在使用HDFS时,有什么方法可以减少HDFS中的偏斜吗 ?

1 回复 | 直到 6 年前

1

1

pri 6 年前

中的映射程序数 distcp 等于重载的节点数。

所以我增加了地图绘制者的数量使用 -m 选择集群中存在的机器数量,输出的偏差要小得多。

distcp公司

推荐文章

Patrick the Cat · 理解htfp url和hdfs路径之间的区别

8 年前

关于移动版

代码之家 - 一站式码农服务社区

沪ICP备11025650号