save 来自apachespark的方法。它几乎均匀地分布在节点上(我使用 hdfs fsck ).
save
hdfs fsck
distcp hdfs fsck公司 在目标文件夹上,结果是高度倾斜的,也就是说,很少有节点有很多块,而很少有节点上存储的块很少。HDFS上的这种偏斜导致了性能问题。
distcp
hdfs fsck公司
mv 从源到目标(簇内),而这次目标中的偏斜很好,也就是说,数据是均匀分布的。
mv
在使用HDFS时,有什么方法可以减少HDFS中的偏斜吗 ?
中的映射程序数 distcp 等于重载的节点数。
所以我增加了地图绘制者的数量 使用 -m 选择集群中存在的机器数量,输出的偏差要小得多。
-m
distcp公司