![]() |
1
1
Spark将分区的最大大小限制为2g,因此您应该能够以最小的分区和更快的处理时间处理整个数据。您可以将spark.executor.cores设置为8,以便利用所有资源。 理想情况下,您应该根据数据的大小设置分区的数量,最好将分区的数量设置为多个核心/执行器。 要回答您的问题,在您的情况下,将分区数设置为4可能会导致每个分区被发送到一个执行器。所以是的,每个分区将被并行处理。 如果您不重新分区,那么spark将根据数据为您进行分区,并在执行器之间分配负载。 没有Hadoop,Spark工作得很好。您可能会看到性能下降,因为您的文件在本地文件系统上,而不是在HDFS上,但是对于大小为1GB的文件来说,这实际上并不重要。 |
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 2 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |