1
1
这里似乎有点混乱。 最佳数据位置(节点本地)是我们想要实现的,而不是保证。Spark所能做的就是请求资源(例如纱线- How YARN knows data locality in Apache spark in cluster mode )希望能得到满足数据局部性约束的资源。 否则,它只会从远程节点获取数据。然而 它不是 洗牌。这只是一个简单的网络传输。 所以为了回答你的问题,Spark将使用已经分配的资源,尽其所能满足约束条件。它不能使用尚未获取的节点,因此不会自动获取其他节点进行读取。 |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |