![]() |
1
3
不幸的是,我还没有找到这样做的方法。我报告了 this issue 删除硬编码值并使其可配置。如果你感兴趣的话,我有一个补丁。 |
![]() |
2
2
虽然
PARQUET-409
尚未修复,有几个变通方法可以让应用程序使用它
第一个问题和解决方法
:
您提到了行的大小可能高达50Mb。
这使得行组大小约为5Gb。
同时,您的spark执行器只有4Gb(
第二个问题和解决方法 :5Gb的大行块很可能分布在许多HDFS块上,因为默认HDFS块在128-256Mb范围内。(我假设您使用HDFS存储这些拼花文件,就像使用“hadoop”标记一样)parquet best practice 用于将行组完全驻留在一个HDFS块中:
下面是如何更改HDFS块大小的示例(在您之前设置 创造 此类拼花文件):
或在Spark Scala中:
我希望这将是固定在拼花地板水平有时,但这两个解决办法应该允许您与拼花地板操作这样大的行组。 |
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |