1
21
结果可以直接写入拼花地板/HDF,而无需通过Spark传递数据:
另请参见
Spark注释 :
此外,由于Spark 2.3(当前主)箭头在
最后
不幸的是,这些不太可能解决您的问题
current memory problems
. 两者都取决于
实际上,只要你使用当地的熊猫,我看没有任何理由在这里改用Spark
|
2
1
从…起 https://issues.apache.org/jira/browse/SPARK-6235
已解决。 从…起 https://pandas.pydata.org/pandas-docs/stable/r_interface.html
您可以将pandas数据帧转换为R数据。框架 因此,也许熊猫的转变->R->火花->hdfs? |
3
1
另一种方法是将pandas数据帧转换为spark数据帧(使用pyspark),并使用save命令将其保存到hdfs。 实例
在这里
现在要在hdfs中保存df:
|
4
-1
一种黑客可能是从大数据帧中创建N个pandas数据帧(每个小于2 GB)(水平分区),并创建N个不同的spark数据帧,然后将它们合并(联合)以创建最后一个数据帧写入HDF。我假设你的主机器功能强大,但你也有一个可用的集群,在其中运行Spark。 |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |