1
17
起初我误解了你的意思,以为你想把柱子切成薄片。如果要选择行的子集,一种方法是使用
您可以使用此ID对数据帧进行排序,并使用
例如:
只是为了验证这是否符合您的要求:
我们还可以验证索引列是否不重叠:
|
2
12
Spark数据帧不能像您编写的那样进行索引。您可以使用head方法创建以获取n个最上面的行。这将返回Row()对象的列表,而不是数据帧。因此,您可以将它们转换回数据帧,并使用原始数据帧的减法来获取其余的行。
如果使用spark 2.0+,还可以使用SparkSession代替spark sqlContext。此外,如果您对前100行不感兴趣,并且希望进行随机拆分,则可以使用 randomSplit 这样地:
|
3
5
如果我不介意在两个数据帧中都有相同的行,那么我可以使用
或者,如果我想在不存在重复项的情况下严格拆分,我可以这样做
|
4
1
通过以下方式尝试:
同样,对于这一点:
|
5
0
在这两种解决方案中,我认为我们都需要改变
|
6
-2
此处提供的解决方案不太复杂,更类似于要求的解决方案: (适用于Spark 2.4以上版本)
|
Kertis van Kertis · Pyspark多标签文本分类 6 年前 |
vikash · scala中数组上的Distinct返回空字符串 6 年前 |
Data_101 · 如何将pyspark数据帧分为两行 6 年前 |
Data_101 · 使用PySpark删除和替换字符 6 年前 |