![]() |
1
0
这里的解决方案是可行的
在这个RDD中总共有1016行;但是在其中6行中,没有列SE_类别。所以你只能看到1010
火花不会那样做。如果你从Java的角度来考虑它,Java是RDD对象的基础语言,这是完全有意义的。由于我一直在编程,主要是Python,一种动态类型的语言,有一段时间,我没有立即想到这是一个问题。但是在静态类型语言中,在编译时应该有一个已定义的类型。 解决方案是将每一行作为一组具有类型的对象“声明”返回到RDD;从而模仿静态类型。所以我声明
在我填写任何值之前。这样,如果生成RDD的函数没有更新该值,则该行仍然具有所有正确的类型,并且
成功地将此RDD转换为数据帧。 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
![]() |
juamd · 顺序(k,<元组>)RDD 6 年前 |
![]() |
Gaurav Gupta · 如何加载多行记录的CSV文件? 6 年前 |
![]() |
Jared · 如何在本地模式下运行的pyspark中读取S3? 6 年前 |
![]() |
ka_boom · 在pyspark中链接多个groupBy 6 年前 |
![]() |
ds_user · 在apache spark中复制记录计数 6 年前 |
![]() |
ds_user · 结合类型和子类型的Apache Spark组 6 年前 |