代码之家 › 专栏 › 技术社区 › user297850

pyspark中聚合(0,lambda,lambda)的用法

apache-spark-sql pyspark

user297850 · 技术社区 · 3 年前

有一个pyspark代码段

seqOp = (lambda x,y: x+y)
sum_temp = df.rdd.map(lambda x: len(x.timestamp)).aggregate(0, seqOp, seqOp)

sum_temp的输出是一个数值。但我不清楚如何 aggregate(0, seqOp, seqOp) 工作。在我看来,通常情况下 aggregate 只需使用一个函数形式,如 "avg"

此外, df.rdd.map(lambda x: len(x.timestamp)) 属于类型 pyspark.rdd.PipelinedRDD .我们怎样才能得到它的内容?

0 回复 | 直到 3 年前

mck 3 年前

根据the docs ,聚合过程:

您可能将此聚合与数据帧的聚合方法混淆了。RDD是较低级别的对象,您不能在这里使用数据帧聚合方法,如avg/meand/等。

要获取RDD的内容,您可以执行以下操作 rdd.take(1) 检查随机元素,或使用 rdd.collect() 检查整个RDD(请注意,这将把所有数据收集到驱动程序上,如果RDD很大,可能会导致内存错误)。

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

2 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前