代码之家 › 专栏 › 技术社区 › ira

将注释放在多行语句之间(带换行符)

comments pyspark python

ira · 技术社区 · 6 年前

当我编写以下pyspark命令时:

# comment 1
df = df.withColumn('explosion', explode(col('col1'))).filter(col('explosion')['sub_col1'] == 'some_string') \
    # comment 2
    .withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2'])) \
    # comment 3
    .withColumn('sub_col3', from_unixtime(col('explosion')['sub_col3']))

我得到以下错误:

.withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2']))
^
IndentationError: unexpected indent

在pyspark的多行命令行之间是否有写注释的方法?

1 回复 | 直到 6 年前

ira 6 年前

这不是 pyspark 问题,而是违反了python语法。

a, b, c = range(3)
a +\
# add b
b +\
# add c
c

这将导致:

    a +# add b
              ^
SyntaxError: invalid syntax

这个 \

解决此问题的一种方法是使用括号代替:

(a +
# add b
b +
# add c
c)

当给变量赋值时

# do a sum of 3 numbers
addition = (a +
            # add b
            b +
            # add c
            c)

或者在你的情况下:

# comment 1
df = (df.withColumn('explosion', explode(col('col1')))
    .filter(col('explosion')['sub_col1'] == 'some_string')
    # comment 2
    .withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2']))
    # comment 3
    .withColumn('sub_col3', from_unixtime(col('explosion')['sub_col3'])))

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前