代码之家 › 专栏 › 技术社区 › kwn

将pyfiles和参数传递给DataProcPySparkOperator

google-cloud-composer google-cloud-dataproc

0

kwn · 技术社区 · 4 年前

我试图通过 参数和压缩的pyfiles 到Composer中的临时Dataproc集群

spark_args = {
    'conn_id': 'spark_default',
    'num_executors': 2,
    'executor_cores': 2,
    'executor_memory': '2G',
    'driver_memory': '2G',
}    

task = dataproc_operator.DataProcPySparkOperator(
                task_id='spark_preprocess_{}'.format(name),
                project_id=PROJECT_ID,
                cluster_name=CLUSTER_NAME,
                region='europe-west4',
                main='gs://my-bucket/dist/main.py',
                pyfiles='gs://my-bucket/dist/jobs.zip',
                dataproc_pyspark_properties=spark_args,
                arguments=['--name', 'test', '--date', self.date_exec],
                dag=subdag
            )

但我得到了以下错误,知道如何正确格式化参数吗?

“job.pyspark_job.properties[1].value”处的值无效(TYPE_STRING)

0 回复 | 直到 4 年前

1

Igor Dvorzhak 4 年前

正如在 the comment ,问题是 spark_args 具有非字符串值,但每个错误消息应仅包含字符串:

Invalid value at 'job.pyspark_job.properties[1].value' (TYPE_STRING)