代码之家  ›  专栏  ›  技术社区  ›  kwn

将pyfiles和参数传递给DataProcPySparkOperator

  •  0
  • kwn  · 技术社区  · 4 年前

    我试图通过 参数和压缩的pyfiles 到Composer中的临时Dataproc集群

    spark_args = {
        'conn_id': 'spark_default',
        'num_executors': 2,
        'executor_cores': 2,
        'executor_memory': '2G',
        'driver_memory': '2G',
    }    
    
    task = dataproc_operator.DataProcPySparkOperator(
                    task_id='spark_preprocess_{}'.format(name),
                    project_id=PROJECT_ID,
                    cluster_name=CLUSTER_NAME,
                    region='europe-west4',
                    main='gs://my-bucket/dist/main.py',
                    pyfiles='gs://my-bucket/dist/jobs.zip',
                    dataproc_pyspark_properties=spark_args,
                    arguments=['--name', 'test', '--date', self.date_exec],
                    dag=subdag
                )
    

    但我得到了以下错误,知道如何正确格式化参数吗?

    “job.pyspark_job.properties[1].value”处的值无效(TYPE_STRING)

    0 回复  |  直到 4 年前
        1
  •  1
  •   Igor Dvorzhak    4 年前

    正如在 the comment ,问题是 spark_args 具有非字符串值,但每个错误消息应仅包含字符串:

    Invalid value at 'job.pyspark_job.properties[1].value' (TYPE_STRING)
    
    推荐文章