全部的
登录中?
我在EMR上运行Spark流媒体作业,并获得以下日志消息:
17/08/17 21:09:00 INFO TaskSetManager: Finished task 101.0 in stage 5259.0 (TID 315581) in 17 ms on ip-172-31-37-216.ec2.internal (107/120)
17/08/17 21:09:00 INFO MapPartitionsRDD: Removing RDD 31559 from persistence list
17/08/17 21:09:00 INFO DAGScheduler: Job 2629 finished: foreachPartition at StreamingSparkJob.scala:52, took 0.080085 s
17/08/17 21:09:00 INFO DAGScheduler: ResultStage 5259 (foreachPartition at StreamingSparkJob.scala:52) finished in 0.077 s
17/08/17 21:09:00 INFO JobScheduler: Total delay: 0.178 s for time 1503004140000 ms (execution: 0.084 s)
在目前的发展阶段,这些都没有帮助,并且掩盖了
AWS客户支持和各种答案(
e.g.
spark-submit
选项。
e.g.
,
e.g.
)建议通过提交
log4j.properties
设置的文件
log4j.rootCategory=WARN, <appender>
. 然而
this link
rootCategory
rootLogger
,所以我将其解释为限制
记录(不仅仅是Spark的)到
WARN
-事实上,当我部署一个更改来执行此操作时,我们观察到了这一点。
我注意到
here
说“
Spark使用
log4j
log4j。属性
文件位于
conf
log4j.properties.template
位于那里。
“。我将对此进行实验,看看这是否会抑制
INFO
填充日志的日志。然而,这仍然不是一个理想的解决方案,因为存在
是
信息
火花发出的日志
是
有用-例如,当它记录每个流迭代(从S3)拾取的文件数时。因此,我理想的选择是:
-
可切换为禁用的配置标志
Spark的日志信息,而不抑制所有
信息
日志
-
这两种都存在吗?
警告