代码之家  ›  专栏  ›  技术社区  ›  Pragmatic

小批量火花加工

  •  0
  • Pragmatic  · 技术社区  · 6 年前

    提前谢谢。

    1 回复  |  直到 6 年前
        1
  •  0
  •   Tarun Teja    6 年前

    很好,在运行作业之前要记住的一件事是检查内存并根据数据大小分配内存。 假设你有10个内核,50GB内存,最初你有3kb或1MB大小的csv文件,给50GB内存,给1MB文件10个内存是错误的, 在你跳槽之前,你应该小心分配内存和执行器的数量。

    在打开sparkshell之前(这里我使用Pyspark和yarn作为资源管理器)

    pyspark --master yarn --num-executors-memory <512M ,2G> 
    

    谢谢您。