1
7
这里的基本问题是:
YARN“知道”应用程序告诉它什么,并且它了解集群的结构(拓扑)。当应用程序发出资源请求时,它可以包括特定的 局部性约束 ,这可能会在分配资源时得到满足,也可能不会得到满足。 如果无法指定约束,则YARN(或任何其他集群管理器)将根据其对集群拓扑的了解,尝试提供最佳的替代匹配。 那么应用程序如何“知道” ? 如果应用程序使用支持某种形式的数据位置的输入源(文件系统或其他),它可以查询相应的目录(如果是HDFS,则为namenode),以获取它想要访问的数据块的位置。
从广义上讲,Spark RDD可以定义
|
Pasq · 将远程目录发布到远程Repo Github工作流 1 年前 |
Ondrej · GCP Dataproc-配置纱线展计划程序 6 年前 |
jk1 · 纱线是否计算过执行器数量? 6 年前 |
Lejla · 在dataproc上找不到有效的SPARK\u主页 6 年前 |