我的HDFS拼花文件和Cassandra表有7000万行,16列,14列是Json格式,长度超过2000。
我在做源减去目标和目标减去源。然后计算HDFS和Cassandra的每个数据帧的计数。我花了40分钟。
运行在具有6 TB空间的纱线上,具有20个数据节点和1640个核心。
即使我将执行器数量更改为100,核心数量更改为4,性能也不会提高。请告诉我,如果这是最大的效率,我们可以实现。