代码之家  ›  专栏  ›  技术社区  ›  Chandan Ray

HDFS和CASSANDRA之间的负查询(有7000万条记录)大约需要40分钟

  •  1
  • Chandan Ray  · 技术社区  · 6 年前

    我的HDFS拼花文件和Cassandra表有7000万行,16列,14列是Json格式,长度超过2000。

    我在做源减去目标和目标减去源。然后计算HDFS和Cassandra的每个数据帧的计数。我花了40分钟。

    运行在具有6 TB空间的纱线上,具有20个数据节点和1640个核心。

    即使我将执行器数量更改为100,核心数量更改为4,性能也不会提高。请告诉我,如果这是最大的效率,我们可以实现。

    0 回复  |  直到 6 年前