代码之家  ›  专栏  ›  技术社区  ›  AlwaysLearning

在Hadoop集群上解决单词计数有意义吗?

  •  -1
  • AlwaysLearning  · 技术社区  · 6 年前

    许多关于Hadoop MapReduce的教程都从单词计数示例开始。但是,我记得在我的分布式计算类(Hadoop诞生之前)中,分布式计算只会在子任务粒度较粗时加快速度,这意味着计算时间超过了通信时间。在字数计算中,时间复杂性(如果使用哈希表并假定字长为常量)是线性的。因此,支付将输入文件传输到HDF以及随后的排序和重组阶段的成本似乎是不合理的。我错过什么了吗?

    1 回复  |  直到 6 年前
        1
  •  1
  •   OneCricketeer Gabriele Mariotti    6 年前

    不清楚你的建议是什么,但是wordcount就像用你最喜欢的语言打印hello world。

    它教会了你基本的概念,它并不是如何使用mapreduce的主要例子,也不是如何优化Hadoop集群的主要例子(存储用于分析的行交付文本并不是Hadoop的亮点)。