代码之家 › 专栏 › 技术社区 › AlwaysLearning

在Hadoop集群上解决单词计数有意义吗?

mapreduce hadoop

-1

AlwaysLearning · 技术社区 · 6 年前

许多关于Hadoop MapReduce的教程都从单词计数示例开始。但是,我记得在我的分布式计算类(Hadoop诞生之前)中,分布式计算只会在子任务粒度较粗时加快速度,这意味着计算时间超过了通信时间。在字数计算中,时间复杂性(如果使用哈希表并假定字长为常量)是线性的。因此,支付将输入文件传输到HDF以及随后的排序和重组阶段的成本似乎是不合理的。我错过什么了吗?

1 回复 | 直到 6 年前

OneCricketeer Gabriele Mariotti 6 年前

不清楚你的建议是什么,但是wordcount就像用你最喜欢的语言打印hello world。

它教会了你基本的概念,它并不是如何使用mapreduce的主要例子,也不是如何优化Hadoop集群的主要例子(存储用于分析的行交付文本并不是Hadoop的亮点)。

推荐文章

Shadi Alian · hadoop程序中的类型不匹配错误

7 年前

FlyingBurger · reduce函数包含操作

7 年前

Gyanendra Dwivedi · 在清管器v0.15中设置队列名称

7 年前

Parth Mittal · MPI和MapReduce之间有什么区别?[已关闭]

7 年前

FlyingBurger · 映射减少概念

7 年前

Sea Star · 如何确定map和reduce任务的数量?

7 年前

yzhan · Hadoop可写读字段EOFEException

7 年前

dakir08 · 在python中生成反向索引

7 年前

Aqsha Padyani · Cloudera MapReduce计数器getValue错误

7 年前

Gideok Seong · 显示读取java中mapreduce程序的CSV文件时出错

7 年前