![]() |
1
14
免责声明:今年夏天我在Cloudera实习(但我的一些好朋友在雅虎!:-)) 雅虎发行版是他们运行的Hadoop20的一个版本。在它们集群的一些子集上。它包括一组用于稳定性、错误修复等的补丁。它是一个源版本;它没有诸如RPM或Debian包等管理友好的功能。 cloudera发行版是以rpms和debs的形式打包的(也提供了源代码)。这意味着您可以通过标准方法等获得更新,它还包括稳定性和错误修复补丁。它经常被维护(不是说雅虎没有——我想人们可以在Github上查看他们最后一次更新它的时间)。它还包装猪和蜂巢。 Cloudera对Hadoop20的分布是beta版的,18个被认为是稳定的(更多关于 Cloudera blog )这18个版本还包含了用于hive和pig的包;对于20个,您必须自己构建它们(目前还没有官方发布支持20个的pig或hive,尽管存在补丁)。Cloudera和Yahoo版本的20之间可能存在明显的重叠;两者都提供了清单,因此您可以查看。Cloudera发行版的最新文档位于 http://archive.cloudera.com 雅虎不支持他们的发行;他们向社区提供补丁版本作为服务,因此感兴趣的人可以建立雅虎内部运行的内容。考虑到雅虎集群的规模,这是一项重大贡献,尤其是如果你不是一个一直关注Jiras的Hadoop开发人员。Cloudera在商业上支持他们的发行,并通过Hadoop邮件列表和getSatisfaction页面上的特定发行版问题提供一些社区支持。 这两个版本都与普通的Apache发行版大不相同,因为它们在发行版之间对其进行了修补(Cloudera版本20有60多个补丁!). |
![]() |
2
4
雅虎已经停止了自己的发行,专注于ApacheHadoop。 http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/ 最近,hortonworks(www.hortonworks.com)脱离了雅虎。现在,霍顿工厂也将提供与雅虎不同的支持。 http://www.hortonworks.com/about-us/our-manifesto/ cloudera和hortonworks在同一条线上 http://www.cloudera.com/products-services/ 主要区别在于HortonWorks希望使Apache发行版稳定、易于安装和其他版本。而Cloudera有自己的发行版CDH*基于ApacheHadoop。 |
![]() |
3
1
选择Hadoop发行版有不同的原因,例如Cloudera、HortonWorks或Mapr而不是ApacheHadoop。两大优势是工具支持和商业支持。在正确和兼容的版本中,“收集和集成”所有Hadoop框架(如Pig、Hive等)也会遇到很多问题。 看看我在InfoQ上的文章。它解释了ApacheHadoop、Hadoop发行版和大数据套件之间的区别,以及何时使用哪个版本: http://www.infoq.com/articles/BigDataPlatform 最好的问候, Kai W_·hner(@kai waehner,w w w.kai-waehner.de/blog) |
![]() |
4
0
SquareCog在几乎所有的点上都是正确的,除了:雅虎!在雅虎的所有生产集群中,分销都是运行的。不是它们的一个子集。总共有25000多台机器。雅虎!分销部门进行了广泛的端到端测试,以确保可靠、一致的运营。另一个发行版在应用补丁方面更为自由,因此可能具有更多的特性,但还没有进行过广泛的测试。 |
![]() |
Shadi Alian · hadoop程序中的类型不匹配错误 6 年前 |
![]() |
FlyingBurger · reduce函数包含操作 7 年前 |
![]() |
FlyingBurger · 映射减少概念 7 年前 |
![]() |
Sea Star · 如何确定map和reduce任务的数量? 7 年前 |
![]() |
yzhan · Hadoop可写读字段EOFEException 7 年前 |
|
dakir08 · 在python中生成反向索引 7 年前 |