代码之家 › 专栏 › 技术社区 › Eran Harel

用于大量夜间/每小时hive/mysql数据处理的Spring批处理

spring-batch hive etl hadoop mysql

Eran Harel · 技术社区 · 14 年前

我正在寻找替换一组python ETL脚本的方法,这些脚本对大量数据执行每夜/每小时的数据汇总和统计收集。

我想实现的是

当前脚本执行以下操作:

从许多机器收集文本日志,并将其推送到 Hadoop DFS。我们将来可能会使用水槽进行这一步骤(参见 http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/ )
表演 Hive 对数据进行摘要查询,并将其插入(覆盖)到新的配置单元表/分区。
将新的摘要数据提取到文件中,并将其加载(合并)到MySQL表中。这是以后在线报告需要的数据。
对新添加的MySQL数据(从MySQL表)执行附加联接,并更新数据。

我的想法是用Spring批处理替换脚本。我也调查过 Scriptella 但我认为这对这个案子来说太简单了。

因为我在春季的一批文章中看到了一些不好的感觉(大部分是旧的帖子),所以我希望在这里得到一些输入。我也没有看到太多关于Spring批量和Hive集成的内容,这很麻烦。

3 回复 | 直到 12 年前

Jeff Hammerbacher 14 年前

如果你想留在Hadoop生态系统中,我强烈建议你去看看 Oozie 自动化您的工作流程。我们(Cloudera)提供 packaged version of Oozie 你可以用来开始。看看我们最近 blog post 了解更多详细信息。

dukethrash 14 年前

为什么不使用 JasperETL 或 Talend ?似乎是这项工作的合适工具。

sethcall 12 年前

我已经使用了很多层叠,并且发现它非常令人印象深刻:

它是一个M/R抽象层,运行在Hadoop上。

推荐文章

Badal Solanki · 如何在MySQL中对字符串进行算术运算?

1 年前

Saleh Mehdiyev · 我想重构我的Laravel代码以遵守SOLID原则

1 年前

hello_programmers · Mysql从其他表输出一列

1 年前

Community wiki · 这个MySQL语句出了什么问题?

1 年前

Community wiki · 优化从同一表中提取的多列的查询

1 年前

IJustSentYouAPackage · MySQL错误:引用的表中缺少约束的列[已关闭]

1 年前

Popo · Sql查询:返回数据库中不可用的where条件

1 年前

Roberts · DATE_FORMAT和STR_TO_DATE不工作

1 年前

Hamdan Nuramdani · 对账单中一周内不同表中的数据求和

1 年前

Kugelfisch · 用php为数据库加密数据

1 年前