![]() |
1
1
日志文件是连续生成的,所以我不确定使用Hadoop流来读取它们是否有意义,因为这是一次性操作,如果再次运行它,则不会保留已读取的文件。
此外,如果你想要的只是
如果您希望不断压缩这些日志并将其上载到HDFS,那么您应该考虑至少使用Flume,它包含在主要的Hadoop发行版中。 如果您喜欢安装任何其他软件,请查看Fluentd或Filebeat以进行日志收集,然后查看NiFi以您选择的压缩格式处理以合理文件大小传输到HDFS的操作。Kafka也可用于日志收集器和NiFi之间。通过这些选项,您可以很好地控制文件名,也可以将日志发送到适当的搜索平台,如Solr或Elasticsearch 关于您的评论,设置这些工具已经有一段时间了,但我相信您可以使用文件名正则表达式模式来显式捕获要包含/排除的文件 |