代码之家  ›  专栏  ›  技术社区  ›  Shooting Stars

Hadoop的MapReduce,“Ouput文件目录已经存在”

  •  0
  • Shooting Stars  · 技术社区  · 6 年前

    我正在尝试使用Amazons EMR服务上托管的集群。我试图使用WordCount.jar文件运行WordCount示例,并使用随机输出文件夹运行input1.txt。输入的语法是,WordCount argv[1]argv[2]。input1.txt的路径应该是argv[1],argv[2]是输出的路径。我知道如果您多次尝试使用同一个输出目录,hadoop会生气。为了确定你们,我有台词->

    FileInputFormat.addInputPath(job, new Path(args[1]));
    FileOutputFormat.setOutputPath(job, new Path(args[2]));
    

    但是不管我把什么输出目录放在这里都是我的结果,

    Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory https://s3.us-east-2.amazonaws.com/mydirectory/gabagooba already exists
    at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)
    at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:268)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:141)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1341)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1338)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1338)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1359)
    at WordCountDemo.WordCount.main(WordCount.java:62)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:239)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:153)
    

    我的输出目录应该存储在S3存储中,但是当我去那里时,没有输出。任何帮助都能让我摆脱这种习惯。

    1 回复  |  直到 6 年前
        1
  •  1
  •   Paul Leo Prince    6 年前

    可以将输出位置指定为s3吗

    示例:s3://yourbucket/output

    裁判: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-output.html