代码之家  ›  专栏  ›  技术社区  ›  Martin Thoma

如何将本地ORC文件转换为CSV?

  •  0
  • Martin Thoma  · 技术社区  · 6 年前

    我的本地机器上有一个ORC文件,我需要任何合理的格式(例如CSV、JSON、YAML等)。

    1 回复  |  直到 6 年前
        1
  •  6
  •   Martin Thoma    6 年前
    1. Download
    2. 解压缩文件,转到 java mvn install
    3. 使用ORC工具

    这就是我使用它们的方式-您可能需要调整路径:

    java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json
    

    输出是 JSON Lines 这很容易转换为CSV。首先,我需要从输出中删除最后两行。然后:

    import pandas as pd
    
    df = pd.read_json('output.json', lines=True)
    df.to_csv('output.csv')
    
        2
  •  0
  •   Eugene    4 年前

    bigdata-file-viewer ,这是一个跨平台的应用程序。您可以打开ORC文件并以CSV格式保存该文件。

    具体用法如下:

    • 从发布页面下载runnable jar,或者按照构建部分从源代码构建。
    • 按“文件”-打开二进制格式文件>“开放”。目前,它可以打开带有拼花后缀、orc后缀和avro后缀的文件。如果未指定后缀,工具将尝试将其提取为拼花文件
    • 通过“查看”->设置每页的最大行数;输入最大行数->“走”
    • 通过“查看”->设置可见属性;“添加/删除属性”
    • 通过“文件”转换为CSV文件->“另存为”->“CSV”