代码之家 › 专栏 › 技术社区 › Sal

如何在Windows中查看Apache拼花文件?

parquet bigdata .net java

Sal · 技术社区 · 7 年前

我找不到任何关于ApacheParquet文件的简单英语解释。例如:

他们是什么?
我需要Hadoop或HDF来查看/创建/存储它们吗?
如何创建拼花文件?
如何查看拼花文件?

对于这些问题的任何帮助,我们都表示感谢。

3 回复 | 直到 6 年前

Sal 6 年前

拼花文件中的数据类似于RDBMS样式表,其中有列和行。但是,通常一次访问一列,而不是一行一行地访问数据。

柱状存储器
元数据在文件末尾

默认情况下,所有Apache大数据产品都支持拼花文件。这就是为什么它似乎只能存在于Apache生态系统中。

如前所述,所有当前的Apache大数据产品(如Hadoop、Hive、Spark等)默认都支持拼花文件。

要创建自己的拼花文件:

查看拼花文件内容:

https://github.com/mukunku/ParquetViewer

还有其他方法吗?

nirolo 6 年前

如何使用SQL访问拼花文件中的数据?

Spark 作为SQL引擎 Python Zeppelin

There is very well done guide by Michael Garlanyk 引导一个完成spark/python组合的安装。

from os import walk
from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)

parquetdir = r'C:\PATH\TO\YOUR\PARQUET\FILES'

# Getting all parquet files in a dir as spark contexts.
# There might be more easy ways to access single parquets, but I had nested dirs
dirpath, dirnames, filenames = next(walk(parquetdir), (None, [], []))

# for each parquet file, i.e. table in our database, spark creates a tempview with
# the respective table name equal the parquet filename
print('New tables available: \n')

for parquet in filenames:
    print(parquet[:-8])
    spark.read.parquet(parquetdir+'\\'+parquet).createOrReplaceTempView(parquet[:-8])

my_test_query = spark.sql("""
select
  field1,
  field2
from parquetfilename1
where
  field1 = 'something'
""")

my_test_query.show()

meow 6 年前

现在可以通过 Apache Arrow here official docs

DataFrame notebooks csv 文件。

推荐文章

user29759326 · 如何返回递归函数中的最后一个值?

8 月前

malife89 · 将java中的字符串读取为正确的日期格式

8 月前

Tim · 在java中,有没有更快的方法将字节数组写入文件?

8 月前

pebble unit · 如何检查以前缀开头、以后缀结尾的属性(不是属性值)

8 月前

Nuñito Calzada · Spring Boot with JWT:访问此资源需要完全身份验证

8 月前

rudraraj · java中未声明最终变量

8 月前

Bala Ji · 以下BFS的实施效率如何?

9 月前

MineRickStar · 如何在Java中从Windows获取当前选定的应用程序

9 月前

user2649681 · 实时生成音频以写入“SourceDataLine”`

9 月前

davidalayachew · 为什么我的文件有竞争条件,即使我使用了StandardOpenOption。同步?

9 月前