1
1
优选的方式是从粒径最小的变量到粒径最大的变量。 通常是第一个答案,因为你的年比月少,月比天少,天比冷1少,冷1比冷2少。 但是,如果你有任何要求col1和col2优先的规范,那么几年后,这将不是问题。 |
2
1
如果数据是基于yyyy/mm/dd快速生成的,那么选项#1。 例如,一个月内生成的数据发生在01到30(或29,31)的每一天,因此模式很好。 或者另一个例子,您生成的数据发生在小时级别,因此模式yyyy/mm/dd/hh会很好。 如果数据是基于col1/col2快速生成的,那么选项#2 例如,您生成的数据会根据col1(类id)/col2(学生id)进行更改,属于学生id的数据会遵循yyyy/mm/dd,因此您可以继续使用col1/col2/yyyy/mm/d 或者你可以想到,如果你的用例在查询数据方面更频繁地使用col1/col2,那么选项#2是一个不错的选择。 对我来说,如果我们比较两个选项的性能,我认为这并不重要。 |
guilhermecgs · 拼花文件-具有可变频率的时间序列 6 年前 |
Jay · 对Pyarrows的HdfsClient使用多处理 7 年前 |
Mark Rajcok · 如何在构建拼花cpp时静态链接箭头? 7 年前 |
Rijo Joseph · Spark读取拼花文件的问题 7 年前 |
Martin Studer · 从拼花文件读取/写入pyarrow张量 7 年前 |
M80 · 通过为包含JSON的列定义模式来创建配置单元表的视图 7 年前 |