1
1
我想你可能是想把圆钉子塞进一个方孔里。听起来好像您正在接收一个具有未知模式的事件流,并且希望将其存储为针对已知模式进行优化的格式。 我想您可以在跟踪模式的同时缓冲一定数量的事件(比如,100万个事件),然后在达到该数量后清除到一个文件,然后再次开始缓冲。缺点是每个文件都会以不同的模式结束,这使得跨多个文件处理数据变得不切实际。 另一种解决方案是研究无模式的数据存储,尽管在S3上使用ORC或Parquet并不能获得相同的性价比优势。 还有其他策略,但你最好的长期解决方案是与管理你摄入的事件来源的人交谈,并找到一种预先确定模式的方法。 |
guilhermecgs · 拼花文件-具有可变频率的时间序列 6 年前 |
Jay · 对Pyarrows的HdfsClient使用多处理 6 年前 |
Mark Rajcok · 如何在构建拼花cpp时静态链接箭头? 6 年前 |
Rijo Joseph · Spark读取拼花文件的问题 7 年前 |
Martin Studer · 从拼花文件读取/写入pyarrow张量 7 年前 |
M80 · 通过为包含JSON的列定义模式来创建配置单元表的视图 7 年前 |