代码之家 › 专栏 › 技术社区 › Rob

大数据的impala中值计算

impyla median impala pandas python

Rob · 技术社区 · 6 年前

我可以访问任何给定月份的数亿行数据。3个特性:一个表示日期的字符串、一个表示类型的字符串和一个表示金额的值。

有了python和impala(sql)的访问权限,每月计算每种类型的数百万行的中位数的最佳方法是什么?

如果我使用一个简单的group by:date部分的类型和子字符串来获取month-eg子字符串(date,1,4),并使用appx_中值函数来计算中值,那么我最终将耗尽impala查询的内存。

如果我尝试将原始数据作为csv(比如使用dbeaver),那么它的大小是巨大的-gbs,太大了,无法放入我可以访问的vm的内存中,如果我尝试将csv推入python pandas数据帧,它将保存csv。

我不熟悉处理大数据的模式,所以任何提示都会非常感谢。由于数据量太大,我很难进行简单的计算。

1 回复 | 直到 6 年前

mazaneicha 6 年前

您可以通过指定 SET MEM_LIMIT=Xg ,其中x是以GB为单位的内存 每个impala守护进程 是的。见 https://impala.apache.org/docs/build/html/topics/impala_mem_limit.html 更多细节。

推荐文章

smatthewenglish · Python输出与元组列表的中值相关联的记录,由numpy确定

7 年前

Eonm · 在不使用数组或任何使用数组或任何其他集合的函数的情况下,查找用户给定的n个值的中值

7 年前

Edward · 如何计算randomForestSRC中的中位生存率

7 年前

Ollie · 无法将Null值传递给自定义聚合

7 年前

Erik B · 有人能帮我解释为什么我不能显示正确的中值吗?[爪哇]

8 年前

Huanian Zhang · 不含零的运行中值

8 年前

rakesh a · Scipy ndimage median_filter原点

9 年前

berserker · 找到坐标中值以构建kd树(2D)-C++

9 年前

AKIWEB · 如何获得使用sql对特定列进行分组所花费的平均时间?

10 年前

user3787315 · 使用“rollmedian”函数作为“arima”函数的输入

10 年前