代码之家  ›  专栏  ›  技术社区  ›  Peter Chen

pyspark近似分位数和python分位数之间的差异

  •  -1
  • Peter Chen  · 技术社区  · 3 年前

    我想知道Pypark的逻辑 approxQuantile() 还有蟒蛇 quantile()

    count     28174.000000
    mean        351.082099
    std        3556.824630
    min           0.000000
    25%           0.000000
    50%           0.000000
    75%           0.000000
    max      201790.000000
    Name: value, dtype: float64
    
    # Pyspark
    cap = df.approxQuantile("value",[0.995],0)[0]
    > 15825.16
    
    # Python 
    cap_995 = df.value.quantile(.995)
    > 15805.316899999963
    

    知道他们为什么不同吗?

    0 回复  |  直到 3 年前