代码之家  ›  专栏  ›  技术社区  ›  YAKOVM

火花的行计算[复制]

  •  1
  • YAKOVM  · 技术社区  · 6 年前

    这个问题已经有了答案:

    基于此 answer 我需要做些行计算

    result= (reduce(add, (<some row wise calculation on col(x)> for x in df.columns[1:])) / n).alias("result")
    

    但在此之前,我需要按降序对行值进行排序(在dataframe中更改每行的列顺序?) 假设我有以下几行

     3,7,21,9
     5,15,10,2
    

    例如,我需要知道每一行的每个值的等级(顺序),然后计算和(值/索引) 第一排

    21 ->4,9->3,7->3,3->1,sum(21/4,9/3,7/3,3/1)
    

    第二排

    15->4,10->3,5->2,2->1,sum(15/4,10/4,5/2,2/1)
    

    不是重复的,因为我需要排序不是按列而是按行

    1 回复  |  直到 6 年前
        1
  •  2
  •   Ramesh Maharjan    6 年前

    假设您的输入数据帧如下

    +----+----+----+----+
    |col1|col2|col3|col4|
    +----+----+----+----+
    |3   |7   |21  |9   |
    |5   |15  |10  |2   |
    +----+----+----+----+
    

    然后,您可以编写一个udf函数来获得所需的输出列

    from pyspark.sql import functions as f
    from pyspark.sql import types as t
    def sortAndIndex(list):
        return sorted([(value, index+1) for index, value in enumerate(sorted(list))],  reverse=True)
    
    sortAndIndexUdf = f.udf(sortAndIndex, t.ArrayType(t.StructType([t.StructField('key', t.IntegerType(), True), t.StructField('value', t.IntegerType(), True)])))
    
    df.withColumn('sortedAndIndexed', sortAndIndexUdf(f.array([x for x in df.columns])))
    

    它应该给你

    +----+----+----+----+----------------------------------+
    |col1|col2|col3|col4|sortedAndIndexed                  |
    +----+----+----+----+----------------------------------+
    |3   |7   |21  |9   |[[21, 4], [9, 3], [7, 2], [3, 1]] |
    |5   |15  |10  |2   |[[15, 4], [10, 3], [5, 2], [2, 1]]|
    +----+----+----+----+----------------------------------+
    

    更新

    你评论为

    我的计算应该是sum(值/索引),所以可能使用您的udf函数,我应该返回某种reduce(add,)?

    为此你可以做

    from pyspark.sql import functions as f
    from pyspark.sql import types as t
    def divideAndSum(list):
        return sum([float(value)/(index+1) for index, value in enumerate(sorted(list))])
    
    divideAndSumUdf = f.udf(divideAndSum, t.DoubleType())
    
    df.withColumn('divideAndSum', divideAndSumUdf(f.array([x for x in df.columns])))
    

    它应该给你

    +----+----+----+----+------------------+
    |col1|col2|col3|col4|divideAndSum      |
    +----+----+----+----+------------------+
    |3   |7   |21  |9   |14.75             |
    |5   |15  |10  |2   |11.583333333333334|
    +----+----+----+----+------------------+