代码之家  ›  专栏  ›  技术社区  ›  Tibberzz

如何在pyspark中对数据帧进行排序[重复]

  •  0
  • Tibberzz  · 技术社区  · 6 年前

    这个问题已经有了答案:

    我有一个数据框架:

    # +---+--------+---------+
    # | id|  rank  |  value  |
    # +---+--------+---------+
    # |  1|    A   |    10   |
    # |  2|    B   |    46   |
    # |  3|    D   |     8   |
    # |  4|    C   |     8   |
    # +---+--------+---------+
    

    我想按值排序,然后按等级排序。这看起来应该很简单,但我看不到如何在文档中为pyspark这样做,只为r和scala。

    这是排序后的处理方式,.show()应打印:

    # +---+--------+---------+
    # | id|  rank  |  value  |
    # +---+--------+---------+
    # |  4|    C   |     8   |
    # |  3|    D   |     8   |
    # |  1|    A   |    10   |
    # |  2|    B   |    46   |
    # +---+--------+---------+
    
    2 回复  |  直到 6 年前
        1
  •  3
  •   Arnon Rotem-Gal-Oz    6 年前

    假设您的数据帧存储在一个名为df的变量中 你会的。 df.orderBy('value').show() 把它整理一下

        2
  •  7
  •   gasparms    6 年前