代码之家 › 专栏 › 技术社区 › Venkataraman R

可为空的Unicode字符串的Spark SQL排名

databricks apache-spark-sql null unicode apache-spark

Venkataraman R · 技术社区 · 6 年前

我们正在研究Spark SQL。我们正在使用一些可以为空的字符串字段进行排名。

问题是:在Spark SQL中, null 价值观排名第一。但是,我们想要 无效的 最终的价值。所以,我们应用了一个逻辑案例。因为我们有Unicode数据,“zzzzzz”最终不会出现。它将在日语和中文地址行之前。

请告诉我们,哪个字符串常量文本用于空字符串值,以便在ORDER BY的情况下使用它们。

我在下面输入了示例代码。

SELECT CompanyName, 
ROW_NUMBER() OVER
                    (
                        PARTITION BY O.CompanyName
                        ORDER BY  
                                 CASE WHEN AddressLine1 IS NOT NULL THEN AddressLine1 ELSE "ZZZZZZZZ" END ASC                                 
                    ) AS BestDataForCompany
FROM CompanyData

2 回复 | 直到 6 年前

wBob 6 年前

spark sql中的排名函数支持 NULLS LAST 这样就可以了:

SELECT 
  CompanyName,
  AddressLine1,
  ROW_NUMBER() OVER ( PARTITION BY CompanyName ORDER BY AddressLine1 ) BestDataForCompany1,
  ROW_NUMBER() OVER ( PARTITION BY CompanyName ORDER BY CASE WHEN AddressLine1 IS NULL THEN 1 ELSE 0 END, AddressLine1 DESC ) BestDataForCompany2,
  ROW_NUMBER() OVER ( PARTITION BY CompanyName ORDER BY AddressLine1 NULLS LAST ) BestDataForCompany3  
FROM CompanyData

我的结果是:

simon_dmorias 6 年前

我还没有测试过这个——但是我猜你最好把它们分成另一组,然后首先对它们进行排序。然后应用你想要的真实排名:

SELECT CompanyName, 
ROW_NUMBER() OVER
                    (
                        PARTITION BY O.CompanyName, CASE WHEN AddressLine1 IS NOT NULL THEN 0 ELSE 1 END
                        ORDER BY  
                                 CASE WHEN AddressLine1 IS NOT NULL THEN 0 ELSE 1 END, AddressLine1                                 
                    ) AS BestDataForCompany
FROM CompanyData

推荐文章

srinath tripuraneni · {DataFrameWriter CSV到HDFS文件系统}不分区写入数据

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

2 年前

Palkin Jangra · 使用循环在Pyspark数组元素上和元素本身内迭代两次

2 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

2 年前

amol visave · spark作业失败时会发生什么?

2 年前

Alex Jolly · 如何在另一个pyspark数据帧中查询开始时间和结束时间之间的日期时间

2 年前

chun · pyspark dataframe在s3中两次写入csv文件

2 年前

Mod_x · 如何将特定列的行标题更改为行标题,并在pySpark中生成矩阵?

2 年前

katty · 动态地将参数传递给scala中的函数

6 年前

Abhishek Choudhary · 如何更新数组列?

6 年前