代码之家 › 专栏 › 技术社区 › Evan Zamir

在没有标头或架构的数据上编写sparksql查询

apache-spark-sql apache-spark

-1

Evan Zamir · 技术社区 · 6 年前

我想编写一个通用脚本,可以在没有头或预定义模式的文件上运行SQL查询。例如,文件可能看起来像:

Bob,32
Alice, 24
Jane,65
Doug,33
Peter,19

SELECT COUNT(DISTINCT ??) 
FROM temp_table
WHERE ?? > 32

?? .

2 回复 | 直到 6 年前

Karthick 6 年前

你可以在阅读时定义“自定义模式”

val schema = StructType(
  StructField("field1", StringType, true) ::
    StructField("field2", IntegerType, true) :: Nil
) 

val df = spark.read.format("csv")
    .option("sep", ",")
    .option("header", "false")
    .schema(schema)
    .load("examples/src/main/resources/people.csv")

此外,您还可以忽略将以默认名称结束的架构部分(不是首选)

 val df = spark.read.format("csv")
     .option("sep", ",")
     .option("header", "false")
     .load("examples/src/main/resources/people.csv")

+-----+-----+
|  _c0|  _c1|
+-----+-----+
|  Bob|  32 |  
|  .. | ... |  
+-----+-----+

这样就可以在sparksql中填充列名。

ryandam 6 年前

默认模式似乎有列名 _c0 _c1 等。

val df = spark.read.format("csv").load("test.txt")

scala> df.printSchema
root
  |-- _c0: string (nullable = true)
  |-- _c1: string (nullable = true)

在Spark 2.0中,

  df.createOrReplaceTempView("temp_table")
  spark.sql("SELECT COUNT(DISTINCT _c1) FROM temp_table WHERE cast(_c1 as int) > 32")

推荐文章

srinath tripuraneni · {DataFrameWriter CSV到HDFS文件系统}不分区写入数据

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

3 年前

Palkin Jangra · 使用循环在Pyspark数组元素上和元素本身内迭代两次

3 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

3 年前

amol visave · spark作业失败时会发生什么?

3 年前

Alex Jolly · 如何在另一个pyspark数据帧中查询开始时间和结束时间之间的日期时间

3 年前

chun · pyspark dataframe在s3中两次写入csv文件

3 年前

Mod_x · 如何将特定列的行标题更改为行标题,并在pySpark中生成矩阵?

3 年前

katty · 动态地将参数传递给scala中的函数

6 年前

Abhishek Choudhary · 如何更新数组列?

6 年前