代码之家 › 专栏 › 技术社区 › Usman Azhar

pyspark读取csv文件多行选项不适用于具有换行spark2.3和spark2.2的记录

spark-dataframe pyspark apache-spark python-3.x

Usman Azhar · 技术社区 · 7 年前

我正在尝试使用pyspark csv reader读取dat文件,它包含换行符(“\n”)作为数据的一部分。Spark无法将此文件作为单列读取,而将其视为新行。我试着在阅读时使用“多行”选项,但仍然不起作用。

spark.read.csv(file_path, schema=schema, sep=delimiter,multiLine=True)

数据是这样的。这里$是vim中显示的换行符的CRLF。
name,test,12345,$ $ ,desc$ name2,test2,12345,$ $ ,desc2$ 所以pyspark将desc作为下一条记录。

如何在pyspark中读取此类数据。在spark2.2和spark2.3版本中都尝试了这一点。

1 回复 | 直到 7 年前

Usman Azhar 6 年前

我创建了自己的hadoop自定义记录读取器,并能够通过调用api来读取它。

spark.sparkContext.newAPIHadoopFile(file_path,'com.test.multi.reader.CustomFileFormat','org.apache.hadoop.io.LongWritable','org.apache.hadoop.io.Text',conf=conf)

并在自定义记录读取器中实现了处理遇到的换行符的逻辑。

推荐文章

Aaron Green · 我的python程序无法识别数据库的存在,即使它在那里

1 年前

danial · 如何在多个字符串的每个位置找到最频繁的字符

2 年前

Henry · 使用Python将json重新格式化为键值对

2 年前

eymentakak · json字典类型错误:字符串索引必须是整数

2 年前

Qubix · 从熊猫数据帧创建相对熵矩阵

2 年前

FÄÅ ÛÅ · 字典、列表和字符串

2 年前

OrbitDuster · 如何使用gmail api在python中打印gmail正文?

2 年前

guiguilecodeur · 如何删除我的词汇表中的重复元素

2 年前

Susheel P M · 这是关于if-else语句[关闭]

2 年前

Slartibartfast · 关于Python版本安装

2 年前