代码之家 › 专栏 › 技术社区 › raul

将列表unicode值的rdd列表转换为字符串

python-unicode rdd pyspark python-2.7

raul · 技术社区 · 7 年前

我有一个spark rdd,它的值以unicode作为列表:

ex_rdd.take(5)
[[u'70450535982412348', u'1000000923', u'1'],
 [u'535982417348', u'1000000923', u'1'],
 [u'50535929459899', u'1000000923', u'99'],
 [u'8070450535936297811', u'1000000923', u'1'],
 [u'5937908667', u'1000000923', u'1']]

unicode error .如何将它们转换为字符串并在pyspark中高效地写入文件?hdfs输出文件应如下所示-

 70450535982412348,1000000923,1
 535982417348,1000000923,1

等等

1 回复 | 直到 7 年前

A.M. 7 年前

您可以使用Python的 join map 和 saveAsTextFile pyspark上的操作。RDD对象(请参阅文档 here ).

ex_rdd.map(lambda L: ','.join(L)).saveAsTextFile('/path/to/hdfs/save/file')

如果我没有弄错的话,即使是PySpark的早期版本(>=1.0),也应该可以使用它。

我不知道你说的是什么意思“ unicode error “。这是Python中的异常吗?还是Java内部的异常?

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前