所以我有一个数据框
df
就像这样,
+---+-----+
| ID|COL_A|
+---+-----+
| 1| 123|
+---+-----+
我也有这样一句话:
{"COL_B":"abc","COL_C":""}
现在,我要做的是用dict中的key作为新列名,key的值作为列的costant值来更新df。
预期df应如下所示:
+---+-----+-----+-----+
| ID|COL_A|COL_B|COL_C|
+---+-----+-----+-----+
| 1| 123| abc| |
+---+-----+-----+-----+
下面是我的python代码,运行良好。。。
input_data = pd.read_csv(inputFilePath,dtype=str)
for key, value in mapRow.iteritems(): #mapRow is the dict
if value is None:
input_data[key] = ""
else:
input_data[key] = value
现在,我正在将这段代码迁移到pyspark,并想知道如何在pyspark中实现它
?
谢谢你的帮助。