代码之家 › 专栏 › 技术社区 › thebeancounter

python dask数据帧将元组列拆分为两列

dask dataframe pandas python-2.7 python

thebeancounter · 技术社区 · 7 年前

我正在将python 2.7与dask结合使用

我创建了一个数据帧,其中有一列元组,如下所示:

table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe)

我想把这个元组列重新转换成两个独立的列在《熊猫》中,我会这样做:

table[[col1,col2]] = table[col].apply(pd.Series)

这样做的目的是,dask数据帧不支持多索引,我想根据多个列使用groupby,并希望创建一列元组,该元组将为我提供一个包含我需要的所有值的单个索引(请忽略效率与多索引,因为这是dask数据帧,还没有完全支持)

当我尝试使用以下代码用dask解包元组列时:

rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), meta = pd.DataFrame, axis = 1)

我得到这个错误

AttributeError:“Series”对象没有属性“columns”

当我尝试时

rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, meta = pd.DataFrame)

我也一样

我怎样才能像在Pandas中那样毫无问题地把一列元组转换成两列呢?

谢谢

2 回复 | 直到 7 年前

thebeancounter 7 年前

在转换为pandas数据帧,然后转换列,然后返回dask时,我发现这是最好的

df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)

这将很好地工作,如果df对于内存来说太大,您可以: 1.只计算想要的列,将其转换为两列,然后使用merge将分割结果转换为原始df 2.将df分割成块,然后转换每个块并将其添加到hd5文件中,然后使用dask将整个hd5文件读取到dask数据帧中

Dirigo 6 年前

我发现这种方法很有效,避免了将Dask数据帧转换为Pandas:

df['a'] = df['tup'].str.partition(sep)[0]
df['b'] = df['tup'].str.partition(sep)[2]

哪里 sep 是您在列中用于分隔这两个元素的分隔符。

推荐文章

user1245262 · 筛选Pandas数据帧时出现问题

1 年前

Foroand · 熊猫数据帧中的词频计数耗时过长

1 年前

user14696236 · 如何为每个对应的列创建一行[重复]

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

Karim Abou El Naga · 将带字符串的DataFrame绘制到堆叠条形图中

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

nickolakis · 基于R中的列名复制列

2 年前

opposity · 形成一个数据帧,该数据帧包含R中包含类别和子类别的列

2 年前

A. Handler · 有没有办法将数据帧的列与完整列名向量相匹配?

2 年前

JasonX · 运行减法计算

2 年前