代码之家 › 专栏 › 技术社区 › William

熊猫预期在第153行有10个字段,看到11个,如何再增加一列

numpy dataframe pandas python

William · 技术社区 · 3 年前

B 19960331 00100000 00000000000000 00000000000000 00000000000000 00000000 00000000000000 00000000000000 00000000000000
B 19960430 00099100 00000000000000 00000000000000 00000000000000 00000000 00000000000000 00000000000000 00000000000000
B 19960531 00098500 00000000000000 00000000000000 00000000000000 00000000 00000000000000 00000000000000 00000000000000
B 19980331 00107241 00107241000000 00107241000000 00107241000000 00100000 00100000000000 00100000000000 00100000000000    00000100

可以看出,前3行有10列,而第4行有11列,所以当我读取thsi文件时:

import pandas as pd
    import numpy as np
    df =pd.read_csv('C:\Users\Petter\Desktop\info.txt'ï¼sep=r"\s+", header=None, dtype=str, engine="python")
    df

我得到这个和一个错误:

    0   1   2   3   4   5   6   7   8   9
0   B   19960331    00100000    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000
1   B   19960430    00099100    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000
2   B   19960531    00098500    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000

Skipping line 4: Expected 10 fields in line 4, saw 11. Error could possibly be due to quotes being ignored when a multi-char delimiter is used.

理想情况下,它应该自动向df中再添加一列。输出应如下所示:

    0   1   2   3   4   5   6   7   8   9  10
0   B   19960331    00100000    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000
1   B   19960430    00099100    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000
2   B   19960531    00098500    00000000000000  00000000000000  00000000000000  00000000    00000000000000  00000000000000  00000000000000

我试过:

df = pd.DataFrame(pd.np.empty((0, 11)))

但它不起作用。

2 回复 | 直到 3 年前

sitting_duck 3 年前

这很有效,可能适合您的需要:

df = pd.read_csv(... names=range(11))

Raja Wajahat 3 年前

你可以用 错误\u错误\u行

import pandas as pd
import numpy as np
df = pd.read_csv("C:\Users\Petter\Desktop\info.txt", header=None, delimiter=r"\s+", error_bad_lines=False)
df

推荐文章

serlingpa · 如何准备我的数据以避免无法推断频率

1 年前

Guillaume · 使用操作从Python列表创建numpy数组

2 年前

user19657580 · 在Python中打印两个numpy数组的列表

2 年前

user19657580 · Python中数组中具有相同元素的索引求和

2 年前

mikanim · 改进二维余弦函数的numpy功能

2 年前

Klimt865 · 在Python中将数组列表转换为列表列表

2 年前

theduker · 计算平均绝对误差时,If语句中赋值前引用的局部变量

2 年前

Lynn · 如果列包含Python中的特定字符串,则从列中删除值

2 年前

JasonX · 运行减法计算

2 年前

Jan Hrubec · 选择numpy数组的前n个元素

2 年前