代码之家 › 专栏 › 技术社区 › jason

Pandas:排列从html提取的表

datatables pandas html

jason · 技术社区 · 6 年前

我有很多这样的桌子 read_html 不完全正确地读取表。例如:

import pandas as pd

l = 'https://www.sec.gov/Archives/edgar/data/1045810/000104581018000047/nvda2018proxystatementsecf.htm'
df_list = pd.read_html(l)

df = df_list[85].dropna(how='all')
df = df.fillna('')

print df

1 回复 | 直到 6 年前

matt-chv 6 年前

你的挑战是,你正面临着熊猫阅读html的限制。

issue

一种解决方法可能是编写自己的解析器,如前所述 here

这里的要点是:

首先我们使用BeautifulSoup解析HTML,查找所有表,然后查找每个表中的所有行,然后查找每行中的每个单元格。 colspan信息很容易使用。如果注册的colspan值大于1,则在开始填充下一个单元格之前跳过该列数。

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前