代码之家 › 专栏 › 技术社区 › Wayne Werner

漂亮的汤还是regex html表到数据结构?

beautifulsoup regex python

Wayne Werner · 技术社区 · 14 年前

我有一个HTML表,我正试图从中分析信息。但是,有些表跨越多行/多列,所以我想做的是使用类似于beautifulsoup的东西将表解析为某种类型的python结构。我是思考只是使用一个列表,这样我就可以

<tr>
  <td>1,1</td>
  <td>1,2</td>
</tr>
<tr>
  <td>2,1</td>
  <td>2,2</td>
</tr>

进入之内

[['1,1', '1,2'],
 ['2,1', '2,2']]

我认为这应该是相当直接的。但是,也有一些轻微的并发症,因为有些细胞跨越多行/列。另外还有很多完全不必要的信息:

    <td ondblclick="DoAdd('/student_center/sc_all_rooms/d05/09/2010/editformnew?display=W&amp;style=L&amp;positioning=A&amp;adddirect=yes&amp;accessid=CreateNewEdit&amp;filterblock=N&amp;popeditform=yes&amp;returncalendar=student_center/sc_all_rooms')"
     class="listdefaultmonthbg" 
     style="cursor:crosshair;" 
     width="5%" 
     nowrap="1" 
     rowspan="1">
       <a class="listdatelink" 
          href="/student_center/sc_all_rooms/d05/09/2010/edit?style=L&amp;display=W&amp;positioning=A&amp;filterblock=N&amp;adddirect=yes&amp;accessid=CreateNewEdit">Sep 5</a>
    </td>

代码看起来更糟。我真正需要的是:

<td rowspan="1">Sep 5</td>

两行之后,有一个行跨度为17的。对于多行跨度,我想应该是这样的:

<tr>
  <td rowspan="2">Sep 5</td>
  <td>Some event</td>
</tr>
<tr>
  <td>Some other event</td>
</tr>

结果会是这样:

[["Sep 5", "Some event"],
 [None, "Some other event"]]

页面上有多个表,我已经可以找到我想要的表了,我只是不知道如何解析我需要的信息。我知道我可以使用beautfulsoup来“renderContents”,但在某些情况下,我需要去掉链接标记(同时保留文本)。

我在想这样一个过程:

查找表
统计表中的行数( len(table.findAll('tr')) ?)
创建列表
将表解析为列表(BeautifulSoup语法???)
????
利润!(嗯,这是一个纯粹的内部程序,所以不是真的…)

2 回复 | 直到 14 年前

Meitham 14 年前

最近在LinkedIn上有一个关于python组的讨论,关于类似的问题,显然lxml是HTML页面最推荐的python解析器。

http://www.linkedin.com/groupItem?view=&gid=25827&type=member&item=27735259&qid=d2948a0e-6c0c-4256-851b-5e7007859553&goback=.gmp_25827

razpeitia 14 年前

您可能需要用一些属性、ID或名称来标识表。

from BeautifulSoup import BeautifulSoup

data = """
<table>
<tr>
  <td>1,1</td>
  <td>1,2</td>
</tr>
<tr>
  <td>2,1</td>
  <td>2,2</td>
</tr>
</table>
"""

soup = BeautifulSoup(data)

for t in soup.findAll('table'):
    for tr in t.findAll('tr'):
        print [td.contents for td in tr.findAll('td')]

编辑:如果有多个链接,程序应该怎么做?

前任:

<td><a href="#">A</a> B <a href="#">C</a></td>

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前