代码之家 › 专栏 › 技术社区 › Mauro Gentile

无法从标记Beautifulsoup中提取文本

text-extraction beautifulsoup

Mauro Gentile · 技术社区 · 7 年前

[tr.findAll('td') for tr in table.findAll('tr',{'class': "js-file-line"})]


[[<td class="blob-num js-line-number" data-line-number="1" id="L1"></td>],
[<td class="blob-num js-line-number" data-line-number="2" id="L2"></td>,
<td>Arsenal</td>,
<td>38</td>,
<td>26</td>,
<td>9</td>,
<td>3</td>,
<td>79</td>,
<td>36</td>,
<td>87</td>],
[<td class="blob-num js-line-number" data-line-number="3" id="L3"></td>,
<td>Liverpool</td>,
etc.

但是我无法从每一行中提取文本,因为。text返回错误: 我使用以下命令:

[tr.findAll('td').text[1:] for tr in table.findAll('tr',{'class': "js-file-line"})][1:]

ResultSet object has no attribute 'text'. 
You're probably treating a list of items like a single item. 
Did you call find_all() when you meant to call find()?

对不起,如果这是一个太基本的问题。。。

1 回复 | 直到 7 年前

t.m.adam 7 年前

这个 find_All 方法返回一个 ResultSet Tag 物体。
text 标签 属性,所以您应该再使用一个列表理解。

txt = [
    [td.text for td in tr.find_all('td')][1:] 
    for tr in table.find_all('tr', {'class': "js-file-line"})
    ][1:]

strings 发电机

txt = [list(tr.strings)[1:] for tr in table.find_all('tr', {'class': "js-file-line"})][1:]

推荐文章

ABDALRAHMAN MOLOOD · php regex preg\u仅匹配金额

2 年前

Imdadul Choudhury · Python:从标记之间的文本文件中随机抽取行数

6 年前

Huan · 试图编写函数,试图从字符串中提取数字,但返回的是不相关的数字[已关闭]

6 年前

H Foucault · 来自列编号的vba列地址

6 年前

gd13 · 标记python内的零件文本

6 年前

user8188893 · 使用BeautifulSoup提取HTML注释中标记内的文本

7 年前

Arun Gowda · 在regex或group内授权一个组

7 年前

Mauro Gentile · 无法从标记Beautifulsoup中提取文本

7 年前

Sati · str_extract只捕获重复关键字的一个实例

7 年前

ytomo · 如何使用正则表达式和python将文本提取限制到特定字符

7 年前