代码之家 › 专栏 › 技术社区 › Ninja2k

当没有下一个兄弟姐妹时,如何以文本为目标?

beautifulsoup web-scraping

Ninja2k · 技术社区 · 6 年前

我试图用漂亮的汤刮取动态生成的页面,有时我会得到松散的文本和一些我没有的东西。

如何提取下面的松散文本,我尝试使用下一个兄弟姐妹,但文本不包含在任何标记中。

<div class="div1">

<table class="table1"></table>
<ul></ul>

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt

</div>

1 回复 | 直到 6 年前

The fourth bird 6 年前

您可以做的是将CSS选择器与 select div.div1 ul 和 next_sibling

html_doc = """
<div class="div1">

<table class="table1"></table>
<ul></ul>

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt

</div>
"""

from bs4 import BeautifulSoup
result_page = BeautifulSoup(html_doc, 'html.parser')

for text in result_page.select("div.div1 ul"):
    print(text.next_sibling.strip())

推荐文章

Omega500 · AttributeError:ResultSet对象没有属性“find\u all”

2 年前

Christina Norwood · 我需要什么Python技术来获取二进制边距数据?

2 年前

mexicanRmy · Selenium Select不处理下拉元素

2 年前

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

Fadi Ft Ftena · 基于类名的Web抓取

2 年前

Amen Aziz · 熊猫中的数据被覆盖

2 年前

Amen Aziz · csv文件中的数据不提供任何信息

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

Yungi Jeong · 在使用selenium进行web抓取后,我在csv文件中得到了奇怪的结果。。内容不是特定的内容,而是html代码

2 年前