![]() |
1
12
|
![]() |
2
7
就我个人而言,我使用LXML是因为它是一把瑞士军刀… from lxml import html print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()
这会告诉lxml检索页面,找到
我做了很多页面解析,而且大多数时候regex都是错误的解决方案,除非它只是一次性的需要。如果页面的作者更改了他们的HTML,那么很有可能会破坏regex。解析器更有可能继续工作。 解析器的一个大问题是学习如何访问您所追求的文档的各个部分,但是您可以在浏览器中使用许多XPath工具来简化任务。 |
![]() |
3
2
你想看看 Extracting data from HTML documents - Dive into Python 因为 HERE 它(几乎)正是你想要的。 |
![]() |
4
1
此任务的最佳模块是lxml或html5lib;Beautifull SOAP不值得再使用。对于递归模型,正则表达式显然是错误的方法。 |
![]() |
5
-2
如果我能正确回答你的问题,这可以简单地通过使用urllib的urlopen函数来完成。只需看看这个函数就可以打开一个URL并读取这个页面的HTML代码的响应。 |
![]() |
6
-3
获取浏览器显示内容的可用示例的最快方法是从HTML中删除所有标记并打印其余的标记。例如,可以使用python的
|
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |