代码之家 › 专栏 › 技术社区 › ScottieB

Urllib返回html但没有结束段落标记

urllib web-scraping python-3.x html python

ScottieB · 技术社区 · 6 年前

我正在刮总统辩论的记录。我注意到,当我的scraper提取html元素时,它从不提取段落结束标记( </p> ).

在浏览器中检查源代码

url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
req = urllib.request.Request(url_to_scrape)
resp = urllib.request.urlopen(req)
resp.read()

我想有两件事发生了:

原始源不包括结束标记,浏览器正在填充它们。

我该如何找出它是哪一个,然后纠正它?

1 回复 | 直到 6 年前

David Culbreth 6 年前

你能检查一下Chrome收到的实际数据包吗?在某些情况下,Chrome会检测并纠正像这样的小遗漏,以便显示页面,即使它们不在数据包中。我猜Chrome修复了这个问题,而实际的源代码是不好的。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

6 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

6 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

6 月前

user29715306 · from_users=和chats=电视节目中的差异

6 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

6 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

6 月前

prayner · 更新嵌套字典包含列表中的项

7 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

7 月前

Dave · 如何在for循环中修改列表值

7 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

7 月前