代码之家  ›  专栏  ›  技术社区  ›  ScottieB

Urllib返回html但没有结束段落标记

  •  1
  • ScottieB  · 技术社区  · 6 年前

    我正在刮总统辩论的记录。我注意到,当我的scraper提取html元素时,它从不提取段落结束标记( </p> ).

    在浏览器中检查源代码 from Chrome's View > Developer > View source

    url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
    req = urllib.request.Request(url_to_scrape)
    resp = urllib.request.urlopen(req)
    resp.read()
    

    Python results

    我想有两件事发生了:

    1. 原始源不包括结束标记,浏览器正在填充它们。

    我该如何找出它是哪一个,然后纠正它?

    1 回复  |  直到 6 年前
        1
  •  2
  •   David Culbreth    6 年前

    你能检查一下Chrome收到的实际数据包吗?在某些情况下,Chrome会检测并纠正像这样的小遗漏,以便显示页面,即使它们不在数据包中。我猜Chrome修复了这个问题,而实际的源代码是不好的。