代码之家  ›  专栏  ›  技术社区  ›  Shyama Sonti

从HTTPS获取最新的XML文件

  •  0
  • Shyama Sonti  · 技术社区  · 7 年前

    我试图修改这段代码,但没有成功。请帮忙。

    from bs4 import BeautifulSoup
    import urllib.request
    import requests
    
    url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO'
    response = requests.get(url, verify=False)
    #html = urllib.request.urlopen(url,verify=False)
    soup = BeautifulSoup(response)
    

    我想beautifulsoup不读取响应对象。如果我使用urlopen函数,它会抛出SSL错误。

    2 回复  |  直到 7 年前
        1
  •  0
  •   alecxe    7 年前

    BeautifulSoup 不理解 requests Response .content 并将其传递给“soup”进行解析:

    soup = BeautifulSoup(response.content, "html.parser")  # you can also use "lxml" or "html5lib" instead of "html.parser"
    

    也理解“类似文件”的对象-这意味着,一旦您解决了SSL错误问题,您可以执行以下操作:

    data = urllib.request.urlopen(url)
    soup = BeautifulSoup(data, "html.parser")
    
        2
  •  0
  •   Shyama Sonti    7 年前

    首先,我没有正确地提出我的问题。但在进一步研究之后,我发现我确实在试图提取引用的url标记中的所有url。再加上一些靓汤的背景,我会用汤。查找所有('a')。