代码之家 › 专栏 › 技术社区 › Shyama Sonti

从HTTPS获取最新的XML文件

request beautifulsoup https python

Shyama Sonti · 技术社区 · 7 年前

我试图修改这段代码,但没有成功。请帮忙。

from bs4 import BeautifulSoup
import urllib.request
import requests

url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO'
response = requests.get(url, verify=False)
#html = urllib.request.urlopen(url,verify=False)
soup = BeautifulSoup(response)

我想beautifulsoup不读取响应对象。如果我使用urlopen函数,它会抛出SSL错误。

2 回复 | 直到 7 年前

alecxe 7 年前

BeautifulSoup 不理解 requests 的 Response .content 并将其传递给“soup”进行解析:

soup = BeautifulSoup(response.content, "html.parser")  # you can also use "lxml" or "html5lib" instead of "html.parser"

也理解“类似文件”的对象-这意味着,一旦您解决了SSL错误问题,您可以执行以下操作:

data = urllib.request.urlopen(url)
soup = BeautifulSoup(data, "html.parser")

Shyama Sonti 7 年前

首先,我没有正确地提出我的问题。但在进一步研究之后,我发现我确实在试图提取引用的url标记中的所有url。再加上一些靓汤的背景,我会用汤。查找所有('a')。

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前