代码之家 › 专栏 › 技术社区 › Mew

Python urlparse:小问题

urlparse urllib2 python

Mew · 技术社区 · 14 年前

我正在制作一个应用程序,可以解析html并从中获取图像。使用beautifuldsoup和下载html很容易进行解析,图像也可以使用urllib2进行解析。

我确实对urlparse有问题,无法从相对路径中创建绝对路径。最好用一个例子来解释这个问题:

>>> import urlparse
>>> urlparse.urljoin("http://www.example.com/", "../test.png")
'http://www.example.com/../test.png'

正如您所看到的,urlparse不会带走../away。当我尝试下载图像时,会出现一个问题:

HTTPError: HTTP Error 400: Bad Request

4 回复 | 直到 14 年前

vhallac 14 年前

我认为最好的方法是预先解析原始URL,并检查path组件。一个简单的测试是

if len(urlparse.urlparse(baseurl).path) > 1:

然后,您可以将它与DEMAS建议的索引相结合。例如:

start_offset = (len(urlparse.urlparse(baseurl).path) <= 1) and 2 or 0
img_url = urlparse.urljoin("http://www.example.com/", "../test.png"[start_offset:])

这样,就不会尝试转到根URL的父级。

rtpg 14 年前

>>> urlparse.urljoin("http://www.example.com","./test.png")
'http://www.example.com/test.png'

jfs 14 年前

如果你愿意的话 /../test 意思是一样的 /test normpath() :

>>> url = urlparse.urljoin("http://example.com/", "../test")
>>> p = urlparse.urlparse(url)
>>> path = posixpath.normpath(p.path)
>>> urlparse.urlunparse((p.scheme, p.netloc, path, p.params, p.query,p.fragment))
'http://example.com/test'

ceth 14 年前

urlparse.urljoin("http://www.example.com/", "../test.png"[2:])

推荐文章

user1431084 · 如何获取重定向url?

7 年前

jman · 为什么urllib2需要很长时间才能读取?

7 年前

Vishal · 图像链接下载适用于Python 3,但不适用于Python 2.7

7 年前

Javiar Sandra · 对输入来自文本框的网页进行爬网

9 年前

user2278224 · Python XML解析失败

9 年前

michaeluskov · Urllib2下载损坏的二进制数据

10 年前

confused00 · Python-填写登录表单,然后填写另一个只有在登录后才能访问的表单

10 年前

Christopher W · 无法使用python中的无头浏览器提交表单/登录Nike.com

10 年前

ehsan shirzadi · 使用urllib2发出带有标题的post请求

10 年前

welthenwel · 从Python2到Python3的DeadLink异常

10 年前