代码之家 › 专栏 › 技术社区 › Naga kiran

用Python程序保存web页面信息(urllib,request)和通过浏览器保存有什么区别

urllib2 url html python

Naga kiran · 技术社区 · 6 年前

当我试图用python程序打开Web页面时,HTML页面的Span类名和div类信息丢失。我尝试过urllib.request.urlopen()、requests.get()、wget、robobrowser和其他一些包来保存包含类名数据的网页,但没有成功。

url = 'https://www.google.com/maps/dir/Navallur,+Tamil+Nadu+600130/Vijayawada,+Andhra+Pradesh/@14.6711659,78.0012123,7z/data=!3m1!4b1!4m13!4m12!1m5!1m1!1s0x3a525a51439fd9f3:0x5fdacd19ed90126c!2m2!1d80.225463!2d12.8447728!1m5!1m1!1s0x3a35eff9482d944b:0x939b7e84ab4a0265!2m2!1d80.6480153!2d16.5061743'

page = urllib.request.urlopen(url).read()
page1 = requests.get(url).content

html = open('some1.html','wb')
html.write(page)
html.close()

1 回复 | 直到 6 年前

Naga kiran 6 年前

Python中的Selenium包允许您执行任务Naga:-)

from selenium import webdriver

ff = webdriver.Firefox()
ff.get(URL)
html = ff.page_sources

推荐文章

user1431084 · 如何获取重定向url?

7 年前

jman · 为什么urllib2需要很长时间才能读取?

7 年前

Vishal · 图像链接下载适用于Python 3,但不适用于Python 2.7

7 年前

Javiar Sandra · 对输入来自文本框的网页进行爬网

9 年前

user2278224 · Python XML解析失败

10 年前

michaeluskov · Urllib2下载损坏的二进制数据

10 年前

confused00 · Python-填写登录表单,然后填写另一个只有在登录后才能访问的表单

10 年前

Christopher W · 无法使用python中的无头浏览器提交表单/登录Nike.com

10 年前

ehsan shirzadi · 使用urllib2发出带有标题的post请求

10 年前

welthenwel · 从Python2到Python3的DeadLink异常

10 年前