代码之家 › 专栏 › 技术社区 › prosseek

使用urllib和beautifulsoup用python从web检索信息

urllib2 beautifulsoup web-scraping python

prosseek · 技术社区 · 14 年前

我可以使用urllib获得html页面,并使用beautifulsoup解析html页面,看起来我必须生成要从beautifulsoup读取的文件。

import urllib                                       
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()                            
sock.close()                                        
--> write to file

有没有办法在不从urllib生成文件的情况下调用beautifulsoup?

1 回复 | 直到 7 年前

interjay 14 年前

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlSource)

无需编写文件:只需传入html字符串。您还可以传递从 urlopen 直接:

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)

推荐文章

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

ihonestlydontKnow · Python(BeautifulSoup)仅1个结果

2 年前

ARH · 如何使用Selenium识别网站中使用的所有标签

2 年前

Kevin Rodgers Jr. · Python BeautifulSoup:在in select语句中排除其他标记

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

koshiboto · 使用python(bs4)从段落中获取第一个不位于括号之间的常规链接

2 年前

LaddieMawery · Beautifulsoup获取嵌套跨元素时遇到问题

2 年前

Ventorro · Python和Web抓取的新手。抓取一个HTML表格——但是它并没有显示所有的列

2 年前

aphexlog · 正在尝试使用BeautifulSoup将新行附加到表体中的第一行

2 年前