我可以使用urllib获得html页面,并使用beautifulsoup解析html页面,看起来我必须生成要从beautifulsoup读取的文件。
import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read() sock.close() --> write to file
有没有办法在不从urllib生成文件的情况下调用beautifulsoup?
from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(htmlSource)
无需编写文件:只需传入html字符串。您还可以传递从 urlopen 直接:
urlopen
f = urllib.urlopen("http://SOMEWHERE") soup = BeautifulSoup(f)