代码之家  ›  专栏  ›  技术社区  ›  prosseek

使用urllib和beautifulsoup用python从web检索信息

  •  10
  • prosseek  · 技术社区  · 14 年前

    我可以使用urllib获得html页面,并使用beautifulsoup解析html页面,看起来我必须生成要从beautifulsoup读取的文件。

    import urllib                                       
    sock = urllib.urlopen("http://SOMEWHERE") 
    htmlSource = sock.read()                            
    sock.close()                                        
    --> write to file
    

    有没有办法在不从urllib生成文件的情况下调用beautifulsoup?

    1 回复  |  直到 7 年前
        1
  •  20
  •   interjay    14 年前
    from BeautifulSoup import BeautifulSoup
    
    soup = BeautifulSoup(htmlSource)
    

    无需编写文件:只需传入html字符串。您还可以传递从 urlopen 直接:

    f = urllib.urlopen("http://SOMEWHERE") 
    soup = BeautifulSoup(f)