代码之家 › 专栏 › 技术社区 › Buddhika Chathuranga

Python3 UnicodeEncodingError

character-encoding python-3.x python

Buddhika Chathuranga · 技术社区 · 6 年前

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome(executable_path = 
r'C:\chromedriver_win32\chromedriver.exe')

driver.get('https://www.imdb.com/')

html_doc = driver.page_source

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())

driver.quit()

我尝试了这个代码,它给出了这个错误。

回溯(最近一次呼叫最后一次): 文件“E:\Practice\WebScraping\webscrape.py”,第11行,in 打印(soup.prettify()) 文件“C:\Users\vmbck\AppData\Local\Programs\Python\Python36\lib\encodings\cp1252.py”,第19行,编码返回编解码器。charmap\u encode(输入,自身错误,编码表)[0] UnicodeEncodeError:“charmap”编解码器无法对位置241524中的字符“\u25ec”进行编码:字符映射到

然后我尝试了编码(“utf-8”)

html_doc = driver.page_source.encode("utf-8")

它再次给出了错误

如何在不获取UnicodeEncodeError的情况下获取page\u源

2 回复 | 直到 6 年前

rawwar 6 年前

import requests
from bs4 import BeautifulSoup
a = requests.get('https://www.imdb.com/')
soup = BeautifulSoup(a.content, 'lxml')
print(soup.prettify())

上面的代码与您编写的代码类似。但是,要解决unicode错误,您可以尝试执行以下帖子中建议的操作 Python Unicode Encode Error

-1

bhavesh27 6 年前

如果编码到utf-8失败,请尝试编码到ascii

尝试两种方法:-

print(soup.encode('utf-8').prettify())

和

print(soup.encode('ascii').prettify())

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前