代码之家 › 专栏 › 技术社区 › Vingtoft

pytesseract | image_to_string和image_to_box之间的差异

python-tesseract tesseract ocr

Vingtoft · 技术社区 · 6 年前

我在用 pytesseract 执行OCR。我的应用程序只对具有特定字体的PNG执行OCR,因此我正在将tesseract训练为该特定字体。

考虑以下测试图像( test_1.png ):

此代码:

img = Image.open('test_1.png')
pytesseract.image_to_string(image=img)

将产生以下结果:

Lorem ipsum dolor sit amet, consectetm
elit. Fusce tcmpus dignissim diam. Null
dapibus cu, dignissim nec, vulputate egt
Curabitur aliquam, augue eget posuere z
lacus varius augue, sit amet lacinia uma

我想制作一个.box文件,这样我就可以训练tesseract了。我正在使用以下代码执行此操作(完全相同的图像):

boxes = pytesseract.image_to_boxes(image=img)

这会产生 完全不同的结果:

问题: 为什么 image_to_text 和 image_to_boxes ?

0 回复 | 直到 6 年前

推荐文章

paru kumar · 的可访问性问题。jtessboxeditor中的jar文件

7 年前

Maddy · 如何在python中使用OCR获取图像重绘文本的坐标

7 年前

Tobias Woods · 无法在Mac上安装Tesseract OCR

7 年前

Nihal Saranga · 如何使用pip安装github包链接

7 年前

lucians · OCR:检查字母是否在图像(Opencv、Python、Tesseract)的(字符串)中

7 年前

malsatori · 如何在Python中识别图像中的数字?[已关闭]

7 年前

Darshan Patel · 使用Apache Tika+Tesseract提取扫描PDF的速度较慢

7 年前

Faabass · 无法使tesseract在Centos7上工作

7 年前

CarpeDiemKopi · Tesseract OCR眼睛参数“TesserEdit\u write\u images”

7 年前

Leo128 · JTessBoxEditor不会在Ubuntu 16.04(OpenJDK 8或9)上启动

7 年前