我在用
pytesseract
执行OCR。我的应用程序只对具有特定字体的PNG执行OCR,因此我正在将tesseract训练为该特定字体。
考虑以下测试图像(
test_1.png
):
此代码:
img = Image.open('test_1.png')
pytesseract.image_to_string(image=img)
将产生以下结果:
Lorem ipsum dolor sit amet, consectetm
elit. Fusce tcmpus dignissim diam. Null
dapibus cu, dignissim nec, vulputate egt
Curabitur aliquam, augue eget posuere z
lacus varius augue, sit amet lacinia uma
我想制作一个.box文件,这样我就可以训练tesseract了。
我正在使用以下代码执行此操作(完全相同的图像):
boxes = pytesseract.image_to_boxes(image=img)
这会产生
完全不同的结果:
问题:
为什么
image_to_text
和
image_to_boxes
?