代码之家  ›  专栏  ›  技术社区  ›  Vingtoft

pytesseract | image_to_string和image_to_box之间的差异

  •  0
  • Vingtoft  · 技术社区  · 6 年前

    我在用 pytesseract 执行OCR。我的应用程序只对具有特定字体的PNG执行OCR,因此我正在将tesseract训练为该特定字体。

    考虑以下测试图像( test_1.png ):

    enter image description here

    此代码:

    img = Image.open('test_1.png')
    pytesseract.image_to_string(image=img)
    

    将产生以下结果:

    Lorem ipsum dolor sit amet, consectetm
    elit. Fusce tcmpus dignissim diam. Null
    dapibus cu, dignissim nec, vulputate egt
    Curabitur aliquam, augue eget posuere z
    lacus varius augue, sit amet lacinia uma
    

    我想制作一个.box文件,这样我就可以训练tesseract了。 我正在使用以下代码执行此操作(完全相同的图像):

    boxes = pytesseract.image_to_boxes(image=img)
    

    这会产生 完全不同的结果:

    enter image description here

    问题: 为什么 image_to_text image_to_boxes ?

    0 回复  |  直到 6 年前