代码之家  ›  专栏  ›  技术社区  ›  mandok

降低图片中的噪波,使用tesseract启用OCR

  •  2
  • mandok  · 技术社区  · 6 年前

    我正在尝试对此类图像进行OCR:

    enter image description here

    不幸的是,tesseract无法检索数字,因为字符周围有噪声点。

    我尝试使用ImageMagick来提高图像质量,但没有成功。

    示例:

     convert input.tif -level 0%,150% output.tif
    
     convert input.tif -colorspace CMYK -separate output_%d.tif
    

    enter image description here

    有没有办法有效地检索此类图像中的字符?

    非常感谢。

    2 回复  |  直到 6 年前
        1
  •  4
  •   flamelite    6 年前

    易于理解的 closing operation (先膨胀后侵蚀)将提供所需的输出。下面是相同的Python实现。

    img = cv2.imread(r'D:\Image\noiseOCR.png',0)
    kernel = np.ones((3,3),np.uint8)
    closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
    

    Denoised Output image

        2
  •  1
  •   LiberiFatali    6 年前

    此图像中的数字是最大的连接组件。因此,另一种方法是进行连接组件分析。