代码之家  ›  专栏  ›  技术社区  ›  David Johnstone

OCR不再是一个问题吗?

  •  4
  • David Johnstone  · 技术社区  · 15 年前

    根据 Wikipedia “准确识别拉丁文字,打字文本现在被认为是一个很大程度上解决了应用程序的清晰成像,如扫描打印文件,”但是,它没有给出引文。

    我的问题是:这是真的吗?目前最先进的技术是否如此之好,以至于对英文文本进行良好的扫描,还没有任何重大的改进有待改进?

    或者,这个问题的一个不那么主观的形式是:现代OCR系统在识别高质量扫描的英文文本方面有多准确?

    2 回复  |  直到 11 年前
        1
  •  3
  •   Charles Stewart    15 年前

    狭义上被认为是将足够高质量的二维位图分割成矩形,每个矩形包含一组行为良好的预先指定字体(参见omnifont)之一的已识别拉丁字符,这是一个解决问题的方法。

    开始玩弄这些参数,例如,古怪的未知字体、嘈杂的扫描、亚洲字符,它开始变得有些不稳定或需要额外的输入。许多著名的字体系统不能很好地处理结扎。

    OCR的主要问题是如何理解输出。如果这是一个解决问题,谷歌图书将给出完美的结果。

        2
  •  5
  •   NT_    15 年前

    我认为这确实是一个解决了的问题。看看OCR技术文章 C# , C++ , Java 等。

    当然,这篇文章强调了脚本需要打字和清晰。这使得识别成为一项相对简单的任务,而如果您需要OCR扫描页面(噪声)或手写(扩散),由于有更多的东西需要正确调整,识别会变得更加复杂。

    推荐文章