代码之家  ›  专栏  ›  技术社区  ›  Isa

PDF中的机械化数据提取和文本识别

  •  0
  • Isa  · 技术社区  · 7 年前

    下面的链接包含了我在谷歌上找到的一张图片。我并不拥有这幅图像,但出于说明目的,我正试图提取位于类似于此的结构化“块”中的信息,并以编程方式处理提取的信息。 enter image description here

    所有文本均为打印/打字文本,理论上应具有良好的准确性。我愿意根据需要学习,以使这项工作,但我不知道从哪里开始。我想知道

    1. 有没有一个付费的程序可以自动做到这一点?

    这是一个一次性练习,意味着它使事情变得“漂亮”,而“哑巴证明”(即不需要GUI)并不重要。

    谢谢

    1 回复  |  直到 7 年前
        1
  •  0
  •   Joris Schellekens    7 年前

    这可以使用两种工具的组合。iText和Tesseract OCR。 伪代码:

    1. 分离ImageRenderInfo事件(这些事件负责在页面上绘制图像)
    2. 将每个图像馈送给Tesseract(或者更准确地说,是java包装器Tesser4J)
    3. 以文本形式检索内容,并(使用iText)将内容放回pdf文档中。iText允许您对文档进行低级访问。因此,您可以在精确位置放置任意字符串。
    4. 或者使用pdf2Data处理(增强的)pdf文档,pdf2Data是一个iText插件,专门用于处理根据模板匹配文档和检索内容的情况。(将其转换为XML)


    http://itextpdf.com/itext7/pdf2Data
    http://tess4j.sourceforge.net/