代码之家  ›  专栏  ›  技术社区  ›  mobcdi

如何确定文本编码问题是我的处理错误还是源pdf携带的

  •  0
  • mobcdi  · 技术社区  · 6 年前

    我有一个PDF的选择,我想我的文字。我使用tika解析每个pdf文件中的文本,并用utf-8编码保存到一个.txt文件中(我使用的是windows)

    大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,我得到了 "pnÁnn¿¡c" 而不是 "Phádraig"

    理想情况下不需要Acrobat的完整版本

    1 回复  |  直到 6 年前
        1
  •  1
  •   lenz    6 年前

    听起来像是在用“隐藏OCR”处理扫描过的书籍,即PDF显示原始文档的图像,图像后面有一层OCR文本。

    突出显示文本时,隐藏的字符将可见(尽管此行为可能取决于您使用的查看器)。 当然,可以将高亮显示的文本复制粘贴到文本编辑器中。 这将让你知道,如果你真的处理OCR质量这么糟糕,或者如果你的提取过程中造成莫吉贝克。 由于OCR的质量在很大程度上取决于语言资源(字典、语言模型),如果输出对Gaelic(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我也不会感到惊讶。