代码之家 › 专栏 › 技术社区 › mobcdi

如何确定文本编码问题是我的处理错误还是源pdf携带的

apache-tika character-encoding utf-8 pdf python-3.x

mobcdi · 技术社区 · 6 年前

我有一个PDF的选择,我想我的文字。我使用tika解析每个pdf文件中的文本,并用utf-8编码保存到一个.txt文件中(我使用的是windows)

大多数PDF在我得到它们之前都是OCR的,但是当我查看提取的文本时,我得到了 "pnÃnnÂ¿Â¡c" 而不是 "PhÃ¡draig"

理想情况下不需要Acrobat的完整版本

1 回复 | 直到 6 年前

lenz 6 年前

听起来像是在用“隐藏OCR”处理扫描过的书籍,即PDF显示原始文档的图像,图像后面有一层OCR文本。

突出显示文本时,隐藏的字符将可见(尽管此行为可能取决于您使用的查看器)。当然,可以将高亮显示的文本复制粘贴到文本编辑器中。这将让你知道,如果你真的处理OCR质量这么糟糕,或者如果你的提取过程中造成莫吉贝克。由于OCR的质量在很大程度上取决于语言资源(字典、语言模型),如果输出对Gaelic(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我也不会感到惊讶。

推荐文章

manofone · Adobe Acrobat/Python PDF输出各不相同

7 年前

Salvatore Gerald Mücke · 无法读取同一输入流两次

7 年前

Darshan Patel · 使用Apache Tika+Tesseract提取扫描PDF的速度较慢

7 年前

Rohit Shelhalkar · Apache Tika不提取RTF文件的第一行,它只提取第一行的最后三个字符。

7 年前

quma · Apache Tika与Apache Lucene

7 年前

Jeeppp · 使用ContentHandler提取文件内容

9 年前

Sonson123 · 分析元标签并使用Tika从正文中获取HTML内容

12 年前

ty733420 · Solr可以索引纯文本文件而不需要我通过Tika运行它们吗?

12 年前