![]() |
1
1
听起来像是在用“隐藏OCR”处理扫描过的书籍,即PDF显示原始文档的图像,图像后面有一层OCR文本。 突出显示文本时,隐藏的字符将可见(尽管此行为可能取决于您使用的查看器)。 当然,可以将高亮显示的文本复制粘贴到文本编辑器中。 这将让你知道,如果你真的处理OCR质量这么糟糕,或者如果你的提取过程中造成莫吉贝克。 由于OCR的质量在很大程度上取决于语言资源(字典、语言模型),如果输出对Gaelic(古爱尔兰语?)这样的低资源语言来说真的那么糟糕,我也不会感到惊讶。 |
![]() |
quma · Apache Tika与Apache Lucene 7 年前 |
![]() |
Jeeppp · 使用ContentHandler提取文件内容 9 年前 |
![]() |
Sonson123 · 分析元标签并使用Tika从正文中获取HTML内容 12 年前 |