代码之家 › 专栏 › 技术社区 › Jonathan Holloway

基于OCR的PDF文本提取方法

text-parsing pdf java

Jonathan Holloway · 技术社区 · 15 年前

有人尝试过用OCR库和Java从PDF中提取文本吗?你发现什么是最可靠的文本提取库。我看到的大多数方法(tesseract,GOCR)都是C库,需要编写一些JNI代码。

我熟悉pdfbox,它现在是0.8.x版的Apache孵化器项目,但它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。

在尝试过程中,我还没有尝试过Asprise JavaPDF,但是我想了解更多关于OCR方法的信息(如果可能的话)。

任何帮助都将不胜感激。

4 回复 | 直到 15 年前

Infinite Recursion 9 年前

如果你有基于文本的PDF,我强烈建议 PDFTextStream . 它不是免费的,但是许可是合理的,而且比PDFBox要好得多。PDFBox阻塞了许多由较新工具生成的PDF文件,并且它所能处理的PDF文件不太一致。PDFTextStream处理我抛出的任何PDF文件,包括带有嵌入PNG图像的PDF文件,PDFBox不能这样做。

如果你质问PDFTextStream的人添加OCR,他们可能会听上去。

Infinite Recursion 9 年前

我们使用ABBYY FineReader引擎11。他们有java包装器。

赞成的意见:

它适用于所有语言(英语、俄语、乌兹别克语等)和做真正的OCR(即使你有没有OCR的pdf文件,他们也会先进行渲染和OCRing)。

欺骗:

它很贵。你必须购买开发者许可证和最终用户许可证。
而且非常缓慢。

Otávio Décio 15 年前

如果要从基于文本的PDF中提取OCR,可能必须先将其转换为图像。

nguyenq 13 年前

您可以使用Tesseract-tesjeract或tes4j-Java包装器来执行OCR。但是,对于PDF,您需要先转换为图像(PNG或TIFF),然后再将其输入OCR引擎。

VietOCR 调用Tesseract可执行文件以执行文本提取。它使用GhostScript进行PDF到图像的转换。

推荐文章

junsung kang · Cassandra突然挂起,返回WindowsFileSystemException:“该进程不可访问,因为该文件正被另一个进程使用”

1 年前

vaibhav nalamalpu · Intellij 2023.1无法打开(即使在重新安装后)[关闭]

1 年前

Katlock · 如何在Spring中将Restpage转换为特定的对象类型?

1 年前

Edward Khazzoum · 为什么在H2数据库中创建表时出现错误4201-214?

1 年前

Yellow Blood · If语句在应为[重复]时未返回True

1 年前

user21749640 · List.contents(A)返回false,但List.contens(B)和B.equals(A)是否返回true?

1 年前

MysticSticker · 如何在savedPreferences中保存按钮[]文本

1 年前

Pektra Mom · 如何将数组中的所有字符串替换为特定的特殊字符

1 年前

Nitin Kshirsagar · 在谷歌云上将java8迁移到java11/17是强制性的吗

1 年前

changhoon seong · 为什么这个代码没有按照我想的方式输出?(关于班次)

1 年前