![]() |
1
7
如果你有基于文本的PDF,我强烈建议 PDFTextStream . 它不是免费的,但是许可是合理的,而且比PDFBox要好得多。PDFBox阻塞了许多由较新工具生成的PDF文件,并且它所能处理的PDF文件不太一致。PDFTextStream处理我抛出的任何PDF文件,包括带有嵌入PNG图像的PDF文件,PDFBox不能这样做。 如果你质问PDFTextStream的人添加OCR,他们可能会听上去。 |
![]() |
2
2
我们使用ABBYY FineReader引擎11。他们有java包装器。 赞成的意见:
欺骗:
|
![]() |
3
1
如果要从基于文本的PDF中提取OCR,可能必须先将其转换为图像。 |