Apache Tika extract scanned PDF files
,它可以很好地扫描文档。但问题是,它占用了太多的时间和CPU利用率。
就我而言,
15 MB
文件具有
23 pages
大约需要
~4.5 minute
这太高了。请在下面找到我的工作代码,
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
TesseractOCRConfig config = new TesseractOCRConfig();
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(TesseractOCRConfig.class, config);
parseContext.set(PDFParserConfig.class, pdfConfig);
//need to add this to make sure recursive parsing happens!
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata, parseContext);
String content = handler.toString();
如何使其更优化/更快?有什么建议吗?