代码之家 › 专栏 › 技术社区 › Prerak Tiwari

基于Java代码的PDF文件索引检索

elasticsearch

Prerak Tiwari · 技术社区 · 6 年前

我试图用Java代码在弹性搜索6.3.2中索引PDF文件。到目前为止,我已经编写了以下代码来将PDF保存在ES中。代码运行良好,我可以将PDF的base64编码字符串保存在es中。我想知道我所采用的方法是否正确?有更好的方法吗? 以下是我的代码:

            InputStream inputStream = new FileInputStream(new File("mypdf.pdf"));
        try {
            byte[]  fileByteStream = IOUtils.toByteArray(inputStream );
            String base64String = new String(Base64.getEncoder().encodeToString(fileByteStream).getBytes(),"UTF-8");
            String strEncoded = Base64.getEncoder().encodeToString( base64String.getBytes( "utf-8" ));
            this.stream.close();

                    JSONObject correspondenceNode = new JSONObject(); 
                    correspondenceNode.put("data",strEncoded );

                    String strSsonValues = correspondenceNode.toString();
                    HttpEntity entity = new NStringEntity(strSsonValues , ContentType.APPLICATION_JSON);
                    elasticrestClient.put("/2018/documents/"1, entity);

        } catch (IOException e) {
            e.printStackTrace();
        }

基本上,我在这里做的是,我将PDF文档转换成base64string,并将其保存为es,在阅读时,我将它转换回来。

以下是解码代码:

String responseBody = elasticrestClient.get("/2018/documents/1");
//some code to fetch the hits
JSONObject h = hitsArray.getJSONObject(0);
source = h.getJSONObject("_source");
String object = (source.getString("data"));
byte[] decodedStr = Base64.getDecoder().decode( object );

FileOutputStream fos = new FileOutputStream("download.pdf");
fos.write(Base64.getDecoder().decode(new String( decodedStr, "utf-8" )));
fos.close();

1 回复 | 直到 6 年前

dadoonet 6 年前

{
  "content": "Extracted text here",
  "meta": {
    // Meta data there
  },
  "url": "file://path/to/file"
}

FSCrawler

推荐文章

Hotshot399 · 如何在弹性搜索中对聚合结果进行过滤?

2 年前

vivek · opensearch索引模式、别名和fluentd索引名称问题

2 年前

AlexZeDim · 雪花生成的ID是否可以比未签名的长?(2^64-1)

2 年前

nolwww · 未知mimetype,无法反序列化:Elasticsearch出现文本/html错误

2 年前

Nandakumar M · 弹性搜索更新和刷新API

2 年前

Mariannah47 · 日期直方图弹性搜索中的反向嵌套聚合

2 年前

Abhishek Sinha · 如何知道elasticsearch集群中的节点总数?

2 年前

Tugrul Gokce · 如何在ElasticSearch(Apache Nifi控制器服务)上访问密钥库密码信任库密码

2 年前

user3668129 · 如何构建一个考虑词与词之间距离的Elasticsearch查询?

2 年前

Frozendawn · 节点。js elasticsearch证书链中的自签名证书

2 年前