代码之家  ›  专栏  ›  技术社区  ›  Karan

Solr-使用FileListEntityProcessor实现PDF文件的增量导入

  •  0
  • Karan  · 技术社区  · 7 年前

    Solr版本::6.6.1

    我正在使用solr对PDF文件进行索引,它的工作原理如下 预期。现在我需要在上执行增量导入选项 PDF文件。最近添加到文件夹中的文件只应在数据导入处理程序操作期间处理。

    我找不到使用实现增量导入的示例 FileListenityProcessor文件列表处理器 .

    请提出建议。

    数据配置。xml 文件类似于此。

    <dataConfig>
      <dataSource type="BinFileDataSource"/>
      <document>
        <entity name="K1FileEntity" processor="FileListEntityProcessor"
    dataSource="null"
                recursive = "true"
                baseDir="\\CLD02\RemoteDepot"
                fileName=".*pdf" rootEntity="false">
    
                <field column="file" name="id"/>
                <!--<field column="fileAbsolutePath" name="path" />
                <field column="fileSize" name="size" />-->
                <field column="fileLastModified" name="lastmodified" />
    
                  <entity name="pdf" processor="TikaEntityProcessor"
    onError="skip"
                          url="${K1FileEntity.fileAbsolutePath}" format="text">
    
                    <field column="title" name="title" meta="true"/>
                    <field column="dc:format" name="format" meta="true"/>
                    <field column="text" name="text"/>
    
                  </entity>
        </entity>
      </document>
    </dataConfig> 
    
    1 回复  |  直到 7 年前
        1
  •  1
  •   Persimmonium    7 年前

    如上所述 in the docs :

    增量导入

    用于增量导入和更改检测。只有 SqlEntityProcessor支持增量导入。

    因此,您需要:

    • 使用一些java代码(使用Solrj)建立索引,并滚动您自己的delta导入基础架构
    • 或者为FileListEntityProcessor实现所有delta内容(并希望将其推到Solr中),您可以使用SqlEntityProcessor代码作为指南。