代码之家  ›  专栏  ›  技术社区  ›  Rodney

如何使用Blob存储使Azure搜索按需运行

  •  0
  • Rodney  · 技术社区  · 6 年前

    我正在使用Azure搜索自动为上载到Blob存储区的Word文档编制索引。我使用搜索的唯一原因是从Word或PDF文档中提取文本( it's free and works well )-从那时起,我从索引中读取它并将其删除。

    我的问题是搜索索引只能每5分钟运行一次——我需要它在blob上传后尽快运行。因此,我要么需要按需运行它(每次添加新的blob时触发),要么弄清楚如何将word/pdf文档插入索引(或者如何从中提取文本)。

    因此,流量为:

    1. 将文档上载到Blob(Azure函数)
    2. 索引运行并从文档中提取文本(搜索索引器)
    3. 定期读取索引并提取该文本以供其他地方使用(azure函数)

    所以我的问题是:

    A.有没有更好的方法可以使用Azure从Word/PDF文档本机提取文本?(在这种情况下,问题2无效) B.如何使用.NET SDK调用索引以运行(我找不到运行方法) here )尽管有几个地方提到您可以使用SDK按需运行它。

    1 回复  |  直到 6 年前
        1
  •  1
  •   Eugene Shvets    6 年前

    如果你 只有 需要Azure搜索来进行文档破解,而不需要其他搜索和扩展功能,直接在Azure函数中进行文档破解可能更简单。有许多用于文档解析的OSS和商业库,例如 Apache Tika .

    example 使用一个由我们的团队成员编写的Azure函数中的Tika。

    推荐文章