代码之家  ›  专栏  ›  技术社区  ›  Siddiqui Mind

使用按需HD Insight群集从Azure datafactory V2访问datalake

  •  1
  • Siddiqui Mind  · 技术社区  · 7 年前

    我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业。

    文档清楚地表明,ADF(v2)不支持按需HD insight群集的datalake链接服务,必须从复制活动将数据复制到blob上,然后执行作业。但对于一个数据湖上有10亿个文件的情况来说,这种变通方法似乎是一种非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件,或者有任何其他方法可以直接访问这些文件。

    P、 是否有可能从v1中执行类似的操作,如果是,则如何执行?“使用Azure Data Factory在HDInsight中创建按需Hadoop群集”描述了访问blob存储的按需Hadoop群集,但我想要访问datalake的按需spark群集。

    P、 P.s.提前感谢

    2 回复  |  直到 7 年前
        1
  •  1
  •   Gaurav Malhotra    7 年前

    目前,我们不支持ADF v2中包含HDI Spark cluster的ADLS数据存储。我们计划在未来几个月增加这一点。在那之前,你必须继续使用上面帖子中提到的解决方法。很抱歉给您带来不便。

        2
  •  0
  •   SpicestMemeLord    7 年前

    Blob存储用于按需集群将使用的脚本和配置文件。例如,在您编写并存储在附加Blob存储中的脚本中,它们可以从ADL写入SQLDB。