代码之家 › 专栏 › 技术社区 › Siddiqui Mind

使用按需HD Insight群集从Azure datafactory V2访问datalake

azure-data-lake azure-data-factory azure-hdinsight pyspark python

Siddiqui Mind · 技术社区 · 7 年前

我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业。

文档清楚地表明,ADF(v2)不支持按需HD insight群集的datalake链接服务,必须从复制活动将数据复制到blob上,然后执行作业。但对于一个数据湖上有10亿个文件的情况来说,这种变通方法似乎是一种非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件,或者有任何其他方法可以直接访问这些文件。

P、是否有可能从v1中执行类似的操作,如果是,则如何执行?“使用Azure Data Factory在HDInsight中创建按需Hadoop群集”描述了访问blob存储的按需Hadoop群集,但我想要访问datalake的按需spark群集。

P、 P.s.提前感谢

2 回复 | 直到 7 年前

Gaurav Malhotra 7 年前

目前,我们不支持ADF v2中包含HDI Spark cluster的ADLS数据存储。我们计划在未来几个月增加这一点。在那之前,你必须继续使用上面帖子中提到的解决方法。很抱歉给您带来不便。

SpicestMemeLord 7 年前

Blob存储用于按需集群将使用的脚本和配置文件。例如,在您编写并存储在附加Blob存储中的脚本中,它们可以从ADL写入SQLDB。

推荐文章

user1043144 · u-sql:筛选出空//空字符串(microsoft academic graph)

7 年前

Venkataraman R · U-SQL作业超时:JM没有及时检测信号

7 年前

Richard · 在两者之间加入U-SQL以创建每月结果

7 年前

Siddiqui Mind · 使用按需HD Insight群集从Azure datafactory V2访问datalake

7 年前

Fariha Abbasi · 如何通过Typescript REST调用将文件上载到Azure Data Lake

7 年前

Raghavendra Narayana · Azure表存储-数据湖文件-通过USQL获取单行Select语句时触发响应时间慢

7 年前

Nario · SSIS复制多个表

7 年前

Lee. YunSu · 如何使用Azure Blob存储连接到Azure Data Lake Analysis

7 年前

Chris B. Behrens · 数据湖中的表有什么意义?[已关闭]

7 年前

Anirudh Rayabharam · U-SQL视图并发读写

7 年前