代码之家  ›  专栏  ›  技术社区  ›  Tom

获取azure blob存储的最佳方法是什么

  •  0
  • Tom  · 技术社区  · 6 年前

    我正在使用scala和spark,需要访问azure blob存储并获取其文件列表。了解spark版本是2.11,最好的方法是什么。

    1 回复  |  直到 6 年前
        1
  •  2
  •   Ajay Kadam    6 年前
    1. 对于在本地运行的Spark,有一个官方 blog 介绍了如何从Spark访问Azure Blob存储。关键是,您需要在核心站点中将Azure存储帐户配置为与HDFS兼容的存储。xml文件并添加两个JAR hadoop azure;azure存储到您的类路径,用于通过协议wasb访问HDFS。你可以参考官方 tutorial 了解与wasb兼容的HDFS存储,以及 blog 关于HDInsight的配置更多详细信息。
    2. 对于在Azure上运行的Spark,区别在于仅使用wasb访问HDFS,其他准备工作由Azure在 使用Spark创建HDInsight群集。列出文件的方法 是 listFiles wholeTextFiles SparkContext的