代码之家  ›  专栏  ›  技术社区  ›  AskMe

Azure数据湖VS Azure HDInsight

  •  10
  • AskMe  · 技术社区  · 6 年前

    https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

    我是Azure Data lake和HDInsight的新手。URL中有一条语句告诉我们

    "Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
    

    5 回复  |  直到 6 年前
        1
  •  14
  •   Nedzad G    6 年前

    思考数据湖最简单的方法就是思考这个问题 大型容器,有如一个真正的湖泊,河流流入其中 你永远不知道河流来自何处(或河流的“类型”)。Azure Data Lake的引入使开发人员、数据科学家和分析师能够轻松地存储大数据,从而存储任意大小的数据。 它消除了接收和存储所有数据的复杂性,同时加快了启动和运行大数据的速度 . 数据湖能够存储 大量不同类型的数据 (结构化数据、非结构化数据、日志文件、实时、图像等)并将其混合在一起,以关联许多不同的数据类型。这里的关键是,我们正在从传统方式转向现代工具(如Hadoop、Cassandra、NoSQL DB等)。Azure Data Lake包括三项服务:

    • Azure Data Lake Store,一个为大数据提供动力的无限制数据湖
    • Azure Data Lake Analytics,一种大规模并行的按需服务 就业服务
    • Azure HDInsight ,一个完全托管的云Hadoop和Spark 奉献

    enter image description here

    Azure Data Lake Store就像一个基于云的文件服务或文件系统,其大小几乎是无限的。我们可以在该存储中的数据之上运行服务。所以你可以使用Hadoop或Spark 在HDInsight集群中 ,或者您可以使用Azure Data Lake分析服务,它是Azure Data Lake存储的补充。该服务将允许您运行作业,有效地查询存储在Azure data Lake store中的数据并生成输出结果。

        2
  •  6
  •   Anandkumar    4 年前

    简言之,

    Hdinsight is a managed hadoop service (to provide compute support)
    
    Azure Data lake(ADL) is a managed storage service (to provide large amount of storage support)
    

    以下是Azure文档中的定义(如下所示):

    Azure使用“分解硬件方法”

    您可以将HDinsight关联或假设为Hadoop集群,将Azure Data lake(ADL)关联或假设为HDFS。但他们是超然的。

    如果您想与AWS建立联系,HDInsight相当于EMR,ADL相当于EMRFS或S3

    如果终止群集,ADL存储将保留其中存储的文件。您可以使用其他服务或工具(如Azure Data bricks)直接访问存储,也可以在数据之上创建另一个hdinsight群集。

    Hdinsight使用ADL://和Hdinsight从不访问ADL 将文件块存储在节点中(就像Hadoop那样),而不是 映射到存储服务。

        3
  •  4
  •   guyhay_MSFT    6 年前

    Azure Data Lake Store,只是一个数据存储。HDInsight也可以在您启动的集群中实现这一点。但是,当您停止该集群时,数据也会消失。

    客户通常使用Azure Data Lake Store或Azure storage来提供与用于处理数据的集群(计算)分离的永久存储。

        4
  •  4
  •   Saher Ahwal    6 年前

    HDInsight提供集群,全面管理用于分析的开源软件包(Hadoop、Spark…等),您可以将集群设置为使用Azure Data Lake存储,该存储在云存储之上支持HDFS API(Hadoop文件系统)。

    Azure Data Lake Storage Gen2 https://microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete

    https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction

        5
  •  1
  •   akshat thakar    6 年前

    Azure Data Lake Analytics在使用Azure Data Lake Store进行数据存储时提供无服务器计算,而在HDInsight中,我们需要根据处理要求指定和设计计算虚拟机节点。开发人员在Azure Data Lake Analytics中使用无服务器计算可能是有利的,因为分析工作的扩展需求是开箱即用的。