代码之家  ›  专栏  ›  技术社区  ›  Baruch AMOUSSOU-DJANGBAN

如何将数据集从S3导入cassandra?

  •  0
  • Baruch AMOUSSOU-DJANGBAN  · 技术社区  · 10 年前

    i在aws云中使用datatax dse启动集群spark cassandra。所以我的数据集存储在S3中。但我不知道如何将数据从S3传输到集群cassandra。请帮帮我

    2 回复  |  直到 10 年前
        1
  •  1
  •   phact    10 年前

    详细信息取决于您的文件格式和C*数据模型,但可能看起来像这样:

    • 将文件从s3读取到RDD

      val rdd=sc.textFile(“s3n://mybucket/path/filename.txt.gz”)

    • 操纵rdd

    • 将rdd写入cassandra表:

      rdd.saveToCassandra(“test”,“kv”,SomeColumns(“key”,“value”))

        2
  •  1
  •   Community Heathro    7 年前

    什么@ phact 所描述的是通过使用DataTaxEnterprise附带的SparkAPI,如果在加载过程中需要执行ETL工作,则该API可能非常有用。 仅用于加载,可以使用 sstableloader 散装装载能力。这是一个 tutorial 让你开始。