代码之家  ›  专栏  ›  技术社区  ›  hotmeatballsoup

火花2。x数据帧或数据集?[副本]

  •  0
  • hotmeatballsoup  · 技术社区  · 6 年前

    我的理解是 大的 火花1之间的变化。x和2。x是迁移 离开 从…起 DataFrame 采用更新/改进的 Dataset 对象。

    然而,在所有 Spark 2.x docs 我明白了 DataFrames 正在使用,而不是 Datasets

    所以我问:在Spark 2中。x我们还在使用 数据帧 ,或者让Spark的人在那里不更新2。x个文档使用较新的+推荐的 数据集集合 ?

    2 回复  |  直到 6 年前
        1
  •  0
  •   Raphael Roth    6 年前

    DataFrames Dataset s、 只是一种特殊的 数据集 s、 即 Dataset[Row] ,表示未键入 Datasets

    但即使使用Spark 2,这也是事实。x、 许多Spark用户仍然使用 DataFrame s、 特别是对于快速原型设计(我就是其中之一),因为它是一个非常方便的API,而且许多操作(在我看来)更容易处理 数据帧 s比使用 数据集 s

        2
  •  -1
  •   hotmeatballsoup    6 年前

    很明显,你可以同时使用这两种方法,但Spark没有人愿意更新文档来展示如何使用 Datasets 所以我猜他们真的希望我们 DataFrames 就像我们在1中所做的那样。十、