代码之家  ›  专栏  ›  技术社区  ›  Matus Cimerman

集群加密中的Google Dataproc

  •  3
  • Matus Cimerman  · 技术社区  · 6 年前

    我们正在努力使GDPR合规。其中一个核心问题是数据加密。我知道,当数据在谷歌云平台的节点之间移动时,存在传输中的数据加密。集群内的数据加密如何,例如在洗牌过程中,当使用Google Dataproc时?此外,数据是否在以下情况下加密 tmp Spark内部使用dir(默认情况下有纯文本文件)?

    1 回复  |  直到 6 年前
        1
  •  6
  •   Karthik Palaniappan    6 年前

    Dataproc构建在GCE虚拟机上,因此同样的安全性也适用。

    GCE VM(PDs或本地SSD)磁盘上的所有数据都经过加密: https://cloud.google.com/compute/docs/disks/ . 所以Spark tmp dir确实是加密的。

    离开谷歌数据中心的网络通信(例如跨地区通信)是加密的。此外,Google API访问也是加密的。但是,数据中心内的节点到节点通信(可能是集群内的所有Dataproc通信)没有加密。您可以在此处阅读更多内容: https://cloud.google.com/security/encryption-in-transit/ .

    也就是说,集群中的通信基本上是空的。节点到节点的通信通过隔离服务器上的内部IP进行 VPC network . Dataproc具有 guidance 关于如何配置防火墙规则。

    您还可以使用Dataproc private IP clusters 避免虚拟机上有外部IP地址。

    以下是谷歌云GDPR合规性文档: https://www.google.com/cloud/security/gdpr/ .