Clés de chiffrement gérées par le client (CMEK)

Lorsque vous utilisez Dataproc, les données de cluster et de tâche sont stockées sur des disques persistants associés aux VM Compute Engine de votre cluster et dans un bucket de préproduction Cloud Storage. Ces données de disque persistant et de bucket sont chiffrées à l'aide d'une clé de chiffrement des données (DEK) et d'une clé de chiffrement de clé (KEK) générées par Google.

La fonctionnalité CMEK vous permet de créer, d'utiliser et de révoquer la clé de chiffrement de clé (KEK). Google contrôle toujours la clé de chiffrement des données (DEK, Data Encryption Key). Pour en savoir plus sur les clés de chiffrement des données Google, consultez la page Chiffrement au repos.

Utiliser des CMEK avec les données de cluster

Vous pouvez chiffrer les données de cluster suivantes à l'aide de clés de chiffrement gérées par le client (CMEK) :

  • Données sur les disques persistants associés aux VM de votre cluster Dataproc
  • Les données d'argument de tâche envoyées à votre cluster, telles qu'une chaîne de requête envoyée avec une tâche Spark SQL
  • Métadonnées du cluster, résultats du pilote de tâches et autres données écrites dans un bucket de préproduction Dataproc que vous créez

Pour utiliser CMEK avec le chiffrement des données du cluster, procédez comme suit:

  1. Créez une ou plusieurs clés à l'aide de Cloud Key Management Service. Le nom de ressource, également appelé ID de ressource d'une clé, que vous utiliserez dans les étapes suivantes, se présente comme suit:
    projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
    
  2. Attribuez les rôles suivants aux comptes de service suivants:

    1. Suivez le point 5 de la section Compute Engine → Protéger des ressources avec des clés Cloud KMS → Avant de commencer pour attribuer le rôle Cloud KMS Chiffreur/Déchiffreur de CryptoKeys au compte de service de l'agent de service Compute Engine.
    2. Attribuez le rôle Cloud KMS Chiffreur/Déchiffreur de CryptoKeys au compte de service de l'agent de service Cloud Storage.

    3. Attribuez le rôle Cloud KMS Chiffreur/Déchiffreur de CryptoKeys au compte de service Agent de service Dataproc. Pour attribuer le rôle, vous pouvez utiliser Google Cloud CLI comme suit :

        gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
        --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role roles/cloudkms.cryptoKeyEncrypterDecrypter
      

      Remplacez les éléments suivants :

      KMS_PROJECT_ID: ID de votre projet Google Cloud qui exécute Cloud KMS. Il peut également s'agir du projet qui exécute les ressources Dataproc.

      PROJECT_NUMBER: numéro de projet (et non l'ID) de votre projet Google Cloud qui exécute des ressources Dataproc.

    4. Si le rôle Agent de service Dataproc n'est pas associé au compte de service Agent de service Dataproc, ajoutez l'autorisation serviceusage.services.use au rôle personnalisé associé au compte de service Agent de service Dataproc. Si le rôle Agent de service Dataproc est associé au compte de service Agent de service Dataproc, vous pouvez ignorer cette étape.

  3. Transmettez l'ID de ressource de votre clé à la Google Cloud CLI ou à l'API Dataproc à utiliser avec le chiffrement des données du cluster.

    gcloud CLI

    • Pour chiffrer les données du disque persistant d'un cluster à l'aide de votre clé, transmettez l'ID de ressource de votre clé à l'option --gce-pd-kms-key lors de la création du cluster.
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --gce-pd-kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
          other arguments ...
      

      Vous pouvez vérifier les paramètres de clé à partir de l'outil de ligne de commande gcloud.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Extrait de résultat de la commande:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
      ...
      
    • Pour chiffrer les données du disque persistant du cluster et les données d'argument de tâche à l'aide de votre clé, transmettez l'ID de ressource de la clé à l'option --kms-key lors de la création du cluster. Consultez la section Cluster.EncryptionConfig.kmsKey pour obtenir la liste des types de tâches et des arguments chiffrés avec l'option --kms-key.
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
          other arguments ...
        

      Vous pouvez vérifier les paramètres de clé à l'aide de la commande gcloud CLI dataproc clusters describe. L'ID de ressource de la clé est défini sur gcePdKmsKeyName et kmsKey pour utiliser votre clé avec le chiffrement des données du disque persistant du cluster et des arguments de la tâche.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
        

      Extrait de résultat de la commande:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/key-KEY_RING_NAME-name/cryptoKeys/KEY_NAME
      ...
      

    • Pour chiffrer les métadonnées du cluster, le pilote de tâches et d'autres données de sortie écrites dans votre bucket de préproduction Dataproc dans Cloud Storage :
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --bucket=CMEK_BUCKET_NAME \
          other arguments ...
          

      Vous pouvez également transmettre des buckets activés par CMEK à la commande "gcloud dataproc jobs submit" si votre job utilise des arguments de bucket, comme illustré dans l'exemple "cmek-bucket" suivant:

      gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
          --region=region \
          --cluster=cluster-name \
          -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
        

    API REST

    • Pour chiffrer les données du disque persistant de la VM du cluster à l'aide de votre clé, incluez le champ ClusterConfig.EncryptionConfig.gcePdKmsKeyName dans le cadre d'une requête cluster.create.

      Vous pouvez vérifier les paramètres de clé à l'aide de la commande gcloud CLI dataproc clusters describe.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Extrait de résultat de la commande:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      ...
      
    • Pour chiffrer les données du disque persistant d'une VM de cluster et les données d'argument de job à l'aide de votre clé, incluez le champ Cluster.EncryptionConfig.kmsKey dans une requête cluster.create. Consultez la section Cluster.EncryptionConfig.kmsKey pour obtenir la liste des types de tâches et des arguments chiffrés avec le champ --kms-key.

      Vous pouvez vérifier les paramètres de clé à l'aide de la commande gcloud CLI dataproc clusters describe. L'ID de ressource de la clé est défini sur gcePdKmsKeyName et kmsKey pour utiliser votre clé avec le chiffrement des données du disque persistant du cluster et des arguments de la tâche.

      gcloud dataproc clusters describe CLUSTER_NAME \
          --region=REGION
      

      Extrait de résultat de la commande:

      ...
      configBucket: dataproc- ...
      encryptionConfig:
      gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
      
    • Pour chiffrer les métadonnées de cluster, le pilote de tâches et les autres données de sortie écrites dans votre bucket de préproduction Dataproc dans Cloud Storage :
      gcloud dataproc clusters create CLUSTER_NAME \
          --region=REGION \
          --bucket=CMEK_BUCKET_NAMEt \
          other arguments ...
      

      Vous pouvez également transmettre des buckets activés par CMEK à la commande "gcloud dataproc jobs submit" si votre job utilise des arguments de bucket, comme illustré dans l'exemple "cmek-bucket" suivant:

      gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
          --region=region \
          --cluster=cluster-name \
          -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
        

Utiliser des CMEK avec les données de modèle de workflow

Les données d'argument de job du modèle de workflow Dataproc, telles que la chaîne de requête d'une tâche Spark SQL, peuvent être chiffrées à l'aide de clés CMEK. Suivez les étapes 1, 2 et 3 de cette section pour utiliser des clés CMEK avec votre modèle de workflow Dataproc. Consultez WorkflowTemplate.EncryptionConfig.kmsKey pour obtenir la liste des types de tâches et des arguments de modèle de workflow chiffrés à l'aide de CMEK lorsque cette fonctionnalité est activée.

  1. Créez une clé à l'aide du service Cloud Key Management Service (Cloud KMS). Le nom de ressource de la clé, que vous utiliserez dans les étapes suivantes, se construit comme suit:
    projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
    
  2. Pour autoriser les comptes de service Dataproc à utiliser votre clé:

    1. Attribuez le rôle CryptoKey Encrypter/Decrypter Cloud KMS au compte de service de l'agent de service Dataproc. Vous pouvez utiliser la gcloud CLI pour attribuer le rôle:

       gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
       --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
       --role roles/cloudkms.cryptoKeyEncrypterDecrypter
      

      Remplacez les éléments suivants :

      KMS_PROJECT_ID: ID de votre projet Google Cloud qui exécute Cloud KMS. Il peut également s'agir du projet qui exécute les ressources Dataproc.

      PROJECT_NUMBER: numéro de projet (et non l'ID) de votre projet Google Cloud qui exécute des ressources Dataproc.

    2. Si le rôle Agent de service Dataproc n'est pas associé au compte de service Agent de service Dataproc, ajoutez l'autorisation serviceusage.services.use au rôle personnalisé associé au compte de service Agent de service Dataproc. Si le rôle Agent de service Dataproc est associé au compte de service Agent de service Dataproc, vous pouvez ignorer cette étape.

  3. Vous pouvez utiliser Google Cloud CLI ou l'API Dataproc pour définir la clé que vous avez créée à l'étape 1 d'un workflow. Une fois la clé définie dans un workflow, tous les arguments et requêtes de la tâche de workflow sont chiffrés à l'aide de la clé pour tous les types et arguments de tâches répertoriés dans WorkflowTemplate.EncryptionConfig.kmsKey.

    gcloud CLI

    Transmettez l'ID de ressource de votre clé à l'option --kms-key lorsque vous créez le modèle de workflow à l'aide de la commande gcloud dataproc workflow-templates create.

    Exemple :

    gcloud dataproc workflow-templates create my-template-name \
        --region=region \
        --kms-key='projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name' \
        other arguments ...
    
    Vous pouvez vérifier les paramètres de clé à partir de l'outil de ligne de commande gcloud.
    gcloud dataproc workflow-templates describe TEMPLATE_NAME \
        --region=REGION
    
    ...
    id: my-template-name
    encryptionConfig:
    kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
    ...
    

    API REST

    Utilisez WorkflowTemplate.EncryptionConfig.kmsKey dans une requête workflowTemplates.create.

    Vous pouvez vérifier les paramètres de clé à l'aide d'une requête workflowTemplates.get. Le fichier JSON renvoyé contient la liste des kmsKey:

    ...
    "id": "my-template-name",
    "encryptionConfig": {
      "kmsKey": "projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name"
    },
    

Cloud External Key Manager

Cloud External Key Manager (Cloud EKM) vous permet de protéger les données Dataproc à l'aide de clés gérées par un partenaire de gestion de clés externes compatible. Les étapes à suivre pour utiliser EKM dans Dataproc sont les mêmes que celles que vous suivez pour configurer des clés CMEK, à la différence suivante: votre clé pointe vers un URI pour la clé gérée en externe (consultez la page Présentation de Cloud EKM).

Erreurs Cloud EKM

Lorsque vous utilisez Cloud EKM, une tentative de création d'un cluster peut échouer en raison d'erreurs associées aux entrées, à Cloud EKM, au système partenaire de gestion de clés externes ou aux communications entre EKM et le système externe. Si vous utilisez l'API REST ou la console Google Cloud, les erreurs sont consignées dans Logging. Vous pouvez examiner les erreurs du cluster en échec dans l'onglet Afficher le journal.