Cette page a été traduite par l'API Cloud Translation.

Cas d'utilisation: Contrôle des accès à un cluster Dataproc dans un autre projet

Cette page explique comment gérer le contrôle des accès lorsque vous déployez et exécutez un pipeline qui utilise des clusters Dataproc dans un autre Google Cloud projet.

Scénario

Par défaut, lorsqu'une instance Cloud Data Fusion est lancée dans un projetGoogle Cloud , elle déploie et exécute des pipelines à l'aide de clusters Dataproc dans le même projet. Toutefois, votre organisation peut vous demander d'utiliser des clusters dans un autre projet. Pour ce cas d'utilisation, vous devez gérer l'accès entre les projets. La page suivante explique comment modifier les configurations de référence (par défaut) et appliquer les contrôles d'accès appropriés.

Avant de commencer

Pour comprendre les solutions de ce cas d'utilisation, vous avez besoin du contexte suivant:

Connaissances des concepts de base de Cloud Data Fusion
Connaissances de base sur la gestion de l'authentification et des accès (IAM) pour Cloud Data Fusion
Connaissances de base sur la mise en réseau Cloud Data Fusion

Hypothèses et champ d'application

Ce cas d'utilisation présente les exigences suivantes :

Une instance Cloud Data Fusion privée. Pour des raisons de sécurité, une organisation peut vous demander d'utiliser ce type d'instance.
Une source et un récepteur BigQuery.
Contrôle des accès avec IAM, et non contrôle des accès basé sur les rôles (RBAC).

Solution

Cette solution compare l'architecture et la configuration de référence et spécifiques au cas d'utilisation.

Architecture

Les diagrammes suivants comparent l'architecture de projet pour créer une instance Cloud Data Fusion et exécuter des pipelines lorsque vous utilisez des clusters dans le même projet (référence) et dans un autre projet via le VPC du projet locataire.

Architecture de référence

Ce schéma présente l'architecture de référence des projets:

Architecture des projets de locataire, client et Dataproc dans Cloud Data Fusion.

Pour la configuration de référence, vous créez une instance Cloud Data Fusion privée et exécutez un pipeline sans personnalisation supplémentaire:

Vous utilisez l'un des profils de calcul intégrés
La source et le récepteur se trouvent dans le même projet que l'instance.
Aucun rôle supplémentaire n'a été attribué à aucun des comptes de service.

Pour en savoir plus sur les projets de locataires et de clients, consultez la section Mise en réseau.

Architecture de cas d'utilisation

Ce diagramme montre l'architecture du projet lorsque vous utilisez des clusters dans un autre projet:

Architecture des projets de locataire, client et Dataproc dans Cloud Data Fusion.

Configurations

Les sections suivantes comparent les configurations de référence aux configurations spécifiques au cas d'utilisation pour utiliser des clusters Dataproc dans un autre projet via le VPC par défaut du projet de locataire.

Dans les descriptions des cas d'utilisation suivantes, l'projet client est l'endroit où l'instance Cloud Data Fusion s'exécute, et le projet Dataproc est l'endroit où le cluster Dataproc est lancé.

VPC et instance du projet locataire

Référence	Cas d'utilisation
Dans le diagramme d'architecture de référence précédent, le projet de locataire contient les composants suivants : Le VPC par défaut, qui est créé automatiquement. Déploiement physique de l'instance Cloud Data Fusion.	Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Projet client

Référence	Cas d'utilisation
Votre projet Google Cloud est l'endroit où vous déployez et exécutez des pipelines. Par défaut, les clusters Dataproc sont lancés dans ce projet lorsque vous exécutez vos pipelines.	Dans ce cas d'utilisation, vous gérez deux projets. Sur cette page, le projet client fait référence à l'emplacement où s'exécute l'instance Cloud Data Fusion. Le projet Dataproc fait référence à l'emplacement de lancement des clusters Dataproc.

VPC du client

Référence	Cas d'utilisation
Du point de vue du client, c'est le VPC du client où Cloud Data Fusion se trouve logiquement. En résumé :Vous trouverez les détails du VPC client sur la page "Réseaux VPC" de votre projet. Accédez aux réseaux VPC.	Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Référence

Cas d'utilisation

Du point de vue du client, c'est le VPC du client où Cloud Data Fusion se trouve logiquement.

En résumé
:Vous trouverez les détails du VPC client sur la page "Réseaux VPC" de votre projet.

Accédez aux réseaux VPC.

Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Sous-réseau Cloud Data Fusion

Référence	Cas d'utilisation
Du point de vue du client, c'est dans ce sous-réseau que Cloud Data Fusion se trouve. En résumé: La région de ce sous-réseau est la même que l'emplacement de l'instance Cloud Data Fusion dans le projet du locataire.	Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Sous-réseau Dataproc

Référence	Cas d'utilisation
Sous-réseau dans lequel les clusters Dataproc sont lancés lorsque vous exécutez un pipeline. Points à retenir: Pour cette configuration de référence, Dataproc est exécuté dans le même sous-réseau que l'instance Cloud Data Fusion. Cloud Data Fusion localise un sous-réseau dans la même région que l'instance et le sous-réseau de Cloud Data Fusion. S'il n'y a qu'un seul sous-réseau dans cette région, les sous-réseaux sont identiques. L'accès privé à Google doit être activé sur le sous-réseau Dataproc.	Il s'agit d'un nouveau sous-réseau dans lequel les clusters Dataproc sont lancés lorsque vous exécutez un pipeline. Points à retenir: Pour ce nouveau sous-réseau, définissez l'accès privé à Google sur Activé. Le sous-réseau Dataproc n'a pas besoin d'être au même emplacement que l'instance Cloud Data Fusion.

Référence

Cas d'utilisation

Sous-réseau dans lequel les clusters Dataproc sont lancés lorsque vous exécutez un pipeline.

Points à retenir:

Pour cette configuration de référence, Dataproc est exécuté dans le même sous-réseau que l'instance Cloud Data Fusion.
Cloud Data Fusion localise un sous-réseau dans la même région que l'instance et le sous-réseau de Cloud Data Fusion. S'il n'y a qu'un seul sous-réseau dans cette région, les sous-réseaux sont identiques.
L'accès privé à Google doit être activé sur le sous-réseau Dataproc.

Il s'agit d'un nouveau sous-réseau dans lequel les clusters Dataproc sont lancés lorsque vous exécutez un pipeline.

Points à retenir:

Pour ce nouveau sous-réseau, définissez l'accès privé à Google sur Activé.
Le sous-réseau Dataproc n'a pas besoin d'être au même emplacement que l'instance Cloud Data Fusion.

Sources et récepteurs

Référence	Cas d'utilisation
Sources à partir desquelles les données sont extraites et récepteurs dans lesquels les données sont chargées, tels que les sources et les récepteurs BigQuery. Point clé à retenir: Les tâches qui extraient et chargent des données doivent être traitées au même emplacement que l'ensemble de données, sinon une erreur se produit.	Les configurations de contrôle des accès spécifiques au cas d'utilisation de cette page sont destinées aux sources et aux destinations BigQuery.

Référence

Cas d'utilisation

Sources à partir desquelles les données sont extraites et récepteurs dans lesquels les données sont chargées, tels que les sources et les récepteurs BigQuery.

Point clé à retenir:

Les tâches qui extraient et chargent des données doivent être traitées au même emplacement que l'ensemble de données, sinon une erreur se produit.

Les configurations de contrôle des accès spécifiques au cas d'utilisation de cette page sont destinées aux sources et aux destinations BigQuery.

Cloud Storage

Référence	Cas d'utilisation
Bucket de stockage du projet client qui permet de transférer des fichiers entre Cloud Data Fusion et Dataproc. Points à retenir: Vous pouvez spécifier ce bucket via l'interface Web Cloud Data Fusion dans les paramètres du profil de calcul pour les clusters éphémères. Pour les pipelines par lot et en temps réel, ou les tâches de réplication : si vous ne spécifiez pas de bucket dans le profil de calcul, Cloud Data Fusion en crée un dans le même projet que l'instance à cette fin. Même pour les clusters Dataproc statiques, dans cette configuration de référence, le bucket est créé par Cloud Data Fusion et diffère des buckets de préproduction et temporaires Dataproc. L'agent de service de l'API Cloud Data Fusion dispose d'autorisations intégrées pour créer ce bucket dans le projet contenant l'instance Cloud Data Fusion.	Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Référence

Cas d'utilisation

Bucket de stockage du projet client qui permet de transférer des fichiers entre Cloud Data Fusion et Dataproc.

Points à retenir:

Vous pouvez spécifier ce bucket via l'interface Web Cloud Data Fusion dans les paramètres du profil de calcul pour les clusters éphémères.
Pour les pipelines par lot et en temps réel, ou les tâches de réplication : si vous ne spécifiez pas de bucket dans le profil de calcul, Cloud Data Fusion en crée un dans le même projet que l'instance à cette fin.
Même pour les clusters Dataproc statiques, dans cette configuration de référence, le bucket est créé par Cloud Data Fusion et diffère des buckets de préproduction et temporaires Dataproc.
L'agent de service de l'API Cloud Data Fusion dispose d'autorisations intégrées pour créer ce bucket dans le projet contenant l'instance Cloud Data Fusion.

Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

Buckets temporaires utilisés par la source et le récepteur

Référence	Cas d'utilisation
Les buckets temporaires créés par les plug-ins pour vos sources et récepteurs, tels que les tâches de chargement lancées par le plug-in BigQuery Sink. Points à retenir: Vous pouvez définir ces buckets lorsque vous configurez les propriétés des plug-ins source et puits. Si vous ne définissez pas de bucket, un bucket est créé dans le même projet que celui dans lequel Dataproc s'exécute. Si l'ensemble de données est multirégional, le bucket est créé dans le même champ d'application. Si vous définissez un bucket dans la configuration du plug-in, la région du bucket doit correspondre à celle de l'ensemble de données. Si vous ne définissez pas de bucket dans les configurations du plug-in, celui qui est créé pour vous est supprimé à la fin du pipeline.	Pour ce cas d'utilisation, le bucket peut être créé dans n'importe quel projet.

Référence

Cas d'utilisation

Les buckets temporaires créés par les plug-ins pour vos sources et récepteurs, tels que les tâches de chargement lancées par le plug-in BigQuery Sink.

Points à retenir:

Vous pouvez définir ces buckets lorsque vous configurez les propriétés des plug-ins source et puits.
Si vous ne définissez pas de bucket, un bucket est créé dans le même projet que celui dans lequel Dataproc s'exécute.
Si l'ensemble de données est multirégional, le bucket est créé dans le même champ d'application.
Si vous définissez un bucket dans la configuration du plug-in, la région du bucket doit correspondre à celle de l'ensemble de données.
Si vous ne définissez pas de bucket dans les configurations du plug-in, celui qui est créé pour vous est supprimé à la fin du pipeline.

Pour ce cas d'utilisation, le bucket peut être créé dans n'importe quel projet.

Buckets qui sont des sources ou des récepteurs de données pour les plug-ins

Référence	Cas d'utilisation
Les buckets client, que vous spécifiez dans les configurations des plug-ins, tels que le plug-in Cloud Storage et le plug-in FTP vers Cloud Storage.	Aucune configuration supplémentaire n'est requise pour ce cas d'utilisation.

IAM: agent de service de l'API Cloud Data Fusion

Référence Cas d'utilisation

Référence	Cas d'utilisation
Lorsque l'API Cloud Data Fusion est activée, le rôle Agent de service de l'API Cloud Data Fusion (`roles/datafusion.serviceAgent`) est automatiquement attribué au compte de service Cloud Data Fusion, l'agent de service principal. Points à retenir: Le rôle contient des autorisations pour les services du même projet que l'instance, tels que BigQuery et Dataproc. Pour connaître tous les services compatibles, consultez les informations sur le rôle. Le compte de service Cloud Data Fusion effectue les opérations suivantes : Communication du plan de données (conception et exécution du pipeline) avec d'autres services (par exemple, communication avec Cloud Storage, BigQuery et Datastream au moment de la conception). Provisionne des clusters Dataproc. Si vous effectuez une réplication à partir d'une source Oracle, ce compte de service doit également disposer des rôles "Datastream Admin" et "Storage Admin" dans le projet où la tâche se produit. Cette page ne traite pas d'un cas d'utilisation de la réplication.	Pour ce cas d'utilisation, attribuez le rôle Agent de service de l'API Cloud Data Fusion au compte de service du projet Dataproc. Attribuez ensuite les rôles suivants dans ce projet: Rôle d'utilisateur de réseau de Compute Rôle Éditeur Dataproc

Lorsque l'API Cloud Data Fusion est activée, le rôle Agent de service de l'API Cloud Data Fusion (roles/datafusion.serviceAgent) est automatiquement attribué au compte de service Cloud Data Fusion, l'agent de service principal.

Points à retenir:

Le rôle contient des autorisations pour les services du même projet que l'instance, tels que BigQuery et Dataproc. Pour connaître tous les services compatibles, consultez les informations sur le rôle.
Le compte de service Cloud Data Fusion effectue les opérations suivantes :
- Communication du plan de données (conception et exécution du pipeline) avec d'autres services (par exemple, communication avec Cloud Storage, BigQuery et Datastream au moment de la conception).
- Provisionne des clusters Dataproc.
Si vous effectuez une réplication à partir d'une source Oracle, ce compte de service doit également disposer des rôles "Datastream Admin" et "Storage Admin" dans le projet où la tâche se produit. Cette page ne traite pas d'un cas d'utilisation de la réplication.

Pour ce cas d'utilisation, attribuez le rôle Agent de service de l'API Cloud Data Fusion au compte de service du projet Dataproc. Attribuez ensuite les rôles suivants dans ce projet:

Rôle d'utilisateur de réseau de Compute
Rôle Éditeur Dataproc

IAM: compte de service Dataproc

Référence Cas d'utilisation

Référence	Cas d'utilisation
Compte de service utilisé pour exécuter le pipeline en tant que tâche dans le cluster Dataproc. Par défaut, il s'agit du compte de service Compute Engine. Facultatif: dans la configuration de référence, vous pouvez remplacer le compte de service par défaut par un autre compte de service du même projet. Attribuez les rôles IAM suivants au nouveau compte de service: Rôle d'exécuteur Cloud Data Fusion. Ce rôle permet à Dataproc de communiquer avec l'API Cloud Data Fusion. Rôle "Nœud de calcul Dataproc". Ce rôle permet aux tâches d'être exécutées sur des clusters Dataproc. Points à retenir: Le compte de service de l'agent API du nouveau service doit être attribué au rôle Utilisateur du compte de service sur le compte de service Dataproc afin que l'agent de l'API de service puisse l'utiliser pour lancer des clusters Dataproc.	Cet exemple de cas d'utilisation suppose que vous utilisez le compte de service Compute Engine par défaut (`PROJECT_NUMBER-compute@developer.gserviceaccount.com`) du projet Dataproc. Attribuez les rôles suivants au compte de service Compute Engine par défaut du projet Dataproc. Remarque:Pour utiliser un autre compte de service pour exécuter des pipelines Cloud Data Fusion, attribuez les rôles de ce compte de service dans le projet Dataproc. Rôle Nœud de calcul Dataproc Le rôle Administrateur de stockage (ou au minimum l'autorisation "storage.buckets.create") pour autoriser Dataproc à créer des buckets temporaires pour BigQuery. Rôle Utilisateur de tâche BigQuery Ce rôle permet à Dataproc de créer des tâches de chargement. Les tâches sont créées dans le projet Dataproc par défaut. Rôle Éditeur d'ensemble de données BigQuery Ce rôle permet à Dataproc de créer des ensembles de données lors du chargement de données. Attribuez le rôle "Utilisateur du compte de service" au compte de service Cloud Data Fusion sur le compte de service Compute Engine par défaut du projet Dataproc. Cette action doit être effectuée dans le projet Dataproc. Ajoutez le compte de service Compute Engine par défaut du projet Dataproc au projet Cloud Data Fusion. Attribuez également les rôles suivants: Rôle "Lecteur des objets Storage" pour récupérer les artefacts liés à la tâche de pipeline à partir du bucket de consommateurs Cloud Data Fusion. Rôle d'exécuteur Cloud Data Fusion, afin que le cluster Dataproc puisse communiquer avec Cloud Data Fusion pendant son exécution.

Compte de service utilisé pour exécuter le pipeline en tant que tâche dans le cluster Dataproc. Par défaut, il s'agit du compte de service Compute Engine.

Facultatif: dans la configuration de référence, vous pouvez remplacer le compte de service par défaut par un autre compte de service du même projet. Attribuez les rôles IAM suivants au nouveau compte de service:

Rôle d'exécuteur Cloud Data Fusion. Ce rôle permet à Dataproc de communiquer avec l'API Cloud Data Fusion.
Rôle "Nœud de calcul Dataproc". Ce rôle permet aux tâches d'être exécutées sur des clusters Dataproc.

Points à retenir:

Le compte de service de l'agent API du nouveau service doit être attribué au rôle Utilisateur du compte de service sur le compte de service Dataproc afin que l'agent de l'API de service puisse l'utiliser pour lancer des clusters Dataproc.

Cet exemple de cas d'utilisation suppose que vous utilisez le compte de service Compute Engine par défaut (PROJECT_NUMBER-compute@developer.gserviceaccount.com) du projet Dataproc.

Attribuez les rôles suivants au compte de service Compute Engine par défaut du projet Dataproc.

Rôle Nœud de calcul Dataproc
Le rôle Administrateur de stockage (ou au minimum l'autorisation "storage.buckets.create") pour autoriser Dataproc à créer des buckets temporaires pour BigQuery.
Rôle Utilisateur de tâche BigQuery Ce rôle permet à Dataproc de créer des tâches de chargement. Les tâches sont créées dans le projet Dataproc par défaut.
Rôle Éditeur d'ensemble de données BigQuery Ce rôle permet à Dataproc de créer des ensembles de données lors du chargement de données.

Attribuez le rôle "Utilisateur du compte de service" au compte de service Cloud Data Fusion sur le compte de service Compute Engine par défaut du projet Dataproc. Cette action doit être effectuée dans le projet Dataproc.

Ajoutez le compte de service Compute Engine par défaut du projet Dataproc au projet Cloud Data Fusion. Attribuez également les rôles suivants:

Rôle "Lecteur des objets Storage" pour récupérer les artefacts liés à la tâche de pipeline à partir du bucket de consommateurs Cloud Data Fusion.
Rôle d'exécuteur Cloud Data Fusion, afin que le cluster Dataproc puisse communiquer avec Cloud Data Fusion pendant son exécution.

API

Référence	Cas d'utilisation
Lorsque vous activez l'API Cloud Data Fusion, les API suivantes sont également activées. Pour en savoir plus sur ces API, accédez à la page "API et services" de votre projet. Accéder à "API et services" API Cloud Autoscaling API Dataproc API Cloud Dataproc Control Cloud DNS API API Cloud OS Login API Pub/Sub API Compute Engine API Container Filesystem API Container Registry API Service Account Credentials API Identity and Access Management API Google Kubernetes Engine Remarque:Vous activez manuellement l'API Cloud Resource Manager dans le projet. Lorsque vous activez l'API Cloud Data Fusion, les comptes de service suivants sont automatiquement ajoutés à votre projet: Agent de service des API Google Agent de service Compute Engine Agent de service Kubernetes Engine Agent de service Google Container Registry Agent de service Google Cloud Dataproc Agent de service Cloud KMS Compte de service Cloud Pub/Sub	Pour ce cas d'utilisation, activez les API suivantes dans le projet contenant le projet Dataproc: API Compute Engine API Dataproc (elle est probablement déjà activée dans ce projet). L'API Dataproc Control est automatiquement activée lorsque vous activez l'API Dataproc. API Resource Manager

Référence

Cas d'utilisation

Lorsque vous activez l'API Cloud Data Fusion, les API suivantes sont également activées. Pour en savoir plus sur ces API, accédez à la page "API et services" de votre projet.

Accéder à "API et services"

API Cloud Autoscaling
API Dataproc
API Cloud Dataproc Control
Cloud DNS API
API Cloud OS Login
API Pub/Sub
API Compute Engine
API Container Filesystem
API Container Registry
API Service Account Credentials
API Identity and Access Management
API Google Kubernetes Engine

Lorsque vous activez l'API Cloud Data Fusion, les comptes de service suivants sont automatiquement ajoutés à votre projet:

Agent de service des API Google
Agent de service Compute Engine
Agent de service Kubernetes Engine
Agent de service Google Container Registry
Agent de service Google Cloud Dataproc
Agent de service Cloud KMS
Compte de service Cloud Pub/Sub

Pour ce cas d'utilisation, activez les API suivantes dans le projet contenant le projet Dataproc:

API Compute Engine
API Dataproc (elle est probablement déjà activée dans ce projet). L'API Dataproc Control est automatiquement activée lorsque vous activez l'API Dataproc.
API Resource Manager

Clés de chiffrement

Référence Cas d'utilisation

Référence	Cas d'utilisation
Dans la configuration de référence, les clés de chiffrement peuvent être gérées par Google ou CMEK . Points à retenir: Si vous utilisez CMEK, votre configuration de référence nécessite les éléments suivants: La clé doit être régionale et créée dans la même région que l'instance Cloud Data Fusion. Attribuez le rôle de chiffreur/déchiffreur de clés cryptographiques Cloud KMS aux comptes de service suivants au niveau de la clé (et non sur la page IAM de la console Google Cloud) dans le projet où il est créé : Compte de service de l'API Cloud Data Fusion Compte de service Dataproc, qui est l'agent de service Compute Engine (`service-PROJECT_NUMBER@compute-system.iam.gserviceaccount.com`) par défaut Agent de service Google Cloud Dataproc (`service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com`) Agent de service Cloud Storage (`service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com`) Selon les services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, les comptes de service doivent également se voir attribuer le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS: Le compte de service BigQuery (`bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com`) Compte de service Pub/Sub (`service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com`) Compte de service Spanner (`service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com`)	Si vous n'utilisez pas de CMEK, aucune modification supplémentaire n'est requise pour ce cas d'utilisation. Si vous utilisez le chiffrement CMEK, le rôle "Chiffreur/Déchiffreur de CryptoKey Cloud KMS" doit être fourni au compte de service suivant au niveau de la clé dans le projet où il est créé: Agent de service Cloud Storage (`service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com`) En fonction des services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, d'autres comptes de service doivent également se voir attribuer le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS au niveau de la clé. Exemple : Le compte de service BigQuery (`bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com`) Compte de service Pub/Sub (`service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com`) Compte de service Spanner (`service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com`)

Dans la configuration de référence, les clés de chiffrement peuvent être gérées par Google ou CMEK .

Points à retenir:

Si vous utilisez CMEK, votre configuration de référence nécessite les éléments suivants:

La clé doit être régionale et créée dans la même région que l'instance Cloud Data Fusion.
Attribuez le rôle de chiffreur/déchiffreur de clés cryptographiques Cloud KMS aux comptes de service suivants au niveau de la clé (et non sur la page IAM de la console Google Cloud) dans le projet où il est créé :
- Compte de service de l'API Cloud Data Fusion
- Compte de service Dataproc, qui est l'agent de service Compute Engine (service-PROJECT_NUMBER@compute-system.iam.gserviceaccount.com) par défaut
- Agent de service Google Cloud Dataproc (service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com)
- Agent de service Cloud Storage (service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com)

Selon les services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, les comptes de service doivent également se voir attribuer le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS:

Le compte de service BigQuery (bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com)
Compte de service Pub/Sub (service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com)
Compte de service Spanner (service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com)

Si vous n'utilisez pas de CMEK, aucune modification supplémentaire n'est requise pour ce cas d'utilisation.

Si vous utilisez le chiffrement CMEK, le rôle "Chiffreur/Déchiffreur de CryptoKey Cloud KMS" doit être fourni au compte de service suivant au niveau de la clé dans le projet où il est créé:

Agent de service Cloud Storage (service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com)

En fonction des services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, d'autres comptes de service doivent également se voir attribuer le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS au niveau de la clé. Exemple :

Le compte de service BigQuery (bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com)
Compte de service Pub/Sub (service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com)
Compte de service Spanner (service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com)

Une fois ces configurations spécifiques au cas d'utilisation effectuées, votre pipeline de données peut commencer à s'exécuter sur des clusters d'un autre projet.

Étape suivante

En savoir plus sur la mise en réseau dans Cloud Data Fusion
Consultez la documentation de référence sur les rôles IAM de base et prédéfinis.