Sécurité et autorisations pour Dataflow

Les pipelines Dataflow peuvent être exécutés en local (pour effectuer des tests sur de petits ensembles de données) ou sur des ressources Google Cloud gérées, à l'aide du service géré Dataflow. Que le pipeline et ses nœuds de calcul soient exécutés localement ou dans le cloud, ils utilisent un système d'autorisations pour assurer la sécurité d'accès aux fichiers et aux ressources du pipeline. Les autorisations Dataflow sont attribuées en fonction du rôle utilisé pour accéder aux ressources du pipeline. Ce document présente les concepts suivants :

  • Mettre à niveau des VM Dataflow
  • Rôles et autorisations requis pour exécuter des pipelines locaux et Google Cloud
  • Rôles et autorisations requis pour accéder aux ressources de pipeline entre projets.
  • Types de données utilisés dans un service Dataflow et dans la sécurité des données.

Avant de commencer

Pour en savoir plus sur les identifiants de projet Google Cloud, consultez la présentation de la plate-forme. Ces identifiants incluent le nom, l'ID et le numéro du projet.

Mettre à niveau et corriger des VM Dataflow

Dataflow utilise Container-Optimized OS. Les processus de sécurité de Container-Optimized OS s'appliquent donc également à Dataflow.

Les pipelines par lot sont limités dans le temps et ne nécessitent pas de maintenance. Lorsqu'un nouveau pipeline par lot démarre, la dernière image Dataflow est utilisée.

Pour les pipelines de streaming, si un correctif de sécurité est immédiatement requis, Google Cloud vous avertit à l'aide de bulletins de sécurité. Pour les pipelines de streaming, nous vous recommandons d'utiliser l'option --update pour redémarrer votre tâche avec la dernière image Dataflow.

Les images de conteneurs Dataflow sont disponibles dans Google Cloud Console.

Sécurité et autorisations pour les pipelines locaux

En local, le pipeline Apache Beam est exécuté avec le compte Google Cloud que vous avez configuré à l'aide de l'exécutable de l'outil de ligne de commande gcloud. Par conséquent, les opérations du SDK Apache Beam exécutées localement et votre compte Google Cloud ont accès aux mêmes fichiers et ressources.

Pour répertorier le compte Google Cloud que vous avez sélectionné par défaut, exécutez la commande gcloud config list.

Sécurité et autorisations pour les pipelines sur Google Cloud

Lorsque vous exécutez un pipeline, Cloud Dataflow utilise deux comptes de service pour gérer la sécurité et les autorisations :

  • Compte de service Dataflow. Le service Dataflow utilise son compte de service dans le cadre d'une requête de création de tâche (par exemple, pour vérifier le quota des projets et créer des instances de nœud de calcul en votre nom) et pendant l'exécution de la tâche, afin de gérer celle-ci.

  • Le compte de service des nœuds de calcul. Les instances de nœud de calcul utilisent le compte de service du nœud de calcul pour accéder aux ressources d'entrée et de sortie une fois que vous avez envoyé la tâche.

Compte de service Dataflow

Lors de l'exécution du pipeline Dataflow, ce service manipule les ressources en votre nom (par exemple, en créant des VM supplémentaires). Lorsque vous exécutez votre pipeline sur le service Dataflow, il utilise le compte de service Dataflow (service-<project-number>@dataflow-service-producer-prod.iam.gserviceaccount.com). Le compte de service Dataflow est créé à la première utilisation de la ressource Dataflow Job. Ce compte se voit attribuer le rôle Agent de service Dataflow sur le projet, et il dispose des autorisations nécessaires pour exécuter une tâche Dataflow dans le projet, comme démarrer des nœuds de calcul Compute Engine. Ce compte est utilisé exclusivement par le service Dataflow et est propre à votre projet.

Vous pouvez consulter les autorisations du compte de service Dataflow dans Cloud Console ou dans l'outil de ligne de commande gcloud.

Console

  1. Accéder à la page Rôles

    Accéder à la page "Rôles"

  2. Dans la barre d'outils Cloud Console, sélectionnez votre projet.

  3. Pour afficher les autorisations du compte de service Dataflow, cochez la case Inclure les attributions de rôles fournies par Google en haut à droite, puis cochez la case Agent de service Cloud Dataflow.

gcloud

Affichez les autorisations du compte de service Dataflow:

gcloud iam roles describe roles/dataflow.serviceAgent

Comme les services Google Cloud attendent un accès en lecture/écriture au projet et à ses ressources, nous vous recommandons de ne pas modifier les autorisations par défaut qui sont établies automatiquement pour votre projet. Si vous supprimez les autorisations du compte de service de la règle Identity and Access Management (IAM), les comptes sont conservés, car ils appartiennent au service Dataflow. Si un compte de service Dataflow perd ses autorisations sur un projet, Dataflow ne peut pas lancer de VM ni effectuer d'autres tâches de gestion.

Compte de service de nœud de calcul

Les instances Compute Engine exécutent les opérations du SDK Apache Beam dans le cloud. Ces nœuds de calcul utilisent le compte de service du nœud de calcul de votre projet pour accéder aux fichiers de votre pipeline et à d'autres ressources. Le compte de service de nœud de calcul sert d'identité à toutes les VM de nœud de calcul. Toutes les requêtes provenant de la VM utilisent le compte de service de nœud de calcul. Ce compte de service est également utilisé pour interagir avec des ressources telles que des buckets Cloud Storage et des sujets Pub/Sub.

Pour que le compte de service du nœud de calcul puisse créer, exécuter et examiner une tâche, assurez-vous qu'il dispose des rôles roles/dataflow.admin et roles/dataflow.worker. De plus, votre compte utilisateur doit disposer de l'autorisation iam.serviceAccounts.actAs afin d'emprunter l'identité du compte de service.

Compte de service de nœud de calcul par défaut

Par défaut, les nœuds de calcul utilisent le compte de service Compute Engine par défaut de votre projet en tant que compte de service de nœud de calcul. Ce compte de service (<project-number>-compute@developer.gserviceaccount.com) est créé automatiquement lorsque vous activez l'API Compute Engine pour votre projet à partir de la bibliothèque d'API de Google Cloud Console.

Le compte de service Compute Engine par défaut dispose d'un accès étendu aux ressources de votre projet, ce qui facilite la mise en route de Dataflow. Toutefois, pour les charges de travail de production, nous vous recommandons de créer un nouveau compte de service ne disposant que des rôles et autorisations nécessaires.

Spécifier un compte de service de nœud de calcul géré par l'utilisateur

Si vous souhaitez créer et utiliser des ressources avec un contrôle d'accès précis, vous pouvez créer un compte de service géré par l'utilisateur et l'utiliser comme compte de service de nœud de calcul.

Si vous ne disposez pas d'un compte de service géré par l'utilisateur, vous devez créer un compte de service et définir les rôles IAM requis pour votre compte de service. Le compte de service doit être au minimum doté du rôle Nœud de calcul Dataflow. Il peut également avoir besoin de rôles supplémentaires pour utiliser les ressources Google Cloud requises par votre tâche (comme BigQuery, Pub/Sub ou l'écriture dans Cloud Storage). Par exemple, si la tâche lit les données à partir de BigQuery, votre compte de service doit également être doté du rôle roles/bigquery.dataViewer. Assurez-vous également que votre compte de service géré par l'utilisateur dispose d'un accès en lecture et en écriture aux emplacements de préproduction et aux emplacements temporaires spécifiés dans la tâche Dataflow.

Le compte de service géré par l'utilisateur peut se trouver dans le même projet que votre tâche ou dans un autre projet. Si le compte de service et la tâche se trouvent dans des projets différents, vous devez configurer le compte de service avant d'exécuter la tâche. Vous devez également attribuer le rôle de créateur de jetons du compte de service aux comptes de service gérés par Google sur le compte de service géré par l'utilisateur :

  • Compte de service Compute Engine par défaut (<project-number>-compute@developer.gserviceaccount.com)
  • Agent de service Dataflow (service-<project-number>@dataflow-service-producer-prod.iam.gserviceaccount.com)

Java

Utilisez l'option --serviceAccount et spécifiez votre compte de service lorsque vous exécutez la tâche de pipeline : --serviceAccount=my-service-account-name@<project-id>.iam.gserviceaccount.com

Python

Utilisez l'option --service_account_email et spécifiez votre compte de service lorsque vous exécutez la tâche de pipeline : --service_account_email=my-service-account-name@<project-id>.iam.gserviceaccount.com

Vous pouvez obtenir la liste des comptes de service de votre projet à partir de la page Autorisations de Cloud Console.

Accéder aux ressources Google Cloud dans plusieurs projets Google Cloud

Vos pipelines Apache Beam peuvent accéder aux ressources Google Cloud dans d'autres projets Google Cloud, Voici notamment ce que vous y trouverez :

Pour vous assurer que le pipeline Apache Beam peut accéder à ces ressources d'un projet à l'autre, vous devez utiliser les mécanismes de contrôle d'accès respectifs des ressources, afin d'accorder explicitement l'accès au compte de service de nœud de calcul du projet Dataflow.

Accéder aux buckets Cloud Storage dans les projets Google Cloud

Pour permettre à votre projet Dataflow d'accéder à un bucket Cloud Storage qui appartient un autre projet Google Cloud, rendez-le accessible par le compte de service de nœud de calcul du projet Dataflow. Vous pouvez accorder l'accès requis à l'aide des contrôles d'accès Cloud Storage.

Pour obtenir la liste des comptes de service de votre projet Dataflow, consultez la page IAM et administration de Cloud Console. Une fois que vous disposez des noms des comptes, vous pouvez exécuter les commandes gsutil pour accorder la propriété des comptes de service du projet (autorisation en lecture/écriture) à la fois au bucket et à ses contenus.

Pour accorder aux comptes de service du projet Dataflow l'accès à un bucket Cloud Storage d'un autre projet, exécutez la commande suivante dans la fenêtre de votre interface système ou de votre terminal : gsutil acl ch -u <project-number>-compute@developer.gserviceaccount.com:OWNER gs://<bucket>

Pour permettre aux comptes de service de votre projet Dataflow d'accéder aux contenus existants d'un bucket Cloud Storage d'un autre projet, exécutez la commande suivante dans la fenêtre de votre interface système ou de votre terminal : gsutil -m acl ch -r -u <project-number>-compute@developer.gserviceaccount.com:OWNER gs://<bucket>

La commande précédente n'accorde l'accès qu'aux ressources existantes. Si vous accordez aux comptes de service du projet Dataflow l'autorisation par défaut pour le bucket, ils peuvent accéder aux futures ressources ajoutées à celui-ci : gsutil defacl ch -u <project-number>-compute@developer.gserviceaccount.com:OWNER gs://<bucket>

Accéder aux ensembles de données BigQuery dans les projets Google Cloud

Vous pouvez utiliser l'API BigQueryIO pour accéder aux ensembles de données BigQuery appartenant à un autre projet Google Cloud (c'est-à-dire, différent de celui avec lequel vous utilisez Dataflow). Pour que la source et le récepteur BigQuery fonctionnent correctement, les deux comptes suivants doivent avoir accès à tous les ensembles de données BigQuery sur lesquels votre tâche Dataflow effectue des opérations de lecture ou d'écriture :

Vous devrez peut-être configurer BigQuery pour accorder l'accès de manière explicite à ces comptes. Pour en savoir plus sur l'octroi de l'accès aux ensembles de données BigQuery à l'aide de la page BigQuery ou de l'API BigQuery, consultez la page Contrôle d'accès BigQuery.

Parmi les autorisations BigQuery requises, l'autorisation IAM bigquery.datasets.get est requise par le pipeline pour accéder à un ensemble de données BigQuery. En règle générale, la plupart des rôles IAM BigQuery incluent l'autorisation bigquery.datasets.get, mais le rôle roles/bigquery.jobUser constitue une exception.

Par exemple, si votre compte Google Cloud est abcde@gmail.com et que le numéro du projet sur lequel vous exécutez la tâche Dataflow est 123456789, les comptes suivants doivent tous avoir accès aux ensembles de données BigQuery utilisés : abcde@gmail.com et 123456789-compute@developer.gserviceaccount.com.

Accéder aux sujets et abonnements Pub/Sub de plusieurs projets Google Cloud

Pour accéder à un sujet ou à un abonnement Pub/Sub appartenant à un autre projet Google Cloud, vous devez configurer des autorisations inter-projets à l'aide des fonctionnalités de gestion de l'authentification et des accès Pub/Sub. Dataflow utilise le compte de service de nœud de calcul pour exécuter les tâches et accorder à ce compte de service l'accès aux ressources Pub/Sub de l'autre projet.

Les autorisations des rôles Pub/Sub suivants sont nécessaires :

  • roles/pubsub.subscriber : pour consommer des données et créer des abonnements
  • roles/pubsub.viewer: pour interroger la configuration des sujets et des abonnements. Afin de prolonger les délais de manière appropriée, Dataflow doit avoir accès aux délais d'accusé de réception pour les abonnements. En outre, cette autorisation permet à Dataflow de vérifier la présence de paramètres non compatibles dans les abonnements et les sujets susceptibles de causer des problèmes.

Pour en savoir plus et obtenir des exemples de code illustrant l'utilisation des fonctionnalités IAM de Pub/Sub, consultez la section Exemple de cas d'utilisation : communication entre projets.

Accéder à Firestore sur les projets Google Cloud

Pour accéder à une base de données Firestore (en mode natif ou Datastore) appartenant à un autre projet Google Cloud, ajoutez le compte de service Compute Engine (<project-number>-compute@developer.gserviceaccount.com) de votre projet Dataflow en tant qu'éditeur du projet qui appartient à Firestore, ou utilisez un rôle Datastore plus restrictif, tel que roles/datastore.viewer. Activez également l'API Firestore dans les deux projets à partir de la bibliothèque d'API de Google Cloud Console.

Accéder aux images pour les projets ayant un règlement relatif aux images de confiance

Si vous avez configuré un règlement relatif aux images de confiance pour votre projet et que votre image de démarrage se trouve dans un autre projet, assurez-vous que le règlement relatif aux images de confiance est configuré pour accéder à l'image. Par exemple, si vous exécutez une tâche Dataflow modélisée, assurez-vous que le fichier du règlement inclut l'accès au projet dataflow-service-producer-prod. Il s'agit d'un projet Cloud contenant les images des modèles de tâches.

Accès aux données et sécurité

Le service Dataflow fonctionne avec deux types de données:

  • Données utilisateur final Il s'agit des données traitées par un pipeline Dataflow. Un pipeline classique lit les données d'une ou de plusieurs sources, met en œuvre les transformations de données et écrit les résultats dans un ou plusieurs récepteurs. Toutes les sources et tous les récepteurs sont des services de stockage qui ne sont pas directement gérés par Dataflow.

  • Données opérationnelles. Ces données incluent toutes les métadonnées requises pour la gestion d'un pipeline Dataflow. Ces données incluent à la fois des métadonnées fournies par l'utilisateur, telles que le nom d'une tâche ou des options de pipeline, ainsi que des métadonnées générées par le système, comme un ID de tâche.

Le service Dataflow met en œuvre plusieurs mécanismes de sécurité pour garantir la sécurité et la confidentialité des données. Ces mécanismes s'appliquent aux scénarios suivants :

  • Envoyer un pipeline au service
  • Évaluer un pipeline
  • Demander l'accès à la télémétrie et aux métriques pendant et après l'exécution d'un pipeline
  • Utiliser un service Dataflow tel que Shuffle ou Streaming Engine

Localisation des données

L'ensemble du traitement des données de base pour le service Dataflow s'effectue dans la région spécifiée dans le code du pipeline. Si aucune région n'est spécifiée, la région par défaut (us-central1) est utilisée. Si vous spécifiez cette option dans le code du pipeline, une tâche de pipeline peut éventuellement lire et écrire des données à partir de sources et de récepteurs d'autres régions. Toutefois, le traitement réel des données ne se produit que dans la région spécifiée pour exécuter les VM Dataflow.

La logique de pipeline est évaluée sur des instances de VM de nœuds de calcul individuelles. Vous pouvez spécifier la zone dans laquelle se trouvent ces instances et le réseau privé sur lequel elles communiquent. Les calculs auxiliaires effectués pour la plate-forme dépendent de métadonnées telles que les emplacements Cloud Storage ou la taille des fichiers.

Dataflow est un service régional. Pour en savoir plus sur la localité des données et les points de terminaison régionaux, consultez la page Points de terminaison régionaux.

Données dans une soumission de pipeline

Les autorisations IAM pour votre projet Google Cloud contrôlent l'accès au service Dataflow. Tous les comptes principaux disposant de droits d'éditeur ou de propriétaire sur votre projet peuvent envoyer des pipelines au service. Pour envoyer des pipelines, vous devez vous authentifier à l'aide de l'outil de ligne de commande gcloud. Une fois que vous êtes authentifié, les pipelines sont envoyés à l'aide du protocole HTTPS. Pour obtenir des instructions concernant l'authentification avec les identifiants de compte Google Cloud, consultez le guide de démarrage rapide correspondant au langage que vous utilisez.

Données dans une évaluation de pipeline

Lors de l'évaluation d'un pipeline, des données temporaires peuvent être générées et stockées localement dans les instances de VM de nœud de calcul ou dans Cloud Storage. Les données temporaires sont chiffrées au repos, et elles ne sont pas persistantes à la fin d'une évaluation. Ces données peuvent également être stockées dans le service Shuffle ou Streaming Engine (si vous avez choisi le service) dans la même région que celle spécifiée dans le pipeline Dataflow.

Java

Par défaut, les VM Compute Engine sont supprimées à la fin de la tâche Dataflow, qu'elle ait réussi ou non. Cela signifie que le disque persistant associé, ainsi que toutes les données intermédiaires qui pourraient y être stockées, sont supprimés. Les données intermédiaires stockées dans Cloud Storage sont disponibles dans des sous-emplacements du chemin Cloud Storage que vous indiquez en tant que --stagingLocation et/ou --tempLocation. Si vous écrivez une sortie dans un fichier Cloud Storage, des fichiers temporaires peuvent être créés dans l'emplacement de sortie avant que l'opération d'écriture ne soit finalisée.

Python

Par défaut, les VM Compute Engine sont supprimées à la fin de la tâche Dataflow, qu'elle ait réussi ou non. Cela signifie que le disque persistant associé, ainsi que toutes les données intermédiaires qui pourraient y être stockées, sont supprimés. Les données intermédiaires stockées dans Cloud Storage sont disponibles dans des sous-emplacements du chemin Cloud Storage que vous indiquez en tant que --staging_location et/ou --temp_location. Si vous écrivez une sortie dans un fichier Cloud Storage, des fichiers temporaires peuvent être créés dans l'emplacement de sortie avant que l'opération d'écriture ne soit finalisée.

Données dans les journaux de pipeline et la télémétrie

Les informations stockées dans Cloud Logging sont principalement générées par le code de votre programme Dataflow. Le service Dataflow peut également générer des données d'avertissement et d'erreur dans Cloud Logging, mais il s'agit des seules données intermédiaires que le service ajoute aux journaux. Cloud Logging est un service global.

Les données de télémétrie et les métriques associées sont chiffrées au repos, et l'accès à ces données est contrôlé par les autorisations de lecture de votre projet Google Cloud.

Données dans les services Dataflow

Si vous utilisez Dataflow Shuffle ou Dataflow Streaming pour votre pipeline, ne spécifiez pas les options du pipeline de zone. Au lieu de cela, spécifiez la région et définissez la valeur sur l'une des régions dans lesquelles Shuffle ou Streaming est actuellement disponible. Dataflow sélectionne automatiquement la zone dans la région spécifiée. Les données de l'utilisateur final en transit restent dans les VM de nœud de calcul et dans la même zone. Ces tâches Dataflow peuvent toujours lire et écrire dans des sources et des récepteurs situés en dehors de la zone de la VM. Les données en transit peuvent également être envoyées aux services Dataflow Shuffle ou Dataflow Streaming, mais les données restent toujours dans la région spécifiée dans le code du pipeline.

Nous vous recommandons d'utiliser les mécanismes de sécurité disponibles dans les ressources cloud sous-jacentes de votre pipeline. Ces mécanismes incluent les fonctionnalités de sécurité des données de sources et de récepteurs de données tels que BigQuery et Cloud Storage. Il est également préférable de ne pas mélanger différents niveaux de confiance dans un même projet.