Tâches hybrides et déclencheurs de tâches

Les tâches hybrides et les déclencheurs de tâches englobent un ensemble de méthodes d'API asynchrones qui permettent d'analyser à la recherche d'informations sensibles les charges utiles de données envoyées par pratiquement tout type de source, et de stocker les résultats dans Google Cloud. Les tâches hybrides vous permettent d'écrire vos propres robots d'exploration de données qui se comportent et diffusent des données de la même manière que les méthodes d'inspection du stockage de la protection des données sensibles.

À l'aide de tâches hybrides, vous pouvez diffuser des données en flux continu depuis n'importe quelle source vers le service de protection des données sensibles. La protection des données sensibles inspecte les données à la recherche d'informations sensibles ou permettant d'identifier personnellement l'utilisateur, puis enregistre les résultats de l'analyse d'inspection dans une ressource de job de protection des données sensibles. Vous pouvez examiner les résultats de l'analyse dans l'API ou dans l'interface utilisateur de la console de protection des données sensibles. Vous pouvez également spécifier des actions post-analyse à exécuter, telles que l'enregistrement des données de résultats d'inspection dans une table BigQuery ou l'émission d'une notification Pub/Sub.

Le diagramme suivant représente le workflow des tâches hybrides :

Schéma du flux de données de tâches hybrides montrant l'envoi de données depuis une source externe vers le service de protection des données sensibles, l'inspection des données par la protection des données sensibles, puis l'enregistrement ou la publication des résultats.

Cette rubrique présente les concepts relatifs aux tâches hybrides et aux déclencheurs de tâches, ainsi que leur fonctionnement. Pour découvrir comment mettre en œuvre des tâches hybrides et des déclencheurs de tâches, consultez la page Inspecter des données externes à l'aide de tâches hybrides.

À propos des environnements hybrides

Les environnements "hybrides" sont fréquents dans les organisations. De nombreuses organisations stockent et traitent des données sensibles à l'aide d'une combinaison des éléments suivants :

  • Autres fournisseurs cloud
  • Serveurs sur site ou autres dépôts de données
  • Systèmes de stockage non natifs, tels que les systèmes exécutés dans une machine virtuelle
  • Applications Web et mobiles
  • Solutions basées sur Google Cloud

À l'aide de tâches hybrides, la protection des données sensibles peut inspecter les données qui lui sont envoyées depuis n'importe laquelle de ces sources. Voici quelques exemples de scénarios :

  • Inspectez les données stockées dans Amazon Relational Database Service (RDS), MySQL s'exécutant dans une machine virtuelle ou une base de données sur site.
  • Inspectez et tokenisez les données lors de la migration sur site vers le cloud, ou entre production, développement et analyse.
  • Inspectez et masquez les transactions d'une application Web ou mobile avant de stocker les données au repos.

Options d'inspection

Comme décrit plus en détail dans la section Types de méthodes, la protection des données sensibles propose trois options par défaut lorsque vous souhaitez inspecter du contenu à la recherche de données sensibles:

  • Inspection des méthodes de contenu: l'inspection du contenu vous permet de diffuser de petites charges utiles de données vers la protection des données sensibles, ainsi que des instructions sur les éléments à inspecter. La protection des données sensibles inspecte ensuite les données à la recherche de contenus sensibles et d'informations permettant d'identifier personnellement l'utilisateur, puis vous renvoie les résultats de son analyse.
  • Inspection des méthodes de stockage: la fonctionnalité de protection des données sensibles inspecte un dépôt de stockage basé sur Google Cloud, tel qu'une base de données BigQuery, un bucket Cloud Storage ou un type Datastore. Vous indiquez à l'équipe chargée de la protection des données sensibles les éléments à inspecter et les éléments à inspecter, puis elle exécute une tâche qui analyse le dépôt. Une fois l'analyse terminée, la protection des données sensibles enregistre un résumé des résultats de l'analyse dans la tâche. De plus, vous avez la possibilité de spécifier que les résultats sont à envoyer pour analyse à un autre produit Google Cloud, tel qu'une table BigQuery distincte.
  • Inspection à l'aide de tâches hybrides : les tâches hybrides combinent les avantages des deux méthodes précédentes. Elles vous permettent de diffuser des données en flux continu comme vous le feriez à l'aide des méthodes de contenu, tout en bénéficiant du stockage, de la visualisation et des actions propres aux tâches d'inspection de stockage. Toute la configuration de l'inspection est gérée dans la protection des données sensibles, sans configuration supplémentaire requise côté client. Les tâches hybrides peuvent être utiles pour analyser des systèmes de stockage non natifs, tels que des bases de données s'exécutant sur des machines virtuelles (VM), sur site ou sur un autre cloud. Les méthodes hybrides peuvent également être utiles pour inspecter des systèmes de traitement tels que des charges de travail de migration, ou même pour servir de proxy de communication entre plusieurs services. Les méthodes hybrides, tout comme les méthodes de contenu, vous fournissent un backend de stockage des résultats capable d'agréger vos données sur plusieurs appels d'API, ce qui vous évite d'avoir à faire ce travail vous-même.

À propos des tâches hybrides et des déclencheurs de tâches

Une tâche hybride est un mixte composé de méthodes de contenu et de méthodes de stockage. Le flux de travail de base exploitant les tâches hybrides et les déclencheurs de tâches peut être décrit comme suit :

  1. Vous écrivez un script ou créez un workflow qui envoie des données à la protection des données sensibles pour inspection, accompagnées de métadonnées.
  2. Vous configurez et créez une ressource de tâche hybride ou un déclencheur, puis vous l'activez lorsqu'elle reçoit des données.
  3. Votre script ou workflow s'exécute côté client et envoie des données à la protection des données sensibles sous la forme d'une requête hybridInspect. Les données comprennent un message d'activation et l'identifiant de la tâche ou du déclencheur de tâche, ce qui déclenche l'inspection.
  4. La protection des données sensibles inspecte les données selon les critères que vous avez définis dans la tâche hybride ou le déclencheur.
  5. La protection des données sensibles enregistre les résultats de l'analyse dans la ressource de tâche hybride, ainsi que les métadonnées que vous fournissez. Vous pouvez examiner les résultats à l'aide de l'UI de protection des données sensibles dans la console Google Cloud.
  6. La protection des données sensibles peut éventuellement exécuter des actions post-analyse, telles que l'enregistrement des données des résultats d'inspection dans une table BigQuery ou l'envoi de notifications par e-mail ou Pub/Sub.

Un déclencheur de tâche hybride vous permet de créer, d'activer et d'arrêter des tâches afin de pouvoir déclencher des actions quand vous en avez besoin. Si votre script ou code inclut dans les données qu'il envoie l'identifiant du déclencheur de la tâche hybride, il n'est pas nécessaire de le mettre à jour chaque fois qu'une nouvelle tâche est démarrée.

Scénarios de tâches hybrides classiques

Les jobs hybrides conviennent bien aux objectifs suivants:

  • Exécutez une analyse ponctuelle d'une base de données en dehors de Google Cloud dans le cadre d'une vérification ponctuelle trimestrielle des bases de données.
  • Surveillez tous les nouveaux contenus ajoutés quotidiennement à une base de données qui n'est pas compatible de manière native avec la protection des données sensibles.
  • analyser les données arrivant dans une base de données, tout en contrôlant la manière dont elles sont partitionnées ;
  • Surveillez le trafic d'un réseau à l'aide d'un filtre de protection des données sensibles pour Envoy (un filtre HTTP WebAssembly pour les proxys side-car Envoy) afin d'identifier les mouvements problématiques de données sensibles.

Pour en savoir plus sur l'approche à adopter pour ces scénarios, consultez la section Scénarios d'inspection hybride classiques.

Types de métadonnées que vous pouvez fournir

Cette section décrit les types de métadonnées que vous pouvez associer aux données externes que vous souhaitez inspecter ou aux résultats.

Vous pouvez définir des métadonnées aux niveaux suivants:

Métadonnées dans un job hybride ou un déclencheur de tâche hybride

Cette section décrit les types de métadonnées que vous pouvez associer à une tâche hybride ou à un déclencheur de tâche hybride.

Étiquettes requises

Dans la tâche hybride ou le déclencheur de tâche hybride, vous pouvez spécifier une liste de libellés requis à inclure dans toutes les requêtes d'inspection hybride que vous envoyez. Toutes les requêtes pour cette tâche hybride ou ce déclencheur de tâche hybride qui n'incluent pas ces libellés obligatoires sont refusées. Pour en savoir plus, consultez la section Exiger des étiquettes pour les requêtes hybridInspect.

Étiquettes facultatives

Vous pouvez spécifier des paires clé/valeur à associer à tous les résultats d'une tâche hybride ou d'un déclencheur de tâche hybride. Par exemple, si vous souhaitez que tous les résultats d'une tâche hybride soient associés au libellé "env"="prod", vous devez spécifier cette paire clé/valeur lors de la création de la tâche hybride.

Options des données tabulaires

Vous pouvez spécifier des colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table dans vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses avec chaque résultat afin que vous puissiez tracer le résultat jusqu'à la ligne d'où il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, comme item.table ou byteItem (par exemple, CSV).

Si vous connaissez les clés primaires à l'avance, vous pouvez les définir en tant que champs d'identification lorsque vous créez le déclencheur de tâche hybride ou le déclencheur de tâche hybride. Vous pouvez indiquer jusqu'à trois noms de colonnes dans le champ hybridOptions.tableOptions.identifyingFields.

Métadonnées dans une requête hybridInspect

Cette section décrit les types de métadonnées que vous pouvez associer à une requête hybridInspect. Les métadonnées que vous envoyez dans une requête hybridInspect ne sont appliquées qu'à cette requête.

Détails du conteneur

Chaque requête que vous envoyez à une tâche hybride ou à un déclencheur de tâche hybride peut spécifier des détails sur la source de données, y compris des éléments tels que fullPath, rootPath, relativePath, type, version, etc. Par exemple, si vous analysez des tables d'une base de données, vous pouvez définir les champs comme suit:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Vous ne pouvez pas définir les détails du conteneur au niveau de la tâche hybride ou du déclencheur de la tâche hybride.

Étiquettes requises

Si vous définissez les libellés requis lors de la création d'un déclencheur de tâche hybride ou hybride, toutes les requêtes hybridInspect que vous envoyez à ce déclencheur de tâche hybride ou à ce déclencheur de tâche hybride doivent inclure ces libellés requis. Pour en savoir plus, consultez la section Exiger des libellés pour les requêtes hybridInspect.

Étiquettes facultatives

Dans chaque requête hybridInspect, vous pouvez spécifier des paires clé/valeur à associer aux résultats de cette requête. Cette méthode vous permet d'associer différentes étiquettes à chaque requête hybridInspect.

Options des données tabulaires

Vous pouvez spécifier des colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table dans vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses avec chaque résultat afin que vous puissiez tracer le résultat jusqu'à la ligne d'où il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, comme item.table ou byteItem (par exemple, CSV).

Si vous ne connaissez pas les clés primaires à l'avance, vous n'avez pas besoin de les définir au niveau de la tâche hybride ou du déclencheur de la tâche hybride. Vous pouvez les définir dans votre requête hybridInspect avec les données tabulaires à inspecter. Tous les champs que vous répertoriez au niveau de la tâche hybride ou du déclencheur de la tâche hybride sont combinés à ceux que vous répertoriez dans la requête hybridInspect.

Actions autorisées

Comme les autres tâches de protection des données sensibles, les tâches hybrides prennent en charge les actions. Cependant, certaines actions ne sont pas applicables aux tâches hybrides. Vous trouverez ci-dessous la liste des actions actuellement prises en charge, ainsi que des informations sur leur fonctionnement. Sachez qu'avec les actions Pub/Sub, les e-mails et les actions Cloud Monitoring, les résultats ne sont rendus disponibles qu'à la fin de la tâche.

  • Enregistrer les résultats dans la protection des données sensibles et Enregistrer les résultats dans BigQuery: les résultats sont enregistrés dans une ressource de protection des données sensibles ou dans une table BigQuery, respectivement. Ces actions fonctionnent avec les tâches hybrides de la même manière qu'avec les autres types de tâches, avec toutefois une différence importante : avec les tâches hybrides, les résultats sont rendus disponibles pendant l'exécution de la tâche, alors qu'avec les autres types de tâches, les résultats ne sont rendus disponibles qu'à la fin de la tâche.
  • Publier dans Pub/Sub : lorsque la tâche est terminée, un message Pub/Sub est émis.

  • Notifier par e-mail : lorsque la tâche est terminée, un e-mail est envoyé.

  • Publier sur Cloud Monitoring : lorsque la tâche est terminée, ses résultats sont publiés dans Monitoring.

Résumé

Voici quelques fonctionnalités et avantages clés associés à l'utilisation des tâches hybrides et des déclencheurs de tâches :

  • Les jobs hybrides vous permettent de diffuser des données par flux vers la protection des données sensibles depuis pratiquement n'importe quelle source, sur le cloud ou hors connexion.
  • Les déclencheurs de tâche hybrides s'activent lorsque la protection des données sensibles reçoit un flux de données contenant un message d'activation et l'identifiant du déclencheur de tâche.
  • On peut attendre la fin d'une analyse d'inspection ou arrêter la tâche en cours manuellement. Les résultats d'inspection sont enregistrés dans le dossier de protection des données sensibles ou dans BigQuery, que vous autorisiez la tâche à se terminer ou à l'arrêter prématurément.
  • Les résultats de l'analyse d'inspection pour la protection des données sensibles d'un déclencheur de tâche hybride sont enregistrés dans une ressource de tâche hybride au sein de la protection des données sensibles.
  • Vous pouvez examiner les résultats de l'analyse d'inspection en affichant la ressource du déclencheur de tâche dans la protection des données sensibles.
  • Vous pouvez également demander à la protection des données sensibles d'envoyer, à l'aide d'une action, les résultats d'une tâche hybride à une base de données BigQuery et de vous en informer par e-mail ou via une notification Pub/Sub.

Étapes suivantes