Tâches hybrides et déclencheurs de tâches

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Les tâches hybrides et les déclencheurs de tâches englobent un ensemble de méthodes d'API asynchrones qui permettent d'analyser à la recherche d'informations sensibles les charges utiles de données envoyées par pratiquement tout type de source, et de stocker les résultats dans Google Cloud. Les tâches hybrides vous permettent d'écrire vos propres robots d'exploration pour traiter et traiter les données de la même manière que les méthodes d'inspection du stockage Cloud Data Loss Prevention.

Les tâches hybrides permettent de diffuser des données en flux continu depuis n'importe quelle source vers Cloud DLP. Cloud DLP inspecte les données à la recherche d'informations sensibles ou d'informations personnelles, puis enregistre les résultats de l'analyse d'inspection dans une ressource de tâche Cloud DLP. Vous pouvez examiner les résultats de l'analyse dans l'interface utilisateur de Cloud DLP Console ou via l'API, ou encore spécifier des actions à exécuter après l'analyse, telles que l'enregistrement des données de résultats d'inspection dans une table BigQuery ou l'émission d'une notification Pub/Sub.

Le diagramme suivant représente le workflow des tâches hybrides :

Diagramme de flux de données montrant l'envoi de données par une application depuis une source externe vers Cloud DLP, l'inspection des données par Cloud DLP, puis l'enregistrement ou la publication des résultats.

Cette rubrique présente les concepts relatifs aux tâches hybrides et aux déclencheurs de tâches, ainsi que leur fonctionnement. Pour découvrir comment mettre en œuvre des tâches hybrides et des déclencheurs de tâches, consultez la page Inspecter des données externes à l'aide de tâches hybrides.

À propos des environnements hybrides

Les environnements "hybrides" sont fréquents dans les organisations. De nombreuses organisations stockent et traitent des données sensibles à l'aide d'une combinaison des éléments suivants :

  • Autres fournisseurs cloud
  • Serveurs sur site ou autres dépôts de données
  • Systèmes de stockage non natifs, tels que les systèmes exécutés dans une machine virtuelle
  • Applications Web et mobiles
  • Solutions basées sur Google Cloud

À l'aide de tâches hybrides, Cloud DLP peut inspecter les données qui lui sont envoyées depuis l'une de ces sources. Voici quelques exemples de scénarios :

  • Inspectez les données stockées dans Amazon Relational Database Service (RDS), MySQL s'exécutant dans une machine virtuelle ou une base de données sur site.
  • Inspectez et tokenisez les données lors de la migration sur site vers le cloud, ou entre production, développement et analyse.
  • Inspectez et masquez les transactions d'une application Web ou mobile avant de stocker les données au repos.

Options d'inspection

Lorsque vous souhaitez inspecter du contenu à la recherche de données sensibles, vous avez le choix entre les trois options suivantes proposées par défaut par Cloud DLP. (Pour plus d'informations sur ces options, consultez la page Types de méthodes).

  • Inspection à l'aide des méthodes de contenu : vous diffusez vers Cloud DLP de petites charges utiles de données en flux continu, accompagnées des instructions sur les éléments à inspecter. Cloud DLP inspecte ces données à la recherche de contenu sensible et d'informations personnelles, puis vous renvoie les résultats de son analyse.
  • Inspection à l'aide des méthodes de stockage : Cloud DLP inspecte un dépôt de stockage basé sur Google Cloud, tel qu'une base de données BigQuery, un bucket Cloud Storage ou un genre Datastore. Vous spécifiez les éléments à inspecter et les éléments à rechercher, puis Cloud DLP exécute la tâche d'analyse du dépôt. Une fois l'analyse terminée, Cloud DLP enregistre dans la tâche un résumé des résultats de l'analyse. De plus, vous avez la possibilité de spécifier que les résultats sont à envoyer pour analyse à un autre produit Google Cloud, tel qu'une table BigQuery distincte.
  • Inspection à l'aide de tâches hybrides : les tâches hybrides combinent les avantages des deux méthodes précédentes. Elles vous permettent de diffuser des données en flux continu comme vous le feriez à l'aide des méthodes de contenu, tout en bénéficiant du stockage, de la visualisation et des actions propres aux tâches d'inspection de stockage. Toutes les configurations d'inspection sont gérées dans Cloud DLP, sans autre configuration requise côté client. Les tâches hybrides peuvent être utiles pour analyser des systèmes de stockage non natifs, tels que des bases de données s'exécutant sur des machines virtuelles (VM), sur site ou sur un autre cloud. Les méthodes hybrides peuvent également être utiles pour inspecter des systèmes de traitement tels que des charges de travail de migration, ou même pour servir de proxy de communication entre plusieurs services. Les méthodes hybrides, tout comme les méthodes de contenu, vous fournissent un backend de stockage des résultats capable d'agréger vos données sur plusieurs appels d'API, ce qui vous évite d'avoir à faire ce travail vous-même.

À propos des tâches hybrides et des déclencheurs de tâches

Une tâche hybride est un mixte composé de méthodes de contenu et de méthodes de stockage. Le flux de travail de base exploitant les tâches hybrides et les déclencheurs de tâches peut être décrit comme suit :

  1. Vous écrivez un script ou créez un workflow qui envoie des données à Cloud DLP pour inspection, ainsi que des métadonnées.
  2. Vous allez configurer et créer une ressource de tâche hybride, ou la déclencher et l'activer pour qu'elle s'active lorsqu'elle reçoit des données.
  3. Votre script ou votre workflow s'exécute côté client et envoie des données à Cloud DLP sous la forme d'une requête hybridInspect. Les données incluent un message d'activation et l'identifiant de la tâche ou du déclencheur de tâche, qui déclenche l'inspection.
  4. Cloud DLP inspecte les données selon les critères que vous avez définis dans la tâche hybride ou le déclencheur.
  5. Cloud DLP enregistre les résultats de l'analyse dans la ressource de tâche hybride, ainsi que les métadonnées que vous fournissez. Vous pouvez examiner les résultats à l'aide de l'interface utilisateur Cloud DLP dans Google Cloud Console.
  6. Cloud DLP peut éventuellement exécuter des actions post-analyse, telles que l'enregistrement des données de résultats d'inspection dans une table BigQuery ou l'envoi d'une notification par e-mail ou Pub/Sub.

Un déclencheur de tâche hybride vous permet de créer, d'activer et d'arrêter des tâches afin de pouvoir déclencher des actions quand vous en avez besoin. Si votre script ou code inclut dans les données qu'il envoie l'identifiant du déclencheur de la tâche hybride, il n'est pas nécessaire de le mettre à jour chaque fois qu'une nouvelle tâche est démarrée.

Scénarios de tâches hybrides classiques

Les tâches hybrides conviennent bien à des objectifs tels que les suivants:

  • Analyse ponctuelle d'une base de données en dehors de Google Cloud dans le cadre d'un contrôle trimestriel des bases de données.
  • Surveiller tous les nouveaux contenus ajoutés quotidiennement à une base de données non compatible avec Cloud DLP
  • Analysez les données entrantes dans une base de données, tout en contrôlant le mode de partitionnement des données.
  • Surveillez le trafic sur un réseau à l'aide du filtre Cloud DLP pour Envoy (un filtre HTTP WebAssembly pour les proxys side-car Envoy) afin d'identifier les mouvements de données sensibles problématiques.

Pour découvrir comment aborder ces scénarios, consultez la section Scénarios d'inspection hybride typiques.

Types de métadonnées que vous pouvez fournir

Cette section décrit les types de métadonnées que vous pouvez associer aux données externes que vous souhaitez inspecter ou aux résultats.

Vous pouvez définir les métadonnées aux niveaux suivants:

Métadonnées dans une tâche hybride ou un déclencheur de tâche hybride

Cette section décrit les types de métadonnées que vous pouvez associer à une tâche hybride ou à un déclencheur de tâche hybride.

Libellés requis

Dans le déclencheur de tâche hybride ou de tâche hybride, vous pouvez spécifier la liste des étiquettes requises qui doivent être incluses dans toutes les requêtes d'inspection hybride que vous envoyez. Toutes les requêtes pour cette tâche hybride ou ce déclencheur de tâche hybride qui n'incluent pas ces étiquettes obligatoires sont refusées. Pour en savoir plus, consultez Exiger des étiquettes à partir de requêtes hybridInspect.

Étiquettes facultatives

Vous pouvez spécifier des paires clé/valeur à associer à tous les résultats d'une tâche hybride ou d'un déclencheur de tâche hybride. Par exemple, si vous souhaitez que tous les résultats d'une tâche hybride portent le libellé "env"="prod", vous devez spécifier cette paire clé-valeur lors de la création de la tâche hybride.

Options des données tabulaires

Vous pouvez spécifier des colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table de vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses à côté de chaque résultat pour que vous puissiez tracer le résultat jusqu'à la ligne dont il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, telles qu'un format item.table ou byteItem, comme un fichier CSV.

Si vous connaissez les clés primaires à l'avance, vous pouvez les définir en tant que champs d'identification lorsque vous créez la tâche hybride ou le déclencheur de tâche hybride. Vous pouvez lister jusqu'à trois noms de colonnes dans le champ hybridOptions.tableOptions.identifyingFields.

Métadonnées dans une requête hybridInspect

Cette section décrit les types de métadonnées que vous pouvez associer à une requête hybridInspect. Les métadonnées que vous envoyez dans une requête hybridInspect ne sont appliquées qu'à cette requête.

Détails du conteneur

Chaque requête que vous envoyez à une tâche hybride ou à un déclencheur de tâche hybride peut spécifier des détails sur la source de données, y compris des éléments tels que fullPath, rootPath, relativePath, type, version, etc. Par exemple, si vous analysez des tables dans une base de données, vous pouvez définir les champs comme suit:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Vous ne pouvez pas définir les détails du conteneur au niveau de la tâche hybride ou du déclencheur de tâche hybride.

Libellés requis

Si vous définissez des étiquettes obligatoires lors de la création d'une tâche hybride ou d'un déclencheur de tâche hybride, toute requête hybridInspect que vous envoyez à cette tâche ou tâche hybride doit inclure ces étiquettes requises. Pour en savoir plus, consultez la section Exiger des étiquettes pour les requêtes hybridInspect.

Étiquettes facultatives

Dans chaque requête hybridInspect, vous pouvez spécifier des paires clé/valeur à associer à tous les résultats de cette requête. Cette méthode vous permet d'associer différents libellés à chaque requête hybridInspect.

Options des données tabulaires

Vous pouvez spécifier des colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table de vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses à côté de chaque résultat pour que vous puissiez tracer le résultat jusqu'à la ligne dont il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, telles qu'un format item.table ou byteItem, comme un fichier CSV.

Si vous ne connaissez pas les clés primaires à l'avance, vous n'avez pas besoin de les définir au niveau de la tâche hybride ou du déclencheur de tâche hybride. Vous pouvez les définir dans votre requête hybridInspect avec les données tabulaires à inspecter. Tous les champs que vous répertoriez au niveau de la tâche hybride ou de la tâche hybride sont combinés à ceux que vous répertoriez dans la requête hybridInspect.

Actions acceptées

Tout comme les autres types de tâches Cloud DLP, les tâches hybrides sont compatibles avec les actions. Cependant, certaines actions ne sont pas applicables aux tâches hybrides. Vous trouverez ci-dessous la liste des actions actuellement prises en charge, ainsi que des informations sur leur fonctionnement. Sachez qu'avec les actions Pub/Sub, les e-mails et les actions Cloud Monitoring, les résultats ne sont rendus disponibles qu'à la fin de la tâche.

  • Enregistrer les résultats dans DLP et Enregistrer les résultats dans BigQuery : les résultats sont enregistrés dans une ressource Cloud DLP ou dans une table BigQuery. Ces actions fonctionnent avec les tâches hybrides de la même manière qu'avec les autres types de tâches, avec toutefois une différence importante : avec les tâches hybrides, les résultats sont rendus disponibles pendant l'exécution de la tâche, alors qu'avec les autres types de tâches, les résultats ne sont rendus disponibles qu'à la fin de la tâche.
  • Publier dans Pub/Sub : lorsque la tâche est terminée, un message Pub/Sub est émis.
  • Notifier par e-mail : lorsque la tâche est terminée, un e-mail est envoyé.
  • Publier sur Cloud Monitoring : lorsque la tâche est terminée, ses résultats sont publiés dans Monitoring.

Résumé

Voici quelques fonctionnalités et avantages clés associés à l'utilisation des tâches hybrides et des déclencheurs de tâches :

  • Les tâches hybrides permettent de diffuser vers Cloud DLP des données à partir de pratiquement tout type de source, qu'elle soit sur le cloud ou pas.
  • Un déclencheur de tâches hybrides s'active lorsque Cloud DLP reçoit un flux de données incluant un message d'activation et l'identifiant du déclencheur.
  • On peut attendre la fin d'une analyse d'inspection ou arrêter la tâche en cours manuellement. Que la tâche parvienne à son terme ou qu'elle soit interrompue prématurément, les résultats d'inspection sont enregistrés dans Cloud DLP ou dans BigQuery.
  • Les résultats de l'analyse d'inspection Cloud DLP générés à partir d'un déclencheur de tâche hybride sont enregistrés dans une ressource de tâche hybride au sein de Cloud DLP.
  • Les résultats de l'analyse d'inspection peuvent être consultés dans la ressource du déclencheur de tâches dans Cloud DLP.
  • Il est également possible d'indiquer à Cloud DLP d'effectuer une action, d'envoyer les résultats d'une tâche hybride à une base de données BigQuery, et de vous tenir informé par e-mail ou via une notification Pub/Sub.

Étapes suivantes