Présentation des tâches liées à la qualité des données

Les tâches liées à la qualité des données Dataplex vous permettent de définir et d'exécuter des contrôles de qualité des données sur les tables de BigQuery et Cloud Storage. Les tâches liées à la qualité des données Dataplex vous permettent également d'appliquer des contrôles de données réguliers dans les environnements BigQuery.

Quand créer des tâches de qualité des données Dataplex ?

Les tâches liées à la qualité des données Dataplex peuvent vous aider dans les cas suivants:

  • Validez les données dans le cadre d'un pipeline de production de données.
  • Surveiller régulièrement la qualité des ensembles de données par rapport à vos attentes
  • Créer des rapports sur la qualité des données pour les exigences réglementaires

Avantages

  • Spécifications personnalisables : Vous pouvez utiliser la syntaxe YAML très flexible pour déclarer vos stratégies de qualité des données.
  • Mise en œuvre sans serveur. Dataplex ne nécessite aucune configuration d'infrastructure.
  • Aucune copie et pushdown automatique. Les vérifications YAML sont converties en SQL et envoyées à BigQuery. Il n'existe aucune copie de données.
  • Vérifications de la qualité des données programmables Vous pouvez planifier des contrôles de qualité des données via le programmeur sans serveur dans Dataplex, ou utiliser l'API Dataplex via des programmeurs externes tels que Cloud Composer pour l'intégration du pipeline.
  • Interface gérée Dataplex utilise un moteur de qualité des données Open Source, CloudDQ, pour exécuter des contrôles de qualité des données. Cependant, Dataplex offre une expérience gérée de manière fluide pour effectuer vos contrôles de qualité des données.

Fonctionnement

Le schéma suivant illustre le fonctionnement des tâches Dataplex liées à la qualité des données :

Image

  • Entrée des utilisateurs
    • Spécification YAML : ensemble d'un ou de plusieurs fichiers YAML définissant des règles de qualité des données en fonction de la syntaxe de spécification. Vous stockez les fichiers YAML dans un bucket Cloud Storage de votre projet. Les utilisateurs peuvent exécuter plusieurs règles simultanément. Ces règles peuvent être appliquées à différentes tables BigQuery, y compris à des tables de différents ensembles de données ou projets Google Cloud. La spécification accepte des exécutions incrémentielles uniquement pour valider les nouvelles données. Pour créer une spécification YAML, consultez la section Créer un fichier de spécification.
    • Table des résultats BigQuery : table spécifiée par l'utilisateur dans laquelle les résultats de la validation de la qualité des données sont stockés. Le projet Google Cloud dans lequel réside cette table peut être différent de celui dans lequel la tâche de qualité des données Dataplex est utilisée.
  • Tables à valider
    • Dans la spécification YAML, vous devez spécifier les tables que vous souhaitez valider pour quelles règles, également appelée liaison de règle. Il peut s'agir de tables natives BigQuery ou de tables externes BigQuery dans Cloud Storage. La spécification YAML vous permet de spécifier des tables à l'intérieur ou à l'extérieur d'une zone Dataplex.
    • Les tables BigQuery et Cloud Storage validées en une seule exécution peuvent appartenir à des projets différents.
  • Tâche liée à la qualité des données Dataplex: une tâche liée à la qualité des données Dataplex est configurée avec un binaire CloudDQ PySpark prédéfini et géré, et utilise la spécification YAML et la table de résultats BigQuery en entrée. Comme pour d'autres tâches Dataplex, la tâche Dataplex liée à la qualité des données s'exécute dans un environnement Spark sans serveur, convertit la spécification YAML en requêtes BigQuery, puis exécute ces requêtes sur les tables définies dans le fichier de spécification.

Coûts

Lorsque vous exécutez des tâches de qualité des données Dataplex, l'utilisation de BigQuery et de Dataproc sans serveur vous est facturée.

  • La tâche de qualité des données Dataplex convertit le fichier de spécification en requêtes BigQuery et les exécute dans le projet utilisateur. Consultez la page sur les tarifs de BigQuery.

  • Dataplex utilise Spark pour exécuter le programme de pilote Open Source CloudDQ prédéfini par Google afin de convertir les spécifications de l'utilisateur en requêtes BigQuery. Consultez la page Tarifs de Dataproc sans serveur.

L'utilisation de Dataplex pour l'organisation des données et l'utilisation du programmeur sans serveur dans Dataplex pour planifier les contrôles de qualité des données sont sans frais. Consultez la page Tarifs de Dataplex.

Étapes suivantes