Gérer la préparation des données

Ce document explique comment gérer les préparations de données dans BigQuery, y compris comment déployer et planifier des préparations de données. Les préparations de données sont des ressources BigQuery fournies par Dataform.

Ce document explique également comment afficher et gérer les métadonnées de préparation des données dans Dataplex.

Avant de commencer

  1. Assurez-vous d'avoir activé l'API Gemini pour Google Cloud.
  2. Pour gérer les métadonnées de préparation des données dans Dataplex, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud .

Rôles requis

Pour vous assurer que le compte de service Dataform dispose des autorisations nécessaires pour préparer des données dans BigQuery, consultez les rôles requis pour les comptes de service Dataform.

Pour obtenir les autorisations nécessaires pour préparer des données dans BigQuery, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour gérer les métadonnées de préparation des données dans Dataplex, assurez-vous de disposer des rôles Dataplex et de l'autorisation dataform.repository.get requis.

Afficher les préparations de données existantes

Pour afficher la liste des préparations de données existantes, procédez comme suit:

  1. Sur la page BigQuery Studio, accédez au volet Explorateur.
  2. Développez votre projet.
  3. Développez la liste Préparations des données.

Planifier des préparations de données

Vous pouvez créer des planifications dans l'éditeur de préparation des données et les gérer sur la page Orchestration de BigQuery.

Créer une programmation

Pour créer un planning qui exécute les étapes de préparation des données et charge les données préparées dans la table de destination, planifiez une exécution de préparation des données ponctuelle ou récurrente:

  1. Dans la barre d'outils de préparation des données, cliquez sur Planifier.
  2. Saisissez un nom de programmation.
  3. Saisissez le nom du compte de service associé à l'exécution.
  4. Définissez une fréquence.
  5. Cliquez sur Créer la programmation.

Afficher les plannings

Pour afficher toutes les planifications de préparation des données de votre projet, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page Orchestration.

    Accéder à "Orchestration"

  2. Facultatif: Pour afficher les détails d'une programmation sélectionnée et de ses exécutions précédentes, cliquez sur le nom de la programmation.

Supprimer une programmation

Pour supprimer définitivement une programmation pour une préparation de données sélectionnée, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page Orchestration.

    Accéder à "Orchestration"

  2. Sur la ligne contenant la planification, cliquez sur  Actions > Supprimer.

Optimiser la préparation des données en les traitant de manière incrémentielle

Pour configurer la manière dont vos données préparées sont écrites dans une table de destination, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery Studio.

    Accéder à BigQuery

  2. Dans le volet Activité, sélectionnez votre préparation des données.

  3. Dans la barre d'outils de la préparation des données, sélectionnez Plus > Mode d'écriture.

  4. Sélectionnez l'une des options proposées. Pour en savoir plus, consultez la section Mode écriture.

  5. Cliquez sur Enregistrer.

Contribuer à améliorer les suggestions

Vous pouvez contribuer à améliorer les suggestions de Gemini en partageant avec Google les données de requête que vous envoyez aux fonctionnalités en mode Preview. Pour partager vos données de requête, procédez comme suit :

  1. Ouvrez l'éditeur de préparation des données dans BigQuery.
  2. Dans la barre d'outils de préparation des données, cliquez sur Paramètres Plus.
  3. Sélectionnez Partager des données pour améliorer Gemini dans BigQuery.

Les paramètres de partage des données s'appliquent à l'ensemble du projet et ne peuvent être définis que par un administrateur du projet disposant des autorisations IAM serviceusage.services.enable et serviceusage.services.list. Pour en savoir plus sur l'utilisation des données dans le programme Testeur de confiance, consultez la page Gemini pour Google Cloud Programme Testeur de confiance.

Versions de préparation des données

Les préparations de données BigQuery ne permettent pas d'afficher, de comparer ni de restaurer les versions de préparation de données.

Pour obtenir la liste des versions de préparation des données par ordre chronologique, procédez comme suit:

  1. Sur la page BigQuery Studio, accédez au volet Explorateur.
  2. Sélectionnez votre préparation des données. Les versions sont listées dans l'onglet Activité du volet Explorer.

Télécharger une préparation de données

Pour télécharger une préparation de données dans un fichier YAML, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page BigQuery Studio.

    Accéder à BigQuery

  2. Dans le volet Explorer, développez votre projet et le dossier Préparation des données. Cliquez sur le nom de la préparation des données que vous souhaitez télécharger.

  3. Cliquez sur Télécharger. La préparation des données est enregistrée au format de fichier YAML (par exemple, NAME data preparation.dp.yaml).

Importer une préparation des données

Pour importer une préparation de données à partir d'un fichier YAML, procédez comme suit:

  1. Dans la console Google Cloud , accédez à la page BigQuery Studio.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet.

  3. Accédez au dossier Préparation des données, puis cliquez sur more_vert > Menu > Importer dans la préparation des données.

  4. Dans la boîte de dialogue Importer la préparation des données, sélectionnez un fichier à importer ou saisissez l'URL de la préparation des données.

  5. Attribuez un nom à la préparation des données.

  6. Sélectionnez un emplacement de préparation des données où les ressources sont gérées et stockées.

  7. Cliquez sur Importer.

Gérer les métadonnées dans Dataplex

Dataplex vous permet de stocker et de gérer les métadonnées pour la préparation des données. Les préparations de données sont disponibles dans Dataplex par défaut, sans configuration supplémentaire.

Vous pouvez utiliser Dataplex pour gérer la préparation des données dans tous les emplacements BigQuery. La gestion des préparations de données dans Dataplex est soumise aux quotas et limites de Dataplex et aux tarifs de Dataplex.

Dataplex récupère automatiquement les métadonnées suivantes à partir des préparations de données:

  • Nom de l'élément de données
  • Élément de données parent
  • Emplacement de l'élément de données
  • Type d'élément de données
  • Projet Google Cloud correspondant

Dataplex consigne les préparations de données en tant que entrées avec les valeurs d'entrée suivantes:

Groupe d'entrées système
Le groupe d'entrée système pour la préparation des données est @dataform. Pour afficher les détails des entrées de préparation des données dans Dataplex, vous devez afficher le groupe d'entrées système dataform. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez la section Afficher les détails d'un groupe d'entrées dans la documentation Dataplex.
Type d'entrée du système
Le type d'entrée système pour la préparation des données est dataform-code-asset. Pour afficher les détails des préparations de données, vous devez afficher le type d'entrée système dataform-code-asset, filtrer les résultats avec un filtre basé sur l'aspect et définir le champ type dans l'aspect dataform-code-asset sur DATA_PREPARATION. Sélectionnez ensuite une entrée de la préparation des données sélectionnée. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez la section Afficher les détails d'un type d'entrée dans la documentation Dataplex. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez la section Afficher les détails d'une entrée dans la documentation Dataplex.
Type d'aspect du système
Le type d'aspect système pour la préparation des données est dataform-code-asset. Pour fournir un contexte supplémentaire aux préparations de données dans Dataplex en annotant les entrées de préparation de données avec des aspects, affichez le type d'aspect dataform-code-asset, filtrez les résultats avec un filtre basé sur l'aspect et définissez le champ type dans l'aspect dataform-code-asset sur DATA_PREPARATION. Pour savoir comment annoter des entrées avec des aspects, consultez la section Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex.
Type
Le type des canevas de données est DATA_PREPARATION. Ce type vous permet de filtrer les préparations de données dans le type d'entrée système dataform-code-asset et le type d'aspect dataform-code-asset à l'aide de la requête aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION dans un filtre basé sur l'aspect.

Pour savoir comment rechercher des éléments dans Dataplex, consultez la section Rechercher des éléments de données dans Dataplex de la documentation Dataplex.

Étape suivante