Gérer la préparation des données
Ce document explique comment gérer la préparation des données dans BigQuery, y compris accorder les rôles Identity and Access Management (IAM) requis et gérer les métadonnées dans Dataplex.
Les préparations de données sont des ressources BigQuery fournies par Dataform.
Avant de commencer
- Assurez-vous d'avoir activé l'API Gemini pour Google Cloud.
- Pour gérer les métadonnées de préparation des données dans Dataplex, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud.
Rôles requis
Pour vous assurer que le compte de service Dataform dispose des autorisations nécessaires pour préparer des données dans BigQuery, consultez les rôles requis pour les comptes de service Dataform.
Pour obtenir les autorisations nécessaires pour préparer des données dans BigQuery, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet:
-
Éditeur de données BigQuery (
roles/bigquery.dataEditor
) -
Consommateur Service Usage (
roles/serviceusage.serviceUsageConsumer
)
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour gérer les métadonnées de préparation des données dans Dataplex, assurez-vous de disposer des rôles Dataplex et de l'autorisation dataform.repositories.get
requis.
Afficher les préparations de données existantes
Pour afficher la liste des préparations de données existantes, procédez comme suit:
- Sur la page BigQuery Studio, accédez au volet Explorateur.
- Développez votre projet.
- Développez la liste Préparations des données.
Optimiser la préparation des données en les traitant de manière incrémentielle
Pour configurer la manière dont vos données préparées sont écrites dans une table de destination, procédez comme suit :
Dans la console Google Cloud, accédez à la page BigQuery Studio.
Dans le volet Activité, sélectionnez votre préparation des données.
Dans la barre d'outils de la préparation des données, sélectionnez Plus > Mode d'écriture.
Sélectionnez l'une des options proposées. Pour en savoir plus, consultez la section Mode écriture.
Cliquez sur Enregistrer.
Contribuer à améliorer les suggestions
Vous pouvez contribuer à améliorer les suggestions de Gemini en partageant avec Google les données de requête que vous envoyez aux fonctionnalités en mode Preview. Pour partager vos données de requête, procédez comme suit :
- Ouvrez l'éditeur de préparation des données dans BigQuery.
- Dans la barre d'outils de préparation des données, cliquez sur Paramètres Plus.
- Sélectionnez Partager des données pour améliorer Gemini dans BigQuery.
Les paramètres de partage des données s'appliquent à l'ensemble du projet et ne peuvent être définis que par un administrateur du projet disposant des autorisations IAM serviceusage.services.enable
et serviceusage.services.list
. Pour en savoir plus sur l'utilisation des données dans le programme Testeur de confiance, consultez la page Gemini pour le Google Cloud programme Testeur de confiance.
Versions de préparation des données
Les préparations de données BigQuery ne permettent pas d'afficher, de comparer ni de restaurer les versions de préparation de données.
Pour obtenir la liste des versions de préparation des données par ordre chronologique, procédez comme suit:
- Sur la page BigQuery Studio, accédez au volet Explorateur.
- Sélectionnez votre préparation des données. Les versions sont listées dans l'onglet Activité du volet Explorer.
Télécharger une préparation de données
Pour télécharger une préparation de données dans un fichier YAML, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery Studio.
Dans le volet Explorer, développez votre projet et le dossier Préparation des données. Cliquez sur le nom de la préparation des données que vous souhaitez télécharger.
Cliquez sur Télécharger. La préparation des données est enregistrée au format de fichier YAML (par exemple,
NAME data preparation.dp.yaml
).
Importer une préparation des données
Pour importer une préparation de données à partir d'un fichier YAML, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery Studio.
Dans le volet Explorateur, développez votre projet.
Accédez au dossier Préparation des données, puis cliquez sur plus_vert > Menu > Importer dans la préparation des données.
Dans la boîte de dialogue Importer la préparation des données, sélectionnez un fichier à importer ou saisissez l'URL de la préparation des données.
Attribuez un nom à la préparation des données.
Sélectionnez un emplacement de préparation des données où les ressources sont gérées et stockées.
Cliquez sur Importer.
Gérer les métadonnées dans Dataplex
Dataplex vous permet de stocker et de gérer les métadonnées pour la préparation des données. Les préparations de données sont disponibles dans Dataplex par défaut, sans configuration supplémentaire.
Vous pouvez utiliser Dataplex pour gérer la préparation des données dans tous les emplacements BigQuery. La gestion des préparations de données dans Dataplex est soumise aux quotas et limites de Dataplex et aux tarifs de Dataplex.
Dataplex récupère automatiquement les métadonnées suivantes à partir des préparations de données:
- Nom de l'élément de données
- Élément de données parent
- Emplacement de l'élément de données
- Type d'élément de données
- Projet Google Cloud correspondant
Dataplex consigne les préparations de données en tant que entrées avec les valeurs d'entrée suivantes:
- Groupe d'entrées système
- Le groupe d'entrée système pour la préparation des données est
@dataform
. Pour afficher les détails des entrées de préparation des données dans Dataplex, vous devez afficher le groupe d'entrées systèmedataform
. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez la section Afficher les détails d'un groupe d'entrées dans la documentation Dataplex. - Type d'entrée du système
- Le type d'entrée système pour la préparation des données est
dataform-code-asset
. Pour afficher les détails des préparations de données, vous devez afficher le type d'entrée systèmedataform-code-asset
, filtrer les résultats avec un filtre basé sur l'aspect et définir le champtype
dans l'aspectdataform-code-asset
surDATA_PREPARATION
. Sélectionnez ensuite une entrée de la préparation des données sélectionnée. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez la section Afficher les détails d'un type d'entrée dans la documentation Dataplex. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez la section Afficher les détails d'une entrée dans la documentation Dataplex. - Type d'aspect du système
- Le type d'aspect système pour la préparation des données est
dataform-code-asset
. Pour fournir un contexte supplémentaire aux préparations de données dans Dataplex en annotant les entrées de préparation de données avec des aspects, affichez le type d'aspectdataform-code-asset
, filtrez les résultats avec un filtre basé sur l'aspect et définissez le champtype
dans l'aspectdataform-code-asset
surDATA_PREPARATION
. Pour savoir comment annoter des entrées avec des aspects, consultez la section Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex. - Type
- Le type des canevas de données est
DATA_PREPARATION
. Ce type vous permet de filtrer les préparations de données dans le type d'entrée systèmedataform-code-asset
et le type d'aspectdataform-code-asset
à l'aide de la requêteaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
dans un filtre basé sur l'aspect.
Pour savoir comment rechercher des éléments dans Dataplex, consultez la section Rechercher des éléments de données dans Dataplex de la documentation Dataplex.
Étape suivante
- En savoir plus sur la préparation des données dans BigQuery
- Découvrez comment exécuter des préparations de données manuellement ou selon un calendrier.
- Découvrez comment créer des préparations de données.